4次数资料分析X2检验.ppt

上传人:本田雅阁 文档编号:3467921 上传时间:2019-08-30 格式:PPT 页数:50 大小:760.02KB
返回 下载 相关 举报
4次数资料分析X2检验.ppt_第1页
第1页 / 共50页
4次数资料分析X2检验.ppt_第2页
第2页 / 共50页
4次数资料分析X2检验.ppt_第3页
第3页 / 共50页
4次数资料分析X2检验.ppt_第4页
第4页 / 共50页
4次数资料分析X2检验.ppt_第5页
第5页 / 共50页
点击查看更多>>
资源描述

《4次数资料分析X2检验.ppt》由会员分享,可在线阅读,更多相关《4次数资料分析X2检验.ppt(50页珍藏版)》请在三一文库上搜索。

1、第四章 次数资料的假设测验 2检验,本章将介绍对次数资料进行统计分析的方法。,下一张,主 页,退 出,上一张,教学基本要求: 了解次数资料常用分析方法;理解2检验的意义;掌握适合性检验、独立性检验的方法。 教学重点难点: 重点:2检验的意义、原理与基本步骤,适合性检验、独立性检验的方法。 难点:理论值的计算 教学建议: 与百分数的假设测验对照,下一张,主 页,退 出,上一张,4.1 2分布 4.2 2检验的意义、原理与基本步骤 4.3 适合性测验 4.4 独立性测验,下一张,主 页,退 出,上一张,4.1 2分布,一、 2统计量的意义 根据遗传学理论,动物的性别比例是1:1。统计某羊场一年所产

2、的876只羔羊中,有公羔羊428只,母羔羊448只。按1:1的性别比例计算,公、母羔羊均应为438只。以O表示实际观察次数,T 表示理论次数,可将上述情况列成表4-1。,下一张,主 页,退 出,上一张,下一张,主 页,退 出,上一张,从表4-1看到 , 实际观察次数与理论次数存在一定的差异,这里公、母各相差10只。 这个差异是属于抽样误差、还是羔羊性别比例发生了实质性的变化? 要回答这个问题, 首先需要确定一个统计量用以表示实际观察次数与理论次数偏离的程度; 然后判断这一偏离程度是否属于抽样误差,即进行显著性检验。,为了度量实际观察次数与理论次数偏离的程度,最简单的办法是求出实际观察次数与理论

3、次数的差数。但两个差数之和为0。为了避免正、负抵消,可将两个差数O1-T1、O2-T2 平方后再相 加,即计算(O-T)2,其值越大 ,实际观察次数与理论次数相差亦越大 , 反之则越小 。 但利用 (A-T)2表示实际观察次数与理论次数的偏离程度尚有不足 。,下一张,主 页,退 出,上一张,例如某一组实际观察次数为505、理论次数为500,相差5;而另一组实际观察次数为26、 理论次数为21,相差亦为5。显然这两组实际观察次数与理论次数的偏离程度是不同的。因为前者是相对于理论次数500相差5,后者是相对于理论次数21相差5。为了弥补这一不足,可先将各差数平方除以相应的理论次数后再相加,并记之为

4、2 ,即,下一张,主 页,退 出,上一张,2是度量实际观察次数与理论次数偏离程度的一个统计量。 2越小,表明实际观察次数与理论次数越接近; 2 =0,表示两者完全吻合; 2越大,表示两者相差越大。 对于表4-1的资料,可计算得: 表明实际观察次数与理论次数是比较接近的。,下一张,主 页,退 出,上一张,二、2分布 上面在属于离散型随机变量的次数资料的基础上引入了统计量2, 它近似地服从统计学中一种连续型随机变量的概率分布2分布(P73)。 2分布具有以下特性: 20 , 即 2 的 取 值 范 围 是0,+; 2分布密度曲线是随自由度不同而改变的一组曲线。随自由度的增大, 曲线由偏斜渐趋于对称

5、; df30时, 接近平均数为 的正态分布。具平均数 和标准差1。 图7-1 给出了几个不同自由度的2概率分布密度曲线。,下一张,主 页,退 出,上一张,下一张,主 页,退 出,上一张,图7-1 几个自由度的概率分布密度曲线,三、 2的连续性矫正 由上式计算的2只是近似地服从连续型随机变量2分布。在对次数资料进行2检验利用连续型随机变量2分布计算概率时,常常偏低,特别是当自由度为1时偏差较大。 Yates(1934)提出了一个矫正公式,矫正后的2值记为 : =,下一张,主 页,退 出,上一张,当自由度大于1时,上式的2分布与连续型随机变量2分布相近似 ,这时,可不作连续性矫正 ,但要求各组内的

6、理论次数不小于5。若某组的理论次数小于5,则应把它与其相邻的一组或几组合并,直到理论次数大 于5 为止。,下一张,主 页,退 出,上一张,4.2 2检验的意义、原理与基本步骤 根据 2 分布所进行的假设测验称为2 测验,可用于计量资料(间断性资料)的显著性测验。,下一张,主 页,退 出,上一张,2测验,其原理和 测验相同。可分为四个步骤: (1)设立无效假设,即假设观察次数与理论次数的差异由抽样误差所引起。 (2)确定显著水平= 0.05。 (3)在无效假设为正确的假定下,计算超过实得2值的概率,可由计得2 值后,按自由度查附表6得到。试验观察的2值愈大,观察次数与理论次数之间相差程度也愈大,

7、两者相符的概率就愈小。,下一张,主 页,退 出,上一张,(4)依所得概率值的大小,接受或否定无效假设 若实得 时,则Ho发生的概率小于等于,Ho被否定; 若实得 时,则Ho被接受。 2表只列出比观察值大的一尾概率值, 2测验为右尾测验。 当30时可采用正态离差u测验代替2测验,即: 如 ,即表示实得2值有显著性。,下一张,主 页,退 出,上一张,4.3 适合性检验,一、适合性检验的意义 判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说的假设检验称为适合性检验。 也称拟合优度检验(P128)。,下一张,主 页,退 出,上一张,在适合性检验中: H0:实际观察值符合已知的理论或学说;

8、HA:实际观察值不符合已知的理论或学说。 在无效假设成立条件下,按已知属性类别分配的理论或学说计算各属性类别的理论次数。 适合性测验的自由度等于属性类别分类数减1。若属性类别分类数为k,则适合性测验的自由度为k-1 。,下一张,主 页,退 出,上一张,根据公式计算出2或2c。将所计算得的2或2c值与根据自由度k-1查2值表(附表6)所得的临界2值20.05、20.01比较: 若2 (或2c)20.05,P0.05,表明实际观察次数与理论次数差异不显著,可以认为实际观察结果符合已知的理论或学说; 若20.052 (或2c)20.01,0.01P0.05,表明实际观察次数与理论次数差异显著,实际观

9、察的属性类别分配显著不符合已知属性类别分配的理论或学说; 若2 ( 或2c)20.01,P0.01,表明实际观察次数与理论次数差异极显著 ,实际观察的属性类别分配极显著不符合已知 属性类别分配的理论或学说。,下一张,主 页,退 出,上一张,二、适合性检验的方法 在遗传学中,常用2来测验所得实际结果是否与孟德尔遗传的分离比例相符。 【例】 在进行山羊群体遗传检测时,观察了 260只白色羊与黑色羊杂交的子二代毛色,其中181只为白色,79只为黑色,问此毛色的比率是否符合孟德尔遗传分离定律的31比例?,下一张,主 页,退 出,上一张,检验步骤如下: (一)提出无效假设与备择假设 H0:F2毛色分离现

10、象符合31的理论比例。 HA: F2毛色分离现象不符合31的理论比例。 (二)计算理论次数 根据理论比率31求理论次数: 白色理论次数:T1=2603/4=195 黑色理论次数:T2=2601/4=65,下一张,主 页,退 出,上一张,(三)计算 由于本例是涉及到两组毛色,属性类别分类数k=2,自由度=k-1=1 ,故在计算2值时需作连续性矫正。 (四)查临界2值,作出统计推断 当自由度 df=1 时, 查得 20.05(1)=3.84,计算的2c0.05,接受H0,表明实际观察次数与理论次数差异不显著,可以认为白色羊与黑色羊的比率符合孟德尔遗传分离定律31的理论比例。,【例7.1】 纯合的黄

11、园豌豆与绿皱豌豆杂交 ,F1代自交, F2代出现黄园315株,黄皱101株,绿园108株,绿皱32株,共556株。试问这两对性状是否符合孟德尔两对基因独立遗传的分离规律?,下一张,主 页,退 出,上一张,检验步骤如下: (一)提出无效假设与备择假设 H0:实际观察次数之比符合9331的理论比例。 HA:实际观察次数之比不符合9331的理论比例。 (二)计算理论次数 依据各理论比例9:3:3:1计算理论次数: 黄园的理论次数T1:5569/16=312.75; 黄皱的理论次数T2:5563/16=104.25; 绿园的理论次数T3:5563/16=104.25; 绿皱的理论次数T4:5561/1

12、6=34.75。,下一张,主 页,退 出,上一张,(三)计算 由于本例的属性类别分类数 k=4:自由 度df=k-1=4-1=3,不需矫正。2: (四)查临界2值,作出统计推断 当df=3时,20.05(3)=7.815,因 20.05,结论是接受H0 ,表明实际观察次数与理论次数差异不显著, 可以认为豌豆粒色与饱满度两对性状杂 交 二 代 的 分 离 现 象 符 合 孟 德 尔遗传规律中9331的遗传比例。,根据遗传学理论,动物的性别比例是1:1。统计某羊场一年所产的876只羔羊中,有公羔羊428只,母羔羊448只。按1:1的性别比例计算,公、母羔羊均应为438只。 可算得:,下一张,主 页

13、,退 出,上一张,,P0.05,接受H0,该羊场羔羊性别比例符合1:1的比例。,4.4 独立性检验,一、独立性检验的意义 2应用于独立性测验,主要为探求两个变数间是否相互独立。这是次数资料的一种相关研究。例如,小麦种子灭菌与否和麦穗发病两个变数之间,若相互独立,表示种子灭菌和发病高低无关,灭菌处理对发病无影响;若不相互独立,则表示种子灭菌和发病高低有关,灭菌处理对发病有影响。,应用2进行独立性测验: Ho:两个变数相互独立; HA:两个变数彼此相关。 在计算时,先将所得次数资料按两个变数作两向分组,排列成相依表;然后,根据两个变数相互独立的假设,算出每一组格的理论次数;再算得2值。,2的自由度

14、随两个变数各自的分组数而不同,设横行分r组,纵行分c组,则= (r-1)(c-1)。 当观察的 时,便接受Ho,即两个变数相互独立; 当观察的 时,便否定Ho,接受HA,即两个变数相关。 这种根据次数资料判断两类因子彼此相关或相互独立的假设检验称独立性检验。 以下举例说明各种类型的独立性测验方法。,下一张,主 页,退 出,上一张,独立性检验与适合性检验是两种不同的检验方法,除了研究目的不同外,还有以下区别: (一) 独立性检验的次数资料是按两因子属性类别进行归组。根据两因子属性类别数的不同而构成22、2c、rc列联表(r 为行因子的属性类别数, c 为 列 因子的属性类别数)。而适合性检验只按

15、某一因子的属性类别将如性别、表现型等次数资料归组。,(二)适合性检验按已知的属性分类理论或学说计算理论次数。独立性检验在计算理论次数时没有现成的理论或学说可资利用,理论次数是在两因子相互独立的假设下进行计算。 (三)在适合性检验中确定自由度时,只有一个约束条件:各理论次数之和等于各实际次数之和,自由度为属性类别数减1。而在rc列联表的独立性检验中,共有rc个理论次数,但受到以下条件的约束:,下一张,主 页,退 出,上一张,1、rc个理论次数的总和等于rc个实际次数的总和; 2、r个横行中的每一个横行理论次数总和等于该行实际次数的总和 。 但由于r个横行实际次数之和的总和应等于 rc 个实际次数

16、之和 ,因而独立的行约束条件有r-1个; 3、类似地,独立的列约束条件有c-1个。 因而在进行独立性检验时,自由度为(rc-1)-(r-1)-(c-1)=(r-1)(c-1) 。,二、独立性检验的方法 (一)22列联表的独立性检验 22列联表的一般形式如表所示,其自由度 df=( c -1) (r-1)=(2-1) (2-1)=1,在进行2检验时,需作连续性矫正,应计算 值。 表 22列联表的一般形式 其中Oij为实际观察次数,Tij为理论次数。,下一张,主 页,退 出,上一张,【例】 某猪场用80头猪检验某种疫苗是否有预防效果。结果是注射疫苗的44头中有 12 头发病,32头未发病;未注射的

17、36头中有22头发病,14头未发病,问该疫苗是否有预防效果? 1、 先将资料整理成列联表,2、 提出无效假设与备择假设 H0:发病与否和注射疫苗无关,即二因子相互独立。 HA:发病与否和注射疫苗有关,即二因子彼此相关。 3、 计算理论次数 根据二因子相互独立的假设,由样本数据计算出各个理论次数。二因子相互独立,就是说注射疫苗与否不影响发病率。也就是说注射组与未注射组的理论发病率应当相同,均应等于总发病率34/80=0.425=42.5%。依此计算出各个理论次数如下:,注射组的理论发病数: T11=4434/80=18.7 注射组的理论未发病数: T12=4446/80=25.3 未注射组的理论

18、发病数: T21=3634/80=15.3 未注射组的理论未发病数: T22=3646/80=20.7 从上述各理论次数Tij的计算可以看到,理论次数的计算利用了行、列总和, 总总和,4个理论次数仅有一个是独立的。,4、 计算 值 将表中的实际次数、理论次数代入式得:,5、 由自由度df=1查临界2值,作出统计推断 因为 20.01(1) = 6.63,而 =7.94420.01(1),P0.01,否定H0,接受HA,表明发病率与是否注射疫苗极显著相关,这里表现为注射组发病率极显著低于未注射组,说明该疫苗是有预防效果的。,下一张,主 页,退 出,上一张,(二)2c列联表的独立性检验 2c列联表

19、是行因子的属性类别数为2,列因子的属性类别数为c(c3)的列联表。其自由度d f = (2-1) (c -1) = (c-1),因为c3,所以自由度大于2,在进行2检验时,不需作连续性矫正。2c表的一般形式见表710。,下一张,主 页,退 出,上一张,【例】 在甲、乙两地进行水牛体型调查,将体型按优、良、中、劣 四个等级分类,其结果见表,问两地水牛体型构成比是否相同。 表 两地水牛体型分类统计,下一张,主 页,退 出,上一张,这是一个24列联表独立性检验的问题。 检验步骤如下: 1. 提出无效假设与备择假设 H0:水牛体型构成比与地区无关,即两地水牛体型构成比相同。 HA:水牛体型构成比与地区

20、有关,即两地水牛体型构成比不同。,2. 计算各个理论次数,并填在各观察次数后的括号中 计算方法与22表类似,即根据两地水牛体型构成比相同的假设计算。 如优等组中,甲地、乙地的理论次数按理论比率20/135计算;良等组中,甲地、乙地的理论次数按理论比率15/135计算;中等、劣等组中,甲地、乙地的理论次数分别按理论比率80/135和20/135计算。,下一张,主 页,退 出,上一张,甲地优等组理论次数: T11=9020/135=13.3, 乙地优等组理论次数: T21=4520/135=6.7, 其余各个理论次数的计算类似。 3.计算计算2值,4. 由自由度df=3查临界2值,作出统计推断 因

21、为2005(3) =7.81,而2=7.5820.05,不能否定H0,可以认为甲、乙两地水牛体型构成比相同。,下一张,主 页,退 出,上一张,(三)rc列联表的独立性检验 rc表是指行因子的属性类别数为r(r2),列因子的属性类别数为c( c2)的列联表。 【例】 对三组奶牛(每组39头)分别喂给不同的饲料,各组发病次数统计如下表,问发病次数的构成比与所喂饲料是否有关?,表 三组牛的发病次数资料,检验步骤如下: 1、提出无效假设与备择假设 H0:发病次数的构成比与饲料种类无关,即二者相互独立。 HA:发病次数的构成比与饲料种类有关,即二者彼此独立。 2、计算理论次数 对于理论次数小于5者,将相邻几个组加以合并(见表),合并后的各组的理论次数均大于5。,下一张,主 页,退 出,上一张,表719 资料合并结果 (注:括号内为理论次数),下一张,主 页,退 出,上一张,3、计算2值 利用(7-9)式计算2值,得:,4、查临界2值,进行统计推断 由自由度df=(4-1)(3-1)=6,查临界2值得: 2005(6)=12.59 因为计算所得的20.05,不能否定HO , 可以认为奶牛的发病次数的构成比与饲料种类相互独立,即用三种不同的饲料饲喂奶牛,各组奶牛发病次数的构成比相同。,下一张,主 页,退 出,上一张,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1