第7章统计假设检验.ppt_三一文库31doc.com

资源描述

《第7章统计假设检验.ppt》由会员分享，可在线阅读，更多相关《第7章统计假设检验.ppt（77页珍藏版）》请在三一文库上搜索。

1、第七章,统计假设检验,统计推断是指根据样本以及问题的条件和假定模型对未知事物(即总体)作出的以概率形式表述的推断，它主要包括统计假设检验和参数估计两个内容。统计假设检验又叫显著性检验,主要内容：第一节显著性检验的基本原理第二节样本均数与总体均数的差异显著性检验第三节两样本平均数的差异显著性检验第四节显著性检验中应注意的问题,第一节显著性检验的基本原理一、显著性检验的意义二、两种假设三、显著水平与两类错误四、双侧检验与单侧检验五、显著性检验的基本步骤,一、显著性检验的意义,(一)为什么要进行显著性检验？例1 某实验要求实验动物平均体重=10.00

2、g, 现有实验动物10只，平均体重 =10.23g, 已知总体标准差=0.4g，问这些动物在该实验中能否使用？,例2 在某种猪场随机抽测了甲、乙两品种经产母猪各10头的产仔初生窝重：甲品种10头母猪产仔平均初生窝重乙品种10头母猪产仔平均初生窝重问两品种经产母猪的产仔初生窝重差异是否显著？,(二) 检验目的与对象,例1 设抽取该10只动物的总体体重平均数为，实验要求的实验动物体重平均数为0 . 目的总体平均数（=0）对象样本平均数,例2 设甲品种猪产仔初生窝重的平均数为1，乙品种猪产仔初生窝重的平均数为2 . 目的总体平均数（1=2）对象样本平均数,(三) 基本思路观察值由

3、两部分组成即：若样本含量为n，则可得到n个观察值，样本平均数。说明样本均数并非总体均数，它还包含试验误差的成分。,试验误差,对于接受不同处理的两个样本来说，则有：,两样本均数之差为试验表面效应,试验的处理效应,试验误差,处理效应未知，但试验表面效应dggggggg是可以计算的，借助于统计方法,试验误差也是可以估计的因此可从试验的表面效应与试验误差的权衡比较中间接地推断处理效应是否存在，这就是显著性检验的基本思想。,(四) 基本前提收集到正确、完整而又足够的资料是通过显著性检验获得可靠结论的基本前提。,二、两种假设首先对试验样本所在的总体作假设。（一）零假设(Null hy

4、pothesis) 总体平均数是未知的，为了得到对总体平均数的推断，可以假设总体平均数0或00，其意义是试验的表面效应系试验误差，处理无效，故称为无效假设，也称为零假设，记作H0，H0:0或H0:00 无效假设是被检验的假设，通过检验可能被接受，也可能被否定。,（二）备择假设（alternative hypothesis）：记为HA，是在无效假设被否定，拒绝H0的情况下的所有可供选择的假设若H0:0，则备择假设包括以下三种： HA: 0 HA: 0 HA: 0,三、显著水平与两类错误（一）小概率原理在显著性检验中，否定或接受无效假设的依据是“小概率事件实际不可能性原理”。小概率事件在

5、一次试验中，几乎是不会发生的。若根据一定的假设条件计算出来该事件发生的概率很小，而在一次试验中竟然发生了，则可以认为假设的条件不正确，因此，否定假设。,（二）显著水平(Significance level）用来确定否定或接受无效假设的概率标准叫显著水平，记作。越小，显著性水平越高，在生物学研究中常取=0.05 或 =0.01。 =0.05称为5%显著水平；=0.01称为1%显著水平或极显著水平。,(三) 两类错误型错误 (type error) 第一类错误是真实情况为H0成立，却否定了它，犯了“弃真”错误。犯型错误的概率不会超过，型错误也叫错误。型错误(type error) 第

6、二类错误是H0实际不成立，却接受了它，犯了“纳伪”错误。犯型错误的概率记为。型错误又叫错误。,两类错误间的关系：如图所示，图中左边曲线是H0为真时，的分布密度曲线；右边曲线是HA为真时，的分布密度曲线( ) 犯型错误可能性的大小与取值的大小、两均数差异大小等因素有关：当值变小时，值变大；反之亦然，也就是说型错误的降低必然伴随着型错误的升高；两均数差异越大，值越小。,两类错误示意图,否定域,接受域,否定域,若一个试验耗费大，可靠性要求高，不允许反复，那么值应取小些；当一个试验结论的使用事关重大，容易产生严重后果，如药物的毒性试验，值亦应取小些。对于一些试验条件不易控制，试验误

7、差较大的试验，可将值放宽到0.1，甚至放宽到0.25。在提高显著水平，即减小值时，为了减小犯型错误的概率，可适当增大样本含量。增大样本含量可以同时降低犯两类错误的可能性。,如何选择合适的值,小结：因为显著性检验是根据“小概率事件实际不可能性原理”来否定或接受无效假设的，所以不论是接受还是否定无效假设，都没有100的把握。若经检验“差异显著”，对此结论有95%的把握，同时要冒5%下错结论的风险； “差异极显著”，对此结论有99%的把握，同时要冒1%下错结论的风险； “差异不显著”，是指在本次试验条件下，无效假设未被否定。,“差异不显著”并一定是“没有差异”。有两种可能：两个样本所在的总体

8、确实没有显著差异；两个样本所在总体平均数有差异而因为试验误差大被掩盖了。因而不能仅凭统计推断就作出绝对肯定或绝对否定的结论。“有很大的可靠性，但有一定的错误率”，这是统计推断的基本特点。,Ho:1=2 ；HA:12 或 Ho: =0 ；HA:0 目的在于判断有无差异，不考虑谁大谁小,四、双侧检验与单侧检验（一）双侧检验 (two-sided test),此时，在水平上否定域为(-，- )和，+，对称地分配在u分布曲线的两侧尾部，每侧的概率为/2，如图所示。这种利用两尾概率进行的检验叫双侧检验，也叫双尾检验，为双侧检验的临界值。,若无效假设为 H0:1=2 ，备择假设为 HA:12

9、，为左尾概率，称为左尾检验，也称下尾检验，如下图所示。这种利用一尾概率进行的检验叫单侧检验也叫单尾检验。,(二）单侧检验 (one-sided test) 若无效假设为H0:1=2 ，备择假设为HA:12 ，为右尾概率，称右侧检验，也称上尾检验，如上图所示。,(三)单侧检验与双侧检验的关系单侧检验的u=双侧检验的u2 双侧检验显著，单侧检验一定显著；反之，单侧检验显著，双侧检验未必显著。,(四)应用选用单侧检验还是双侧检验应根据专业知识及问题的要求（分析的目的）在试验设计时就确定。一般若事先不知道所比较的两个处理效果谁好谁坏，分析的目的在于推断两个处理效果有无差别，则选用双侧检验；

10、若根据理论知识或实践经验判断甲处理的效果不会比乙处理的效果差( 或相反)，分析的目的在于推断甲处理是否比乙处理好(或差)，则用单侧检验。一般情况下，如不作特殊说明均指双侧检验。,五、显著性检验的基本步骤（一）首先对试验样本所在的总体作假设。零假设(Null hypothesis) H0:0或H0:00. 无效假设是假设检验的基础，是将被检验的假设，它有以下三种可能来源：凭以往经验或某些试验结果来设定0 ；根据某种理论计算出0应等于多少；实际问题要求0等于多少,备择假设（alternative hypothesis）：相应于H0:0，则HA有三种： HA: 0 HA: 0 HA:

11、 0 Notice: 在有专业知识可依据的情况下，应优先选用单侧检验，因为单侧检验建立在另一侧实际不可能的基础上，可提高检验精度,（二）选择合适的显著水平。根据不同的试验要求选取不同的值，一般常用的为0.05和0.01 计算出的概率大于0.05，称之为“没有显著差异”；计算出的概率小于0.05，称之为“差异显著”；（再作进一步比较）计算出的概率小于0.01，称之为“差异极显著”,（三）选择合适的统计量，并研究试验所得统计量的抽样分布。根据不同的目的采用不同的检验方法：对平均数做检验，u检验（已知）或t检验（未知），单个样本方差检验用检验，两个样本方差用F检验 u, t, ，F 称

12、为检验统计量,（四）建立H0的拒绝域，查表确定临界值。根据备择假设，建立相应的H0的拒绝域（五）做出推断及生物学解释。 P0.05 不认为是小概率事件，接受H0 P0.01或P0.05为小概率事件，则否定H0:=0 ；接受HA 根据结果对原问题做出明确、合理的解释。,小结：显著性检验中应注意的问题试验之前进行严格合理的试验设计或抽样设计；根据不同的试验设计方法，选择不同的显著性检验方法；要正确理解“差异不显著，差异显著和差异极显著” 的统计意义；显著水平的高低只表示下结论的可靠性程度的高低；显著性检验只是用来确定无效假设能否被推翻，而不能证明无效假设是否正确, 合理建立统计

13、假设，正确计算统计量；统计结论不能绝对化，统计分析应与专业知识相结合；报告结论时应列出检验用的统计量的值、P值范围、注明是双侧还是单侧检验,第二节单个样本统计量的差异显著性检验,一、单个样本平均数的差异显著性检验已知 U-test 为样本所在总体平均数； 0 为已知总体平均数,【例1】某实验要求实验动物平均体重=10.00g, 现有实验动物10只，平均体重 =10.23g, 已知总体标准差=0.4g，问这些动物在该实验中能否使用？【解析】已知动物体重服从正态分布，而且标准差已知，可用u检验。设抽取该10只动物的总体体重平均数为，实验要求的实验动物体重平均数为0,1. 建立假设

14、 H0:=0 ，HA:0 （双尾检验） 2选择显著水平： =0.05 3计算u值： 4 HA: 0，当u u0.025时拒绝H0 查正态分布表得，u0.025=1.96。 5. 做出推断及生物学解释： u 0.05，接受H0:=0 ，即可以认为这10只动物抽自总体平均数为10g的总体，本次实验可以利用。,【例3】已知豌豆籽粒重量服从，在改善栽培条件后，随机抽取9粒，其籽粒平均重量，若标准差仍为3.3，问改善栽培条件是否显著提高豌豆籽粒重量？【解析】已知豌豆籽粒重量服从正态分布，而且标准差已知，可用u检验。 1. 建立假设 H0:=0 ，HA:0 （进行上侧单尾检验） 2选择显著水平

15、： =0.05,3计算u值： 4 HA: 0，当uu0.05时拒绝H0 查正态分布表得，u0.05=1.645。 5. 做出推断及生物学解释： uu0.05 ，P0 ，即栽培条件的改善显著提高了豌豆籽粒的重量.,未知 t-test,【例4】将例1修改：某实验要求实验动物平均体重=10.00g, 现有实验动物10只，平均体重 =10.23g, 总体标准差未知，可计算得出S=0.4g，问这些动物在该实验中能否使用？【解析】已知动物体重服从正态分布，标准差未知，可用t检验。设抽取该10只动物的总体体重平均数为，实验要求的实验动物体重平均数为0,1. 建立假设 H0:=0 ，HA:0 （双

16、尾检验） 2选择显著水平： =0.05 3计算t值： 4 HA: 0，当t t0.025时拒绝H0 查t分布表得，t0.025,(9)=2.262。 5. 做出推断及生物学解释： t 0.05，接受H0:=0 ，即可以认为这10只动物抽自总体平均数为10g的总体，本次实验可以利用。,【例5】在鱼塘中10个点取水样，测定水中含氧量，得数据：4.33，4.62，3.89，4.14，4.78，4.64，4.52，4.48，4.55，4.26(mg/l)，能否认为该鱼塘中平均含氧量为4.50(mg/l)？,【解析】 1. 建立假设 H0: = 4.50，HA:4.50（应进行双侧检验） 2选择显

17、著水平： =0.05 3计算t值： 4 HA:4.50 ，当tt0.025 时拒绝H0 查附表4得，t0.025(9)=2.262。 5. 做出推断及生物学解释： tt0.025 ，P0.05，接受H0:=4.50，可以认为该鱼塘中平均含氧量为4.50(mg/l).,二、变异性的显著性检验2检验（2 -test）即对假设的总体标准差做检验,【例6】一个混杂的小麦品种，株高标准差，经提纯后随机抽取10株，它们的株高为：90、105、101、95、100、100、101、105、93、97cm,考查提纯后的群体是否比原群体整齐？,【解析】 1. 建立假设：（应进行下侧检验） 2选择显著水

18、平： =0.05， =0.01 3计算值： 4查临界值: 5. 做出推断及解释：即上述样本是抽自的总体，也就是说提纯后的株高比原株高更整齐,第三节两样本统计量的差异显著性检验一、两个方差的检验-F检验对于两个样本，比较它们的方差S12、S22，常常利用它们方差的比值S12/S22，也就是F,例7：分别测定了20位青年男子和20位老年男子的血压值，其样本标准差分别为：S12=143.4，S22=937.7，问老年人的血压值个体间的波动是否显著高于青年人？解：人类的血压值是服从正态分布的随机变量。假设：H0:1=2, HA:12 显著性水平：=0.05,检验统计量：建立H

19、0的拒绝域：因HA:12，故为下尾单侧检验，当FF0.95时，拒绝H0. 结论：因FF0.95，拒绝H0，接受HA。即老年人的血压值个体间的波动显著高于青年人。,可以用大S值做分子，小S值做分母计算。查表得： FF0.05，拒绝H0，接受HA。,两样本平均数检验: 根据条件或实验设计的不同，可分为两种情况：非配对设计两样本平均数的比较；配对设计两样本平均数的比较,二、非配对设计时非配对设计非配对设计或成组设计是指当进行只有两个处理的试验时，将试验单位完全随机地分成两个组，然后对两组随机施加一个处理。有三种情况：,（一）标准差12、22已知u检验,例8甲、乙两个发酵法生产青霉素的工厂

20、，其产品收率的方差分别为12=0.46、22=0.37现甲工厂测得25个数据， =3.71g/L，乙工厂测得30个数据， =3.46g/L，问它们的收率是否相同？解析由于已知，采用u检验，根据题意，应进行双侧检验提出假设：H0:1=2 HA:12 显著水平： =0.05, 计算检验统计量u: 查临界值：查附表3，得u0.025=1.960 做出推断及解释： u 0.05，差异不显著，接受H0，认为两工厂收率相同,（二）标准差12、22未知，但相等成组数据t检验 t-test for pooled data,【例2】提出假设：零假设H0: 1 = 2 或1 -2=0 （即假设甲、乙两品

21、种猪经产母猪仔猪初生重的总体均数相等，即试验的表面效应 =1.87kg系试验误差造成的）备择假设是HA:12 （即甲、乙两品种猪经产母猪仔猪初生窝重的总体均数不相等，亦即存在处理效应，试验的表面效应除包含试验误差外，主要的是含有处理效应在内。）, 选择合适的值： =0.05, = 0.01 选择合适的检验统计量，并研究其分布：由题目知：总体方差未知，此时样本平均数的分布属于t分布：所以采用t为检验统计量, 查临界值：,|t|2.234的两尾概率, 做出推断及生物学解释,即认为甲、乙两品种经产母猪的仔猪初生窝重总体平均数不相同。,【例9】分别测定两个品种的家兔停食18小时后正常血糖值，测定

22、结果如下。设两品种家兔正常血糖值服从正态分布，且方差相等，问该两个品种家兔的正常血糖值有无差异?,1建立假设 2选定显著水平：=0.01 3. 计算t值 4.查临界t值，作出推断查t值表， ,|t|2.861，P0.01，拒绝零假设 5.做出解释表明两品种家兔正常血糖值差异极显著，这里表现为大耳白品种家兔的正常血糖值极显著高于青紫兰品种家兔的正常血糖值。,（三）标准差12、22未知，且不相等 Aspin-Welch检验法近似t检验,【例10】两个小麦品系进行对比试验，A品系共收获25个小区，平均产量为36.75kg，样本标准差S1=2.77kg；B品系收获20个小区，平均产量为40.35k

23、g，样本标准差S2=1.56kg。问B品系是否值得推广？,【解析】第步：由于方差未知，为了选择推断统计量，首先要进行方差齐性分析，即进行F检验假设H0:12=22,HA:1222 显著水平： =0.05，计算检验统计量： F=S12/S22=3.1529 查临界值：查F分布表得： F0.975(24,19)=2.45 做出推断及解释： FF0.975,所以P0.05,差异显著，拒绝H0，即两方差不相等,第步：检验均值是否相等，由于方差不等，所以采用近似t检验，因为B品系必须优于A品系才值得推广，所以采用单侧检验假设：H0:1=2,HA: 12 显著水平： =0.05， =0.01 计算

24、检验统计量： t=-5.499,k=0.7161,df39 查临界值：查表t0.05(39)t0.05(40)=1.684, t0.01(39)t0.01(40)=2.423 做出推断及解释： t-t0.01,所以差异极显著，拒绝H0，B品系平均产量明显高于A品系，值得推广,二、配对数据的显著性检验配对数据t检验（一）配对设计配对设计：指试验单位先根据配对的要求两两配对，然后将配成对子的两个试验单位随机地分配到两个处理中。配对的要求：配成对子的两个试验单位（对子内）的初始条件尽量一致，不同对子间试验单位的初始条件允许有差异。每一个对子就是试验处理的一个重复。配对设计目的：为了消除试验

25、单位初使条件不一致对试验结果的影响，正确地估计处理效应，减少系统误差，降低试验误差，提高试验的准确性与与精确性。配对的方式：同源配对；自身配对,同源配对：指将来源相同、性质相同的两个个体配成一对(如将畜别、品种、窝别、性别、年龄、体重相同的两个试验动物配成一对),然后对配对的两个个体随机地实施不同处理。自身配对：指同一试验单位在二个不同时间上分别接受前后两次处理，用其前后两次的观察值进行自身对照比较；或在空间上用其不同部位的观察值或不同方法的观察值进行自身对照比较。,（二）配对数据的t检验 t-test for matched data,基本步骤：提出假设计算t 值查t值表，得

26、临界t值t0.025、t0.005 ，做出统计推断及生物学解释将t 分别与t0.025、t0.005 比较，做出统计推断。,【例11】10名病人服药前xi、后yi血红蛋白含量如下表所示，问该药物是否引起血红蛋白含量的变化？,【解析】计算得：查表得t0.025(9) =2.262，tt0.025(9),接受H0，该药物对血红蛋白含量无明显影响,第四节百分数资料的显著性检验一、样本百分数与总体百分数差异显著性检验设：为样本百分数，n为独立试验次数， p为所在总体百分数，p0 为已知总体百分数。（一）提出假设 H0: P=P0 , HA: PP0 （二）计算u值或uc （三）将u或u

27、c与1.96、2.58比较，做出统计推断。,二、两个样本百分数差异显著性检验假设有两个二项分布的总体，总体平均数分别为P1、P2，分别从其中抽取含量为n1和n2两个样本，两个样本中分别含有某一指定特性的个体数x1和x2，则两个样本平均数分别为分别作为P1、P2的估计值目的:检验两个样本百分数所在的两个二项总体百分数是否相同。当两样本均大于10时，可以近似地采用u检验法进行检验，但在小于或等于30时，需作连续性矫正。,检验的基本步骤： 1. 提出无效假设与备择假设 2. 计算u值或值 (即连续校正后的u值) 当n足够大时，上式中的u近似服从标准正态分布如果n1=n2=n, x1x2 如果n1n2, x1/n1x2/n2 3.将u与u0.05 、 u0.01比较，做出统计推断。,【例】杀虫剂A在600头虫子中杀死465头，杀虫剂B在500头中杀死374头，问它们的效果是否相同？【解析】设p为死亡率，H0:A=B, HA:AB uu0.025=1.960，差异不显著，接受H0，两种杀虫剂效果相同,

展开阅读全文