第八章分类资料描述x2检验.ppt

资源描述

《第八章分类资料描述x2检验.ppt》由会员分享，可在线阅读，更多相关《第八章分类资料描述x2检验.ppt（93页珍藏版）》请在三一文库上搜索。

1、1,2检验 Chi-square test,孔丹莉广东医学院医学统计与流行病学教研室,第十章,2,主要内容,第一节分类变量资料的统计描述 (复习) 第二节分类变量资料的统计推断 (复习) 第三节卡方检验 (Chi-square test）,3,第一节分类变量资料的统计描述,常用相对数应用相对数时的注意事项,4,什么是分类变量资料？清点分类资料得数据用什么指标进行描述？,甲、乙两地发生麻疹流行，甲地患儿100人，乙地患儿50人，何地较为严重？若甲地易感儿童667人，而乙地易感儿童250人。,甲地麻疹发病率为 100/667100%=15% 乙地麻疹发病率为 50/250100

2、%=20%,用相对数能较好地反映分类变量资料的特征。,5,1. 常用相对数,相对数：是两个有关联的数值或指标之比。常用的相对数有：率构成比相对比,6,(1) 率 (rate),率：是指在一定观察时间内，某现象实际发生数与可能发生该现象的总数之比，用以说明某现象发生的频率或强度。,K为比例基数，如100%、1000等。比例基数的选择主要依习惯而定或使计算结果能保留12位整数。,7,例某研究组在北方城镇调查了1450人，其中976人经常吸烟（日平均1支以上），在南方城镇调查了1806人，有1052人经常吸烟, 试计算南北方城镇25岁以上男性居民的吸烟率。,城镇男性吸烟率：北方 976/

3、1450100%=67.31%，南方 1052/1806100%=58.25%。南北方合计： (67.31%+ 58.25%)/2=62.78% (976+ 1052)/(1450+ 1806) 100%=62.28%,8,(2) 构成比（constituent ratio）,构成比：是指事物内部某一部分的观察单位数与事物内部各组成部分的观察单位数总和之比，用以说明事物内部各部分所占的比重或分布。,常用百分数表示，故又称百分比。,9,各部分构成比之和为100%。此消彼长。,构成比的两个特点：,10,例10-1 2001年对某地中小学学生进行HbsAg检查，结果见表10-1，试计算各级学生

4、HbsAg检出率及阳性者构成比,率和构成比不是同一指标，在应用时应注意加以区分。,11,三种类型疾病病死率和构成比,什么类型疾病病死危险大?,12,(3) 相对比,相对比：指两个有关指标之比，说明两个指标的比例关系。,两个指标可以是绝对数、相对数、平均数，可以是性质相同或性质不同，但两个指标互不包含。,13,例10-2 某地2003-2005年不同性别新生儿数见表10-2，试计算该地不同年份新生儿性别比。,14,2. 应用相对数的注意事项,计算相对数时分母不宜过小正确区分构成比和率，不能以构成比代替率正确计算平均率对率和构成比进行比较时，应注意资料的可比性(除研究因素外，其余重要因素应相

5、同或相近) 样本率或构成比进行比较时要作假设检验,15,在进行率或构成比比较时，除了要比较的因素外，其他影响的因素应基本一致。例如，分析比较两医院病死率的时，应注意两个医院的条件应基本相同，如果上级医院的病死率高于基层医院的病死率，并不能说明上级医院医疗水平不如基层医院，这是因为许多疑难病人均由基层医院转入上级医院所致。,当比较两个总率时，若其内部构成不同，需要进行率的标准化。,16,第二节分类变量资料的统计推断,率的抽样分布率的抽样误差与标准误总体率的区间估计率比较的u检验,17,1. 率的抽样分布,二项分布（binomial distribution）的概念例：假设注射某种免疫

6、疫苗会有10%的人出现不适反应。问3人接种后各种可能后果的概率是多少？,18,19,贝努利试验(Bernoulli trials )：,n次独立、重复试验（每次试验只出现A和之一，每次概率都是和）。贝努利试验中，事件A可能发生0, 1, 2, , n次，A 恰好发生k次的概率为,20,二项分布 (binomial distribution)：,若随机变量X只能在中取值，各种可能值的概率满足前式，我们就说X服从参数为n和的二项分布, 记为,21,已知： =0.5，n =10； =0.3，n =5； =0.3，n =10； =0.3，n =15。试根据式（10-6）求各阳性数事件的概率

7、并作概率分布图。,22,图10-1 率的抽样分布图（二项分布）,率的抽样分布特征:,1.为离散型分布； 2.当 =1-时，呈对称分布； 3.当n 增大时，逐渐逼近正态分布。一般认为，当n和n(1-)5时, 可近似看作正态分布。,23,2. 率的抽样误差和标准误,由于抽样所引起的样本率和总体率或各样本率之间存在着差异，这种差异称为率的抽样误差。用率的标准误表示。,24,3. 总体率的区间估计,总体率的估计：点估计区间估计正态近似法查表法,25,正态近似法,当样本含量n足够大，样本率p或1-p均不太小时（如np和n(1-p)均大于5），样本率的分布近似正态分布。,u是标准正态分布双侧临

8、界值，在估计总体率的95%置信区间时，其值为1.96；99%置信区间时，其值为2.58。,26,95%的置信区间： 38.47%1.961.16%=36.20%40.74% 99%的置信区间： 38.47%2.581.16%=35.48%41.46%,例如某地人群中结核菌素试验阳性率95%和99%的置信区间为：,27,查表法,当n较小，如n50，特别是p接近于0或1时，按二项分布原理估计总体率的可信区间。因其计算比较复杂，统计学家已经编制了总体率可信区间估计用表，可根据样本含量n和阳性数x查阅统计学专著中的附表。,28,4. 两样本率比较的u 检验,当样本含量n足够大，样本率p或1-p均不

9、太小时（如np和n(1-p)均大于5），样本率的分布近似正态分布。样本率和总体率之间、两个样本率之间的比较可用u检验(u test) 。,表5-1 两种疗法的心血管病病死率比较,u 检验的条件： n1p1 和n1(1- p1)与 n2p2 和n2(1- p2)均 5,30,样本率与总体率的比较,31,两个样本率的比较,32,小结,1样本率也有抽样误差，率的抽样误差的大小用p或sp来衡量。p越大，率的抽样误差越大。 2率的分布服从二项分布。当n足够大，和1-均不太小，有n5和n（1-）5时，近似正态分布。,33,3总体率的置信区间是用样本率估计总体率的可能范围。当p分布近似正态分布时，可用正态

10、近似法估计率的置信区间。 4根据正态近似原理，可进行样本率与总体率以及两样本率比较的u检验。,率的u 检验能解决以下问题吗？,率的反应为生与死、阳性与阴性、发生与不发生等二分类变量，如果二分类变量为非正反关系（如治疗A、治疗B）；反应为多分类，如何进行假设检验？率的u 检验要求：n足够大，且n5和 n（1-）5。如果条件不满足，如何进行假设检验？,35,第三节 2 检验(Chi-square test),基本思想四格表资料的卡方检验配对设计分类变量资料的卡方检验行列表资料的卡方检验,36,2检验（Chi-square test）,是现代统计学的创始人之一，英国统计学家K.Pearso

11、n于1900年提出的一种具有广泛用途的假设检验方法。常用于分类变量资料的统计推断，可用于两个或多个率间的比较，计数资料的关联度分析，拟合优度检验等等。,37,例10-1 为比较西药与中药治疗慢性支气管炎的疗效，某医师将符合研究标准的110例慢性支气管炎患者随机分为两组（两组具有可比性），西药组86例，中药组24例。服药一个疗程后，观察患者的疗效，结果见下表。根据显效率，该医师认为中西药治疗慢性支气管炎的疗效有差别中药组的疗效好于西药组。,1. 2检验的基本思想,38,表10-1 中西药治疗慢性支气管炎的显效率,【问题10-1】（1）该资料为何种类型资料？（2）该研究属于何种设计方案？（3

12、）该医师作出的结论是否正确？为什么？（4）该资料应该用何种统计方法？其步骤如何？,39,表10-1 中西药治疗慢性支气管炎的显效率,表10-2 中西药治疗慢性支气管炎的显效率,40,40,2. 四格表资料的卡方检验,四格表资料,41,实际频数A (actual frequency) ：a、b、c、d,=(a+c)/(a+b+c+d)= 53/110=48.18%,理论频数T (theoretical frequency) ：,表10-2 中西药治疗慢性支气管炎的显效率,H0:1=2=， (合计率),42,四格表资料,理论频数计算公式,43,西药组：理论显效人数 T21=2453/110=11

13、.56 理论非显效人数 T22=2457/110=12.44,中药组：理论显效人数 T11=8653/110=41.44 理论非显效人数 T12=8657/110=44.56,44,基本公式：,-反映了A和T吻合的程度；与格子数有关。,H0:1=2=，-合计率,45,自由度一定时，P值越小， x2值越大。当P 值一定时，自由度越大， x2越大。 =1时， P=0.05， x2 =3.84 P=0.01， x2 =6.63 P=0.05时， =1， x2 =3.84 =2， x2 =5.99 当自由度取1时， u2= x2,2分布规律,3.84,7.81,12.59,P0.05的临界值,2分

14、布（chi-square distribution）,47,2界值表,48,2检验的自由度,指可以自由取值的基本格子数自由度一定时，其2值的概率分布也就确定。根据自由度和检验水准查附表9（P344）可得2界值; 若2值20.05（），则可按=0.05的检验水准拒绝H0；若2值20.05（），则还不能拒绝H0。,49,例10-9 某医生欲比较用甲、乙两种药物治疗动脉硬化的疗效，甲药治疗71例，有效52例，乙药治疗42例，有效39例，结果见表10-7。问两种药物的有效率是否有差别？,表10-7 甲、乙两种药物治疗动脉硬化的疗效比较,50,H0 ：两药有效率相同，即12 H1 ：两药有效率不

15、同，即1 2 =0.05,（1）建立检验假设，确定检验水准,51,20.025(1)=5.02，20.01(1)=6.63。本例5.022=6.486.63，所以，0.025P0.01，按=0.05水准，拒绝H0，接受H1，故认为甲、乙两药的疗效不同，乙药疗效要好于甲药。,（2）计算检验统计量和自由度,（3）确定P值，做出推论,n40，Tmin5,2检验的基本公式,上述基本公式由Pearson提出，因此软件上常称这种检验为Pearson卡方检验。下面将要介绍的其他卡方检验公式都是在此基础上发展起来的。它不仅适用于四格表资料，也适用于其它的“行列表”。,53,四格表专用公式：,本例，,四格

16、表专用公式,为了不计算理论频数T, 可由基本公式推导出，直接由各格子的实际频数（a、b、c、d）计算卡方值的公式：,55,校正公式：,四格表资料2检验的校正 2分布是一种连续性分布，而分类变量资料属离散性分布，由此得到的统计量也是不连续的。为改善2统计量分布的连续性，英国统计学家Yates F建议将实际频数和理论频数之差的绝对值减去0.5以作校正。,56,在实际工作中，对于四格表资料，通常规定,（1）T5，且N40时，直接计算2值，不用校正；（2）1T5, 且N40时，用连续性校正检验；（3）T1或N40，不能用卡方检验，用直接计算概率的方法。,57,四格表资料的专用公式,x2 =(ad-

17、bc)2 xN/ (a+b)(c+d)(a+c)(b+d) 该公式从基本公式推导而来，结果相同。计算较为简单。适用条件： N40且 T 5,当不满足时用校正公式。适用条件： N40且 1 T 5 x2 =（|A-T|-0.5）2/T 或 x2 =(|ad-bc|-n/2)2 xN/ (a+b)(c+d)(a+c)(b+d),58,例10-10 某医生研究比较A、B两种药物对急性细菌性肺炎的疗效，有关资料见表10-8，问两种药物的疗效差别有无统计学意义？,表10-8 A、B两药治疗急性细菌性肺炎的疗效比较,59,H0: 1=2 H1: 12 = 0.05 T22=228/64=2.75 5

18、按=1，查2值表，20.05（1）=3.84，2=4.793.84，P0.05, 按=0.05水准，拒绝H0，接受H1，认为两药的疗效差别有统计学意义，A药疗效要好于B药。,60,设有56份咽喉涂抹标本（均含有白喉杆菌），把每份标本一分为二，依同样的条件分别接种于甲、乙两种白喉杆菌培养基上，观察白喉杆菌的生长情况，结果见下表：,3. 配对设计分类变量资料的2检验,61,白喉杆菌在甲、乙两种培养基中的生长情况,61,62,两种培养基白喉杆菌生长情况,63,3. 配对设计分类变量资料的2检验,甲、乙结果有两种情况：一致：a（+）和 d（-）；不一致：b（甲+乙-）和c（甲-乙+）；,64,配对

19、卡方检验又称McNemar检验：,65,例10-11 用两种血清学方法对100例肝癌患者进行检测，有关检测结果见表10-9，问两种血清学方法检测结果有无差别？,表10-9 两种血清学方法对肝癌检测的结果比较,66,H0 ：两种方法检出率相同，即B = C H1 ：两种方法检出率不同，即B C =0.05,查表得，P0.025，按=0.05水准，拒绝H0，接受H1，差别有统计学意义，可以认为两种方法的检出率不同，甲法较高。,（1）,（2）,（3）,67,注意事项,由于该检验只考虑了不一致的情况（b与c），而未考虑样本含量n及一致结果（a与d），因此，当n很大而且两法一致率较高（即a与d数值较大）

20、，b与c的数值相对较小时，即使检验结果有统计学意义，但实际意义并不大。,68,4. 行列表资料的卡方检验,行列表卡方检验的专用公式：, =(R-1)(C-1),69,例10-12 某研究者欲比较甲、乙、丙3家医院住院病人院内感染情况，随机抽查同一时期各医院住院病人院内感染情况结果见表10-10，试比较三家医院院内感染率有无差别。,表10-10 甲、乙、丙三家医院住院病人院内感染率比较,70,H0 ：三家医院院内感染率相同 H1 ：三家医院院内感染率不同或不全相同 =0.05,（1）,（2）,（3）,=（3-1）（2-1）=2，查2值表，20.01（2）=9.21， 220.01（2）, P0.

21、01, 按 =0.05的检验水准，拒绝H0，接受H1，故可认为甲、乙、丙三家医院院内感染率总体有差别。,71,例10-13 某研究者欲了解白内障发病是否与ABO血型有关，收集有关资料见表10-11，问白内障组与对照组ABO血型分布有无差别？,72,H0 ：白内障组与对照组ABO血型分布相同 H1 ：白内障组与对照组ABO血型分布不同或不全相同 =0.05,查表得，20.05（3）=7.81， 2 0.05, 按=0.05的检验水准，不拒绝检验假设，尚不能认为白内障组与对照组ABO血型分布不同。,（1）,（2）,（3）, =(2-1)(4-1)=3,73,理论数不宜太小。（不能有1/5以上格子的

22、理论频数小于5或者有一个格子的理论频数小于1）。处理方法,行列表卡方检验的注意事项：,74,理论频数太小的处理方法,增大样本含量，以达到增大理论频数的目的；删去理论频数太小的格子对应的行或列；合理合并：结合专业，将理论频数太小的行或列与性质相近的行或列合并精确概率法。,75,理论数不宜太小。（不能有1/5以上格子的理论频数小于5或者有一个格子的理论频数小于1）。处理方法如假设检验的结果是拒绝无效假设，只能认为各总体率或构成比之间总的来说有差别。若要进一步了解哪两者之间有差别，可用卡方分割法，或者调整检验水准。,行列表卡方检验的注意事项：,76,理论数不宜太小。（不能有1/5以上格子的理

23、论频数小于5或者有一个格子的理论频数小于1）。处理方法如假设检验的结果是拒绝无效假设，只能认为各总体率或构成比之间总的来说有差别。若要进一步了解哪两者之间有差别，可用卡方分割法，或者调整检验水准。对于单向有序行列表，在比较各处理组的效应有无差别时，应该用秩和检验。,行列表卡方检验的注意事项：,77,78,理论数不宜太小。（不能有1/5以上格子的理论频数小于5或者有一个格子的理论频数小于1）。处理方法如假设检验的结果是拒绝无效假设，只能认为各总体率或构成比之间总的来说有差别。若要进一步了解哪两者之间有差别，可用卡方分割法，或者调整检验水准。对于单向有序行列表，在比较各处理组的效应有无差别

24、时，应该用秩和检验。,行列表卡方检验的注意事项：,79,基本公式：,80,81,RC表的2检验通用公式,RC表2检验的应用注意事项,1. 对RC表，若较多格子（1/5）的理论频数小于5 或有一个格子的理论频数小于1，则易犯第一类错误。出现某些格子中理论频数过小时怎么办？（1）增大样本含量（最好！）（2）删去该格所在的行或列（丢失信息！）（3）根据专业知识将该格所在行或列与别的行或列合并。（丢失信息！甚至出假象）,RC表2检验的应用注意事项,2.多组比较时，若效应有强弱的等级，如+，+，+，最好采用后面的非参数检验方法。2检验只能反映其构成比有无差异，不能比较效应的平均水平。 3.行列两

25、种属性皆有序时，可考虑趋势检验或等级相关分析,85,不同资料类型的2检验的计算方法：,86,练习1,欲了解某乡钩虫感染情况，随机抽查男200人，感染40人；女150人，感染20人，问：该乡男女感染率是否居于相同水平？,87,2 0.05 ，接受H0，可以认为该乡男性与女性的钩虫感染率居于相同水平。,解法1： 2检验（这里只给出统计量2的计算，其余步骤略）,88,u0.05, 接受H0 ，可以认为该乡男性与女性的钩虫感染率居于相同水平。,解法2：,率的u检验,适用条件?,89,1. 2检验可以用于多组率的比较，而u检验用于两组率的比较； 2. 对于四格表资料，有： 2 u2 。,90,抗癌

26、新药的毒理研究中，欲分析不同剂量的毒性，将80只大鼠按性别、窝别、体重、年龄等因素配成40对，每对大鼠随机分配分别接受甲剂量和乙剂量注射。结果两种剂量都死亡的有30%，甲剂量的死亡率为50%，乙剂量的死亡率为70%。 (1)这是何种设计类型的资料? (2)两种剂量均生存的大鼠是多少对？请列出整理表。 (3)请对这份资料作统计分析。,练习2,91,H0：两种剂量的死亡率相同 H1：两种剂量的死亡率不相同 =0.05， P0.05，尚不能拒绝零假设，可以认为两种剂量的死亡率居于相同水平。,92,两组二分类资料发生率比较，样本总例数100，则检验自由度为（）。 A. 1 B. 4 C. 95 D. 99 E. 100,练习3,93,四格表检验中，，可以认为（）。 A. 两总体率不同 B. 不能认为两总体率不同 C. 两样本率不同 D. 不能认为两样本率不同 E. 以上都不对,练习4,

展开阅读全文