卡方检验.ppt

上传人:罗晋 文档编号:7226280 上传时间:2020-11-07 格式:PPT 页数:105 大小:1,001.50KB
返回 下载 相关 举报
卡方检验.ppt_第1页
第1页 / 共105页
卡方检验.ppt_第2页
第2页 / 共105页
卡方检验.ppt_第3页
第3页 / 共105页
卡方检验.ppt_第4页
第4页 / 共105页
卡方检验.ppt_第5页
第5页 / 共105页
点击查看更多>>
资源描述

《卡方检验.ppt》由会员分享,可在线阅读,更多相关《卡方检验.ppt(105页珍藏版)》请在三一文库上搜索。

1、Chi-Square Test( 2检验),第七章 卡方检验,2检验(Chi-square test)是英国人K.Pearson (1857-1936)于1900年提出的一种具有广泛用途的统计方法检验。,用途: 推断两个或多个总体率或构成比之间有无差别 两个分类变量之间有无关联性 频数分布拟合优度的检验。 检验统计量: 2值 资料类型:计数资料,第一节 四格表资料的 2 检验,适用:推断两个总体率(构成比)是否有差 别(大样本资料与u检验等价) 要求:两样本的两分类个体数排列成四格表 资料,一、 2 检验的基本思想 (一)2分布与2检验 设有标准正态变量Z, 其概率密度在(-,+)区间上呈中间

2、高,两边低且左右对称。Z2则不同,可能的取值范围为(0,+ ), Z12 +Z22 +Zk2 的分布称为自由度为K 的2分布,呈偏峰,随着自由度的增大,偏峰的情形逐渐改善,自由度相当大时接近正态分布。根据2分布界值表可以查到不同自由度的2分布的各种临界值。,2分布(chi-square distribution)是一种连续型分布,按分布的密度函数可给出不同自由度的一簇分布曲线。2分布的形状依赖于自由度的大小。,1、 2分布,3.84,7.81,12.59,P0.05的临界值,(1)由2分布曲线可见: 当v2,曲线呈L型 当v 增加,曲线趋于对称 当v时, 2分布趋近正态分布。 当v=1时, 2

3、 =u2,(2)2具有可加性 (3) 2界值(P715 附表8) 自由度一定时,x2值越大, P值越小。,2 检验的基本思想,例7-1 某院欲比较异梨醇口服液(试验组)和氢氯噻嗪+地塞米松(对照组)降低颅内压的疗效。将200例颅内压增高症患者随机分为两组,结果见表7-1。问两组降低颅内压的总体有效率有无差别?,表7-1 两组降低颅内压有效率的比较,实际数,理论数,本例资料经整理成图7-2形式,即有两个处理组,每个处理组的例数由发生数和未发生数两部分组成。表内有 四个基本数据,其余数据均由此四个数据推算出来的,故称四格表资料。,图7-2 四格表资料的基本形式,假定 成立 平均有效率 =87.00

4、% (174/200) 平均无效率 =13.00% (26/200) 试验组的预期(理论)有效人数 =104 (174/200) 试验组的预期(理论)无效人数 =104 (26/200) 对照组的预期(理论)有效人数 =96 (174/200) 对照组的预期(理论)无效人数 =96 (26/200),理论频数由下式求得:,式中,TRC 为第R 行C 列的理论频数 nR 为相应的行合计 nC 为相应的列合计,理论频数 T是根据检验假设H0成立,且用合并率0来估计的。,卡方检验的基本思想,式中,A为实际频数(actual frequency) T为理论频数(theoretical frequenc

5、y),检验统计量2值反映了实际频数和理论频数吻合的程度。,若检验假设H0:1=2成立,四个格子的实际频数A 与理论频数T 相差不应该很大,即统计量 不应该很大。如果 值很大,即相对应的P 值很小,若 ,则反过来推断A与T相差太大,超出了抽样误差允许的范围,从而怀疑H0的正确性,继而拒绝H0,接受其对立假设H1,即12 。,由公式(7-1)还可以看出: 值的大小还取决于 个数的多少(严格地说是自由度的大小)。由于各 皆是正值,故自由度愈大, 值也会愈大;所以只有考虑了自由度的影响, 值才能正确地反映实际频数A和理论频数T 的吻合程度。 检验的自由度取决于可以自由取值的格子数目,而不是样本含量n。

6、四格表资料只有两行两列,=1,即在周边合计数固定的情况下,4个基本数据当中只有一个可以自由取值。,(1) 建立检验假设,确定检验水平。 H0:1=2 即试验组与对照组降低颅内压的总体有效率相等 H1:12 即试验组与对照组降低颅内压的总体有效率不相等 =0.05。,3. 2检验的步骤,(2)求检验统计量值,二、四格表资料检验的专用公式,三、四格表资料检验的校正公式,2分布是一连续型分布,而四格表资料属离散型分布,由此计算得的统计量2的抽样分布亦呈离散性质。为改善 统计量2分布的连续性,则需行连续性校正。,四格表资料 检验公式选择条件:,,专用公式; ,校正公式; ,直接计算概率。,2连续性校正

7、仅用于=1的四格表资料,当 2时,一般不作校正。,例7-2 某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效,将78例脑血管疾病患者随机分为两组,结果见表7-2。问两种药物治疗脑血管疾病的有效率是否相等?,表7-2 两种药物治疗脑血管疾病有效率的比较,本例 ,故用四格表资料 检验的校正公式,,查 界值表得 。按 检验水准不拒绝 ,尚不能认为两种药物治疗脑血管疾病的有效率不等。,本资料若不校正时, 结论与之相反。,第二节,配对四格表资料的2检验,与计量资料推断两总体均数是否有差别有成组设计和配对设计一样,计数资料推断两个总体率(构成比)是否有差别也有成组设计和配对设计,即四格表资料和配对四格

8、表资料。,例7-3 某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统红斑狼疮患者血清中抗核抗体进行测定,结果见表7-3。问两种方法的检测结果有无差别?,(1) 两种检测结果比率比较(观察结果有无差异比较),表7-3 两种方法的检测结果,上述配对设计实验中,就每个对子而言,两种处理的结果不外乎有四种可能:,两种检测方法皆为阳性数(a); 两种检测方法皆为阴性数(d); 免疫荧光法为阳性,乳胶凝集法为 阴性数(b); 乳胶凝集法为阳性,免疫荧光法为 阴性数(c)。,其中,a, d 为两法观察结果一致的两种情况, b, c为两法观察结果不一致的两种情况。,检验统计量为,本法一般用于样本含量不太大

9、的资料。因为它仅考虑了两法结果不一致的两种情况(b, c),而未考虑样本含量n和两法结果一致的两种情况(a, d)。所以,当n很大且a与d的数值很大(即两法的一致率较高),b与c的数值相对较小时,即便是检验结果有统计学意义,其实际意义往往也不大。,检验步骤:,(2)配对四格表资料的关联性分析,两种检测结果的比较 HbsAg -HBc total 102(a) 49(b) 151 727(c) 1184(d) 1911 total 829 1233 2062,Pearson列联系数,第三节,四格表资料的Fisher确切概率法,条件: 理论依据:超几何分布 (非 检验的范畴),例7-4 某医师为研

10、究乙肝免疫球蛋白预防胎儿宫内感染HBV的效果,将33例HBsAg阳性孕妇随机分为预防注射组和非预防组,结果见表7-4。问两组新生儿的HBV总体感染率有无差别?,表7-4 两组新生儿HBV感染率的比较,一、基本思想,在四格表周边合计数固定不变的条件下,计算表内4个实际频数变动时的各种组合之概率 ;再按检验假设用单侧或双侧的累计概率 ,依据所取的检验水准 做出推断。 P值=所有小于等于样本点概率的各种组合的概率之和。,1各组合概率Pi的计算 在四格表周边合计数不变的条件下,表内4个实际频数 a,b,c,d 变动的组合数共有“周边合计中最小数+1”个。如例7-4,表内4个实际频数变动的组合数共有9+

11、1=10个,依次为:,各组合的概率Pi服从超几何分布,其和为1。,计算公式为,!为阶乘符号,2累计概率的计算 ( 单、双侧检验不同),(1)单侧检验 若现有样本四格表及其以左的所有四格表组合的累积概率为左侧概率,记为PL;若现有样本四格表及其以右的所有四格表组合的累积概率为左侧概率,记为PR; 若H1为12,则P单侧= PR;若H1为12,则P单侧= PL; (2)双侧检验 计算满足条件的各种组合下四格表的累计概率。若遇到或时,四格表内各种组合的序列呈对称分布,此时按单侧检验规定条件只计算单侧累计概率,然后乘以2即得双侧累计概率。,二、检验步骤( ),表7-5 例7-4的 Fisher确切概率

12、法计算表,例7-5 某单位研究胆囊腺癌、腺瘤的P53基因表达,对同期手术切除的胆囊腺癌、腺瘤标本各10份,用免疫组化法检测P53基因,资料见表7-6。问胆囊腺癌和胆囊腺瘤的P53基因表达阳性率有无差别?,表7-6 胆囊腺癌与胆囊腺瘤P53基因表达阳性率的比较,本例 a+b+c+d=10,由表7-7可看出,四格表内各种组合以i=4和i=5的组合为中心呈对称分布。,表7-7 例7-5的Fisher确切概率法计算表,*为现有样本,(1)计算现有样本P*。 P*=0.02708978。 (2)计算各组合下四格表的概率Pi。 (3)计算PiP*条件的四格表的累计概率。本例为P7和P8, (4)计算双侧累

13、计概率P。 P0.05,按=0.05检验水准不拒绝H0,尚不能认为胆囊腺癌与胆囊腺瘤的P53基因表达阳性率不等。,注意:,第四节 行列表资料的2检验,当 R2 or C2 两个以上的率的比较 两个或多个构成比的比较 按两种属性分类的频数表资料的关联性分析,行列表资料,多个样本率比较时,有R行2列,称为R 2表; 两个样本的构成比比较时,有2行C列,称2C表; 多个样本的构成比比较,以及双向无序分类资料关联性检验时,有行列,称为R C表。,检验统计量,基本公式 通用公式,一、多个样本率的比较,例7-6 某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效,资料见表7-8。问三

14、种疗法的有效率有无差别? 表7-8 三种疗法有效率的比较,检验步骤:,二、样本构成比的比较,例7-7 某医师在研究血管紧张素I转化酶(ACE)基因I/D多态(分3型)与2型糖尿病肾病(DN)的关系时,将249例2型糖尿病患者按有无糖尿病肾病分为两组,资料见表7-9。问两组2型糖尿病患者的ACE基因型总体分布有无差别?,表7-9 DN组与无DN组2型糖尿病患者ACE基因型分布的比较,检验步骤,三、双向无序分类资料的关联性检验,表中两个分类变量皆为无序分类变量的行 列表资料,又称为双向无序 表资料。,注意: 双向无序分类资料为两个或多个样本,做差别检验(例7-7);若为单样本,做关联性检验。,例

15、7-8 测得某地5801人的ABO血型和MN血型结果如表7-10,问两种血型系统之间是否有关联?,表7-10 某地5801人的血型,(单样本,做关联性检验),表7-10资料,可用行列表资料 2 检验来推断两个分类变量之间有无关系(或关联);若有关系,可计算Pearson列联系数C进一步分析关系的密切程度:,列联系数C取值范围在01之间。0表示完全独立;1表示完全相关;愈接近于0,关系愈不密切;愈接近于1,关系愈密切。,检验步骤,由于列联系数C=0.1883,数值较小,故认为两种血型系统间虽然有关联性,但关系不太密切。,四、行列表资料 检验的 注意事项,1行列表中的各格T1,并且1T5的格子数不

16、宜超过1/5格子总数,否则可能产生偏性。处理方法有三种:,增大样本含量以达到增大理论频数的目的; 根据专业知识,删去理论频数太小的行或列,或将理论频数太小的行或列与性质相近的邻行或邻列合并。这样做会损失信息及损害样本的随机性。 改用双向无序RC表的Fisher确切概率法。,2多个样本率比较,若所得统计推断为拒绝H0,接受H1时,只能认为各总体率之间总的来说有差别,但不能说明任一两个总体率之间均有差别。要进一步推断哪两两总体率之间有差别,需进一步做多个样本率的多重比较(见第五节)。 3.对于有序的表资料不宜用2检验,应根据其分类类型和研究目的选用恰当的检验方法(见第六节)。 (因为行列表资料的检

17、验与分类变量的顺序无关,当有序变量的表资料中的分类顺序固定不变时,无论将任何两行(或两列)频数互换,所得值皆不变,其结论相同,这显然是不妥的)。,第五节 多个样本率间的多重比较,一、基本思想,二、 多个实验组间的两两比较,例7-9 对例7-6中表7-8的资料进行两两比较,以推断是否任两种疗法治疗周围性面神经麻痹的有效率均有差别?,检验步骤,本例为3个实验组间的两两比较,表7-12 三种疗法有效率的两两比较,三、各实验组与同一个对照组的比较,例 7-10 以表7-8资料中的药物治疗组为对照组,物理疗法组与外用膏药组为试验组,试分析两试验组与对照组的总体有效率有无差别?,本例为各实验组与同一对照组

18、的比较,第六节 有序分类资料的线性趋势检验,一、RC表资料的分类及其检验方法的选择 1、双向无序C表 2、单向有序C表 3、双向有序属性相同的C表 4、双向有序属性不同的C表,1.双向无序RC表 多个样本率或构成比的比较 (行列表资料的2检验) 分析两个变量间有无关联性及密切程度 ( 2检验及pearson列联系数),2、单向有序C表 分组变量有序(如年龄),指标变量无序(如传染病类型) (行列表资料的2检验) 分组变量无序(如疗法),指标变量有序(如疗效按等级分组) (秩和检验、行平均分差检验),3、双向有序属性相同的C表 配对设计的扩展 (一致性检验) (特殊模型分析),4、双向有序属性不

19、同的C表 考虑各组有无差别(秩和检验) 考虑两有序分类变量间是否存在相关(等级相关分析) 考虑两有序分类变量间是否存在线性变化趋势(线性趋势检验),双向有序分类变量,且属性不同。,双向有序且属性不同资料的线性相关分析的基本思想:,有序分组资料的线性趋势检验,计算步骤:,不仅有相关关系,而且为线性关系,7-13,第七节 混杂因素作用的估计与分层分析,按饮酒与否分层 计算OR值,饮酒者中吸烟的OR(2.98)稍高于不分层OR(2.87) 不饮酒者中吸烟的OR(1.67)却低得很多 表明饮酒是混杂因素,饮酒似可加强吸烟的作用,按饮酒与食管癌的关系列表计算 2=31.9, OR=2.87 可见饮酒与食管癌有联系,计算合并OR与2值 公式(M-H法): 合并 合并,=37.74,=2.42,经饮酒分层调整后,吸烟的2与OR(即合并2与合并OR)虽较未调整的2 (55.5)与OR(2.87)为低,但仍有一定强度与统计学上的显著性。 吸烟与食管癌之间有显著的关联 饮酒是吸烟与食管癌之间的混杂因素,似能加强吸烟的作用,2,M-H,分层计算结果整理表,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1