计数资料的统计描述与卡方检验.ppt

资源描述

《计数资料的统计描述与卡方检验.ppt》由会员分享，可在线阅读，更多相关《计数资料的统计描述与卡方检验.ppt（82页珍藏版）》请在三一文库上搜索。

1、计数资料的统计描述与卡方检验,四川大学华西医院康德英,临床研究中计数资料来源、分类,本身设置为分类变量(PI/ECOT) 从计量资料转化而来:,如评价降压疗效时，将舒张压降低值分为三类： 5mmHg 无效 5-10mmHg 有效 10-20mmHg 显效 Note:计量资料转化为计数资料，过程本身损失信息，应慎重。,计数资料的分类,无序分类：二项或二分类：对立、不相容的两类。如疗效：病死与未愈,感染与否等。多项或多分类：互不相容的多类。如感染部位、感染分型等有序分类：类间不相容且有程度差别。如疗效：痊愈、显效、好转、无效。,特点：无度量衡单位；定性测量,在赋值时应考虑类型而定。

2、* 二分类变量: 0,1 * 有序多分类：多采用等间距赋值如 -、+、+、+（0、1、2、3） * 少量非线性关系有序多分类赋值：考虑哑变量 * 无序多分类变量赋值： A、B、AB、O 1 2 3 4？,计数资料的分类赋值,采用哑变量方法:dummy variable,革阳菌的哑变量赋值为（1，0，0），革阴菌哑变量赋值为（0，1，0），真菌哑变量赋值为（0，0，1）,一、计数资料的统计描述方法,（一）图表: 频数表,直条图，饼图,变量类型的判断,1、频数表,9名感染病例的职业状况,部分原始数据,2、直条图,直条图(bar 条形图)：分类变量资料的频数图，条与条间独立，顺序可不固定。与Hi

3、stgram不同,饼图/圆饼图/圆图/pie图,百分条图 (percent bar),（二）率、比 (构成比、相对比),1、率 (rate, frequency),率又包括频率指标(frequency)和强度指标(rate)，用来测量一定时期内，某人群特定事件发生的频率或强度。率=(发生某现象的观察单位数)/(某时间段可能发生某现象的观察单位数) 常用百分率（感染率）、千分率、10万分率（肿瘤发病率）表示。,率是一个动态指标，在观察期内看特定人群中某事件的变化。率有时间单位观察时间影响率的大小。,与医院感染有关的率,医院感染发生率医院感染罹患率医院感染患病率（即现患率）,医院感染发生率

4、,是指一定时间内某人群中新发病例的频率。公式=（同一时期内新发生医院感染例数/同一时期内处于危险中病人数）100% 或公式=（同期新发生医院感染例数/同期住院病人人数或出院病人数）100%,观察时间可为年、季、月，一般为年。年发病率/月发病率/季发病率,医院感染罹患率(同发生率),公式：（同期新发生医院感染例数/观察期间具感染危险的住院病人数）100%,计算医院感染率时，分子确定要注意：病例的感染时间要“落入”观察期内，即必须是新病例。注意病例与病人的区别。感染必须确诊,分母：可能发生感染的人数,其范围界定很关键,暴露人群又称危险人群，指发生感染的可能人群应排除那些已感染或因年龄、

5、免疫等因素而不会感染的病人？,现患率,也称患病率或流行率，指某特定时间某人群中感染人数所占比重或比例。公式=（特定时间存在的医院感染例数/观察期间处于感染危险中的病人数）100% 现患率主要在基线调查研究中使用，一般用调查病人数作为分母。也用于评价感控效果。,计算现患率时应注意：分子包括新、老感染病人，只要调查时正处于感染状态，均计算在内。分母调查人数,可分为时点现患率与期间现患率 point prevalence period prevalence 调查时应尽量缩短调查时间 cross-sectional study /Cohort study,2、构成比 (proportion),说

6、明某一事物内部各组成部分所占的比重和分布，常用百分数表示（0%-100%）。,构成比是一特定时间（time point）某特定事件在总体事件数中所占的比重。 proportion=a/(a + b + c+) 是一个静态指标无时间单位,3、相对比 (ratio),相对比是A、B两个指标之比，是比较两独立事件数量大小关系指标（独立指互不包含）：比=A/B 两个指标可性质相同，可不同；绝对数、相对数或平均数。是一个静态指标，反映一特定时间（time point）的情况。无时间单位,例1 某医院院内感染汇总分析,月份出院人数感染人数感染率构成比相对比 1月份 584 8 1.37 8

7、.8 - 2月份 571 10 1.75 11.0 1.28 3月份 714 12 1.68 13.2 1.23 4月份 748 16 2.14 17.6 1.56 5月份 942 21 2.23 23.0 1.63 6月份 1095 24 2.19 26.4 1.60 合计 91,计数资料的统计描述：率与比的综合应用,（三）、计数资料统计描述的注意事项,计算率时要求分母不宜过小。少于10例则直接描述。,例2 血清TPS检出率与消化道肿瘤淋巴结转移关系,分析时不能以构成比代率例3 某作者调查医院感染病例，获得如下数据：,结论：说明60岁年龄组最容易发生感染。,（四）、率的标准化,例4 甲、

8、乙两个医院感染率比较病情程度甲医院乙医院例数感染数感染率例数感染数感染率重 800 160 20% 100 30 30% 中 200 20 10% 400 60 15% 轻 100 5 5% 1000 100 10% 合计 1100 185 16.8% 1500 190 12.7%,1、标准化法的基本方法,方法1：采用标准人口构成与原始分组率，计算标准化率，直接比较。方法2：采用分组标准化率与原始人口，计算标准化比，间接比较。,1）、直接法-标准人口,病情程度甲医院乙医院例数感染数感染率例数感染数感染率重 800 160 20% 800 240 30%

9、中 200 20 10% 200 30 15% 轻 100 5 5% 100 10 10% 合计 1100 185 16.8% 1100 280 12.7% 25.4%,2）、间接法：分组标准率,病情程度甲医院乙医院例数感染数感染率例数实际预期感染数感染数重 800 160 20% 100 30 20 中 200 20 10% 400 60 40 轻 100 5 5% 1000 100 50 合计 1100 185 16.8% 1600 220 110 计算标准化感染比（SIR）=（实际感染数与预期感染数比）=220/110=2；SIR1, 表示被标化组的感染率高于标准组

10、。,2、标准化率的注意事项,条件:比较双方应同质、同时、同地，比较的两组应选用同一标准。标准选用不同，标化率可不同。标准化率只是两组的相对水平，不反映实际的情况，只能用于比较。总体标准化率比较也需进行假设检验。,（五）以率/比基础的二级指标,相对危险度（RR）比数比（OR）绝对危险度（AR） NNT,用来表达危险度的大小或关联程度,OR、RR,OR（比数比）、RR（相对危险度）适用条件：对于RCT试验：可以计算OR、RR 对于病例对照研究：只能计算OR,1、相对危险度（率比）,组别感染未感染合计感染率治疗组 a b a+b Pe 对照组 c d c+d Pc 合计 a+c

11、 b+d a+b+c+d RR（相对危险度）为治疗组与对照组的感染率之比。RR=Pe/Pc,实例（例5）分析,组别未感染感染合计感染率治疗组 90 10 100 0.1 对照组 80 20 100 0.2 某种抗生素预防院内感染的疗效分析。,RR计算的实例演示,治疗组发生感染的危险度（率）=10/100=0.10 对照组发生感染的危险度（率）=20/100=0.20 相对危险度（RR）=0.5,2、比数比（OR）,组别暴露非暴露合计暴露/非暴露比病例组 a b a+b a/b 对照组 c d c+d c/d 合计 a+c b+d a+b+c+d OR（比数比）为病例组暴露与

12、非暴露的比例与对照组暴露与非暴露的比例之比；OR=ad/bc,OR计算的实例演示,比数比又常称为机会比/优势比/比值比。,组别未感染感染合计感染率治疗组 90 10 100 0.1 对照组 80 20 100 0.2 某种抗生素预防院内感染的疗效分析本例OR=0.44。,OR、RR临床（实际）意义,OR、RR1，表明暴露因素为危险因素，偏离1越远，表示危险性越强 0OR、RR1，表明暴露因素为保护因素，离0越近，表示保护性越强 OR、RR=1，表明暴露因素与结果无关,注意：暴露因素和结果的赋值标准化：1表示暴露，0表示未暴露；1表示感染，0表示未感染。否则结论可能刚好相反。,相对危

13、险度与比数比的关系,例6:治疗组感染率=10/100=0.1;对照组感染率0.2 RR=0.5 OR=0.44 例7:治疗组感染率=5/100=0.05；对照组感染率=10/100=0.1 RR=0.5 OR=0.48 当率较低，如小于10%时， RR值与OR值近似相等。率值越小（罕发事件），越接近。对大规模临床随机对照试验：OR、RR可使用。,3、绝对危险度（率差）,对照组感染率40%,试验组20%,RR=0.5? 对照组感染率10%,试验组5%,RR=0.5? AR为两个率的绝对差值：即对照组率-治疗组率,绝对危险度实例计算,对于感染率研究：绝对危险度为：20%-10%=0.1 （常用

14、百分数表示：10%）治疗能使感染率的危险度减少10%左右,4、NNT,NNT（Numbers Needed to Treat）：为避免一例不良事件发生而需要治疗的病例数.其值为绝对危险度的倒数（1/AR）类似还有：NNH（Numbers Needed to Harm）。,NNT实例演示,如果治疗一个病人能减少感染的0.10危险度，即我们能挽救0.1个人。那么为挽救一个完整的人，需要治疗多少病人？NNT=1/0.110 需要治疗10个病人，才能比对照组多减少1个感染病例。,计数资料统计描述小结,率与比可用来描述某事件发生机会的大小。二分类变量资料描述相对危险度（RR）与比数比（OR）是

15、用来描述两组间事件发生的机会之比。当事件的发生机会较大时，RR与OR相差较大；当为罕发事件时， RR OR。绝对危险度是指率差，NNT为避免一例不良事件发生而需要治疗的病例数。,二、计数资料的假设检验 - 卡方检验- Pearson Chi-square test,KarlPearson,18571936，生卒于伦敦，公认为统计学之父。 1879年毕业于剑桥大学数学系；曾参与激进的政治活动，还出版几本文学作品，并且作了三年的实习律师。1884年进入伦敦大学学院，教授数学与力学，从此在该校工作一直到1933年。 K Pearson 最重要的学术成就，是为现代统计学打下了坚实基础。KPear

16、son 在1893-1912年间写出18篇在进化论上的数学贡献的文章，而这门“算术”，也就是今日的统计。许多统计名词如标准差，成分分析，卡方检验(1900)都是他提出。,2检验的主要应用,推断两个/两个以上总体率或构成比有无差别; 两分类变量间有无相关的假设检验(独立性); 拟合优度检验（理论分布与实际分布的吻合情况检验）。,（一） 2 检验主要类型,四格表资料的2检验 22列联表的2检验 RC表资料的2检验,卡方检验基本思想: 以四格表资料为例,例8、为探讨医院感染与使用呼吸机的关系，某医院感控部门进行了横断面调查，使用呼吸机者77例，发生感染17例，未使用呼吸机的1821人中，有69例发生

17、感染，问两组感染现患率有无差别?,表1 两组医院感染率的比较,2 检验的基本思想,1、建立假设,H0：两组感染率相等， H1：两组感染率不等, =0.05,*两组的总体感染率相等,均等于合并感染率 =86/1898=4.53%,为反映所有格子的吻合情况,所有差值求和,(A-T)=0 (正负抵消)，差值和可定义为(A -T)2 ; 相对比例保持不变,T值越大, (A-T)2值越大,为消除其影响,差值定义为: (A-T)2/T,2、计算统计量2 在样本量足够大时,该值服从于自由度为=(行数-1)(列数-1) 的2 分布。即2检验公式: 2 = (A-T)2/T 2分布是一簇连续性分布,与自由度有

18、关;在自由度固定时, 2值越大,P值越小,反之亦然. 在无效假设成立时: 2值一般不会很大,出现大的2值的概率P是很小的,若P( 检验水准),则没有理由拒绝它。,3、 P值与2分布,2值反映了实际频数与理论频数的差值大小 2值大小与p值呈反比关系，即2 值越大，P值越小；反之亦然。 2值达到界值点，就有理由认为成立的可能性不大，是小概率事件，因而拒绝H0 。对于四格表资料:0.052=3.84,四格表资料2 检验计算结果,本例2 值=53.0，自由度为1，查2 界值表,得p0.05，按照=0.05的水准，拒绝H0，而接受H1，可认为两组总体感染率不同,四格表资料的应用条件,当T5,而n40时

19、, 选用一般计算公式当140时, 需计算校正公式当T1或n40时,选用Fisher确切概率法1934,连续性校正仅用于四格表资料，当超过四个格子时，一般不作Yate校正.,（二）、2X2列联表(配对设计),1、资料特点与分析目的,资料的特点：配对计数资料分析目的： A：两法检验结果有无关系（四格表2检验） B：两法检验有无差别（专用公式）。,2、假设检验（1）：相关分析,检验目的：两法检验结果有无关系。 H0：两法检验结果无关系 H1：两法检验结果有关系 =0.05 2值=38.85，=1 确定P值: 查卡方界值表,得P0.005, 按照=0.05的水准，拒绝H0，而接受H1，可认为两法

20、检验结果有关。计算Pearson列联系数反映相关程度sqrt(2/2+n)。(本例为r=0.294),3、假设检验（2）：差别分析,检验目的：两法检验结果有无差别 H0：两总体b=c H1：两总体bc =0.05 确定P值: 查卡方界值表,得P0.005, 按照=0.05的水准，拒绝H0，而接受H1，可认为两法检验结果不同.甲法的阳性检出率高。,4、2X2列联表差别检验的应用条件,当b+c40时，公式可简化(McNemar)：,2X2列联表资料的分析特点,对此类资料可以做两方面的分析：相关分析：采用一般的四格表公式差别分析：采用专用公式(b、c不宜过小) 对上例结果：两类检验方法结果是有

21、关的，且有差别，甲法好于乙法。,（三）、多个样本率比较,适用资料特征:行X列表（RXC）-多个率比较的 2 检验。应用条件：不能有1/5格子的理论频数小于5，或最小理论频数小于2。若不满足，可采用方法: 增加样本例数以增加理论频数; 删除上述理论频数太少行或列; 将理论频数太小性质行或列相近实际频数合并。 Fisher确切概率法,卡方检验：P=0.037,（四）特殊行X列表资料的分析,列联表：有序行X列表资料, 行变量、列变量的属性分为：双向均无序单向有序双向均有序属性相同双向均有序属性不同,A、对于双向无序资料：若比较多个样本率（或构成比），可用行列表资料卡方检验；若分析两个

22、分类变量之间有无关联性以及关系的密切程度时，可用行列表卡方检验以及Pearson列联系数进行分析sqrt(2/2+n)。,卡方检验：19.54，P0.001,B、单向有序资料分组变量（如年龄）有序，而结果变量（如传染病的类型）无序，分析不同组结果构成情况，可用行列表卡方检验进行差别分析。分组变量（如疗法）无序，而结果变量（如疗效按等级分组）有序，比较不同组别疗效，应用秩和检验,C、双向有序、属性相同资料两个分类变量皆为有序且属性相同。如两实验室、两人用同一检测方法检测同一批样品的测定结果。其研究目的通常是分析两实验室、两人测量结果的一致性，此时宜用一致性检验或称Kappa检验。 0.93

23、-1.00 0.81-0.92 0.61-0.80 0.41-0.60 0.21-0.40 0.0-0.20,D、双向有序、属性不同资料若分析不同年龄组患者疗效之间有无差别时，可把它视为单向有序表资料，选用秩转换非参数检验；若分析两个有序分类变量间是否存在相关关系，宜用Spearman相关或Pearson相关分析；若分析两个有序分类变量间是否存在线性变化趋势，宜用线性趋势检验。,双向有序资料-列联表,特点：双向有序、行变量和列变量属性不同的资料。分析目的：独立性/相关性分析。,实例分析,P0.005, 按照=0.05的水准，拒绝H0，而接受H1，可认为矽肺期次与肺门密度级别之间有关,三、误用卡方检验的实例分析,实例11,例12、某检验法在病毒感染诊断上的应用，表13摘自该文附表,趋势卡方值=8.29,

展开阅读全文