危险度分析和Logistic回归.ppt

上传人:本田雅阁 文档编号:3191094 上传时间:2019-07-25 格式:PPT 页数:47 大小:220.01KB
返回 下载 相关 举报
危险度分析和Logistic回归.ppt_第1页
第1页 / 共47页
危险度分析和Logistic回归.ppt_第2页
第2页 / 共47页
危险度分析和Logistic回归.ppt_第3页
第3页 / 共47页
危险度分析和Logistic回归.ppt_第4页
第4页 / 共47页
危险度分析和Logistic回归.ppt_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《危险度分析和Logistic回归.ppt》由会员分享,可在线阅读,更多相关《危险度分析和Logistic回归.ppt(47页珍藏版)》请在三一文库上搜索。

1、危险度分析和Logistic回归 第十七章 上海第二医科大学 生物统计教研室 危险度分析和LOGISTIC回归主要用于 研究影响肿瘤和其它各种疾病的发病因素 或预后因素。 一般的相对危险度计算通常用于单因 素分析。 LOGISTIC回归可用于多因素分析。 第十七章危险度分析和Logistic回归 第一节 发病危险度比较的统计指标 病因分析(或预后分析)的目的:找 出影响疾病发生(或预后好坏)的原因及 其影响的强度。 如果某因素对疾病发生有影响,就称 该因素与疾病发病有联系,而联系的强度 则反映该因素对疾病发生影响的大小。 危险度分析就是分析某因素对疾病发 生是否有关,以及关系的大小。 第一节

2、发病危险度比较的统计指标 危险度(RISK):通常指某个不幸事 件发生的概率。危险度大表示发生的可能 性大。 某病发病危险度:就是观察对象在观 察期间发生某病的概率,即某病发病率。 研究发病危险度的统计指标常有相对 危险度,特异危险度和人群特异危险度。 一相对危险度 相对危险度(relative risk)简记为RR,人群总体 中暴露于某因素者的发病率P1与不暴露于某因素者的 发病率P0之比值称为该因素对于该疾病发病的相对危 险度,即: RR1时,表示该因素为危险因素,使发病危险度增大; RR20.01=6.635,故P0.01,拒绝H0,认为总体比数比不 为1,患子宫内膜癌与绝经期使用过雌激

3、素有关;并估计绝经 期使用过雌激素的妇女患子宫内膜癌的相对危险度是不用者 的3.71倍。 病例对照研究优点: 简单易行,不需长期随访,特别适用 于研究发病率低的疾病。 病例对照研究缺点: 回顾性研究,从果到因,不合理,可 靠性差。 一成组病例对照研究 二分层分析 有时在分析某危险因素与疾病之间的关系时, 有 些额外因素会对所分析的问题起干扰作用,这些额外因 素就称为混杂因素。它能部分甚至全部掩盖危险因素 与疾病之间的真实关系,故必须设法排除。例如要研究 卫生状况与某传染病发病之间的关系,但传播可能与居 住密度有关 ,故居住密度对所研究的问题就成为一个 混杂因素,如果结论中未排除该因素之干扰,将

4、影响推 断之可靠性。以下这个假设例说明混杂因素所起的干 扰作用,假定混杂因素分为2个水平(,) 表17.3 混杂因素干扰的假设例 混杂因素未分层 混杂因素分层分析 暴露 非暴露 暴露 非暴露 暴露 非暴露 病例 300 56 294 21 6 35 对照 700 944 606 79 94 865 二分层分析 但将混杂因素分为两层后,层的分别仅 为1.83,1.58。 由此可见该混杂因素的干扰会导 致不正确的推断。分层分析有助于克服混杂因素 之干扰。 分层分析(Stratified Analysis)是对可能的 混杂因素(常常是性别,年龄,或其它有关条件)进 行分层,使得每一层内混杂因素处于同

5、一水平上, 这样就可排除它的干扰。 二分层分析 K层22表统计分析步骤: 以P323,例17.4为例,根据年龄分为5层 (1)计算各层的比数比,作显著性检验。 (2)检验各层的总体比数比是否相同。 如差异有统计学意义,结束。 (3)如差异无统计学意义, 计算公共比数比。 (4)检验公共比数比和1之间的差异是否有统计 学意义。 三配对病例对照研究 在成组病例对照研究中,为了排除混杂因素 的干扰可以使用分层分析,但当可能的混杂因素 较多时,所分层次就会很多,而且必须调查较大的 样本, 否则各层中频数就会太小,这种情况有时 会给工作带来困难,一个较好的控制混杂因素的 办法就是配对病例对照研究(Pai

6、red Case- Contral Study)。 本方法的基本点就是对每一名病例, 选择一 名或数名各种控制因素与病例相近的非病例作为 对照者,在调查一开始就把他们配成对 ,然后一对 对地进行比较分析。这样做可以使各对内部保持 均衡,尽可能排除或减少混杂因素的影响,从而提 高分析的效能。配对因素可以是按属性分类的变 量,如性别、民族、血型、职业、既往病史等,也 可以是连续性变量,如年龄、血压、某种生理、生 化指标等。 三配对病例对照研究 Logistic回归是一个较好的,目前常用的,控 制混杂因素的多因素分析方法。 多变量分析中使用的多元线性回归模型,应变量 y常取为一个计量数据。 Logi

7、stic回归中y呈现为二 值变量形式。如发病与不发病,死与活,成功与失败 ,阳性与阴性, 等等。当应变量只取二个数值时常记 为1与0,在SAS的logistic回归中最好记成1与2。 Y=1: 反应,如: 发病,死亡,成功 Y=2:不反应,如:不发病,存活,不成功 第五节 Logistic回归 Y:反应变量(response variable) X: 协变量(covariate),解释(explanatory)变量, 伴随变量等, X可以呈现二值变量的形式,也可以计量的或等 级的指标。 logistic回归是一种概率模型。设P为Y呈现反 应值为1的概率,P=P(Y=1),则Q=1-P,为呈现非

8、反应 值的概率,Q=P(Y=2)。 P与各协变量Xi之间的关系可用下式表示。 第五节 Logistic回归 发病的概率: P=exp(b0+b1x1+bmxm)/1+exp(b0+b1x1+bmxm) 不发病的概率: Q=1-P=1/1+exp(b0+b1x1+bmxm) P/(1-P)=exp(b0+b1x1+bmxm) 定义y=lnP/(1-P)为logit变换,它是比数的自然对数 值,则有 y=lnp/(1-p)= b0+b1x1+bmxm 第五节 Logistic回归 SAS的Logistic回归和多元回归一样,也可用 逐步剔选的方法选择变量,使方程内变量都显著 ,方程外变量都不显著,

9、称为逐步Logistic回归。 Logistic回归模型既适用于队列研究又适用 于病例对照研究。 第五节 Logistic回归 1. 在队列研究中用于预测 把各协变量代入方程,得到P值,即发病的概率 。 2. 因素分析 分析哪些因素(协变量)对疾病的发生有显著 作用。 对各偏回归系数作显著性检验,如显著,则说 明在排除其它因素的影响后,该因素与发病有显著 关系。 Logistic回归的应用 3. 求各因素在排除其它因素的影响后,对于发 病的相对危险度(或比数比) 如某因素Xi的偏回归系数为bi, 则该因素Xi对于发病的比数比为exp(bi) (1) 当Xi为二值变量时,如吸烟(1=吸,0=不吸

10、 ) exp(bi)为吸烟对于发病的比数比 Logistic回归的应用 (2)当Xi为等级变量时,如吸烟(0=不吸,1=少 量,2=中等,3=大量)。 exp(bi)为每增加一个等级,发病的相对危险 度 如大量对于不吸其发病的相对危险度为: exp(3bi) (3)当Xi为连续变量时,如年龄(岁) exp(bi)为每增加一岁时,发病的相对危险度 如60岁相对于35岁其发病的相对危险度为 exp(25bi) Logistic回归的应用 4. 比较各因素对于发病的相对重要性 比较各标准化偏回归系数bi 绝对值的大小,绝对值 大的对发病的作用也大。 5. 考察因素之间的交互作用 如考察XL和XK之间

11、的交互作用是否显著,再增加一 各指标:XLK= XL*XK ,如其偏回归系数bLK显著,则XL 和XK之间的交互作用显著。 6. Logistic回归也可用于二类间的判别分析。 Logistic回归的应用 判别分类表 预测值 观察值 合计 不治愈 治愈 不治愈 17 6 23 治愈 5 87 92 合计 22 93 115 判别分类表 敏感性(Sensitivity)=实际不治愈病例中所预测不治愈比例 17/23=73.9% 特异性(specificity)=实际治愈病例中所预测治愈比例 87/92=94.6% 正确率(correct)=预测正确的病例数 / 总病例数 (17+87)/ 115

12、=90.4% 假阳性率(false positive rate)=预测不治愈而实际治愈比例 5/22=22.7% 假阴性率(false negative rate)=预测治愈而实际不治愈比例 6/93=6.5% 由此可得LOGISTIC回归方程为: P/(1P)EXP(-17.96+3.63X5+1.60X6+1.91X7+2.57X8) 方程内各偏回归系数都大于零,因此这些变量数值越大不 治愈的概率越大。 根尖X线片有阴影的,换药次数多的,根管充填不密合或超 填的,医生经验不丰富的病人不容易治愈。 对象和方法: 1)一般的样本描述:样本来源,例数,死亡数,存活数。性别和年龄构 成情况等。 2

13、)各指标含义及其数量化情况。 X1A:胃癌位置是否胃底, 胃底=1, 非胃底=0。 。 YY:手术后3年是否死亡,死亡=1,存活=0 。 3)统计方法: 用SAS6.12统计软件包进行数据处理和统计分析。 单变量分析时,计数资料用卡方检验,或确切概率计算比较各水平 的死亡率;计量资料用t检验比较死亡组和存活组的均数之差异。 多变量分析用逐步LOGISTIC回归。以手术后3年是否死亡(YY)作 为反应变量,其余指标为协变量。剔选变量的P值均取0.05。 结果: 1)单变量分析结果: 如需详细给出结果,可对每个变量给出一个RC表或四 格表,包含各水平的死亡率和各水平死亡率比较的P值;对 于计量指标

14、给出死亡组和存活组的例数,均数和标准差以 及两均数差异显著性检验的P值。 如只需给出简单结果,可仅给出对于是否死亡有显著 作用的指标的情况。 2)LOGISTIC回归结果: 给出最后一步方程内变量的情况。 指标 偏回归系数 标准误 P值 标准偏回归系数 常数项 -2.8770 2.0954 0.1697 . X3C 2.2844 1.0210 0.0253 0.519452 X5 1.0102 0.3147 0.0013 0.931773 X6 1.6321 0.5449 0.0027 0.837360 X8 -0.5764 0.1874 0.0021 -0.917033 X9 0.00038

15、6 0.000186 0.0384 0.392918 各指标的相对危险度: 大体类型为浸润对于非浸润3年内死亡的相对危险度为: e2.2844=9.82 胃癌深度级别每增加1级: e1.0102=2.75 淋巴结转移级别每增加1级: e1.6321=5.11 血色素每减少1g/L: e0.5764=1.78 白细胞数每增加1000个/mm3:e0.386 =1.47 从标准偏回归系数的绝对值大小可得: 胃癌深度级别,淋巴结转移级别和血色素对于手术 后3年生存率的影响较大,胃癌的大体类型和白细胞数淋 巴结转移级别和血色素对于手术后3年生存率的影响较小 。 LOGISTIC回归方程为: y=ln(

16、P/(1-P)= -2.8770+2.2844 大体类型为浸润 +1.0102 胃癌深度级别 +1.6321 淋巴结转移级别 -0.5764 血色素(g/L) +0.000386 白细胞数(个/mm3) 用此LOGISTIC回归方程对于这98例样本进行回代判别 ,如P大于0.5判为死亡,P小于0.5判为存活,结果如下 : 回归方程判别结果 实际情况 死亡 存活 合计 死亡 47 7 54 存活 9 35 44 合计 56 42 98 敏感性(Sensitivity)=实际死亡病例中所预测死亡比例 47/54=87.0% 特异性(specificity)=实际不死亡病例中所预测不死亡比例 35/44=79.5% 正确率(correct)=预测正确的病例数 / 总病例数 (47+35)/ 98=83.7% 假阳性率(false positive rate)=预测死亡而实际不死亡比例 9/56=16.1% 假阴性率(false negative rate)=预测不死亡而实际死亡比例 7/42=16.7%

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1