7_多元Logistic_回归分析PPT课件.ppt

上传人:scccc 文档编号:11896643 上传时间:2021-10-20 格式:PPT 页数:69 大小:402.50KB
返回 下载 相关 举报
7_多元Logistic_回归分析PPT课件.ppt_第1页
第1页 / 共69页
7_多元Logistic_回归分析PPT课件.ppt_第2页
第2页 / 共69页
7_多元Logistic_回归分析PPT课件.ppt_第3页
第3页 / 共69页
7_多元Logistic_回归分析PPT课件.ppt_第4页
第4页 / 共69页
7_多元Logistic_回归分析PPT课件.ppt_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《7_多元Logistic_回归分析PPT课件.ppt》由会员分享,可在线阅读,更多相关《7_多元Logistic_回归分析PPT课件.ppt(69页珍藏版)》请在三一文库上搜索。

1、授课:XXX,1,多元统计分析方法,The Methods of Multivariate Statistical Analysis,授课:XXX,2,多元Logistic 回归分析,Multiple Logistic Regression Analysis,第七章,授课:XXX,3,主要内容,Logistic 回归分析的基本概念 Logistic 回归分析的数学模型 Logistic 回归模型的建立和检验 Logistic 回归系数的解释 配对病例-对照数据的logistic回归分析,授课:XXX,4,回归分析的分类,连续型因变量 (y) - 线性回归分析,多个因变量 (y1,y2yk),分

2、类型因变量 (y) -Logistic 回归分析,时间序列因变量 (t) -时间序列分析,生存时间因变量 (t) -生存风险回归分析,路径分析 结构方程模型分析,一个因变量 y,回忆:,授课:XXX,5,医学研究中经常遇到分类型变量,二分类变量: 生存与死亡 有病与无病 有效与无效 感染与未感染 多分类有序变量: 疾病程度(轻度、中度、重度) 治愈效果(治愈、显效、好转、无效) 多分类无序变量: 手术方法(A、B、C) 就诊医院(甲、乙、丙、丁),授课:XXX,6,医学研究者经常关心的问题,哪些因素导致了人群中有的人患胃癌而有的人不患胃癌? 哪些因素导致了手术后有的人感染,而有的人不感染? 哪

3、些因素导致了某种治疗方法出现治愈、显效、好转、无效等不同的效果?,是回归分析问题: Y=f(x),授课:XXX,7,如何解决这样的问题?,不存在,授课:XXX,8,1、什么是Logistic 回归分析?,研究因变量y取某个值的概率变量p与自变量x的依存关系。,p=p(y=1|x)=f(x),第一节 Logistic 回归分析的概念,授课:XXX,9,2、Logistic回归分析的分类,按数据的类型: 非条件logistic回归分析(成组数据) 条件logistic回归分析(配对病例-对照数据) 按因变量取值个数: 二值logistic回归分析 多值logistic回归分析 按自变量个数: 一元

4、logistic回归分析 多元logistic回归分析,Logistic回归分析,授课:XXX,10,第二节 Logistic 回归分析的数学模型,令y是1,0变量,x是任意变量,p=p(y=1|x) ,那么,二值变量y关于变量x的一元logistic 回归模型是:,其中,和是未知参数或待估计的回归系数。该模型描述了y取某个值(这里y=1)的概率p与自变量x之间的关系。,(1) 二值一元logistic回归模型:,授课:XXX,11,令y是1,0变量,x1,x2,xk是任意k个变量; p=p(y=1|x1,x2,xk),那么,变量y关于变量x1,x2,xk 的k元logistic回归模型是:,

5、(2) 二值多元logistic回归模型:,注意:对于二值Logistic回归模型,Y=0的模型是:,p = p(y=0|x1,xk ) = 1 - p(y=1|x1,xk),授课:XXX,12,Logistic 回归模型的另外一种形式,它给出变量z=logit(p)关于x 的线性函数。,授课:XXX,13,(3) 多值logistic回归模型:,例如,当y取值1,2,3时,logistic回归模型是:,P1 = p(y=1) = P1 P2 = p(y=2) =P2-P1 P3 = p(y=3) =1-P2,累积概率模型,独立概率模型,授课:XXX,14,1、估计参数 - 最大似然法 2、检

6、验参数的显著性 H0: j=0 vs H1: j0 3、检验模型的显著性 H0: 1=k=0 vs H1: j0 4、解释参数的实际意义,第三节 Logistic回归分析方法步骤,授课:XXX,15,例1、自变量是二值分类型变量某医院为了研究导致手术切口感染的原因,收集了295例手术者情况,其中,手术时间小于或等于5小时的有242例,感染者13例;手术时间大于5小时的有53例,感染者7例。试建立手术切口感染(y)关于手术时间(x)的logistic回归模型。,46,53,授课:XXX,16,data eg7_1a; input y x wt ; cards; 1 1 7 1 0 13 0 1

7、46 0 0 229 ; run; proc logistic descending ; model y=x ; weight wt; run;,SAS程序,授课:XXX,17,The LOGISTIC Procedure Data Set: WORK.EG7_1A Response Variable: Y Response Levels: 2 Number of Observations: 4 Weight Variable: WT Sum of Weights: 295 Link Function: Logit Response Profile Ordered Total Value Y

8、Count Weight 1 1 2 20.00000 2 0 2 275.00000,授课:XXX,18,Model Fitting Information and Testing Global Null Hypothesis BETA=0 Intercept Intercept and Criterion Only Covariates Chi-Square for Covariates AIC 148.262 146.686 . SC 147.648 145.458 . -2 LOG L 146.262 142.686 3.576 with 1 DF (p=0.0586) Score .

9、 . 4.224 with 1 DF (p=0.0399) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT 1 -2.8688 0.2851 101.2408 0.0001 . . X 1 0.9860 0.4959 3.9542 0.0468 2.069569 2.681,授课:XXX,19,结果:,授课:XXX,20,第四节

10、 Logistic回归模型系数的解释,回忆流行病学研究中两个重要概念:,在logistic回归模型,令x=0和x=1,得到,授课:XXX,21,一元logistic回归模型系数的意义解释: (1) x =1,0 变量,如果x=1,0,则 e b=OR 近似表示在x=1条件下的发病率与在x=0 条件下发病率之比 (相对危险度),或者说, x=1条件下的发病可能性比x=1条件下多或少(OR-1)*100%。,授课:XXX,22,Logistic 回归模型:,从b=0.986, 得到 RR OR= eb=2.681。 所以,手术时间大于5小时的感染率是手术时间小于或等于5小时的感染率的2.681倍,

11、即感染的可能性增加了186.1% 。,例如,手术感染问题,授课:XXX,23,一元logistic回归模型系数的意义解释: (2) 如果x是连续变量 对于任意x1 和x2,x1 x2,如果x 是连续变量,则OR=eb 近似表示在x 的相邻两个单位上的相对危险度。即x 每增加一个单位,相对危险增加 或减少(OR-1)*100%。,授课:XXX,24,例2、自变量是连续型数值变量为了分析新生儿出生时体重(birthwt)与支气管肺的发育不良病(BPD)的关系,调查了223名新生儿。调查的数据列在下表中。,授课:XXX,25,data eg7_2; do birthwt=750, 1150, 155

12、0; do bpd=1, 0; input wt ;output; end; end; cards; 49 19 18 62 9 66 run; proc logistic data=eg2 descending; model bpd=birthwt ; weight wt ; run;,SAS程序,授课:XXX,26,Response Profile Ordered Value BPD Count 1 1 76 2 0 147 Model Fitting Information and Testing Global Null Hypothesis BETA=0 Intercept Inter

13、cept and Criterion Only Covariates Chi-Square for Covariates AIC 288.140 229.166 . SC 291.547 235.980 . -2 LOG L 286.140 225.166 60.974 with 1 DF (p=0.0001) Score . . 56.008 with 1 DF (p=0.0001) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds Variable DF Estimat

14、e Error Chi-Square Chi-Square Estimate Ratio INTERCPT 1 3.7180 0.6387 33.8853 0.0001 . . BIRTHWT 1 -0.00397 0.000588 45.6092 0.0001 -0.702480 0.996,SAS输出结果,授课:XXX,27,1、因变量bpd对自变量birthwt 的logistic回归模型是: 2、自变量birthwt 的回归系数在统计意义上不等于0 (p=0.0001),因此,OR=0.996在统计意义上不等于1。 OR=0.996 说明新生儿出生体重每增加一个单位(g),患 BPD病

15、的机会就会减少大约0.4% 。即患bpd病的概率 随新生儿出生体重的增加而下降。 3、根据上述回归模型可以预测新生儿出生时可能患BPD病 的 概率。,授课:XXX,28,一元logistic回归模型系数的意义解释: (3) 如果x 是分类变量 如果x 是分类型变量,特别是名义型变量,则需要将x 转化为哑变量,再进行Logistic回归分析。,如果x是g个分类的分类型变量,则要将x 的g-1个哑变量放入模型,每一个哑变量的OR 值表示该组与参照组的相对危险度。,授课:XXX,29,什么是哑变量?,一个含有g个类的分类型变量可以构造g个哑变量。,授课:XXX,30,如何用SAS程序构造哑变量?,d

16、ata d2; set d1; array a3 student teacher worker; do i=1 to 3; ai=( x 1= i ) ; end; run;,data d2; set d1; array a3 student teacher worker; do i=1 to 3; if x1=i then ai= 1; else ai=0 ; end; run;,授课:XXX,31,如何对哑变量进行分析? (1)将g -1个哑变量放入模型进行分析,留一个哑变 量作为参照变量; (2)每一个哑变量的OR值表示该哑变量组与参照变量组的相对危险度。,授课:XXX,32,例3、自变

17、量是分类型变量为了了解冠心病与种族的关系,某研究所调查了100个样本,数据列在下表中。试估计各种族间患冠心病的相对危险度。,设y=1表示患冠心病,y=0表示未患冠心病。令x=1表示黑人,x=2表示白人,x=3表示其它种族。将变量x转化为哑变量,变量名是:black、white和other。,授课:XXX,33,data eg7_3; do y=1 , 0; do x=1 to 3; input wt ; output; end; end; cards; 20 5 25 10 20 20 run; data eg7_3; set eg7_3; array a3 black white other

18、; do i=1 to 3; ai=( x = i ) ; end; run; proc logistic descending ; model y= black other ; weight wt ; run;,White作为参照组,授课:XXX,34,The LOGISTIC Procedure Response Profile Ordered Total Value Y Count Weight 1 1 3 50.000000 2 0 3 50.000000 Model Fitting Information and Testing Global Null Hypothesis BETA

19、=0 Without With Criterion Covariates Covariates Chi-Square for Covariates AIC 138.629 131.038 . SC 138.629 130.413 . -2 LOG L 138.629 125.038 13.592 with 3 DF (p=0.0035) Score . . 12.889 with 3 DF (p=0.0049) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds Variab

20、le DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT 1 -1.3863 0.5000 7.6874 0.0056 . . BLACK 1 2.0794 0.6325 10.8103 0.0010 2.349536 8.000 OTHER 1 1.6094 0.5831 7.6186 0.0058 1.974184 5.000,授课:XXX,35,模型总体检验结果说明该模型具有统计意义(p=0.0035)。 参数检验说明,黑人与白人患冠心病的相对危险度是:OR=8(p=0.0010),说明黑人患冠心病的几率大约是白

21、人的8倍。 参数检验说明,其他种族人与白人患冠心病的相对危险度是:OR=5(p=0.0058),说明其他种族人患冠心病的几率大约是白人的5倍。,结论,授课:XXX,36,一元logistic回归模型系数的意义解释:,如果x是分类型变量(g个分类),则要将x 的g-1个哑变量放入模型,每一个哑变量的OR 值表示该组与参照组的相对危险度。,如果x=1,0,则 e b=OR 近似表示在x=1条件下的发病率与在x=0 条件下发病率之比 (相对危险度),或者说, x=1条件下的发病可能性比x=1条件下多或少(OR-1)*100%。,如果x 是连续型变量,则OR=eb 近似表示在x 的相邻两个单位上的相对

22、危险度。即x 每增加一个单位,相对危险增加 或减少(OR-1)*100%。,授课:XXX,37,b) 多元logistic回归模型系数的解释,假设 y 在二值变量 x 1和 x 2上的二元 logistic回归模型是:,可以证明:,e1 表示消去了x 2 的影响后或在x 2 不变的情况下,x 1 相邻两个单位患病率之比(相对危险度); e2 表示消去了x 1 的影响后或在x 1 不变的情况下,x 2 相邻两个单位患病率之比(相对危险度)。,授课:XXX,38,例4、无交互影响的多元logistic回归模型某市调查饮酒对食道癌的影响,共收集了200例食道癌患者作为病例组(y=1),774例非食道

23、癌患者作为对照组(y=0)。询问了他们的年龄和饮酒情况。数据列在下表中。试分析饮酒对食道癌的影响,将年龄作为混杂因素。,授课:XXX,39,data eg4; do y=1,0;do age=1 to 3; do drink=1,0; input wt ;output; end; end; end; cards; 5 5 67 55 24 44 35 270 56 276 18 119 run ; proc logistic descending ; model y=drink age ; weight wt ; run ;,授课:XXX,40,SAS输出结果,The LOGISTIC Pro

24、cedure Response Profile Ordered Total Value Y Count Weight 1 1 6 200.00000 2 0 6 774.00000 Model Fitting Information and Testing Global Null Hypothesis BETA=0 -2 LOG L 989.029 816.466 172.563 with 2 DF (p=0.0001) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Standardized Odds V

25、ariable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT 1 -4.1249 0.3226 163.4795 0.0001 . . DRINK 1 1.7788 0.1865 91.0078 0.0001 3.761888 5.923 AGE 1 1.0971 0.1338 67.2705 0.0001 4.108738 2.995,授课:XXX,41,结论,模型的总体检验说明模型具有统计意义(p=0.0001)。 参数检验结果显示所有回归系数都具有显著性意义(p=0.0001)。 OR(drink)=5.9

26、23说明除去年龄这个混杂因子的影响后,饮酒者比不饮酒者大约多492.3%的可能性患食道癌(p=0.0001),或者说饮酒者患食道癌的可能性大约是不饮酒者的5.923倍(p=0.0001),授课:XXX,42,例5、有交互影响的多元logistic回归模型在回顾性研究中,随机抽查了某地区818个人的吸烟饮酒等生活方式以及各种慢性疾病的患病情况。表7-5中列出的是一部分调查结果。试分析吸烟、饮酒危险因素对患胃病的影响程度以及它们的交互影响程度。 表7-5 生活方式与胃病的调查数据,授课:XXX,43,y =1和0,分别表示患胃病和未患胃病; x 1=1和 0,分别表示吸烟和不吸烟; x 2=1和

27、0,分别表示饮酒和不饮酒。 建立四个哑变量分别代表四种不同的生活方式,即 x 11=1表示既吸烟又饮酒,0 表示其他; x 10=1表示吸烟但不饮酒, 0 表示其他; x 01=1表示不吸烟但饮酒, 0 表示其他; x 00=1表示既不吸烟又不饮酒, 0 表示其他 。 将前三个哑变量放进模型,则可以得前三种生活方式相对于最后一种生活方式患胃病的相对危险度。,授课:XXX,44,data eg7_5; do y=1,0; do x1=1,0; do x2=1,0; input wt ; output ; end ; end ; end ; cards ; 39 25 35 16 101 126

28、253 223 run; data eg7_5 ; set eg7_5 ; if x1=1 input x1 x2 x3 ;output; end; end; y=1-y; cards; 1 1 3 0 1 0 1 0 0 1 2 0 3 1 1 3 0 1 2 1 9 3 3 2 2 2 0 1 2 0 10 2 2 2 0 0 0 0 0 1 run; proc phreg; model y=x1-x3; strata id; run;,授课:XXX,64,The PHREG Procedure Testing Global Null Hypothesis: BETA=0 -2 LOG L

29、 49.698 36.143 13.555 with 3 DF (p=0.0036) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr Risk Variable DF Estimate Error Chi-Square Chi-Square Ratio X1 1 0.177149 0.62839 0.07947 0.7780 1.194 X2 1 1.120438 0.50148 4.99191 0.0255 3.066 X3 1 1.348371 0.65593 4.22570 0.0398 3.851,

30、授课:XXX,65,【结果解释】 添加一个对照组后,蛋白质摄入量(x1)对发生胃癌仍没有显著性影响,不良生活习惯(x2)对胃癌发生有显著性影响(p=0.0255),精神状态(x3)对胃癌发生也有显著性影响(p=0.0398)。,授课:XXX,66,Logistic回归分析和线性回归分析的异同点,相同点: 都可以利用模型来筛选危险因子; 都可以校正混杂因子的影响; 都可以用来做预测。 不同点: 前者对因变量无分布要求,后者要求因变量是正态分布变量; 前者要求因变量必须是分类型变量,后者要求因变量必须是连续型数值变量。 前者不要求自变量和因变量呈线性关系,后者要求自变量和因变量呈线性关系; 前者是分析因变量取某个值的概率与自变量的关系,后者是直接分析因变量与自变量的关系。,授课:XXX,67,Logistic回归分析和线性回归分析的异同点是什么? Logistic回归分析的数学模型是什么? 如何解释一元logistic回归模型的系数的意义? 如何解释无交互影响多元Logistic回归模型的系数? 条件logistic回归分析和非条件logistic回归分析的模型各适合用来处理何种数据?,总 结,授课:XXX,68,结 束,69,Thank you!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1