-多元线性回归.ppt

上传人:本田雅阁 文档编号:3124477 上传时间:2019-07-13 格式:PPT 页数:50 大小:670.02KB
返回 下载 相关 举报
-多元线性回归.ppt_第1页
第1页 / 共50页
-多元线性回归.ppt_第2页
第2页 / 共50页
-多元线性回归.ppt_第3页
第3页 / 共50页
-多元线性回归.ppt_第4页
第4页 / 共50页
-多元线性回归.ppt_第5页
第5页 / 共50页
点击查看更多>>
资源描述

《-多元线性回归.ppt》由会员分享,可在线阅读,更多相关《-多元线性回归.ppt(50页珍藏版)》请在三一文库上搜索。

1、第十五章 多元线性回归,暨南大学医学院医学统计教研室 林汉生,教学要求,掌握多元线性回归模型的一般形式 熟悉多元线性回归方程的假设检验及其评价方法 掌握用SPSS统计软件进行多元线性回归分析 熟悉多元线性回归方程的应用及其注意事项,教学内容,多元线型回归 自变量选择方法 多元线性回归的应用及其注意事项,问题的提出,直线回归分析是分析一个应变量Y和一个自变量X之间的数量关系。但通常一个应变量受到许多因素的影响。如: 糖尿病患者的血糖可能受胰岛素、糖化血红蛋白、血清胆固醇、甘油三酯等指标影响。 儿童血液中血红蛋白(Y)与微量元素:钙(X1),铁(X2)含量的关系。,第一节 多元线性回归,多元线性回

2、归模型 多元线性回归方程的建立 多元线性回归方程的假设检验及其评价,一、多元线性回归模型,Y为应变量,X1,X2,,Xm为k个自变量。 b0 :常数项 b1, b2, bk为偏回归系数的估计值 它表示在其它自变量固定不变的情况下,xj每改变一个单位时,单独引起的应变量Y的平均改变量。 :应变量的估计值,二、多元线性回归方程的建立,设有n例观察对象, 对第i例可求出应变量yi的估计值 i ,则 ,全部n例资料的残差平方和为: 全部n例资料残差平方和最小的那一组值就是要求的参数估计值。,表15-2 27名糖尿病人的血糖及 有关变量的测定结果,= 5.94 0.142x1+0.351x20.271x

3、30.638x4,三、多元线性回归方程的 假设检验及其评价,回归方程的假设检验及评价:从总体上分析所有自变量对因变量Y是否有线性回归关系。 各自变量的假设检验与评价 = 5.94 0.142x1+0.351x20.271x30.638x4,(一)回归方程的假设检验及评价,方差分析法 决定系数R2 复相关系数,1. 方差分析法,H0:1= 2 = p =0 H1:各j 不全为0 0.05 F0.01(4,22)=4.31。本例F=8.28,P0.01。认为所拟合的回归方程具有统计学意义。,决定系数R2 coefficient of determination,说明自变量X1,X2,Xm能够解释Y

4、变化的百分比,其值愈接近于1说明模型对数据的拟合程度愈好。 本例R2为0.60,表明血糖含量变异的60可由总胆固醇、甘油三酯、胰岛素和糖化血红蛋白的变化来解释。,决定系数R2与校正决定系数R2adj,若引入模型的自变量与应变量没有任何关系或贡献很小,则校正决定系数比决定系数小。 若引入模型的自变量与应变量有关系或贡献很大,则两个决定系数接近。,3. 复相关系数 (multiple correlation coefficient),度量应变量Y与多个自变量间的线性相关程度,亦即观察值Y与估计值 之间的相关程度。本例复相关系数 如果只有一个自变量时,R|r|, r为简单相关系数。取值范围0R1。,

5、(二)各自变量的假设检验与评价,使回归方程中只包含对应变量有统计学意义的自变量。 偏回归平方和(不介绍) t 检验法:与偏回归平方和检验完全等价。当回归方程有显著性时,对每个自变量的偏回归系数进行假设检验,当某个自变量的偏回归系数无显著性,则应把该变量剔除,重新建立不包含该自变量的多元线性回归方程。,t 检验法,H0:j= 0 H1: j 0 0.05 t(bj)=bj / S(bj) 服从t(n-p-1)分布 本例,t(b1)=0.39, t(b2)=1.72, t(b3)=2.23, t(b4)=2.62 t0.05 /2,22=2.074, 即胰岛素和糖化血红蛋白对血红蛋白的线性回归有统

6、计学意义;而总胆固醇和甘油三酯对血红蛋白的线性回归无统计学意义。,标准化回归系数 Standardized coefficient,当比较各自变量对因变量的相对贡献大小时,但由于各自变量的测量单位不同,单从各偏回归系数的绝对值大小评价不妥。 必须对各偏回归系数进行标准化处理,即消除测量单位的影响后,才能进行比较。 消除测量单位影响后的偏回归系数称为标准化偏回归系数。,第二节 自变量选择方法,在多元线性回归分析时,希望能从众多的自变量中: 挑选出对因变量有重要影响的变量 剔除对因变量没有影响或影响很小的变量,或与其他自变量相关密切的变量。,一、SPSS筛选变量的方法,向后剔除法 向前引入法 逐步

7、筛选法 其他,1. 向后剔除法 (backward selection),先建立一个包含全部自变量的回归方程,然后每次剔除一个对因变量作用最小且无统计学意义的自变量,直到不能剔除为止。当两个变量一起时效果好,单独时效果不好,该法可将两个变量都引入方程。,2. 向前引入法 (forward selection),回归方程由一个自变量开始,每次引入一个对因变量作用最大,且具有统计学意义的自变量,由少到多,直到无统计学意义的自变量可以引入为止。,3. 逐步筛选法 (stepwise selection),取两种方法的优点,在向前引入每一个新变量之后,都要重新对前面已选入的自变量进行检查,以评价其有无

8、继续保留在方程中的价值。为此,引入和剔除交替进行,直到无具有统计学意义的新自变量可以引入,同时,方程中也无失去其统计学意义的自变量可以剔除为止。,X1,X2,X3,X4,4. 其他,Enter( 强迫引入法,默认选择项):定义的全部自变量均被引入方程 。 Remove( 强迫剔除法):定义的全部自变量均被删除。,二、检验水准,由于多元线性回归方程多用于因素筛选,因此不必对检验水准规定得很严格,可以选择几个水平如0.05、0.10甚至0.15,以分析不同检验水准下的自变量与应变量之间的依存关系。,第三节 多元线性回归对资料的要求,应变量Y为连续变量,自变量Xi相互独立,可以是任意资料类型。残差近

9、似正态分布。 在自变量为无序多项分类变量的情况下,如病人有k2种分类,不可以用自然数列如1,2,3,进行有序数量化,必须采用k-1个哑变量作定性赋值,如节育措施: 男性结扎、女性结扎、带节育环、口服避孕药、其他 X1 X2 X3 X4 男性结扎 1 0 0 0 女性结扎 0 1 0 0 带节育环 0 0 1 0 口服避孕药 0 0 0 1 其他措施 0 0 0 0,治疗原发性高血压: 中医:参照 西医:X1 中西医结合:X2 X1 X2 中医: 0 0 西医: 1 0 中西医结合 0 1,参照组的选择,(1)例数相对较多 (2)参照组的定义明确 节育措施:男性结扎、女性结扎、带节育环、口服避孕

10、药、其他措施(不明确) 中医(明确)、西医、中西医结合,SPSS:采用k-1个哑变量作定性赋值,SPSS语句更方便,第四节 多元线性回归的应用,影响因素分析:从众多影响因素中,把真正有统计学意义的因素找出来。 估计与预测:应选择具有较高R2的方程,第五节 多元线性回归的注意事项,对资料的要求;Y?X?残差? 自变量为分类变量的情形?哑变量? 样本含量:n是方程中自变量个数的510倍 决定系数:R2 评价方程拟合的优劣 关于逐步回归:结合问题本身、专业知识以及经验来确定。 标准化回归系数的使用:评价各Xi对Y的贡献大小。 引入或剔除变量的标准:0.05,0.10,0.15? 多重共线性:使标准误

11、很大,回归方程不稳定,第六节 SPSS过程和结果说明,多元线性回归分析,表15-2 27名糖尿病人的血糖及 有关变量的测定结果,建立数据文件,选择Analyze Regression Linear 打开Linear Regression对话框。,将变量Y选入Dependent栏;将变量X1,X2,X3,X4放入Independent栏;在Method栏选择Stepwise法;分别单击Statistics、Plots、Options按钮,Statistics: 回归系数的95CI; 查找离群值(标准化残差超过2,默认为3),标准化残差直方图,在Options对话框中的Entry框内,把0.05改

12、为0.10,Removal框内,把0.10改为0.15。单击Continue按钮返回。,单击OK按钮,结果解释,变量的引入和剔除情况,运行了5次,决定系数R20.598,方差分析,以最后一个为准,偏回归系数,标准偏回归系数, 偏回归系数的t检验,剔除的变量情况,Case 26 可能是离群值,标准化残差直方图,标准化残差直方图近似正态分布,说明该资料适合用线性回归分析。,小结:用多元线性逐步回归方法筛选变量,引入变量水准=0.10。结果为:糖化血红蛋白和甘油三酯对血糖有升高作用,而胰岛素对血糖有降低作用。R20.598,即血糖变异的60可由糖化血红蛋白、甘油三酯和胰岛素的变化来解释。,作业P276,计算分析题:1 (3),

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1