第11章多元线性回归.ppt

上传人:本田雅阁 文档编号:2972245 上传时间:2019-06-16 格式:PPT 页数:39 大小:201.05KB
返回 下载 相关 举报
第11章多元线性回归.ppt_第1页
第1页 / 共39页
第11章多元线性回归.ppt_第2页
第2页 / 共39页
第11章多元线性回归.ppt_第3页
第3页 / 共39页
第11章多元线性回归.ppt_第4页
第4页 / 共39页
第11章多元线性回归.ppt_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《第11章多元线性回归.ppt》由会员分享,可在线阅读,更多相关《第11章多元线性回归.ppt(39页珍藏版)》请在三一文库上搜索。

1、第十一章 多元线性回归(简介),当研究两个变量间的线性关系时,直线回归是回归分析中最简单的一种。直线回归主要研究一个应变量(dependent variable)与一个自变量(independent variable)间的线性趋势的数量关系。生物医学研究中,常遇到一个应变量与多个自变量数量关系的问题。,收缩压与年龄和体重的关系、血糖的变化与胰岛素、生长素等因素有关。 肺活量与身高、体重、胸围的关系; 胃癌术后效果与癌组织类型、浸润程度、肉芽反应、有无淋巴转移等因素有关;,例如:,用线性方程表达一个应变量与一组自变量的数量关系,就是多元线性回归(multiple linear regressio

2、n),常简称为多元回归(multiple regression)。,设应变量为Y,自变量为: X1,X2,Xk, Y与自变量X1,X2,Xk 的多元回归,就是指 Y与 k 个自变量X1,X2,Xk 有如下线性关系:,多元线性回归方程:,式中 是为Y的估计值或预测值(predicted value),表示当给定各自变量的值时,因变量Y 的估计值; b0 为截距,在回归方程中又称为常数项,表示各自变量均为0 时Y 的估计值; bi 称为偏回归系数(partial regression coefficient),简称为回归系数,表示其它自变量不变时,Xi 每改变一个单位,Y 的平均变化量。,原始资料

3、作多元线性回归分析, 理论上应满足的条件有:,1)线性(linear),因变量与自变量的关系是线性的; 2)独立性(independence),随机误差项在不同样本点之间是独立的,无自相关; 3)正态性(normality),随机误差项服从均数为零、方差为2的正态分布;,4) 方差齐性(equal variance ,or homogeneity),随机误差项在不同样本点的方差相等。 以上四个条件缩写为LINE,与直线回归中的条件是相同的。 如果目的是建立多元回归方程,探讨自变量与因变量间的数量关系,而无需根据自变量的取值预测因变量的容许区间、可信区间等,则后两个条件可以适当放宽。,多元回归方

4、程的资料格式 例号 y x1 x2 xk 1 y1 x11 x21 x1k 2 y2 x12 x22 x2k n yn xn1 xn2 xnk,例11.1 同样身高的20名健康男子的收缩压、年龄和体重的测量结果见表。试建立收缩压与年龄和体重之间的多元线性回归方程。,偏回归系数的估计,回归分析的目的之一就是要建立一个回归方程,以使研究人员能够根据已知的自变量去预测因变量的取值。 回归系数的估计仍然用最小二乘法(LSM)。 (计算方法略),20名建康男子的收缩压、年龄和体征的测定值,编号 收缩压y 年龄x1 体重x2 1 15.60 50 76.0 2 18.80 20 91.5 . . . .

5、20 19.19 43 85.5 用最小二乘法(method of least square)求解b1、b2 、b0得:,在该方程中,b1=0.0546,表示在体重不变的前提下,年龄每增加1岁,收缩压平均增加0.0546(kPa);b2=0.1944(kg),表示在年龄不变的情况下,体重每增加1kg,收缩压平均增加0.1944(kPa)。,截距b0= -0.6815,表示X1,X2 都为0 时,Y 的估计值,在这里没有实际意义,是根据方程估算出来的值。 例如,当X1=50,X2=80 时, =17.60,表示对所有年龄为50岁,体重为80kg 的男子,估计平均收缩压为17.60(kPa)。,二

6、、多元回归方程统计学意义的假设检验,假设检验包括多元回归方程的假设检验与偏回归系数的假设检验。 多元回归方程的假设检验常用方差分析: ANOVA(方差分析表) 变异来源 Sum of squares df Mean Square F P Regression 33.65 2 16.82 11.31 0.0008 Residual 25.28 17 1.49 Total 58.93 19,偏回归系数的假设检验用t检验: Coefficients(参数估计) Unstandardized Standardized Coefficients Coefficients Bota b std. Erro

7、r b t P 偏回归系数 b的标准误 标准化偏回归系数 Constant -0.6815 3.9017 -0.175 0.8634 X1 0.0546 0.0241 0.3667 2.268 0.0366 X2 0.1944 0.0429 0.7323 4.530 0.0003,三、标准化偏回归系数,由公式求出的偏回归系数的绝对值大小与自变量的度量单位有关,因而偏回归系数大的应变量未必对应变量y的线性影响也大。 当自变量之间不存在较强的相关关系时,可以计算每一个自变量的标准化偏回归系数。具有较大标准化偏回归系数的自变量对应变量y的影响相对较大。,四、复相关系数,在多元线性回归分析中,直接建立

8、Y 与全部自变量之间的线性回归模型通常是不可取的,因为不能说这些自变量对建立回归模型都是必要的。因此,在建立回归方程的过程中有必要考虑对变量进行筛选,从许多自变量中挑选出对Y 有影响的自变量,有利于提高回归方程的质量。,一般来说,当回归方程中自变量个数增加,或多或少总能减少剩余误差,提高模型的拟合精度,但势必导致模型的复杂性。 因此,在建立回归方程时,要遵循一个原则,即“少而精”。具体地说:既要尽可能地提高拟合的精度,又要尽可能地使模型简单。这就需要有一些量化的标准来衡量所得模型的“优劣”。 目前,常用的衡量方程“优劣”的标准有复相关系数。,复相关系数(multiple correlation

9、 coefficient)用R表示,取值在01之间。表示m个自变量共同对应变量y的相关密切程度。 复相关系数的平方R2称为决定系数(coefficient of determination),R2表示回归平方和 在y的总变异 中所占的比重。用R2可定量评价y的总变异能被x1、x2、xm解释的比重。 如本例R2=0.5709,可知由年龄和体重可解释该组观察对象收缩压变异的57.09%。,第二节 多元逐步回归,一、多元逐步回归的基本思想 逐步回归(stepwise regression)是从众多的回归模型中快速地选出“最优”模型而提出的一种策略算法。 它是将自变量一个一个引入方程,引入变量的条件是

10、该自变量对应变量的影响经检验是有统计学意义的。用该方法建立的回归方程一般具有较少的自变量,且变量之间具有较强的相关关系的可能性较少。,当人们应用回归分析去处理实际问题时,经常碰到的重要问题就是选择自变量。一般说来,研究人员在设计、搜集资料时,常尽可能多地罗列出一切可能与因变量有关的自变量,生怕遗漏。事实上,其中有一些变量对应变量根本没有影响或影响很小,如果这些变量都进入回归方程,不但计算量大,而且模型参数的估计(偏回归系数)和预测的精度也会下降。因而在应用回归分析时,有必要对进入模型的自变量作精心选择。,前进法(step-up, forward-entry procedure) 事先给定一个挑

11、选自变量进入方程的标准。开始时,方程中除常数项外没有自变量,按各自变量对Y 的贡献大小由大到小依次挑选进入方程。每选入一个变量进入方程,再重新计算方程外各自变量(扣除已进入方程的自变量影响)对Y 的贡献。直到方程外变量均达不到入选标准,没有自变量可被引入方程为止。 该法只考虑选入变量,不考虑剔除。,对Y 贡献大者入选,计算方程外X对Y 的贡献,对Y 贡献大者入选,给定入选标准,直到方程外变量没有自变量可被引入,方程内无自变量,后退法(step-down, backward-elimination procedure) 与前进法相反,后退法是事先给定一个剔除自变量的标准。开始全部自变量都在方程之

12、中,按自变量对Y 的贡献大小由小到大依次剔除。每剔除一个自变量后,重新计算未被剔除的各自变量对Y 的贡献。直到方程中没有自变量可被剔除为止。 该法只考虑剔除自变量,不考虑进入。,对Y 贡献小者剔出,计算方程内X对Y 的贡献,对Y 贡献小者剔出,给定剔出标准,直到方程内无变量可剔出,全部自量都在方程内,逐步向前法(forward stepwise) 本法事先给定一个剔选变量的标准。它不同于前进法,每选入一个自变量,都要对已在模型中的自变量进行检验,对低于剔除标准的变量要逐一剔除。,具体做法是,按自变量对Y 的贡献大小由大到小依次挑选进入方程;每选一个变量进入方程,则重新计算各自变量对Y 的贡献。

13、并考察已在方程中的变量是否由于新变量的引入,其作用被新变量代替或部分代替,抑制了它的作用并退化为无意义。如果有,将它剔除并重新计算各自变量对Y 的贡献。如仍有变量低于入选标准,则继续考虑剔除,直到方程内变量均符合入选标准,没有自变量可被剔除,方程外没有自变量可被引进为止。,选入方程外对Y 贡献大者 剔出方程内对Y 贡献小者,计算方程内、外X对Y 的贡献,对Y 贡献大者入选,给定入选及剔出标准,直到方程内无变量可被剔出 方程外无变量可被引入为止,方程内无自变量,逐步向后法(backward stepwise) 本法亦事先给定一个剔选变量的标准,但思路与逐步向前法的方向正好相反。每剔除一个自变量,

14、都要对方程外的自变量进行检验,对符合入选标准的变量要重新考虑选入。,具体做法是,开始时所有变量均在方程中,计算自变量对Y 的贡献,并将贡献最小者剔除;每剔除一个变量,则重新计算各自变量对Y 的贡献,并考察方程外的变量;如符合入选标准,则将贡献最大的自变量选入,并重新计算各自变量对Y 的贡献;如仍有变量符合入选标准,则继续考虑选入,直到方程外变量均不符合入选标准,没有自变量可被引入,再考虑剔除。直到方程内没有变量可被剔除,方程外没有变量可被引进为止。,剔出方程内对Y 贡献小者 选入方程外对Y 贡献大者,计算方程内、外X对Y 的贡献,对Y 贡献小者剔出,给定剔出及入选标准,直到方程内无变量可剔出

15、方程外无变量可引入为止,全部自量都在方程内,常采用的剔选变量的标准有两种。 一是假设检验的P 值,即对偏回归系数进行假设检验,P 值越小则贡献越大,反之亦然。若自变量的P值小于事先给定的标准P 选(如0.05),则称符合入选标准,反之,如大于事先给定的标准,则不符合入选标准。 二是偏回归平方和的检验统计量F,F 值越大则贡献越大,反之亦然。,理论上,剔除变量和选择变量是同一个界值。但实际分析时,可能会出现刚被剔除的变量,马上又被选入,从而使计算机进入“死循环”,特别是在界值附近时。为了避免这种情况的出现,总是选两个界值,一个用于剔除变量(P剔),一个用于选入变量(P选)。且P剔略大于P选,尤其

16、是编写计算机程序时。,不同的逐步回归方法所得结果不尽相同; 不同的界值所得结果不同; 方程的优劣与界值F 的大小无必然联系;,应当注意:,逐步回归所得方程不一定是真正最优的,而是局部的、相对的最优。因此,从寻求最优方程的角度说,界值要多取几个,以便得到多种不同组合的方程,从中找出“最优”,免得遗漏;从因素分析的角度看,多取几个界值,可以得到多组对因变量有统计学意义的变量组合,再结合逐步向前法和逐步向后法剔选变量的过程,可以得到更多的信息,找到最优方程的可能性也就大一些。,一般的做法是,先选择F = 0,用逐步向前法剔选变量,看哪个变量先进入方程、每个变量进入方程时的F 值以及哪个变量先进入方程

17、后又被剔除。再用逐步向后法逐个剔除变量,看哪个变量先被剔除方程、每个变量被剔除时的F 值以及哪个变量先被剔除后又被选入。然后,根据上述结果选择几个不同的界值,再用逐步向前法和逐步向后法分别观察变量进出方程的情况。直至所得方程在专业上能得到较为合理的解释为止。,第三节 多元回归分析的注意事项,一、多元回归的基本假定 1. y,x1,x2,xm是正态分布的随机变量; 2. 自变量x1,x2,xm之间相互独立; 3. mn。 二、样本含量 样本含量n是自变量m的310倍。,三、变量筛选 1. 因变量与自变量呈线性关系; 2. 选择适当的值(选入变量的entry值剔除变量的removal值); 3.

18、选择适当的变量筛选方法(逐步法、前进法、后退法)。 四、自变量的联合作用分析 主要靠医学专业知识或根据决定系数R2的大小判 断。,五、自变量的共线性 自变量之间存在较强的相关关系时,就称它们之间存在多重共线性。对存在多重共线性的一组自变量进行多元回归分析时,偏回归系数的估计值容易失真且稳定性差。 1. 在某个检验水准下,整个回归方程有统计学意义,但是每个偏回归系数的检验均无统计学意义。 2. 偏回归系数的符号与医学专业知识不一致。但是也不排除因医学专业知识不全面而不能接受的情况。,1. 应变量的变异可由自变量解释的比例; 2. 正确分析入选方程的自变量与应变量之间的关系; 3. 正确分析未入选方程的自变量与应变量之间的关系。,六、结果分析应注意的问题,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1