线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关).ppt

上传人:李医生 文档编号:8880824 上传时间:2021-01-23 格式:PPT 页数:62 大小:561KB
返回 下载 相关 举报
线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关).ppt_第1页
第1页 / 共62页
线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关).ppt_第2页
第2页 / 共62页
线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关).ppt_第3页
第3页 / 共62页
线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关).ppt_第4页
第4页 / 共62页
线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关).ppt_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关).ppt》由会员分享,可在线阅读,更多相关《线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关).ppt(62页珍藏版)》请在三一文库上搜索。

1、SPSS软件在医学科研中的应用,北大医学部流行病与卫生统计学系 Tel:82801619,线性相关与回归,(一)直线回归(linear regression),1.定义:用直线方程表达X(自变量,independent variable;解释变量,explanatory variable;预测变量,predictor variable )和Y (因变量,dependent variable;响应变量,response variable;结局变量,outcome variable )之间的数量关系。,一、简单线性相关与回归,:是Y(实测值)的预测值(predicted value),是直线上点的

2、纵坐标。对于每一个X值,根据直线回归方程都可以计算出相应的Y预测值。,(具体计算过程参见卫生统计学第4版)。,2.b和a的意义,a:是回归直线在Y轴上的截距,即X0时Y的预测值。 b:是回归直线的斜率,又称为回归系数。 表示当X改变一个单位时,Y的预测值平均改变|b|个单位。,3.b和a的估计,最小二乘方法(the method of least squares):各实测点到直线的纵向距离的平方和最小。,4.b的假设检验: b为样本回归系数,由于抽样误差,实际工作中b一般都不为0。要判断直线回归方程是否成立,需要检验总体回归系数是否为0。,只有当0时,才能认为直线回归方程成立(具有统计学意义)

3、。,H0:=0 H1:0,5.直线回归方程的置信区间估计,(1)总体回归系数的95置信区间估计,(2) Y的均数的95置信区间估计 当XX0时,以95的概率估计Y的均数的置信区间为,(3)个体Y值的95容许区间估计 当XX0时,以95的概率估计个体Y值的波动范围为,1.定义 描述具有直线关系的两个变量之间的相互关系。,(二)直线相关(linear correlation),r:相关系数,correlation coefficient,用来衡量有直线关系的两个变量之间相关的密切程度和方向。-1r1 r0,正相关;r=1为完全正相关 r 0,负相关;r=-1为完全负相关 |r|越大,两变量相关越密

4、切(前提:r有统计学意义),2.相关类型,正相关:0r1,负相关-1r0,零相关 r =0,2.相关类型,r为样本相关系数,由于抽样误差,实际工作中r一般都不为0。要判断两变量之间是否存在相关性,需要检验总体相关系数是否为0。,只有当0时,才能根据|r|的大小判断相关的密切程度。,3.r的假设检验,H0:=0 H1: 0,4.相关与回归的区别和联系,(1)相关与回归的意义不同 相关表达两个变量之间相互关系的密切程度和方向。回归表达两个变量之间的数量关系,已知X值可以预测Y值。从散点图上,散点围绕回归直线的分布越密集,则两变量相关系数越大;回归直线的斜率越大,则回归系数越大。 (2)r与b的符号

5、一致 同正同负。,(3)r与b的假设检验等价,(4) 可以用回归解释相关,r2称为决定系数(coefficient of determination), 其越接近于1,回归直线拟和的效果越好。,4.相关与回归的区别和联系,例1 为研究中年女性体重指数和收缩压的关系,随机测量了16名40岁以上的女性的体重指数和收缩压(见数据文件p237.sav)。 变量说明:X:体重指数;Y:收缩压(mmHg)。,1.绘制散点图,散点图显示:收缩压与体重指数之间有线性相关趋势,因此可以进一步做直线回归与相关,例2:由于改革开放政策,深圳特区中外来人口大幅度增加,为了考察特区中外来人口对本地经济发展的贡献,深圳特

6、区统计局收集了所属的宝安县在1987年末18个镇的人口与工农业总产值数据(见数据文件reg.sav)。此处把工农业总产值当作因变量(W),而把外地及本地人口数当作两个自变量(Z1,Z2)。,二、多重线性回归分析,(有关统计方法的原理及计算参见孙尚拱,医学多变量统计与统计软件,北京医科大学出版社,2000),数据文件reg.sav,1.如何估计自变量与因变量之间的相互关系?(估计回归方程) 2.哪些自变量对因变量有影响?(影响因素分析) 3.哪一个自变量对因变量的影响更重要?(自变量的相对重要性分析) 4.如何用自变量预测因变量?(预测分析),(一)多重回归分析的任务,(二)多重回归分析的适用条

7、件,1.自变量与因变量之间存在线性关系 2.残差的正态性 3.残差的等方差性 4.剔除强影响点(突出点,outliers) 5.自变量之间不应存在共线性 6.独立性,关于独立性: 所有的观测值是相互独立的。如果受试对象仅被随机观测一次,那么一般都会满足独立性的假定。但是出现下列三种情况时,观测值不是相互独立的:时间序列、重复测量等情况。 SPSS软件在“Linear Regression:Statistics”对话框中,提供了Durbin-Watson统计量d,以检验自相关系数是否为0。当d值接近于2,则残差之间是不相关的。,1.如何估计自变量与因变量之间的相互关系?(估计回归方程),其中y为

8、实测值, 为预测值(predicted value),估计模型中系数的方法:最小二乘方法(Least Square,LS),即残差平方和最小。,b1, b2. bm称为偏回归系数(partial regression coefficient) :当固定其他变量时,xm每增加一个单位,y的增加值都是bm。,(一)多重回归分析的任务,模型拟和的优良性指标,R:复相关系数,反映了Y与M个自变量的总体相关系数; R2:决定系数(R Square) R2c:调整决定系数(Adjusted R square ),是对决定系数的修正,是更客观的指标。,这些指标越接近于1,说明回归模型拟合越好。 除了上述指标

9、,还有残差标准误s,残差标准差越小,说明回归模型拟合越好。,2.哪些自变量对因变量有影响?(影响因素分析),对回归模型的统计检验,当P0.05,则认为此回归模型有显著性。,对自变量的统计检验,当P0.05,则认为此自变量对因变量有影响。,自变量的筛选,实际应用中,通常从专业知识出发,建立一个简约(parsimonious)的回归模型,即用尽可能少的自变量拟合模型。 常用方法: 1.前进法(Forward):逐步增加变量到模型中(由少到多),对已经进入的变量不再剔除;SPSS中默认的选入自变量的检验水准为0.05。 2.后退法(Backward):从模型中逐步剔除变量(由多到少),对已经剔除的变

10、量不再进入;SPSS中默认的剔除自变量的检验水准为0.10。 3.逐步法(Stepwise):结合了前进法和后退法,变量边进入边剔除。,3.哪一个自变量对因变量的影响更重要?(自变量的相对重要性分析),当自变量的量纲相同时,衡量自变量相对重要性的指标: 偏回归系数;若偏回归系数的绝对值越大,则相应自变量对因变量的影响就越大。,当自变量的量纲不同时,衡量自变量相对重要性的指标: 标准化偏回归系数(Standardized regression coefficient)、偏相关系数(Partial Correlation)和部分相关系数(Part Correlation)。上述指标的绝对值越大,则

11、相应自变量对因变量的影响就越大。,标准化偏回归系数:对自变量、因变量作标准化处理后计算的回归系数。 偏相关系数:因变量与自变量均扣除其他自变量影响之后,二者之间的相关系数。与简单相关系数(Pearson相关系数)不同;例如:考察因变量Y与自变量X1 、X2的多元回归分析,Y与X1的偏相关系数为扣除X2影响后的Y与X1的相关性。 Y与X1的简单相关系数为忽略X2影响后的Y与X1的相关性。 部分相关系数:自变量扣除其他自变量影响之后,因变量与自变量之间的相关系数。与偏相关系数不同,部分相关系数中因变量未扣除其他自变量的影响。,4.如何用自变量预测因变量?(预测分析),当自变量取某个数值时,y的预测

12、值为,Y的均数的95置信区间,个体Y值的95容许区间 预测分析时,(x10,x20 xm0)应该在样本的自变量取值范围内。,1.自变量与因变量之间存在线性关系,通过绘制y与每个自变量的偏相关散点图,可以判断y与自变量之间是否存在线性关系。,2.残差的正态性 通过绘制标准化残差的直方图以及正态概率图(P-P图),可以判断y是否服从正态分布。此条件可以放宽,只要不是严重偏离正态即可。,3.残差的等方差性,通过绘制标准化残差与预测值的散点图,若标准化残差在零水平线上下波动,无明显的规律性,则可以判断y满足等方差的假定。,(二)多重回归分析的适用条件,通过标准化残差(Standardized Resi

13、duals)、学生氏残差(Studentlized Residuals)来判断强影响点 。当指标的绝对值大于3时,可以认为样本存在强影响点。 删除强影响点应该慎重,需要结合专业知识。以下两种情况可以考虑删除强影响点:1.强影响点是由于数据记录错误造成的;2.强影响点来自不同的总体。,4.剔除强影响点(Influential cases;或称为突出点,outliers),5.自变量之间不应存在共线性(Collinear),当一个(或几个)自变量可以由其他自变量线性表示时,称该自变量与其他自变量间存在共线性关系。常见于:1.一个变量是由其他变量派生出来的,如:BMI由身高和体重计算得出 ;2.一个

14、变量与其他变量存在很强的相关性。 当自变量之间存在共线性时,会使回归系数的估计不确定、预测值的精度降低以及对y有影响的重要自变量不能选入模型 。,共线性诊断方法: 1.TOL(容许度,Tolerance)法:TOL越接近零,共线性越大。 2.VIF(方差膨胀因子,Variance Inflation Factor,VIF )法:VIF越大,共线性越大。 3.特征根(Eigenvalue)法:如果自变量相关矩阵的特征根近似于零,则自变量之间存在共线性。 4.CI(条件指数,Condition Index)法:CI越大,共线性越大。 当自变量之间存在共线性时,可以剔除某个自变量或者采用岭回归分析(

15、Ridge Regression Analysis)。,1. 数据预处理:根据经济学专业知识,需要先对Z1、Z2、W作对数变换,分别记为X1、X2、Y。,(三)多重线性回归:实例分析,2.多重回归分析,Statistics对话框,Plots对话框,Save对话框,从简单相关系数可见:Y与X1、X2存在较强相关性,X1、X2存在中等相关性。,3.输出结果解释,此模型的复相关系数为0.857,调整决定系数为0.699,反映此模型拟和较好;模型经统计学检验,F=20.738,P0.05,说明此多元回归模型有显著性。,经统计学检验,X1与X2均有显著性,因此回归模型为 ;根据偏回归系数的大小,可以认为

16、X2对Y的影响比X1大。,共线性诊断:两个自变量之间不存在共线性。,因为标准化残差、学生化残差的绝对值小于3,所以从统计学上认为样本不存在强影响点。,直方图及P-P图,从残差直方图及P-P图可见:残差正态性不太好,可能与样本量太小有关。,通过绘制y与X1的偏相关散点图,可以判断y与X1之间存在线性关系。,通过绘制y与X2的偏相关散点图,可以判断y与X1之间存在线性关系。,检查残差的等方差性:,由图可见:残差满足等方差性。,重要提示: 经典的多元线性回归:自变量和因变量均为连续变量。多元线性回归分析允许自变量为分类变量,但当自变量为多分类变量时,需要以“哑变量(dummy variables)”

17、的方式引入模型。 如:某个自变量为“文化程度”:1=文盲,2=小学,3=中学,4=大学及以上。若以“大学及以上”为参照,关心文盲、小学、中学分别与大学及以上的比较,则进行回归分析时,此自变量须用3个哑变量表达:x1: 1=文盲,0=其他;x2: 1=小学,0=其他;x3: 1=中学,0=其他。,三 、Spearman等级相关,Spearman等级相关是基于秩次的非参数相关分析。 主要适用于以下情况: 1.对于数值型变量,X及Y严重偏离正态分布; 2.等级资料的相关分析。,变量说明:X:大骨节病阳性率;Y:发硒。,例3 为探讨硒与大骨节病之间的关系,分别检测了19901999年某地712岁儿童中大骨节病X线阳性率和发硒的平均水平(见数据文件P249.sav),试对其进行等级相关分析。,例,例,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1