直线相关与回归Linearcorrelationandregression.ppt

上传人:本田雅阁 文档编号:2721522 上传时间:2019-05-08 格式:PPT 页数:51 大小:228.01KB
返回 下载 相关 举报
直线相关与回归Linearcorrelationandregression.ppt_第1页
第1页 / 共51页
直线相关与回归Linearcorrelationandregression.ppt_第2页
第2页 / 共51页
直线相关与回归Linearcorrelationandregression.ppt_第3页
第3页 / 共51页
直线相关与回归Linearcorrelationandregression.ppt_第4页
第4页 / 共51页
直线相关与回归Linearcorrelationandregression.ppt_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《直线相关与回归Linearcorrelationandregression.ppt》由会员分享,可在线阅读,更多相关《直线相关与回归Linearcorrelationandregression.ppt(51页珍藏版)》请在三一文库上搜索。

1、直线相关与回归 Linear correlation and regression,直线相关与回归,前面介绍的统计方法都只涉及单一变量,即或进行两组或多组比较,所比较的仍然是同一变量,而且是以讨论各组间该变量的相差是否显著为中心环节。 医学领域里常可在一个统一体中遇到两个或多个变量之间存在着相互联系、相互制约的情况 . 如:同一批水样的浊度与透光率,同一批人的年龄与血压以及身长、体重与胸围等。,如何研究变量之间的关系?,在统计方法中通常是用相关与回归的方法来研究不同变量之间的这种相互依存和互为消长的关系。 相关与回归即有区别又有联系,表达事物或现象间的在数量方面相互关系的密切程度用相关系数;说

2、明一变量依另一变量的消长而变动的规律用回归方程。,数量关系的特点?,函数关系: 确定。例如园周长与半径:y=2r 。一一对应关系。 回归关系:不确定。例如血压和年龄的关系。 具有相同年龄的人,血压不一定相同。但在一定年龄范围内的人,其血压会在一定范围内波动。年龄与血压之间有一定的趋势。,直线相关 linear correlation,相关 - 变量间的互依关系 直线相关(linear correlation)也叫简单相关(simple correlation),用于双变量正态分布资料。 为判断两事物数量间有无相关,可先将两组变量中一对对数值在普通方格纸上作散点图,各种相关关系示意图,Posit

3、ive correlation, Perfect positive correlation, Negative correlation, Perfect negative correlation, 6. 7. Zero correlation, 8. Non-linear correlation,一、直线相关系数 r 相关分析是用相关系数(r)来表示两个变量间相互的直线关系,并判断其密切程度的统计方法。 又称积差相关系数(coefficient of productmoment correlation),或 Pearson 相关系数(软件中常用此名称)说明相关的密切程度和方向的指标。 r -样

4、本相关系数 -总体相关系数,相关系数 linear correlation coefficient,相关系数的意义,相关系数:说明具有直线关系的两变量间,相关方向与密切程度的统计指标。 相关系数 r 没有单位,在-1+1范围变动, 符号表示相关的方向,大小表示相关的程度。 r 0,正相关;r 0,负相关;r= 1, -1, 完全相关; r= 0, 零相关(无直线关系),但不能表达直线以外的关系(如各种曲线)。,正相关见图1,各点分布呈椭圆形,Y随X的增加而增加,X亦随Y的增加而增加,此时1r0。椭圆范围内各点的排列愈接近其长轴,相关愈密切,当所有点都在长轴上时,r=1(见图2),称为完全正相关

5、。 负相关见图3,各点分布亦呈椭圆形,Y随X的增加而减少,X也随Y的增加而减少,此时0r-1。各点排列愈接近其长轴,相关愈密切,当所有点都在长轴上时,r=1(见图4),称为完全负相关。 生物现象中,完全正相关或完全负相关甚为少见。,无相关见图5、6和7,X不论增加或减少,Y的大小不受其影响;反之亦然。此时r=0。另外,须注意有时虽然各点密集于一条直线,但该直线与X轴或Y轴平行,即X与Y的消长互不影响,这种情况仍为无相关。 非线性相关见图8,图中各点的排列不呈直线趋势,呈某种曲线形状,此时r0,称为非线性相关。 |r|=0.7, 高度相关; 0.4=|r|0.7,中度相关; |r|0.4, 低度

6、相关;,X的离均差平方和 Y的离均差平方和 X与Y的离均差乘积之和,,相关系数的计算,举例:,测定15名健康成人血液的凝血酶浓度(单位/毫升)及血液的凝固时间(秒),测定结果记录于表第(2)、(3)栏,问血凝时间与凝血酶浓度间有无相关?,1绘图,将第(2)、(3)栏各对数据绘成散点图。,2求出X、Y、X2、Y2、XY X=15.1 Y=222 XY=221.7 X2=15.41 Y2=3304 3. 代入公式,求出r值。r=-0.9070 负值表示血凝时间随凝血酶浓度的增高而缩短;绝对值-0.9070表示这一关系的密切程度。 此相关系数是否显著,则要经过下面的分析。,虽然样本相关系数r可作为总

7、体相关系数的估计值,但从相关系数=0的总体中抽出的样本,计算其相关系数r,因为有抽样误差,故不一定是0,要判断不等于0的r值是来自=0的总体还是来自0的总体,必须进行显著性检验。 r0原因: 由于抽样误差引起,=0 存在相关关系, 0,相关系数的假设检验,相关系数假设检验的过程,(一)t检验 由于来自=0的总体的所有样本相关系数呈对称分布,故r的显著性可用t检验来进行。,n-2,Sr- 相关系数的标准误,公式,零假设:=0,备择假设: 0 r与0的差别是否显著要按该样本来自=0总体的概率而定。 如果从=0的总体中取得某r值的概率P0.05,就接受假设,认为此r很可能是从此总体中取得的。因此判断

8、两变量间无显著关系; 如果取得r值的概率P0.05或P0.01,就在=0.05或=0.01水准上拒绝检验假设,认为该r不是来自=0的总体,而来自0的另一个总体,因此判断两变量间有显著关系。,对r值检验的判断,1建立检验假设,H0:=0,H1:0, =0.05 2计算相关系数的r的t值:,3查t值表作结论 =n-2=15-2=13 根据专业知识知道凝血酶浓度与凝血时间之间不会呈正相关,故宜用单侧界限,查t值表得 t0.01,13=2.650 今trt0.01,13,P0.01,在=0.01水准上拒绝H0,接受H1,故可认为凝血时间的长短与血液中酶浓度有负相关。,(二)查表法: 为简化tr检验的计

9、算过程,数理统计工作者根据t分配表,已把不同自由度时r的临界值求出,并列成相关系数界值表(见附表13-1)。故只需查表就可知道该r值是否显著,不必再计算tr值。 r, |r| -P -相关不显著; r, |r|- P-在水准上相关显著;,今: r=-0.9070 , =15-2=13,查附表界值,得:r0.05,13=0.441 r0.01,13=0.592 现rr0.01,13,P0.01,按=0.01水准,拒绝HO,接受H1。认为0,说明凝血时间的长短与血液中凝血酶浓度有负相关。结论与计算所得一致。 相关系数的显著性与自由度的大小有关, 如n=3,=1时,虽r=-0.9070,却为不显著;

10、 若=400时,即使r=0.1000,亦为显著。 因此不能只看r的值,不考虑就下结论。,相关分析应注意的问题,1. 相关分析一定要有实际意义。X, Y来自正态总体,随机变量。 2. 相关分析前,先绘制散点图。散点有线性趋势,再进行相关分析。 3. 样本量足够大,可以根据r值大小推断两变量间的相关程度。小样本时,即使检验有显著性,也仅能对两变量间的直线关系作判断,相关的强度不可靠。 尤其当r有统计学意义,但r2较小,结论要慎重。,4. 相关可以是因果关系,也可以只是伴随关系。相关显著只说明两现象间的数量间存在直线关系,但不能证明事物间的内在联系。当事物间的内在联系尚未被认识前,相关分析能从数量上

11、给理论研究提供线索。,计算出相关系数后,如果r显著,需要进一步了解两变量中一个变量依另一个变量而变动的规律时,可进行回归分析。,直线回归 linear regression,直线回归的概念,反映两变量间的依存变化的数量关系。 应变量(dependent variable) Y 随自变量(independent variable) X 变化而变化,以直线回归方程( linear regression equation)表示。 与数学上的函数关系不同,回归关系具有不确定性。 如:成年人年龄和血压的关系,大量调查发现平均收缩压随年龄的增长而增高,且呈直线趋势,但各点并非恰好都在直线上。为强调这一区别

12、,统计上称这是血压在年龄上的“回归”。,建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。 按这个要求计算回归方程的方法称为最小平方法或最小二乘法。 建立的方程是一个二元一次方程式。,直线回归分析的任务,直线回归方程的标准形式,a:截距(intercept),直线与Y轴交点的纵坐标。,b:斜率(slope),回归系数(regression coefficient)。 意义:X每改变一个单位,Y平均改变b个单位。 b0,Y随X的增大而增大(减少而减少) 斜上; b0,Y随X的增大而减小(减少而增加) 斜下; b=0,Y与X无直线关系 水平。 b越大,表示Y随X

13、变化越快,直线越陡峭。,直线回归方程的计算,最小二乘法原则(least squares method):使各散点到直线的纵向距离的平方和最小。即: 最小。,因为直线一定经过“均数”点,根据前面的相关分析以及医学上有关凝血的机理,可知凝血时间依凝血酶浓度而异,且有密切的关系。因此可进一步作由凝血酶浓度(X)推算凝血时间(Y)的回归方程。步骤如下: 1列回归计算表,计算X、Y、X2、Y2、XY。 2计算 、 、(X-X)2、(XX)(Y-Y) =X/n=15.1/15=1.01 =Y/n=222/15=14.80 (X- )2=X2-(X)2/n=0.2093 (X- )(Y- )=XY-XY/n

14、=-1.7800,举例,3计算回归系数b和截距a。 本例b=-1.7800/0.2093=-8.5045 a=14.80-(-8.5045)(1.01)=23.3895 4列出回归方程,绘制回归直线,在凝血酶浓度的实测范围内,即X=0.8到X=1.2之间,任选两个X值(一般选相距较远且直角坐标系上容易读出者),代入此回归方程,即得相应的两个Y值,就可画出该直线。 须注意回归直线必通过( )点,并穿过观察点群,直线上下各有一些点散布着,否则计算有误。,直线回归方程的统计推断,总体回归系数的估计:例题216页,样本回归系数的标准误,剩余标准差,参差平方和,为何进行总体回归系数的估计?,1. 由于抽

15、样误差的存在,每次抽样所得到的样本回归系数有所不同。那么,用它来估计总体回归系数也会不同。为了说明回归方程的稳定性,要对总体的回归系数进行估计。 2. 可信度相同时,回归系数的标准误越小,可信区间就越小,回归方程就稳定。,(一)样本回归系数的假设检验 b0原因: 由于抽样误差引起,总体回归系数=0 存在回归关系,总体回归系数 0,直线回归方程的假设检验,样本回归系数的假设检验亦用t检验。 H0:=0即Y的变化与X无关; H1:0即Y的变化与X有关;,分母Sb是样本回归系数b的标准误,计算公式为: Sy.x为各观察值Y距回归线的标准差(剩余标准差),即当X的影响被扣去以后Y方面的变异,,根据数理

16、统计的理论,同一批资料计算所得tr与tb是相同的,即tr=tb。处理资料时可用检验相关显著性代替其回归显著性。 由于 r在=0.01水准上显著,故可判断样本回归系数-8.5045与0的相差有显著性,说明存在凝血时间随凝血酶浓度变化而变化的回归关系。,(二)两样本回归系数相差的假设检验 若有两个可以比较的样本,它们的回归系数分别为b1与b2,经检验都为显著,回归系数的标准误分别为Sb1和Sb2。b1与b2相差的显著性也可用t检验法检验, 其计算公式为:,S2C为两样本回归系数的合并方差,实例:两样本回归系数t检验的步骤。 同一批白蛋白于38与25条件下,不同时间(分)的凝固百分比,问由此而得的两

17、样本回归系数相差是否显著? 白蛋白在两种温度下各不同时间的凝固百分比,1H0:1-2=0 H1:1-20 =0.01 2计算t值,r1=0.998(P0.01) b1=3.389 (Y1- 1)2=5.7927 n1=6 r2=0.996(P0.01) b2=4.424 (Y2- 2)2=24.5857 n2=6 (X1- 1)2=(X- )2=157.5000,3查t值表作结论:以=6+6-4=8查t值表,t0.01,8=2.355,今tt0.01,8,故Pb1,说明随着时间的增加,蛋白质在38时凝固百分比的增加量比在25时高。,直线回归方程的应用,1. 描述两变量间的依存变化的数量关系。

18、2.利用回归方程进行预测预报。 3.用易得指标估计不易得指标。 4. 利用回归方程进行统计控制(逆估计)。,1作回归分析要有实际意义: 不要把毫无关联的两个事物或现象用来作回归分析。 如儿童身高的增长与小树的增长,作相关分析是没有实际意义的;由儿童身高推算小树高的回归方程则更无实际意义,即使算得的r、b是显著的。,直线回归分析的注意事项,2对相关分析的作用要正确理解。 相关分析只是以相关系数来描述两个变量间相互关系的密切程度和方向,并不能阐明两事物或现象间存在联系的本质。而且相关并不一定就是因果关系,切不可单纯依靠相关系数或回归系数的显著性“证明”因果关系之存在。要证明两事物间的因果关系,必须

19、凭籍专业知识从理论上加以阐明。,3相关与回归的区别和联系: (1)相关表示两变量间的相互关系,是双方向的。而回归则表示Y随X而变化,这种关系是单方向的。 一般地,先求出相关系数r并对其进行假设检验,如果r显著并有进行回归分析之必要,再建立回归方程。 (2)回归系数与相关系数的正负号都由两变量离均差积之和的符号决定,所以同一资料的b与其r的符号相同。假设检验等价: tr=tb,(3)回归系数有单位,形式为应变量单位/自变量单位;相关系数没有单位。 (4)相关系数的范围在-1+1之间,回归系数无限制。 (5)用回归解释相关:决定系数(coefficient of determination),4适

20、合作相关和回归分析的资料有两种: (1)变量X是选定的,变量Y是从正态分布的总体中随机抽取的,宜作回归分析。 (2)两变量X、Y(或X1、X2)都是从正态分布的总体中随机抽取的,即是正态双变量中的随机样本。若需要由一个变量推算另一个变量可作回归分析;若只需说明两变量间的相互关系可作相关分析。如果变量(一个或两个)呈明显偏态时,须经过适当的变量代换(如对数代换等),使资料接近正态分布后再做相关与回归分析;或采用秩相关法 ;,5在回归分析中,由X推算Y与由Y推算X的回归方程是不同的,不可混淆。 必须正确选定自变量与应变量。一般说,事物的原因作自变量X,当事物的因果关系不很明确时,选误差较小的即个体变异小的变量作自变量X,以推算应变量Y。 6回归方程的适用范围有其限度,一般仅适用于自变量X的原数据范围内,而不能任意外推。 在这些观察值的范围之外,两变量间是否也呈同样的直线关系?,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1