直线回归与相关PPT课件.ppt

上传人:田海滨 文档编号:122448 上传时间:2025-07-10 格式:PPT 页数:53 大小:580.60KB
下载 相关 举报
直线回归与相关PPT课件.ppt_第1页
第1页 / 共53页
直线回归与相关PPT课件.ppt_第2页
第2页 / 共53页
直线回归与相关PPT课件.ppt_第3页
第3页 / 共53页
直线回归与相关PPT课件.ppt_第4页
第4页 / 共53页
直线回归与相关PPT课件.ppt_第5页
第5页 / 共53页
点击查看更多>>
资源描述

1、直线相关与回归直线相关与回归主讲教师主讲教师 熊伟熊伟1教学大纲教学大纲l了解最小二乘法原理,回归系数、相关了解最小二乘法原理,回归系数、相关系数的计算,直线回归方程的应用。系数的计算,直线回归方程的应用。l掌握直线回归、直线相关的概念,回归掌握直线回归、直线相关的概念,回归系数、相关系数的意义及其假设检验方系数、相关系数的意义及其假设检验方法。法。l重点是回归系数、相关系数的意义。重点是回归系数、相关系数的意义。l难点是直线回归与直线相关的区别和联难点是直线回归与直线相关的区别和联系。系。2复习复习 已学过的基本统计推断方法:已学过的基本统计推断方法:t检验、检验、u检验、检验、2检验、检验

2、秩和检验秩和检验l请思考:以上的统计方法研究了几个变请思考:以上的统计方法研究了几个变量?(在确定的总体之后,研究者则应量?(在确定的总体之后,研究者则应对每个研究单位的某项特征进行测量和对每个研究单位的某项特征进行测量和观察,这种特征称为变量)观察,这种特征称为变量)3l19861986年某市抽样调查了市区年某市抽样调查了市区309309名名1616岁健康男孩的身高。均数岁健康男孩的身高。均数162.28162.28厘米,厘米,标准差标准差6.396.39厘米,该人群身高呈正态厘米,该人群身高呈正态分布。分布。19761976年该市年该市1616岁男孩身高的岁男孩身高的总体均数为总体均数为

3、161.10161.10厘米,试问厘米,试问19861986年年该市区该市区1616岁男孩身高是否比岁男孩身高是否比19761976年有年有所增高?所增高?l请问此题有几个变量?假如我们要研请问此题有几个变量?假如我们要研究究1616岁健康男孩的身高与体重的关系岁健康男孩的身高与体重的关系情况,则有几个变量?情况,则有几个变量?4单变量分析单变量分析(univariate analysis):t检检验、验、u检验、检验、2检验检验、秩和检验、方差分、秩和检验、方差分析析 双变量分析双变量分析(multivariate analysis):人人的身高与体重,体温与脉搏次数,年龄的身高与体重,体温

4、与脉搏次数,年龄与血压,药剂量与疗效,体表面积与肺与血压,药剂量与疗效,体表面积与肺活量,身高与臂长活量,身高与臂长 5双变量有双变量有2种情况种情况两个变量都是随机变量,以两个变量都是随机变量,以X和和Y表示。常见的表示。常见的是(是(X,Y)服从双变量正态分布,即任意)服从双变量正态分布,即任意X处处Y服从正态分布,任意服从正态分布,任意Y 处处X服从正态分布。比服从正态分布。比如某个人群的身高和体重之间的关系。如某个人群的身高和体重之间的关系。一个变量为选定变量,以一个变量为选定变量,以X表示,其表示,其X值为选定值为选定的;一个变量是随机变量,以的;一个变量是随机变量,以Y表示,其表示

5、其Y值值是随机变化的。最常见的是各是随机变化的。最常见的是各X处,处,Y服从正服从正态分布。例如选定变量为年龄态分布。例如选定变量为年龄X,用,用1岁作间距,岁作间距,随机变量为各岁处人群的身高随机变量为各岁处人群的身高Y,则各,则各X处处Y服服从正态分布。从正态分布。6两个变量间的数量关系就研究目的来两个变量间的数量关系就研究目的来说有两种说有两种互依关系互依关系:两个:两个X 和和Y变量都为随机变量,研究变量都为随机变量,研究X和和Y的彼此关系或彼此影响,用的彼此关系或彼此影响,用相关关系相关关系。依存关系依存关系:一个为自变量,用:一个为自变量,用 X表示;一个为应表示;一个为应变量,

6、用变量,用Y表示。研究表示。研究X对对Y的作用,或的作用,或Y对对X的的依赖,用依赖,用回归分析。回归分析。7单变量分析单变量分析 身高、体重、体温等各自的分布特征。身高、体重、体温等各自的分布特征。双变量分析:双变量分析:身高与体重的关系身高与体重的关系 体温与脉搏次数的关系体温与脉搏次数的关系 体表面积与肺活量的关系体表面积与肺活量的关系多变量分析:多变量分析:学习成绩与试题难度、学习成绩与试题难度、IQ、学习态度、学习态度、缺席情况、上课认真程度等的关系缺席情况、上课认真程度等的关系8变量间的相互关系变量间的相互关系l确定性关系:函数关系确定性关系:函数关系l非确定性关系:相关与回归非确

7、定性关系:相关与回归l简单相关与回归简单相关与回归l多元相关与回归多元相关与回归l直线相关与回归直线相关与回归l曲线相关与回归曲线相关与回归9第一节第一节 直线相关直线相关(linear correlation)10一、直线相关的概念一、直线相关的概念l相关:两个相关:两个(或多个或多个)变量之间存在变量之间存在相互关系相互关系及及关系紧密程度关系紧密程度。l直线相关:用来描述具有直线关系的两变量直线相关:用来描述具有直线关系的两变量X、Y间的相互关系。间的相互关系。11研究直线相关的目的研究直线相关的目的 研究两个随机变量研究两个随机变量X与与Y之间的之间的相相互关系互关系及其及其密切程度密

8、切程度。12直线相关的适用条件直线相关的适用条件随机变量随机变量X与与Y必须都服从正态分布必须都服从正态分布1314l怎样衡量有无直线相关关系?怎样衡量有无直线相关关系?l可见我们得引入新的研究指标,可见我们得引入新的研究指标,用来判断两变量是否有直线相关用来判断两变量是否有直线相关以及关系的密切程度。以及关系的密切程度。l该指标为该指标为相关系数相关系数15二、相关系数的意义和计算二、相关系数的意义和计算1 1、相关系数的意义:相关系数的意义:r的绝对值大小表示两变量之间的关系密的绝对值大小表示两变量之间的关系密切程度。切程度。r的范围:的范围:-1 r 1 。当当|r|=1时,为完全相关;

9、时,为完全相关;当当0r1时,为正相关;时,为正相关;当当-1r时,为负相关;时,为负相关;当当r时,为完全无关或无线性相关。时,为完全无关或无线性相关。1617l2 2、相关系数、相关系数的计算的计算18例例12.1 在脑血管疾病的诊断治疗中,脑脊液白细胞介素在脑血管疾病的诊断治疗中,脑脊液白细胞介素-6(IL-6)水平是影响诊断与预后分析的一项重要指标,水平是影响诊断与预后分析的一项重要指标,但脑脊液在临床上有时又不容易采集到。某医生欲了但脑脊液在临床上有时又不容易采集到。某医生欲了解急性脑血管病病人血清与脑脊液解急性脑血管病病人血清与脑脊液IL-6水平,随机抽水平,随机抽取了某医院确诊的

10、取了某医院确诊的10例例蛛网膜下腔出血蛛网膜下腔出血(SAH)患者患者24小小时内血清时内血清IL-6(pg/ml)和脑脊液和脑脊液IL-6(pg/ml)数据如下,数据如下,问问SAH患者血清患者血清IL-6和脑脊液和脑脊液IL-6间是否有直线相关间是否有直线相关关系存在?关系存在?SAH患者第一天血清和脑脊液患者第一天血清和脑脊液IL-6(mg/ml)检测结果检测结果 患者号患者号 1 2 3 4 5 6 7 8 9 10 血清血清IL-6 22.4 51.6 58.1 25.1 65.9 79.7 75.3 32.4 96.4 85.7 脑脊液脑脊液IL-6 134.0 167.0 132

11、3 80.2 100.0 139.1 187.2 97.2 192.3 199.4193、直线相关分析步骤、直线相关分析步骤(1)、绘制、绘制散点图散点图 观察两变量间是否有直线趋势。观察两变量间是否有直线趋势。2021223、直线相关分析步骤、直线相关分析步骤(1)、绘制、绘制散点图 观察两变量间是否有直线趋势。观察两变量间是否有直线趋势。(2)、计算、计算相关系数相关系数:应用计算器或统计软件可以求得。应用计算器或统计软件可以求得。(参见实习六参见实习六)2324问题:我们能否得出结论说明问题:我们能否得出结论说明SAH患者血清患者血清IL-6和脑脊液和脑脊液IL-6间是间是有直线相关有

12、直线相关,相关系数是相关系数是0.7232。为什么?为什么?25相关系数的假设检验相关系数的假设检验 l上例中的相关系数上例中的相关系数r等于等于0.7232,说明了,说明了10例样本中例样本中SAH患者血清患者血清IL-6和脑脊液和脑脊液IL-6间是有直线相关间是有直线相关,但是,这但是,这10例只是例只是总体总体总体总体中的中的一个样本一个样本一个样本一个样本,由此得到的相关,由此得到的相关系数会存在抽样误差。因为,总体相关系数系数会存在抽样误差。因为,总体相关系数()为零为零时,由于抽样误差,从总体抽出的时,由于抽样误差,从总体抽出的10例,其例,其r可能不等可能不等于零。所以,要判断该

13、样本的于零。所以,要判断该样本的r是否有意义,需与总体是否有意义,需与总体相关系数相关系数=0进行比较,看两者的差别有无统计学意义。进行比较,看两者的差别有无统计学意义。这就要对这就要对r进行假设检验,判断进行假设检验,判断r不等于零是由于抽样误不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。差所致,还是两个变量之间确实存在相关关系。26三、相关系数的假设检验三、相关系数的假设检验1、建立假设检验,确定检验水准、建立假设检验,确定检验水准272、计算检验统计量自由度n-283、确定、确定P值并作出统计推断:值并作出统计推断:t0.05,8=2.306,P0.05。按。按=0.05

14、为为水水准,准,p100n100),并对),并对r r进行进行假设假设检验,有统计学意义检验,有统计学意义时,时,r r的绝对值大于的绝对值大于0.70.7,则表示两,则表示两个变量高度相关;个变量高度相关;r r的绝对值大于的绝对值大于0.40.4,小于等于,小于等于0.70.7时,时,则表示两个变量之间中度相关;则表示两个变量之间中度相关;r r的绝对值大于的绝对值大于0.20.2,小,小于等于于等于0.40.4时,则两个变量低度相关。时,则两个变量低度相关。30四、相关分析应用中应注意的问题四、相关分析应用中应注意的问题1、相关分析一定要有实际意义。、相关分析一定要有实际意义。2、进行相

15、关分析前,应先绘制散点图。、进行相关分析前,应先绘制散点图。3、相关分析时,小样本资料经、相关分析时,小样本资料经t检验只能推断检验只能推断两变量间有无直线关系,而不能推断其相关两变量间有无直线关系,而不能推断其相关的密切程度。的密切程度。31第二节第二节 直线回归直线回归(linear regression)一、直线回归的概念一、直线回归的概念 通过拟合线性方程来描述某变量通过拟合线性方程来描述某变量随另一变量变化而变化的依存关系。随另一变量变化而变化的依存关系。32直线回归目的直线回归目的 研研究究变变量量之之间间的的数数量量依依存存关关系系(Y随随着着X变变化化而而变变化化),找找出出一

16、一条条最最能能代代表这种数据关系的直线。表这种数据关系的直线。33直线回归方程:直线回归方程:X为自变量的取值为自变量的取值 为当为当X取某一值时应变量取某一值时应变量Y的平均估计值的平均估计值 a为截距为截距(intercept),即当,即当X=0时时Y的平均估的平均估计值计值b为回归系数为回归系数(regression coefficient),又称斜率,又称斜率(slope),是当,是当X每改变一个观测单位时,应变量每改变一个观测单位时,应变量y平平均变化均变化b个单位。个单位。34a0a=0a0:X每增加(减少)一个观测单位,增加(减少)b个单位。b0b0b=036二、直线回归方程的建

17、立二、直线回归方程的建立l原理:最小二乘法原理:最小二乘法实测点到直线的纵向距离实测点到直线的纵向距离平方之和最小。平方之和最小。应用计算器或统计软件可以求得。(参见实习六)3738二、直线回归方程的建立二、直线回归方程的建立l原理:最小二乘法原理:最小二乘法实测点到直线的纵向距离实测点到直线的纵向距离平方之和最小。平方之和最小。l列出回归方程:列出回归方程:l作出回归直线:作出回归直线:在在X值值实际范围内实际范围内任取两点任取两点3940三、回归系数的假设检验三、回归系数的假设检验1 1、建立假设检验,确定检验水准、建立假设检验,确定检验水准 H H0 0:=0 X=0 X与与Y Y之间无

18、回归关系之间无回归关系 H H1 1:0 X0 X与与Y Y之间有某种程度的回归关系之间有某种程度的回归关系 =0.05412、计算检验统计量、计算检验统计量(t检验检验)423、确定、确定P值和作出统计判断值和作出统计判断l本例中本例中,t=2.962,=10-2=8,t0.05,8=2.306,P0.05。按。按=0.05为为水准,水准,p,拒绝拒绝H0,接受接受H1,可以认为可以认为SAH患者血清患者血清IL-6和脑脊液和脑脊液IL-6间有一间有一定程度的回归关系,即回归系数定程度的回归关系,即回归系数 0。43四、直线回归方程的应用四、直线回归方程的应用1、描述描述因变量依赖于自变量变

19、化而变化的数量因变量依赖于自变量变化而变化的数量依依存关系。存关系。2、利用回归方程进行、利用回归方程进行预测预报预测预报。如由父亲身高来。如由父亲身高来预测儿子成人后的身高。预测儿子成人后的身高。3、由易测的变量值来、由易测的变量值来估计难测的变量值估计难测的变量值。如由病。如由病人体重来估计其体表面积等。人体重来估计其体表面积等。44应用直线相关与回归的注意事项应用直线相关与回归的注意事项 1、实际意义 进行相关回归分析要有实际意义,不可把毫无关进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。例如,有系的两个事物或现象用来作相关回归分析。例如,有人说,孩子长

20、公园里的小树也在长。求孩子和小树人说,孩子长,公园里的小树也在长。求孩子和小树之间的相关关系就毫无意义,用孩子的身高推测小树之间的相关关系就毫无意义,用孩子的身高推测小树的高度则更加慌谬。的高度则更加慌谬。2、相关关系相关关系 相关关系不一定是因果关系,也可能是伴随关系,相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系,例如,有人发现,对并不能证明事物间有内在联系,例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个然而,学会新词并不能使脚变大,而是涉及到第三个因

21、素因素年龄。当儿童长大一些,他们的阅读能力会年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。提高而且由于长大也穿不下原来的鞋。453、利用散点图、利用散点图 对于性质不明确的两组数据,可先做散点对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行相关回归分是正相关还是负相关,然后再进行相关回归分析。析。4、变量范围、变量范围 相关分析和回归方程仅适用于样本的原始相关分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不能得出数据范围之内,出了这个范围,我们不能得

22、出两变量的相关关系和原来的回归关系两变量的相关关系和原来的回归关系46回归与相关的区别和联系回归与相关的区别和联系47直线回归与直线相关的区别直线回归与直线相关的区别1、概念不同:、概念不同:直线回归研究两个变量之间的直线回归研究两个变量之间的数量依存关系数量依存关系;直线相关研究两变量之间直线相关研究两变量之间相互联相互联系的密切程度。系的密切程度。482、对资料的要求不同:、对资料的要求不同:直线直线 回归要求回归要求Y为数值变量且服从正为数值变量且服从正态分布,态分布,X为人为控制或精确测量;为人为控制或精确测量;直线相关要求直线相关要求X和和Y都服从正态分布。都服从正态分布。3、统计量

23、不同:、统计量不同:回归系数回归系数b有单位,相有单位,相关系数关系数r没有单位。没有单位。494、相关系数、相关系数r与回归系数与回归系数b:r与与b的绝对的绝对值反映的意义不同。值反映的意义不同。nr的绝对值越大,散点图中的点越趋的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系向于一条直线,表明两变量的关系越密切,相关程度越高。越密切,相关程度越高。nb的绝对值越大,回归直线越陡,说的绝对值越大,回归直线越陡,说明当明当X变化一个单位时,变化一个单位时,Y的平均变的平均变化就越大。反之也是一样。化就越大。反之也是一样。50直线回归与直线相关的联系直线回归与直线相关的联系l对同一

24、资料计算对同一资料计算r与与b,它们的符号一致它们的符号一致lr与与b的假设检验等价,即对同一样本有的假设检验等价,即对同一样本有lr与与b可以互相换算:可以互相换算:51l可以用回归解释相关:可以用回归解释相关:r2又称为决定系数又称为决定系数R2(determinant coefficient),它说明应变量它说明应变量Y的总变异中归因的总变异中归因于于X的部分。的部分。52教学大纲教学大纲l了解最小二乘法原理,回归系数、相关了解最小二乘法原理,回归系数、相关系数的计算,直线回归的区间估计,系数的计算,直线回归的区间估计,直线回归方程的应用。直线回归方程的应用。l掌握直线回归、直线相关的概念,回归掌握直线回归、直线相关的概念,回归系数、相关系数的意义及其假设检验系数、相关系数的意义及其假设检验方法。方法。l重点是回归系数、相关系数的意义。重点是回归系数、相关系数的意义。l难点是直线回归与直线相关的区别和联难点是直线回归与直线相关的区别和联系。系。53

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

宁ICP备18001539号-1