相关与回归分析方法介绍.ppt

上传人:李医生 文档编号:9198730 上传时间:2021-02-07 格式:PPT 页数:76 大小:1.69MB
返回 下载 相关 举报
相关与回归分析方法介绍.ppt_第1页
第1页 / 共76页
相关与回归分析方法介绍.ppt_第2页
第2页 / 共76页
相关与回归分析方法介绍.ppt_第3页
第3页 / 共76页
相关与回归分析方法介绍.ppt_第4页
第4页 / 共76页
相关与回归分析方法介绍.ppt_第5页
第5页 / 共76页
点击查看更多>>
资源描述

《相关与回归分析方法介绍.ppt》由会员分享,可在线阅读,更多相关《相关与回归分析方法介绍.ppt(76页珍藏版)》请在三一文库上搜索。

1、2021/2/7,1,第八章 相关与回归分析 Correlation Regression Analysis,章前导语: 1、有其父,必有其子。 -古人和现代人都这么说 2、“真的,”公爵夫人说:“火烈鸟和芥末都很刺鼻。那意思是说物以类聚。” “但芥末并不是鸟。” Alice说。 “是的,象往常那样,”公爵夫人说,“你具有多么清晰的表达方式!” - Alice漫游奇境记,2021/2/7,2,第八章 相关与回归分析,Statistics in Practice 消费者应该留下多少小费? 在西方国家餐饮等服务行业有一条不成文的规定,即发生餐饮等服务项目消费时,必须给服务员一定数额的小费,许多人都

2、听说小费应该是账单的16%左右,是否真的如此呢?让我们来考察表8-1,表中的数据是经过调查所得的样本数据,通过对这几组数据的分析与观察,我们能发现两者之间的数量关系。,2021/2/7,3,Statistics in Practice,问题: 1、是否有足够的证据断定:在账单与小费数额之间存在某种联系? 2、如果存在某种联系,怎样使用这种联系来确定应该留下多少小费? 本章的重点就是基于成对出现的样本数据做出一些推论。如上例,我们想要确定账单与小费数额之间是否存在某种联系,如果存在,我们就想用一个公式来描述它,这样就能找出人们留小费时遵循的规则。类似这样的问题还有很多,如: (1)犯罪率与偷窃率

3、; (2)香烟消费与患癌症率; (3)个人收入水平与受教育年限;(4)血压与年龄; (5)父母身高与子女身高; (6)薪金与酒价等等。,2021/2/7,4,主要内容,8.1 相关关系概述 一、变量间的相互关系 二、相关关系的种类 三、相关分析的内容及其假定 8.2 线性相关关系的测定 一、相关图表 二、相关系数 8.3 回归分析 一、回归分析概述 二、一元线性回归方程的拟合 三、回归分析的方差分析 四、一元线性回归模型的检验 五、对回归分析结果的评价 六、多元线性回归分析,2021/2/7,5,8.1 相关关系概述,一、变量间的相互关系 (一)函数关系 定义:完全确定的(数量)关系。 (1)

4、某一(组)变量与另一变量间存在着一一对应的关系; 例计件工资(y)与产量(x) y=f(x)=10 x; x0=1件, y0=10元; x1=2件, y1=20元 圆的面积SR2,R=10,S=100 (2)表述:y=f(x)。 (二)相关关系 、定义:不完全确定的关系。 (1)某一(组)变量与另一变量间有关系,但并非一一对应;,2021/2/7,6,一、变量间的相互关系,例身高y与体重x; A:x=60kg、y=170m; B: x=60kg、y=1.72m; C:x=60kg、y=1.68m; D: x=60kg、y=1.65m。 (2)表述:y=f(x)+。 影响身高的因素:体重、遗传、

5、锻炼、睡眠质量 2、成因 (1)某些影响因素尚未被认识;(2)虽已认识但无法测量; (3)测量误差。 例某种水果P元/斤: 购买额 y=Px 购买量 x=2斤 y=2P+=21.9+0.2 3、数量关系的形式 (1)单一因果关系 ;(2)互为因果关系 ;(3)伴随关系 。,2021/2/7,7,二、相关关系的种类,(一)按相关的程度分 1、完全相关:函数关系; 2、不相关:没有关系; 3、不完全相关。 (二)按相关的方向分 1、正相关:变量的变动方向一致(同增同减); 2、负相关:变量的变动方向相反(一增一减)。 (三)按相关的形式分 1、线性相关; 2、非线性相关。,2021/2/7,8,二

6、、相关关系的种类,相关程度密切,相关程度不密切,2021/2/7,9,二、相关关系的种类,(四)按影响因素的多少分 1、单(简单)相关:只有一个自变量; 例学习成绩与学习时间;血压与年龄;亩产量与施肥量。 2、复(多元)相关:两个或两个以上的自变量 ; 例经济增长与人口增长、科技水平、自然资源、管理水平等之间的关系; 体重与身高、食欲、睡眠时间之间的关系。 3、偏相关:就多个变量测定其中两个变量的相关程度而假定其他变量不变。 例就y=ax1+bx2+ ,研究y与x1之间的关系,假定x2不变。,2021/2/7,10,相关分析要解决的问题 变量之间是否存在关系? 如果存在关系,它们之间是什么样的

7、关系? 变量之间的关系强度如何? 样本所反映的变量之间的关系能否代表总体变量之间的关系? 为解决这些问题,在进行相关分析时,对总体有以下两个主要假定 两个变量之间是线性关系 两个变量都是随机变量,三、相关分析的内容及其假定,2021/2/7,11,8.2 线性相关关系的测定,目的测定变量间的相关方向与密切程度。 一、相关图表 (一)相关表 1、单变量分组相关表:自变量分组且计算次数,因变量只计算平均数。,2021/2/7,12,一、相关图表,2、双变量分组相关表:对自变量与因变量均进行分组。 注:自变量X轴;因变量Y轴。,2021/2/7,13,正 相 关,负 相 关,曲线相关,不 相 关,又

8、称散点图,用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。,一、相关图表,不足难以精确反映相关的密切程度。,(二)相关图,2021/2/7,14,二、相关系数,二、(线性)相关系数 (一)积差法计算公式,在线性相关的条件下,用来反映变量之间相关方向及程度的统计指标,用r ()表示。,2021/2/7,15,二、相关系数,注解1 协方差Cov(x,y)的作用 1、显示x与y之间的相关方向。,正相关,2021/2/7,16,二、相关系数,负相关,2021/2/7,17,二、相关系数,2、显示x与y之间的相关程度。,正相关

9、,2021/2/7,18,二、相关系数,负相关,2021/2/7,19,二、相关系数,无线性相关,2021/2/7,20,二、相关系数,归纳 Cov(x,y)的作用 第一、显示x与y之间的相关方向,第二、显示x与y之间的相关密切程度,2021/2/7,21,二、相关系数,注解2 sx、sy的作用 1、使不同变量的协方差标准化直接对比。,2021/2/7,22,二、相关系数,2、使,2021/2/7,23,二、相关系数,(二)积差法相关系数的简捷计算公式,2021/2/7,24,二、相关系数,r的简捷计算公式,2021/2/7,25,二、相关系数,r的简捷计算公式,2021/2/7,26,二、相

10、关系数,(三)线性相关的经验判断准则,例为了解餐饮业消费数额与小费之间的数额关系,特从若干名消费者中随机抽取10名消费者进行调查,所得数据如下:,2021/2/7,27,二、相关系数,例计算过程。,2021/2/7,28,二、相关系数,解,答:账单消费额与小费之间存在着高度的正相关关系。,2021/2/7,29,二、相关系数,问:若令账单消费额为y,小费为x,则r的取值是否改变 ?,2021/2/7,30,二、相关系数,(四)样本相关系数的特点 1、两变量均为随机变量; 2、两变量的地位是平等的 rxy= ryx; 3、取值范围-1,1,其接近于1的程度与样本容量n有关。 n小,r 1。特例:

11、当n = 2时,r = 1。 例样本(x,y)为(6,12.6),(1,3.0), n = 2。,2021/2/7,31,二、相关系数,(五)关于相关的普遍错误 在解释关于相关的结果中会出现以下三种普遍的错误: 1、相关就一定意味着因果关系。如:一项研究表明,统计学教授的薪金与每人的啤酒消费量之间有很强的正相关关系,但这两个变量都受经济形势(隐藏变量)的影响。 2、相关系数为0,一定不相关。 3、基于平均数进行相关分析与基于个体数据进行相关分析,其相关程度不一样。如:一项研究中,关于个人收入和教育的成对数据产生了一个0.4的线性相关系数,但当使用区域平均时,线性相关系数变为0.7。,2021/

12、2/7,32,二、相关系数,(六)线性相关的假设检验(两种方法) 1、提出原假设与备择假设 2、给定显著性水平 3、选择检验方法,构建检验统计量 4、将检验统计量与临界值比较,如检验统计量的绝对值大于临界值,则拒绝原假设,否则,就不拒绝原假设。 t检验法 r检验法:用已经算好的r作为检验统计量,其临界值可以通过查表得到。,2021/2/7,33,二、相关系数,(六)线性相关的假设检验(两种方法) 如袭前例:账单与小费之间的r=0.92,若用t检验法: r检验法: N=10, r=0.92, r=0.632, r r 拒绝原假设,则认为两者存在显著的线性相关。,2021/2/7,34,二、相关系

13、数,一些人相信他们手掌生命线的 长度可以用来预测他们的寿命。 M.E. Wilson和L.E. Mather在 美国医学协会学报上发表的一封信 中,通过对尸体的研究对此给予了驳斥。 死亡时的年龄与手掌生命线的长度被一 起记录下来。作者得出死亡时的年龄与 生命线的长度不存在显著相关的结论。 手相术失传了,手也就放得下了。,看手相:,2021/2/7,35,8.3 回归分析,一、回归分析概述 (一)概念 1、回顾线性相关分析:计算线性相关系数 r 确定两变量之间的相关方向与密切程度。 不足无法表明两变量之间的因果关系 无法从一个或几个变量(xi)的变化来推测另一个变量(y)的变化情况。 10名用餐

14、顾客消费金额与所付小费数据如下: r=0.92,2021/2/7,36,一、回归分析概述,2、回归分析:通过一个(些)变量的变化解释另一变量的变化 y = a+bx 、 y=a+b1x1+bx2 、 y=0+ 1x1+ 2x2+ nxn 回归英国生物学家 F Galton 首次提出。 父辈身高 子辈身高 x y y = f(x)+ 人类的平均身高。 目的在于通过X的已知或设定值,去估计或预测Y的(总体)均值。 变量Y是被预测或被解释的变量,称为因变量(Dependent Variable)或被解释变量(Explained Variable) 变量X是用来预测或解释因变量的变量,称为自变量(In

15、dependent Variable)或解释变量(Explanatory Variable),2021/2/7,37,一、回归分析概述,(二)回归分析的种类 1、按自变量的多少分 (1)简单(一元)回归:自变量只有一个 。 例 y = a+bx 一元回归方程 (2)复(多元)回归:自变量为两个或两个以上。 例 y=0+ 1x1+ 2x2+ nxn 2、按回归方程式的特征分 (1)线性回归:因变量为自变量的线性函数。 例 y = a+bx 一元线性回归方程 (2)非线性回归:因变量为自变量的非线性函数。 例,2021/2/7,38,1.定义:描述因变量 y 如何依赖于自变量 x 和误差项 的方程

16、称为回归模型。 2.一元线性回归模型可表示为 y = b0 + b1 x + e y 是 x 的线性函数(b0 + b1 x部分)加上误差项 线性部分反映了由于 x 的变化而引起的 y 的变化 误差项 是随机变量 反映除了x 和 y 之间的线性关系以外的随机因素对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的变异性 0 和 1 称为模型的参数,一、回归分析概述,(三) 一元线性回归模型 . 回归模型(regression model),2021/2/7,39,3.一元线性回归模型的基本假定,(1)误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为

17、 E( y ) = 0+ 1 x (2)对于所有的 x 值,的方差2 都相同,即Var(i)=E(i2)=2 (3)误差项之间不存在自相关关系,其协方差为0,即Cov(i,j)=E(ij)=0(i j) (4)误差项是一个服从正态分布的随机变量,即N(0 ,2 ) (5)自变量是给定的变量,与随机误差项线性无关。 以上这些基本假设是德国数学家高斯最早提出的,故也称为高斯假定或经典假定。,一、回归分析概述,2021/2/7,40,.回归方程 (regression equation),定义:描述 因变量y 的期望值如何依赖于自变量 x 的方程,称为回归方程 一元线性回归方程的形式如下 E( y

18、) = 0+ 1 x,方程的图示是一条直线,也称为直线回归方程 0是回归直线在 y 轴上的截距,是当 x=0 时, y 的期望值 1是直线的斜率,表示 x 每变动一个单位时,y 的平均变动值,一、回归分析概述,2021/2/7,41,.估计的回归方程 (estimated regression equation),一元线性回归中估计的回归方程为,用样本统计量 和 代替回归方程中的未知参数 和 ,就得到了估计的回归方程,总体回归参数 和 是未知的,必须利用样本数据去估计,其中: 是估计的回归直线在 y 轴上的截距; 是直线的斜率,表示 x 每变动一个单位时,y 的平均变动值,一、回归分析概述,2

19、021/2/7,42,一、回归分析概述,(四)回归分析的步骤 1、确定自变量和因变量; 例粮食产量(y) 施肥量(x); 消费支出( y ) 国民收入( x ); 火灾损失额( y ) 火灾发生地与最近一个消防站之间的距离( x )。 2、确定样本回归方程; 3、参数估计与模型检验; 4、预测或控制。 例 消费与收入的回归方程: y= a+bx= 200+0.15x 已知x,确定y:估计或预测 已知y,确定x:控制,2021/2/7,43,相关分析中x与y对等,回归分析中x与y要确定自变量和因变量; 相关分析中x、y均为随机变量,回归分析中只有y为随机变量; 相关分析测定相关程度和方向,回归分

20、析用回归模型进行预测和控制。,区别:,一、回归分析概述,(五)回归分析与相关分析比较,2021/2/7,44,理论和方法具有一致性; 相关分析是回归分析的基础和前提,无相关就无回归,相关程度越高,回归越好; 回归分析是相关分析的继续和深化; 相关系数和回归系数方向一致,可以互相推算。,联系:,一、回归分析概述,(五)回归分析与相关分析比较,2021/2/7,45,二、一元线性回归方程的拟合,(一)总体回归方程,2021/2/7,46,二、一元线性回归方程的拟合,Yi/Xi=条件均值+i =0+1Xi+ i,2021/2/7,47,二、一元线性回归方程的拟合,(二)样本回归方程 从总体中随机取样

21、,获取一组样本观察值。,2021/2/7,48,二、一元线性回归方程的拟合,图示,2021/2/7,49,二、一元线性回归方程的拟合,(三)样本回归方程的拟合方法 1、绝对值拟合法,2、最小二乘法(OLS法) 基本思路:使残差平方和最小的直线“最优直线”。,2021/2/7,50,二、一元线性回归方程的拟合,总可以设法找到一对 的取值,使Q为最小值。,2021/2/7,51,二、一元线性回归方程的拟合,将上式代入(2)式,得,2021/2/7,52,二、一元线性回归方程的拟合,计算公式,2021/2/7,53,二、一元线性回归方程的拟合,相关系数r与回归系数 之间的关系,(1)两者是同向的;

22、(2)r反映变量的相关方向与密切程度; 反映自变量每变动一个单位时因变量的平均变动量。,2021/2/7,54,1. 线性特征 是 的线性函数,2. 无偏特性 3. 最小方差特性 在所有的线性无偏估计中,OLS估计 具有最小方差 结论:在经典假定条件下,OLS估计量是最佳线性无 偏估计量(best linear unbiased estimator,BLUE)。,(四)OLS估计量的性质(高斯马尔柯夫定理),二、一元线性回归方程的拟合,2021/2/7,55,二、一元线性回归方程的拟合,例为研究用餐消费与小费支出的关系,随机抽取了10位用餐顾客,得样本数据如下:,请拟合小费依消费的直线回归方程

23、,样本的相关系数r=0.92,2021/2/7,56,二、一元线性回归方程的拟合,例为研究用餐消费与小费支出的关系,随机抽取了10位用餐顾客,得样本数据如下(用Excel软件生成的折线图),请拟合样本回归方程,2021/2/7,57,二、一元线性回归方程的拟合,解:通过散点图可近似看出小费与用餐消费之间呈线性关系,故设两者之间关系为,经济意义:餐费每增加100元,小费支出平均增加16.55元。,2021/2/7,58,三、回归方程的方差分析,(一)总离差平方和的分解,2021/2/7,59,三、回归方程的方差分析,由:,2021/2/7,60,三、回归方程的方差分析,离差分析,2021/2/7

24、,61,残差平方和,回归离差平方和,总离差平方和,2021/2/7,62,三、回归方程的方差分析,(二)判定系数,SSR占SST的比例,用 表示;用来衡量回归方程对y的解释程度。,2021/2/7,63,三、回归方程的方差分析,判定系数的作用,总离差 平方和 SST,回归平方和 SSR,残差平方和 SSE,来自样本回归线,来自残差,回归线上的点与样本均值离差的平方和,判定系数(coefficient of determination)的取值范围:0,1,越接近1,说明实际观测点离样本线越近,拟合优度越高。,在给定样本中,SST不变,如果实际观测点离样本回归线越近,则SSR在SST中占的比重越大

25、,因此回归直线的拟合优度可用下面的判定系数(可决系数)测度:,实际观测点与回归线上的点的离差的平方和,2021/2/7,64,三、回归方程的方差分析,(三)判定系数R2与相关系数r的关系,2021/2/7,65,判定系数与相关系数的区别,判定系数无方向性,相关系数则有方向,其方向与样本回归系数1相同; 判定系数说明变量值的总离差平方和中可以用回归线来解释的比例,相关系数只说明两变量间关联程度及方向; 相关系数有夸大变量间相关程度的倾向,因而判定系数是更好的度量值。,三、回归方程的方差分析,2021/2/7,66,三、回归方程的方差分析,(四)估计标准误差 1、定义:观察值与回归值之间的平均误差

26、。 2、公式,2021/2/7,67,三、回归方程的方差分析,图示,2021/2/7,68,线性回归模型的检验分二大类:,统计检验,计量经济检验,从统计学的角度检验 所估计的样本回归函数的有效性,从基本假设是否成立这一角度检验 最小二乘估计法的适用性及其改进,拟合优度检验,显著性检验,四、一元线性回归模型的检验,本课程只学习统计检验: 1、拟合优度检验 拟合优度检验主要用来检验样本回归函数与实际观测点的“接近”程度,可用判定系数(或相关系数、估计标准误差)测度。,2021/2/7,69,(1)线性关系的检验,检验自变量与因变量之间的线性关系是否显著,即各解释变量前的参数是否不全为零。 如果总体

27、上线性关系成立,则Y的总离差平方和中,可由该线性回归函数解释的部分(系统性因素)所占比重较大,残差平方和(随机性因素)所占比重较小,从而使得回归平方和与残差平方和的比值较大。 将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著,其中,k表示模型中回归参数的个数,n为样本容量。,2、显著性检验,2021/2/7,70,线性关系检验的步骤,提出假设 H0:1=0 线性关系不显著,2. 计算检验统计量F,确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F 作出决策:若FF (P),不拒绝H0,2021/2/7,71,(2)回归系数的检验,采用t检验

28、 在一元线性回归中,等价于线性关系的显著性检验,理论基础是回归系数 的抽样分布,对各回归系数的显著性检验主要是通过样本考察总体回归系数的“可能取值”。 回归分析中,主要是针对总体参数是否为某一值(一般设为零)来检验自变量 x 对因变量 y 的影响是否显著的(为什么?),2021/2/7,72,样本统计量 的抽样分布,是根据最小二乘法求出的样本统计量,它有自己的分布 的分布具有如下性质 分布形式:正态分布 数学期望: 标准差: 由于 未知,需用其估计量se来代替,得到 的估计标准差,2021/2/7,73,回归系数检验的步骤,提出假设 H0: b1 = 0 (没有线性关系) H1: b1 0 (

29、有线性关系) 计算检验的统计量,确定显著性水平,并进行决策 若 tt ,则拒绝H0;若 tt ,就不拒绝H0,用Excel进行相关和回归分析,2021/2/7,74,五、对回归分析结果的评价,建立的模型是否合适?或者说,这个拟合的模型有多“好”?要回答这些问题,可以从以下几个方面入手: 所估计的回归系数 的符号是否与理论或事先预期相一致 如果理论上认为x与y之间的关系不仅是正的,而且是统计上显著的,那么所建立的回归方程也应该如此 回归模型在多大程度上解释了因变量y取值的差异?可以用判定系数R2来回答这一问题 考察关于误差项的正态性假定是否成立。因为我们在对线性关系进行F检验和回归系数进行t检验

30、时,都要求误差项服从正态分布,否则,我们所用的检验程序将是无效的。正态性的简单方法是画出残差的直方图或正态概率图,2021/2/7,75,六、多元线性回归分析,1、多元线性回归模型 多元线性回归模型:是指在线性相关的条件下,研究2个或2个以上自变量与因变量之间的数量关系。其模型为: y=0+ 1X1 2X2+ nXn+ei 2、多元线性回归模型参数的估计:最小平方法。 求解回归系数的估计值,通常用统计软件。 其方程用矩阵表示为:,2021/2/7,76,本章小节,一、变量间关系的种类; 二、相关系数的计算、评价及检验 三、回归模型、回归方程、估计回归方程的概念,回归方程参数的最小二乘估计; 四、判定系数、估计标准误差的计算,及线性关系检验及回归系数的检验,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1