第八章相关与回归分析.ppt

上传人:本田雅阁 文档编号:2969250 上传时间:2019-06-15 格式:PPT 页数:100 大小:1.30MB
返回 下载 相关 举报
第八章相关与回归分析.ppt_第1页
第1页 / 共100页
第八章相关与回归分析.ppt_第2页
第2页 / 共100页
第八章相关与回归分析.ppt_第3页
第3页 / 共100页
第八章相关与回归分析.ppt_第4页
第4页 / 共100页
第八章相关与回归分析.ppt_第5页
第5页 / 共100页
点击查看更多>>
资源描述

《第八章相关与回归分析.ppt》由会员分享,可在线阅读,更多相关《第八章相关与回归分析.ppt(100页珍藏版)》请在三一文库上搜索。

1、第八章 回归分析与相关分析,8.1 相关分析概述 8.2 一元线性回归分析,相关和回归分析是研究事物的相互关系、测定它们联系的紧密程度、揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。,一、相关分析的意义 二、相关关系的测定,8.1 相关分析概述, 出租汽车费用与行驶里程: 总费用=行驶里程 每公里单价, 家庭收入与恩格尔系数: 家庭收入高,则恩格尔系数低。,函数关系 (确定性关系),相关关系 (非确定性关系),比较下面两种现象间的依存关系, 函数关系的例子 某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = p x (p

2、为单价) 圆的面积(S)与半径之间的关系可表示为S = R2 企业的原材料消耗额(y)与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系可表示为y = x1 x2 x3, 相关关系的例子 商品的消费量(y)与居民收入(x)之间的关系 商品销售额(y)与广告费支出(x)之间的关系 粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系 收入水平(y)与受教育程度(x)之间的关系 父亲身高(y)与子女身高(x)之间的关系,现象间的依存关系大致可以分成两种类型:,函数关系,指现象间所具有的严格的确定性的依存关系,相关关系,指客观现象间确实存在,但数量上不是严

3、格对应的依存关系,函数关系与相关关系之间并无严格的界限:有函数关系的变量间,由于有测量误差及各种随机因素的干扰,可表现为相关关系;对具有相关关系的变量有深刻了解之后,相关关系有可能转化为或借助函数关系来描述。,相关分析的意义,现象之间的相互联系,在许多情况下表现为一定的因果关系,将这些现象数量化则成为变量:其中一个或若干个起着影响作用的变量称为自变量,通常用X表示,它是引起另一现象变化的原因,是可以控制、给定的值;而受自变量影响的变量称为因变量,通常用Y表示,它是自变量变化的结果,是不确定的值。,相关分析的意义,按涉及变量的多少分为,相关关系的种类,按照表现形式不同分为,按照变化方向不同分为,

4、相关分析的意义,一、相关分析的意义 二、相关关系的测定,8.1 相关分析概述,定性分析,是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断,定量分析,在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度,相关关系的测定,简单 相关表,适用于所观察的样本单位数较少,不需要分组的情况,分组 相关表,适用于所观察的样本单位数较多标志变异又较复杂,需要分组的情况,将现象之间的相互关系,用表格的形式来反映。,相关表,正 相 关,负 相 关,曲线相关,不 相 关,又称散点图,用直角坐标系的x轴代表自变量,

5、y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。,相关图,在直线相关的条件下,用以反映两变量间线性相关密切程度的统计指标,用r表示,相关系数,相关系数r的取值范围:-1r1,相关关系的测度 (相关系数取值及其意义),r,是相关系数的平方,用 表示;用来衡量回归方程对y的解释程度。又称可决系数,判定系数取值范围:,越接近于1,表明x与y之间的相关性越强; 越接近于0,表明两个变量之间几乎没有直线相关关系.,判定系数,结论:工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量x的变化能够解释工业总产值y变化的95.2。,第八章 相关与回归分析,

6、8.1 相关分析概述 8.2 一元线性回归分析,一、回归分析概述 二、一元线性回归模型 三、回归估计标准差 四、线性相关的显著性检验 五、回归估计与预测,8.2 一元线性回归分析,回归分析,指根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化和求得因变量的预测值的统计分析方法,回归:退回regression,回归分析的主要任务就是要采用适当的方法,充分利用样本信息,使估计的样本函数尽可能地接近于真实总体回归函数。,回归分析与相关分析,理论和方法具有一致性; 无相关就无回归,相关程度越高,回归越好; 相关系数和回归系数方向一致,可以互相推算。,联系:,相关分析

7、中x与y对等,回归分析中x与y要确定自变量和因变量; 相关分析中x、y均为随机变量,回归分析中只有y为随机变量; 相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。,回归分析与相关分析,区别:,回归分析的种类,Simple Linear regression,一、回归分析概述 二、一元线性回归模型 三、回归估计标准差 四、线性相关的显著性检验 五、回归估计与预测,8.2 一元线性回归分析,一元线性回归模型的估计,回归模型的估计要求找到一种方法,使估计的样本回归函数能够尽可能地接近总体回归函数,从而作为总体回归函数的代表来描述变量间的具体相关关系。 方法有多种,最小二乘法(最小平方法

8、)是其中最简单、适用性最广的一种估计方法。 最小二乘法的基本思想: 让所寻找的样本回归函数(线)上的点尽可能地接近实际观测点,即样本回归线上的点与实际观测点的离差平方和最小。 可以证明,在总体随机扰动项的上述假设下,最小二乘法找到的样本回归函数是最优的(样本函数的系数满足线性性、无偏性、最小方差性)。,一元线性回归模型,对于经判断具有线性关系的两个变量y与x,构造一元线性回归模型为:,假定E()=0,有总体一元线性回归方程:,一元线性回归方程的几何意义,总体一元线性 回归方程:,样本一元线性回归方程:,以样本统计量估计总体参数,截距a 表示在没有自变量x的影响时,其它各种因素对因变量y的平均影

9、响;回归系数b 表明自变量x每变动一个单位,因变量y平均变动b个单位。,残差(Residual):e,一元线性回归方程 中参数a、b的确定:,最小平方法,整理得到由两个关于a、b的二元一次方程组成的方程组:,进一步整理,有:,【分析】因为工业总产值与能源消耗量之间存在高度正相关关系( ),所以可以拟合工业总产值对能源消耗量的线性回归方程。,即线性回归方程为:,计算结果表明,在其他条件不变时,能源消耗量每增加一个单位(十万吨),工业总产值将增加0.7961个单位(亿元)。,最小二乘法估计的优良性质,一元线性回归模型的假定,b与r的关系:,判定系数与相关系数的关系,判定系数与相关系数的区别:,判定

10、系数无方向性,相关系数则有方向,其方向与样本回归系数 b 相同; 判定系数说明变量值的总离差平方和中可以用回归线来解释的比例(就回归模型而言),相关系数只说明两变量间关联程度及方向(就两个变量而言); 相关系数有夸大变量间相关程度的倾向,因而判定系数是更好的度量值。,一、回归分析概述 二、一元线性回归模型 三、回归估计标准差 四、线性相关的显著性检验 五、回归估计与预测,8.2 一元线性回归分析,回归估计标准差,是因变量各实际值与其估计值之间的平均差异程度,表明其估计值对各实际值代表性的强弱;其值越小,回归方程的代表性越强,用回归方程估计或预测的结果越准确。,在大样本条件下,可用公式计算:,一

11、、回归分析概述 二、一元线性回归模型 三、回归估计标准差 四、线性相关的显著性检验 五、回归估计与预测,8.2 一元线性回归分析,线性相关的显著性检验,相关系数的显著性检验(t检验法),提出假设:,目的,检验总体两变量间线性相关性是否显著,步 骤,构造检验统计量:,相关系数的显著性检验(t检验法), 根据给定的显著性水平,确定临界值 ;, 计算检验统计量并做出决策。,步 骤,线性回归模型的检验分二大类:,统计检验,计量经济检验,从统计学的角度检验 所估计的样本回归函数的有效性,从基本假设是否成立这一角度检验 最小二乘估计法的适用性及其改进,拟合优度检验,显著性检验,一元线性回归模型的检验,本课

12、程只学习统计检验: 1、拟合优度检验 主要用来检验样本回归函数与实际观测点的“接近”程度,它是通过对Yt的样本点距其样本均值的离差平方和的分解来进行的。即实际观测值落在样本回归“线”上,则拟合最好。,误差平方和,回归 平方和,总离差平方和,Lyy=U+Q,总离差平方和,回归平方和,误差平方和,总离差 平方和 SST,回归平方和 SSR,残差平方和 SSE,来自样本回归线,来自残差,回归线上的点与样本均值离差的平方和,可决系数(coefficient of determination)的取值范围:0,1,越接近1,说明实际观测点离样本线越近,拟合优度越高。,在给定样本中,SST不变, 如果实际观

13、测点离样本回归线越近,则SSR在SST中占的比重越大,因此样本拟合优度可用下面的可决系数测度:,实际观测点与回归线上的点的离差的平方和,2、回归方程的显著性检验 (线性关系的检验 ),检验自变量和因变量之间的线性关系是否显著 具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著 如果是显著的,两个变量之间存在线性关系 如果不显著,两个变量之间不存在线性关系,回归方程的显著性检验 (检验的步骤),提出假设 H0:线性关系不显著,2. 计算检验统计量F,确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F 作出决策:若FF ,拒

14、绝H0;若FF ,接受H0,回归系数的显著性检验 (要点),在一元线性回归中,等价于回归方程的显著性检验,检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著,理论基础是回归系数的抽样分布,回归系数的显著性检验 (步骤),提出假设 H0: b1 = 0 (没有线性关系) H1: b1 0 (有线性关系) 计算检验的统计量,确定显著性水平,并进行决策 tt,拒绝H0; tt,接受H0,一、回归分析概述 二、一元线性回归模型 三、回归估计标准差 四、线性相关的显著性检验 五、回归估计与预测,8.2 一元线性回归分析,回归方程的估计与预测,估计的前提:回归方程

15、经过检验,证明 X 和 Y 的关系在统计上是显著相关的。,对于给定的 X 值,求出 Y 平均值的一个估计值或 Y 的一个个别值的预测值。,对于给定的 X 值,求出 Y 的平均值的置信区间或 Y 的一个个别值的预测区间。,点估计,区间估计,点估计,若 x = 80(十万吨),则:,区间估计,对于给定的 x = x0 ,Y 的1-置信区间为:,即:预测标准误差的估计值,在大样本条件下,近似有:,SPSS输出结果(一),方差分析表,SPSS输出结果(二),SPSS输出结果(三),35.00 24.00 21.34872 -1.67557 18.71588 23.98157 38.00 25.00 2

16、3.73710 -1.44965 21.36539 26.10881 40.00 24.00 25.32935 -1.29904 23.12509 27.53360 42.00 28.00 26.92160 -1.14842 24.87796 28.96523 49.00 32.00 32.49447 -.62128 30.92932 34.05962 52.00 31.00 34.88284 -.39536 33.45997 36.30572 54.00 37.00 36.47509 -.24475 35.11637 37.83382 59.00 40.00 40.45572 .13179

17、39.12628 41.78516 62.00 41.00 42.84409 .35771 41.43978 44.24841 64.00 40.00 44.43634 .50832 42.94855 45.92413 65.00 47.00 45.23247 .58363 43.69437 46.77056 68.00 50.00 47.62084 .80955 45.90378 49.33791 69.00 49.00 48.41697 .88485 46.63245 50.20148 71.00 51.00 50.00922 1.03547 48.08053 51.93790 72.00

18、 48.00 50.80534 1.11077 48.80060 52.81008 76.00 58.00 53.98984 1.41200 51.66055 56.31912,非标准预测值,标准预测值,下限,上限,八个同类工业企业的月产量与生产费用,简单相关表,分组相关表,相关分析与回归分析的关系,1.相关分析与回归分析的联系 两者具有互为补充关系。 通过回归分析可以求出一个估计的回归方程,用来反映变量之间在数量变化上的联系;相关分析通过计算出来的相关指标,反映在回归方程这种固定联系的形式下变量之间联系的密切程度。仅仅进行回归分析,回归方程的有效性便遭到怀疑,而仅仅进行相关分析,便不能由自变

19、量来推断因变量,两者是不可偏废某一方的。,上一页,下一页,相关分析与回归分析的关系,2相关分析与回归分析的区别 两者在关心变量性质上的不同。在回归分析中,必须将变量分为自变量和因变量,以便建立回归方程;也必须将变量分为确定性变量和随机变量,以便研究随机变量的分布以及对其进行统计推断。区分变量的性质是回归分析的前提条件,是回归分析中首先要解决的一个问题。,上一页,下一页,上一页,下一页,在一元线性相关分析中,只要求变量具有随机性,两个变量具有完全对等的关系,谁对谁相关是无所谓的,它不关心变量之间的因果关系,所关心的仅仅是两个变量联系的紧密程度,倘若改变两个变量的地位也绝不会影响它们的相关关系,因

20、此,所表现出来的相关系数也只有一个,即,2相关分析与回归分析的区别,(2)两者的任务和目的不同。 回归分析是根据现象之间关系的特点,运用一定的办法,建立最适合于变量之间关系的回归方程,而且随着变量的变换,回归方程也会随之改变,回归方程是用来反映变量之间数量的平均变动关系,进而对因变量进行估算或预测。相关分析是通过计算相关指标,用来反映回归方程所表明变量之间依存关系的密切程度,是不能进行估算和预测的。,2相关分析与回归分析的区别,上一页,下一页,(3)两者的使用范围不同。 回归分析只限于研究数量标志之间或指标之间的数量关系,对于品质标志之间和等级之间的关系在没有数量化之前是无法研究的。相关分析研

21、究范围比回归分析研究的范围要广泛得多。从研究的范围来看,可以说,凡是能够进行回归分析的,都能够也必须进行相关分析,而能够进行相关分析的,却不一定能够或不都需要进行回归分析,回归分析总需要相关分析的帮助,而相关分析却不一定需要回归分析的帮助,相关分析具有独立性。,2相关分析与回归分析的区别,上一页,下一页,利用图表进行回归分析,例 近年来国家教育部决定将各高校的后勤社会化。某从事饮食业的企业家认为这是一个很好的投资机会,他得到十组高校人数与周边饭店的季度销售额的数据资料,并想根据高校的数据决策其投资规模。,上一页,下一页,返回本节首页,操作过程:,上一页,下一页,返回本节首页,打开“ 简单线性回

22、归.xls”工作簿,选择“饭店” 工作表,如下图所示。,从“插入”菜单中选择“图表”选项,打开“图表向导”对话框如下图所示。在“图表类型”列表中选择XY散点图,单击“下一步”按钮。,上一页,下一页,返回本节首页,在数据区域中输入B2:C11,选择“系列产生在列”,如下图所示,单击“下一步”按钮。,上一页,下一页,返回本节首页,打开“图例”页面,取消图例,省略标题,如下图所示。,上一页,下一页,返回本节首页,单击“完成”按钮,便得到XY散点图如下图所示。,上一页,下一页,返回本节首页,如图1所示,用鼠标激活散点图,把鼠标放在任一数据点上,单击鼠标右键,打开菜单,在菜单栏里选择“填加趋势线”选项,

23、打开趋势线对话框如图2所示。,图1,上一页,下一页,返回本节首页,图2,上一页,下一页,返回本节首页,打开“类型”页面,选择“线性”选项,Excel将显示一条拟合数据点的直线。 打开“选项”页面如图3所示,在对话框下部选择“显示公式”和“显示R平方根”选项,单击“确定”按钮,便得到趋势回归图如图4所示。,图3,上一页,下一页,返回本节首页,图4,上一页,下一页,返回本节首页,回归分析工具的应用,例 某房地产经纪人从政府部门列举的地区中随机抽取了15户居民作为样本, 记录了他们的家庭住房面积及其相应的价格,他想确认一下住房面积(平方米)与价格(千元)的关系,并想据此拟合住房价格的回归方程。,上一

24、页,下一页,返回本节首页,操作过程:,打开“简单线性回归.xls”工作簿,选择“住房”工作表如下图所示。,上一页,下一页,返回本节首页,在“工具”菜单中选择“数据分析”选项,打开“数据分析”对话框如下图所示。,上一页,下一页,返回本节首页,在“分析工具”列表中选择“回归”选项,单击“确定”按钮,打开“回归”对话框如下图所示。,上一页,下一页,返回本节首页,在Y值输入区域中输入C1:C16。 在X值输入区域中输入B1:B16。 选择“标志”,置信度选择95%。 在“输出选项”中选择“输出区域”,在其右边的位置输入“D1”,单击 “确定”按钮。输出结果如下图所示。,上一页,下一页,返回本节首页,E

25、xcel的回归分析工具计算简便,但内容丰富, 计算结果共分为三个模块: 回归统计表 方差分析表 回归参数,回归分析工具的 输出解释,上一页,下一页,返回本节首页,回归统计表包括以下几部分内容: Multiple R(复相关系数R):R2的平方根,又称为相关系数,它用来衡量变量x和y之间相关程度的大小。 若R为0.848466,表示二者之间的关系是高度正相关。 R Square(判决系数R2 ):用来说明用自变量解释因变量变差的程度,以测量同因变量y的拟合效果。 若系数为0.719894,表明用自变量可解释因变量变差的71.99%。,1. 回归统计表,上一页,下一页,返回本节首页,Adjuste

26、d R Square (调整判决系数R2):仅用于多元回归才有意义,它用于衡量加入独立变量后模型的拟合程度。当有新的独立变量加入后,即使这一变量同因变量之间不相关,未经修正的R2也要增大,修正的R2仅用于比较含有同一个因变量的各种模型。 标准误差:又称为标准回归误差或叫估计标准误差,它用来衡量拟合程度的大小,也用于计算与回归有关的其他统计量,此值越小,说明拟合程度越好。,上一页,下一页,返回本节首页,观测值:是指用于估计回归方程的数据的观测值个数。 2. 方差分析表 方差分析表的主要作用是通过F检验来判断回归模型的回归效果。 3. 回归参数表 如下页图所示,回归参数表是表中最后一个部分:,上一

27、页,下一页,返回本节首页,上一页,下一页,返回本节首页,图中,回归参数如下: Intercept:截距0 第二、三行:0(截距) 和1(斜率)的各项指标。 第二列:回归系数0(截距)和1(斜率)的值。 第三列:回归系数的标准误差 第四列:根据原假设Ho:0=1=0计算的样本 统计量t的值。 第五列:各个回归系数的p值(双侧) 第六列:0和195%的置信区间的上下限。,上一页,下一页,返回本节首页,案例研究: 销售额与广告媒体的关系,例 某VCD连锁店非常想知道在电视台做广告与在广播 电台做广告哪种媒体更有效。它收集了连锁店各个 商店的每月销售额(万元)和每月用在以上两种媒 介的广告支出。试问:

28、 在显著性水平为0.05的基础上,销售额是否同两种媒介的广告有关? 每种媒介上的广告支出额对销售额的影响如何? 哪种广告形式带来的成本效益更高?,上一页,下一页,返回本节首页,操作过程:,打开“多元回归分析.xls”工作簿,选择“VCD”工作表,如下图所示。,上一页,下一页,返回本节首页,在“工具”菜单中选择“数据分析”选项,打开“数据分析”对话框,在“分析工具”列表中选择 “回归”选项,单击“确定”按钮,进入“回归”对话框。 在“Y值输入区域”中输入A1:A21单元格,它代表销售额的数据范围。 在“X值输入区域”中输入B1:C21单元格,这里包括“广播”与“电视”两个自变量,回归工具要求自变量之间必须是相邻的,不能隔开。,上一页,下一页,返回本节首页,选中标志。选择95%的置信度 在“输出区域”中输入D1单元格,表示输出结果的起点。单击“确定”按钮。得多元回归计算结果如下图所示。,上一页,下一页,返回本节首页,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1