第11章相关与回归分析.ppt

上传人:本田雅阁 文档编号:2972261 上传时间:2019-06-16 格式:PPT 页数:42 大小:406.55KB
返回 下载 相关 举报
第11章相关与回归分析.ppt_第1页
第1页 / 共42页
第11章相关与回归分析.ppt_第2页
第2页 / 共42页
第11章相关与回归分析.ppt_第3页
第3页 / 共42页
第11章相关与回归分析.ppt_第4页
第4页 / 共42页
第11章相关与回归分析.ppt_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《第11章相关与回归分析.ppt》由会员分享,可在线阅读,更多相关《第11章相关与回归分析.ppt(42页珍藏版)》请在三一文库上搜索。

1、第十一章 相关与回归分析,一、相关与回归分析的基本概念 二、简单线性回归分析 三、相关分析,一、相关与回归分析的基本概念,函数关系与相关关系 函数关系:当一个或几个变量取值一定时,另一个变量有确定值与之对应,我们称这种关系为确定的函数关系。 相关关系:当一个或几个相互联系的变量取一定数值时 ,与之对应的另一个变量的值虽然不确定,但它仍按某种规律在一定范围内变化,我们称这种相互关系为具有不确定性的相关关系。 函数关系和相关关系在一定条件下可以相互转化。,一、相关与回归分析的基本概念,相关关系的种类,相关,完全相关;不完全相关;不相关(按相关程度划分),正相关;负相关(按相关方向划分),线性相关;

2、非线性相关(按相关形式划分),单相关;复相关;偏向关(按变量多少划分),真实相关;虚假相关(按相关性质划分),一、相关与回归分析的基本概念,相关分析和回归分析 相关分析:用一个指标来表明现象间相互依存关系的密切程度。 回归分析:根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量之间的平均变化关系。 相关分析和回归分析联系:不仅具有共同的研究对象,而且在具体应用时,常常必须相互补充。 相关关系与回归分析区别:前者研究变量之间的相关方向和相关程度,但不能指出变量之间相互关系的具体形式,从而无法从一个变量的变化来推测另一个变量的变化情况,同时不必确定哪个变量是自变量,哪个变量是应变量;

3、后者则不然。 相关分析和回归分析的局限性,一、相关与回归分析的基本概念,相关表和相关图 相关表是反映变量之间相关关系的统计表。将某一变量按其值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。,年销售收入和广告费原始资料,销售收入与广告费相关图,一、相关与回归分析的基本概念,相关图(散点图):是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间的相关的图形。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。,。

4、,。,。,。,。,。,。,。,。,X,Y,O,O,O,O,X,X,X,Y,Y,Y,a、正相关,b、负相关,c、曲线相关,d、不相关,二、一元线性回归分析,标准的一元线性回归模型 1.总体回归函数 一元线性回归模型的基本形式: Yi= + Xi + u i 该式被称为总体回归函数。式中的和是未知参数,又称回归系数;Yi和Xi分别是Y和X的第i次观测值; ui是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种因素对Y的影响。 由模型可知:Y是由X的线性函数( +Xi)和误差项 u i组成,其中( +Xi )是Y的数学期望,即: E(Yi)= + Xi,二、一元线性回归

5、分析,E(Yi)= + Xi 上式表明:在X的值给定的条件下,Y的期望值是X的严密的线性函数。这条直线被称为总体回归线 ,Y的实际观测值并不一定位于该直线上,只是散布在直线的周围。 随机误差项u i是实际观测点和总体回归线垂直方向的距离,即 u i = Yi- E(Yi),。,。,。,。,。,。,。,。,。,。,u i,X,Y,Yi,Xi,o,E(Yi)= + Xi,二、一元线性回归分析,2.样本回归函数 样本回归直线:根据样本数据拟合的直线; 样本回归曲线:根据样本数据拟合的曲线。 一元线性回归模型的样本回归直线可表示为: 式中, 是样本回归线上与Xi相对应的Y值,可视为E (Yi) 的估计

6、; 是样本回归函数的截距系数; 是样本回归函数的 斜率系数,它们都是对总体回归系数 的估计。,二、一元线性回归分析,实际观测到的应变量Yi值,并不完全等于 ,如果用 e i 表示两者之差( Yi - )则有: 上式称为样本回归函数。式中ei 称为残差,在概念上, e i 与总体误差项ui相对应;n是样本容量。 样本回归函数与总体回归函数的区别: 总体回归线是未知的,它只有一条。而样本回归线则是根据样 本数据拟合的,每抽取一组样本,便可拟合一条样本回归线。 总体回归函数中的,是未知的参数,表现为常数。而样本回 归函数中的,是随机变量,其具体数值随抽取的样本观测值不同而 变动。 总体回归函数中的u

7、i是Yi与未知的总体回归线之间的纵向距离, 它是不可直接观测的。而样本回归函数中的e i是Yi与样本回归线之间的 纵向距离,当根据样本观测值拟合出样本回归线之后,便可计算出数值。,(i=1.2,n),二、一元线性回归分析,3.随机误差项的标准假定 假定1:E(u i)=0; 假定2:V(u i)= E(u i2)=2 假定3:C o v( u i , u j )=E ( u i , u j )=0 假定4:自变量是给定的变量,与随机误差项线性无关 假定5:随机误差项服从正态分布 满足上述标准假定的一元线性回归模型,称为标准的 一元线性回归模型。,。,。,。,。,。,。,X,Y,O,。,。,。,

8、。,。,。,。,。,。,。,。,。,。,X1,X2,X n,E( Y1 ),E( Y2 ),E( Y n ),二、一元线性回归分析,4.未知参数,的估计 回归分析的主要任务就是建立能够近似反映真实总体回归函数的 样本回归函数。在根据样本资料确定样本回归方程时,一般总是希望Y 的估计值从总体来看,尽可能接近其实际观测值,为此我们用残差平方 和 作为衡量总偏差的尺度。 Q= = 残差平方和Q的大小依赖于 的取值。根据微积分中求极小值 的原理,可知Q存在极小值,同时欲使Q打到最小,Q对 的偏导数 必须为零。 即,二、一元线性回归分析,二、一元线性回归分析,5.未知参数 的估计 是随机误差u i的方差

9、,其大小可以反映回归直线拟 合程度的好坏,所以必须对 做出估计。 由于 未知,从而无法求出u i。因此我们用e i作为 u i的估计值,其中 并把 作为未知参数 的估计。并把 的正平方根称为回归估 计的标准误差,二、一元线性回归分析,例1 对下表给出的数据,试用最小二乘法求水稻产量Y对化肥用量X的回 归直线,并求2的估计。,化肥用量与水稻产量,二、一元线性回归分析,解:回归系数的计算常常列成如表:,二、一元线性回归分析,所求回归直线方程: 由此可计算出,二、一元线性回归分析,6.参数估计的性质 ,二、一元线性回归分析,二、一元线性回归分析, ,二、一元线性回归分析,二、一元线性回归分析,7.参

10、数,的假设检验,二、一元线性回归分析,的假设检验: 第一步:建立假设:H0: = 0;H1: 0 第二步:选择统计量: 第三步:取显著水平,确定拒绝域 第四步:计算统计量T的观测值t 第五步:作决策。,二、一元线性回归分析,最重要的场合是0=0,这时零假设H0:=0。若此时零假设成立,则 线性模型化为:Yi= + u i i=1,2,n这表明:变量Y不依赖于X, 也即X,Y间不存在线性关系。 例2 试问例1中的水稻产量Y与化肥量X是否确实存在显著的线性关系? 第一步:提出统计假设:H0: =0;H1: 0 第二步:选择统计量: 第三步:对显著水平 .,确定拒绝域 第四步:计算统计量T的观测值:

11、,第五步:t=6.532.571,拒绝原假设。,二、一元线性回归分析,的假设检验: 同理,对检验假设H0: = 0,可以用统计量: 对于例1 ,现在检验假设:H0: = 300。 t=,现在t=2.1194t0.05/2(5)=2.57,因此接受原假设。,二、一元线性回归分析,拟合程度评价 拟合程度:指观测值聚集在样本回归线周围的紧密程度。判断回归 模型拟合程度优劣,最常用的数量指标是可决系数(又称判决系数)。 该指标是建立在对总离差平方和进行分解的基础上。,。,X,Y,Y,Yi,X i,O,二、一元线性回归分析,对 两边平方可得:,这里可用的条件:,从而有,即: SST = SSR + SS

12、E,二、一元线性回归分析,SST = SSR + SSE 其中:SST是总离差平方和;SSR是由回归直线可以解 释的那一部分离差平方和,称为回归平方和;SSE是回归直 线无法解释的离差平方和,称为残差平方和。 两边同时除以SST,得 1=SSR/SST+SSE/SST 其中SSR/SST被定义为可决系数,用R2表示,则有 R2=SSR/SST=1-SSE/SST 可决系数是对回归模型拟合程度的综合度量,可决系数越大,模型 拟合程度越大,可决系数越小,模型拟合程度也低,二、一元线性回归分析,例3 计算例1中的拟合的样本回归方程的可决系数 解: 对检验假设H0:=0的F检验 第一步:提出假设: H

13、0:=0; H0:0 第二步:选取统计量,=0,二、一元线性回归分析,第三步:在显著水平下,确定拒绝域为 第四步:计算统计量F= (n-2) SSR/SSE的观测值 第五步:作决策 例4 对例1中原假设H0:=0进行F检验(=0.05)。 F=5*(SST-SSE)/SSE=5*(22150-2327.38)/2327.38=42.59 F0.05(1,5)=6.61,拒绝域(6.61,+) 42.596.61,所以拒绝原假设,即水稻产量与化肥用量显著地线性相关。,二、一元线性回归分析,一元线性回归方差分析表,R2=SSR/SST,二、一元线性回归分析,7.预测及预测区间 回归方程一经求得并通

14、过检验,既能用来研究变量之间的联系,也能用来进 行预测或控制。 如例1中的回归方程:Y=245.36+5.3214X求得后,问化肥用量是27kg的 话,水稻产量将是多少? 注意:用 作为Y0的预测值,实际上它是Y0之均值的估计。 实际中还需要知道所谓预测精度 。正如我们并不满足于参数的点估计而还 要给出参数区间估计一样,常常希望给出一个类似于置信区间的预测区间,也即 在给定的显著水平下,找到一个正数,使 为此,我们要求出 的分布 ,易知 也服从正态分布,且 Y0 与 Y0 相互独立。,二、一元线性回归分析,上式中2是未知的,通常用它的无偏估计代入,可得统计量,二、一元线性回归分析,二、一元线性

15、回归分析,预测区间上下限,X,Y,Y,X,X0,X0,二、一元线性回归分析,例5 如例1中的回归方程:Y=245.36+5.3214X,问化肥用量是27kg的话,求水稻产量的预测值,以及预测区间(=0.05)? 解:X0=27时的预测值是,二、一元线性回归分析,Eviews 软件在回归方程中的运用 一元线性回归模型: 利用1990年2005年中国GDP与外贸出口EX的数据,求GDP与EX回归方程。 多元线性回归模型: 利用1990年2005年中国GDP、外贸出口额EX和 固定资产投资额GZ,求GDP与EX、GZ的回归方程。,三、相关分析,相关系数的定义 单项关分析是对两个变量之间的相关程度进行

16、分析,其所用的指标称为简 单相关系数。通常以表示总体相关系数,以r表示样本的相关系数。,三、相关分析,相关系数r与可决系数R2 简单线性回归模型中只有一个自变量和应变量,其样 本回归方程的拟合程度取决于X与Y的相关程度,因此,在这 样的场合下,相关系数r的平方就等于可决系数R2。 相关系数具有以下特点: 1.r的取值介于-1与1之间; 2.当r=0时,说明X与Y的样本观测值之间没有线性关系; 3.当r=1时,说明X与Y完全线性相关,而且是完全正相关; 4.当r=-1时,说明X与Y完全线性相关,而且是完全负相关; 5.r是对变量之间线性相关关系的度量。R=0只是表明两个变 量之间不存在线性关系,

17、并不意味着X与Y不存在其他类型的关 系。,三、相关分析,样本相关系数与可决系数也有明显的区别: 1.研究对象,前者针对两个变量,后者针对回归模型; 2.前者可正可负,后者具有非负性。 例8 计算例1中的X与Y的样本相关系数,三、相关分析,简单相关系数的检验 第一步:提出假设:H0: =0;H1: 0; 第二步:选取检验统计量:在原假设成立下,统计量 第三步:在显著水平 下,确定拒绝域为: 第四步:根据样本观察值,计算出统计量T的值t; 第五步:作决策 例1中求得r=0.946,n=7,则t= t0.05/2(5)=2.571,所以拒绝零假设=0,说明X与Y间的线性相关程度是显著的。,课堂训练:,设销售收入X为自变量,销售成本Y为应变量。现已根据某百货公司12个月的有关数据计算出如下数据(单位:万元) 要求: 1.拟合简单线性回归方程,并对方程中回归系数的经济含义作出解释; 2.计算可决系数和回归估计的标准误差; 3.对进行显著水平为5%的显著检验; 4.假定明年1月销售收入为800万元,利用拟合的回归方程预测相应的 销售成本,并给出置信度为95%的预测区间。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1