第四部分多重共线.ppt_三一文库31doc.com

资源描述

《第四部分多重共线.ppt》由会员分享，可在线阅读，更多相关《第四部分多重共线.ppt（61页珍藏版）》请在三一文库上搜索。

1、第四章多重共线性,问题的提出,在前述基本假定下OLS估计具有BLUE的优良性。然而实际问题中，这些基本假定往往不能满足，使OLS方法失效不再具有BLUE特性。估计参数时，必须检验基本假定是否满足，并针对基本假定不满足的情况，采取相应的补救措施或者新的方法。检验基本假定是否满足的检验称为计量经济学检验,回顾6项基本假定,（1）解释变量间不相关（无多重共线性）（2）E(ui)=0 （随机项均值为零）（3）Var(ui)=2 （同方差）（4）Cov(ui, uj)=0（随机项无自相关）（5）Cov(X, ui)=0（随机项与解释变量X不相关）（6）随机扰动服从正态分布。,不满足基本

2、假定的情形（1）,1、通常不会发生随机扰动项均值不等于0的情形。若发生也不会影响解释变量的系数，只会影响截距项。 2、随机扰动项正态性假设一般能够成立，就算不成立，在大样本下也会近似成立的。所以不讨论此假定是否违背。,不满足基本假定的情形（2）,3、解释变量之间相关=多重共线 4、随机扰动项相关=序列自相关时间序列数据经常出现序列相关 5、随机扰动项方差不等于常数=异方差截面数据时，经常出现异方差,解决问题的思路,1、定义违反各个基本假定的基本概念 2、违反基本假定的原因、背景 3、诊断基本假定的违反 4、违反基本假定的补救措施（修正）,本章主要介绍,4.1 多重共线性的实例、定义、产生背

3、景； 4.2 多重共线性产生的后果； 4.3 多重共线性的检验； 4.4 多重共线性的修正。 4.5 违反三个假定的总结 4.6 案例,4.1 多重共线性的实例、定义、产生背景,4.1.1 实例例一消费与收入、家庭财富例二汽车保养费与汽车行驶里程、拥有汽车时间,4.1.2 多重共线性的定义,多重共线性：在多元线性回归模型中，解释变量之间存在着完全的线性关系或近似的线性关系,完全多重共线性,近似多重共线性,4.1.2 多重共线性的定义矩阵形式,多重共线性分类的矩阵形式,4.1.3 产生多重共线性的背景,（1）时间序列数据中经济变量在时间上常有共同的变动趋势；时间序列样本：经济繁荣时期，各

4、基本经济变量（收入、消费、投资、价格）都趋于增长；衰退时期，又同时趋于下降。（2）经济变量之间本身具有内在联系（常在截面数据中出现）；横截面数据：生产函数中，资本投入与劳动力投入往往出现高度相关情况，大企业二者都大，小企业都小。,4.1.3 产生多重共线性的背景,（3）由于某种决定性因素的影响可能使各个变量向着同方向变化；（4）滞后变量引入模型，同一变量的滞后值一般都存在相互关系；在计量经济模型中，往往需要引入滞后经济变量来反映真实的经济关系。例如，消费=f(当期收入, 前期收入）显然，两期收入间有较强的线性相关性。有的学者认为多重共线性是一个数据样本的问题。,一般经验对于采用时间

5、序列数据作样本、以简单线性形式建立的计量经济学模型，往往存在多重共线性。以截面数据作样本时，问题不那么严重，但多重共线性仍然是存在的。,back,4.2 多重共线性的后果,4.2.1 完全多重共线性下的后果（1）参数估计值不确定；（2）参数估计值的方差无限大；,4.2.2 不完全多重共线性下的后果,（1）参数估计仍是无偏估计，但不稳定；估计量及其标准差非常敏感，观测值稍微变化，估计量就会产生较大的变动。（2）参数估计式的方差随着共线性程度的增大而增大。（3）t检验失效，区间估计失去意义；估计量的方差很大，相应标准差增大，进行t检验时，接受零假设的可能性增大（4）严重多重共线性时，甚

6、至参数估计式的符号与其经济意义相反。得出完全错误的结论。,4.2.2 一般共线性下普通最小二乘法参数估计量非有效,在一般共线性（或称近似共线性）下，虽然可以得到OLS法参数估计量，但是由参数估计量方差的表达式为,可见，由于此时|XX|0，引起(XX) -1主对角线元素较大，从而使参数估计值的方差增大，OLS参数估计量非有效。,即：多重共线性使参数估计值的方差增大，方差扩大因子(Variance Inflation Factor)为1/(1-r2)，其增大趋势见下表：,4.2.2 参数估计量经济含义不合理,如果模型中两个解释变量具有线性相关性，例如X1和X2，那么它们中的一个变量可以由另一个变量

7、表征。这时，X1和X2前的参数并不反映各自与被解释变量之间的结构关系，而是反映它们对被解释变量的共同影响。所以各自的参数已经失去了应有的经济含义，于是经常表现出似乎反常的现象，例如本来应该是正的，结果恰是负的。,举例,A：,B：,C：,Housing:动工的住房数量 Intrate：新房抵押利率 POP：人口 GNP：收入,举例,4.3 多重共线性的检验,（1）简单相关系数矩阵法（辅助手段）此法简单易行；但要注意两变量的简单相关系数包含了其他变量的影响，并非它们真实的线性相关程度的反映；一般在0.8以上可初步判定它俩之间有线性相关。（2）变量显著性与方程显著性综合判断；拟合优度R2很

8、高，F值显著大于临界值，而t值不显著；那么可认为存在多重共线性。（3）辅助回归：将每个解释变量对其余变量回归，若某个回归方程显著成立，则该解释变量和其余变量有多重共线性。即看判定系数较大。（4）判断参数估计值的符号，如果不符合经济理论或实际情况，可能存在多重共线性,4.4.1 多重共线性的修正方法（一）：增加样本容量,增加后，样本向量有可能不再线性相关。这也可以降低观察误差，减小估计量的方差，有助于提高估计精度。但是，增加样本是比较困难的，也不能根本解决它。适用于：样本引起的多重共线性测量误差、偶然因素，解释变量总体不存在多重共线性增加样本容量，如把时间序列数据和截面数据合并成平行数

9、据,4.4.2 多重共线性的修正方法：（二）利用先验信息改变约束形式,先验信息：在此之前的研究成果所提供的信息。利用某些先验信息，可以把有共线性的变量组合成新的变量，从而消除共线性。如其中Y消费，X2收入 X3财富。因为收入与财富有高度共线的趋势，如果先验认为则代入消去,4.4.2 多重共线性的修正方法：（二）利用先验信息改变约束形式,高度相关,已知+ =1，即规模报酬不变，则将 =1- 代入,4.4.3 多重共线性的修正方法：（三）截面数据和时序数据结合,有时在时间序列数据中多重共线性严重的变量，在截面数据中不一定有严重的共线性。在假定截面数据估计出的参数在时间序列数据中变化不大的

10、前提下，可先用截面数据估计出一些变量的参数，再代入原模型估计另一些变量的参数。例：销量与商品价格、消费者收入。,4.4.4 多重共线性的修正方法：（四）变换模型形式（差分法）,差分法,对于以时间序列数据为样本、以直接线性关系为模型关系形式的计量经济学模型，将原模型变换为差分模型 Yi=1 X1i+2 X2i+k Xki+ i 可以有效地消除存在于原模型中的多重共线性。一般讲，增量之间的线性关系远比总量之间的线性关系弱得多。,例如：在中国消费模型中的2个变量：,由表中的比值可以直观地看到，两变量增量的线性关系弱于总量之间的线性关系。,进一步分析： Y与C(-1)之间的相关系数为0.9845，

11、 Y与C(-1)之间的相关系数为0.7456。一般认为：两个变量之间的相关系数大于0.8时，二者之间存在线性关系。所以，原模型经检验地被认为具有多重共线性，而差分模型则可认为不具有多重共线性。,4.4.4 多重共线性的修正方法：（五）逐步回归法,基本思想：用逐步回归法发现产生共线性的解释变量，将其剔除，从而减少共线性的影响。这既是判断是否存在多重共线性的方法，也是解决多重共线性的方法。具体方法：见流程图（word文档：多重共线性逐步回归法流程图）,多重共线性逐步回归法流程图,4.4.4 多重共线性的修正方法：（六）剔除不重要的解释变量,如果多重共线性由不重要的解释变量引起，可以从模型

12、中除去该解释变量，减弱多重共线性该解释变量被纳入随机误差项中，可能使随机误差项不能满足零均值假设,4.4.4 多重共线性的修正方法：（六）剔除变量与设定偏误,面对严重多重共线性，最简单的做法之一是剔除共线性诸变量之一，但是从模型中删除一个变量，可能导致设定偏误或设定误差。也就是说在分析中使用了不正确设定的模型。由上面的讨论可见，从模型中除掉一个变量以缓解多重共线性的问题会导致设定上的偏误，因此在某些情形中，医治也许比疾病更糟糕，多重共线性虽然有碍于对模型参数的准确估计，但是剔除变量，则对参数的真值有严重的误导，应该记得，在近似共线性情形下，OLS估计量仍是BLUE。,4.4.4 多重共线性

13、的修正方法：（七）变量变换,偶尔地，通过对模型中变量的变换能够降低共线性程度。如有的总量变成人均量，名义量变成实际量。但不能保证一定有效！参看课本P214。,4.4.4 多重共线性的修正方法：（七）变量变换,销量,出厂价格,市场价格,高度相关,市场总供应量,相对价格,数据中心化,4.4.4 多重共线性的修正方法：（八）用被解释变量的滞后值代替解释变量的滞后值,个人消费,现期收入,前期收入,高度相关,线性关系较弱,4.5 违反三个假定的总结,检验思路,解决方法,4.6.1 案例一：服装市场需求函数,1、建立模型,根据理论和经验分析，影响居民服装类支出的主要因素有：可支配收入、居民流动资产拥有量

14、、服装价格指数、物价总指数。已知某地区的有关资料，根据散点图判断，建立线性服装消费支出模型： Y=0+1X+2K+3P1+4P0+,2、样本数据,由于R2较大且接近于1，而且 F=638.4，大于临界值：F 0.05(4,5)=15.19，故认为服装支出与上述解释变量间总体线性关系显著。但由于参数K的估计值的t检验值较小（未能通过检验），故解释变量间存在多重共线性。,3、估计模型,（2）检验简单相关系数,各解释变量间存在高度相关性，其中尤其以P1，P0间的相关系数为最高。,（3）找出最简单的回归形式,可见，应选为初始的回归模型。,（4）逐步回归,将其他解释变量分别导入上述初始回归模型，寻找

15、最佳回归方程。,4、讨论：,在初始模型中引入P1，模型拟合优度提高，且参数符号合理，但P1的t检验未通过；再引入K，拟合优度虽有提高，但K与P1的t检验未能通过，且X与P1的t检验值及F检验值有所下降，表明引入K并未对回归模型带来明显的“好处”，K可能是多余的；去掉K，加入P0，拟合优度有所提高，且各解释变量的t检验全部通过，F值也增大了。将4个解释变量全部包括进模型，拟合优度未有明显改观，K的t检验未能通过，K显然是多余的。,5、结论,回归方程以Y=f(X,P1,P0)为最优： Y=-12.45+0.10X-0.19P1+0.31P0,back,4.6.2 案例二：中国消费函数模型,1、OLS估计结果,2、差分法估计结果,3、比较,1：0.480950.49672 2：0.198540.15850 在消除了共线性后，GDP对CONS的影响增大，CONS1对CONS的影响减少。,当模型存在共线性，将某个共线性变量去掉，剩余变量的参数估计结果将发生变化，而且经济含义发生变化；严格地说，实际模型由于总存在一定程度的共线性，所以每个参数估计量并不真正反映对应变量与被解释变量之间的结构关系。,一点说明,当模型仅用于预测，而对参数估计值没有过高的要求，只要回归系数是显著的，符号和大小有意义，多重共线性问题可以忽略,

展开阅读全文