第八章多重共线性.ppt

上传人:本田雅阁 文档编号:2981132 上传时间:2019-06-17 格式:PPT 页数:39 大小:758.01KB
返回 下载 相关 举报
第八章多重共线性.ppt_第1页
第1页 / 共39页
第八章多重共线性.ppt_第2页
第2页 / 共39页
第八章多重共线性.ppt_第3页
第3页 / 共39页
第八章多重共线性.ppt_第4页
第4页 / 共39页
第八章多重共线性.ppt_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《第八章多重共线性.ppt》由会员分享,可在线阅读,更多相关《第八章多重共线性.ppt(39页珍藏版)》请在三一文库上搜索。

1、第八章 多重共线性,多重共线性,多重共线性及其影响 多重共线性的发现和检验 多重共线性的克服和处理,引子: 发展农业和建筑业会减少财政收入吗?,为了分析各主要因素对财政收入的影响,建立财政收 入模型: 其中: CS财政收入(亿元) ; NZ农业增加值(亿元); GZ工业增加值(亿元); JZZ建筑业增加值(亿元); TPOP总人口(万人); CUM最终消费(亿元); SZM受灾面积(万公顷) 数据样本时期1978年-2003年(资料来源:中国统计年鉴2004,中国统计出版社2004年版),财政收入模型的EViews估计结果,可决系数为0.995,校正的可决系数为0.993,模型拟合很好。模型对

2、财政收入的解释程度高达99.5%。 F统计量为632.10,说明0.05水平下回归方程整体上显著。 t 检验结果表明,除了工业增加值和总人口以外,其他因素对财政收入的影响均不显著。 农业增加值和建筑业增加值的回归系数是负数。 农业和建筑业的发展反而会使财政收入减少吗?! 这样的异常结果显然与理论分析和实践经验不相符。 若模型设定和数据真实性没问题,问题出在哪里呢?,模型估计与检验结果分析,一、多重共线性及其分类,多重共线性及其分类 完全多重共线性 近似多重共线性,多重共线性的概念,对于模型 Yi=0+1X1i+2X2i+kXki+i i=1,2,n 其基本假设之一是解释变量是互相独立的。,如果

3、某两个或多个解释变量之间出现了相关性,则称为多重共线性(Multicollinearity)。,如果存在 c1X1i+c2X2i+ckXki=0 i=1,2,n 其中: ci不全为0,则称为解释变量间存在完全共线性(perfect multicollinearity)。,如果存在 c1X1i+c2X2i+ckXki+vi=0 i=1,2,n 其中ci不全为0,vi为随机误差项,则称为 近似共线性(approximate multicollinearity)或交互相关(intercorrelated)。,注意: 完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。 但无论是

4、解释变量之间严格的线性关系还是较严重的近似线性关系,都会给多元线性回归分析造成严重的不利影响,甚至导致回归模型完全失效。,(一)多重共线性的理论后果,OLS估计量仍保持BLUE性质(高斯-马尔科夫定理仍然成立) 完全多重共线性导致参数的OLS估计量无法求出(也可以理解为方差无穷大)。 近似多重共线性导致参数的OLS估计量的方差大幅提高,二、 多重共线性的后果,1.虽是线性无偏且最小方差,但其方差是一个非常大的数值,故其估计的精度下降;,2.回归系数的置信区间加宽,导致接受零假设的可能性增大,从而t 检验失效,3. R2 可能很大,F统计值也很高;,4.最小二乘估计量及其标准差都对数据的微小变化

5、非常敏感; 5、模型预测置信区间加宽,预测方差加大,以至失去预测的意义,(二)多重共线性的实际后果 (理论后果的具体表现 ),二、 多重共线性的后果,完全多重共线性及其危害,严格多重共线性不是由于数据原因引起,通常是由于模型把有严格联系的变量引进同一个模型,或者由于虚拟变量设置不当(如陷入虚拟变量陷阱的情况)而引起的。 对模型 的最小二乘估计量为 如果存在完全共线性,则 不存在,无法得到参数的估计量。,以三变量回归模型为例: 回归方程为:,则求参数最小二乘估计量的正规方程组为:,设 和 两个变量之间有严格的线性关系 则 也成立,把该关系式代入上述正规方程组中的第二个式子,可得,很显然,这个方程

6、和原正规方程组中的第一个式子相同,这时方程组不再只有一组解而有无穷组解,这就意味着,被解释变量究竟受哪些变量的影响无法识别。完全多重共线性使多元线性回归模型的参数估计失败,回归分析无法进行。,完全多重共线性是由于在模型设定时把严格联系的变量引进同一个模型,或者是由于虚拟变量设置不当引起的。 因此对完全共线性的处理比较简单,只需要针对性的修改模型,放弃和调整引起完全共线性的部分变量即可。注意,不能放弃形成线性关系的所有解释变量,否则造成解释变量缺落,使模型失去研究意义。,近似多重共线性的原因,近似多重共线性既与变量选择有关,也与数据有关。虽然由于解释变量的选择不当,把内在相关性较强的变量引进同一

7、个模型,是导致近似多重共线性的重要原因,但近似多重共线性更经常的原因是经济数据的共同趋势。 如:时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。 横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。,近似多重共线性的影响,近似多重共线性不会导致参数估计失效,最小二乘参数估计能够得到唯一解。在模型存在多重共线性的情况下,参数的最小二乘估计仍然是最小方差线性无偏估计。但参数估计量的方差的绝对水平会随着多重共线性程度的提高急剧上升。因此,强的近似多重共线性会对多元回归的有效性产生严重的不利影响。 如果

8、用 记为变量 的离差平方和, 记为变量 对其余K-1个解释变量的回归平方和, 表示原模型第k个解释变量对其余K1个解释变量回归的决定系数,那么 的方差可以写成,近似多重共线性的影响,如果第k个解释变量与其余K1个解释变量完全没有相关性,那么 。 当第k个解释变量与其他解释变量之间有相关性时, , 。 当第k个解释变量与其他解释变量之间有很强的相关性时, 接近于1,此时,(一)多重共线性问题的诊断原则:,多重共线性是一个样本问题,即使在总体中诸X变量没有逻辑和理论上的线性关系,但在具体的样本仍可能有线性关系。 多重共线性的根源是解释变量之间的样本相关性,因此分析解释变量之间的样本相关性,进行单相

9、关或多元相关性的分析检验,是发现和判断多重共线性问题的基本方法 多重共线性的发现和判断是克服和处理多重共线性问题的基础。,三、多重共线性的诊断,(二)多重共线性问题的诊断方法,1、初步诊断:R2值高而显著的t比率少,2、单相关检验:检验回归元两两之间的相关系数,3、多元相关检验:检查偏相关,它只是充分条件而不是必要条件,偏相关系数不能保证对多重共线性提供一 个准确的指南。,4、辅助回归:做每个解释变量对其他剩余变量的回归并计算相应的R2值。其中的每一个回归都被称为是从属或者辅助回归。,(二)多重共线性问题的诊断方法,5、容许度与方差膨胀因子,(二)多重共线性问题的诊断方法,6、其他一些方法:比

10、如主成分分析法等,多重共线性表现形式和原因很多,并且由于数据问题导致的多重共线性具有隐蔽性,使多重共线性的发现和判断比较困难。 多重共线性的发现和判断是克服和处理多重共线性问题的基础。 多重共线性的根源是解释变量之间的相关性,因此分析解释变量之间的相关性,进行单相关或多元相关性的分析检验,是发现和判断多重共线性问题的基本方法。 由于解释变量之间的相关性程度不一样,所以要确定模型确实存在比较严重的共线性问题就必须结合参数符号的估计、参数大小和显著性是否异常,或者参数估计是否表现出很大的不稳定性等来判断。,四、多重共线性的克服和处理,(一)增加样本容量 (二)差分方程 (三)模型修正 (四)分步估

11、计参数,(一)增加样本容量,由于近似多重共线性意味着 对任意i都必须成立,因此若样本容量较小,近似多重共线性的可能性就较大;若样本容量大,近似多重共线性的可能性就小。 但增加样本容量并不必然降低多重共线性,若增加的数据和原来的数据有基本相同的性质这时增加样本容量没有帮助。 很多情况下无法增加新的样本,常见的替代方法是横截面与时间序列数据并用。(混合数据和面板数据),(二)差分方程,线性回归模型为 且已知 和 之间存在多重共线性问题。 作如下变换: 改用差分方程 进行回归,受多重共线性的影响比较小。,注意:用差分方程解决多重共线性问题可能会导致误差项出现序列相关。运用差分模型往往会使参数估计的方

12、差变大,样本容量减小。 如果原模型既有多重共线性问题,又有较强的一阶正自相关,那么差分方法可以同时消除多重共线性和序列相关的影响。,(二)差分方程,(三)模型修正,1、删减解释变量 2、逐步回归法 3、先验信息参数约束,1、删减或合并解释变量,引起多重共线性的原因中其一是在模型中引入过多的、有内在联系的解释变量,在这种情况下,如果删掉一些与其它解释变量意义相近的变量,可以起到降低多重共线性的作用。 如资产和流动资产,收入和财富之间就常有很强的相关性,在他们都对被解释变量有显著影响时,可只选择其中一个。,2、逐步回归法,以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。 根据拟合优

13、度的变化决定新引入的变量是否独立。 如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量; 如果拟合优度变化很不显著,则说明新引入的变量与其它变量之间存在共线性关系。,3、先验信息参数约束,例:生产函数 ,经对数变换为: 如果预先知道所研究的经济有规模报酬不变的性质,即函数中的参数满足 就可以克服多重共线性。,(四)分步估计参数,例:研究需求规律的模型 可以先求出下面模型中参数 的估计值。 前一个模型变为 整理这个模型可以得到 从而估计出 和 的估计值 和 , 得到克服了多重共线性的回归直线,案例分析,一、研究的目的要求 提出研究的问题为了规划中国未来国内旅游产业 的发展,需要定量地分析

14、影响中国国内旅游市场发展 的主要因素。 二、模型设定及其估计 影响因素分析与确定影响因素主要有国内旅游 人数X2 ,城镇居民人均旅游支出X3 ,农村居民人均 旅游支出X4 ,并以公路里程次X5 和铁路里程X6 作为相关基础设施的代表 理论模型的设定 其中 : Yt 第 t 年全国国内旅游收入,数据的收集与处理,数据来源:中国统计年鉴2004,该模型,,,可决系数很高,F检验值 173.3525,明显显著。 但是当,时,、,不仅 、 系数的t检验不显著,而且 系数的符号与预期的相反,这表明很可能存在严重的多重共线性。,OLS 法估计的结果,计算各解释变量的相关系数,表明各解释变量间确实存在严重的多重共线性,消除多重共线性,采用逐步回归法检验和解决多重供线性问题。 分别作Y 对X2、X3、X4、X5、X6的一元回归,的大小排序为:X3、X6、X2、X5、X4。,以X3为基础,顺次加入其他变量逐步回归,过程从略,最后消除多重共线性的结果,这说明,在其他因素不变的情况下,当城镇居民人均旅游支出 和农村居民人均旅游支出 分别增长1元时,国内旅游收入 将分别增长4.21亿元和3.22 亿元。在其他因素不变的情况下, 作为旅游设施的代表,公路里程 每增加1万公里时, 国内旅游 收入 将增长13.63亿元。,回归结果的解释与分析,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1