岭回归解决多重共线性教学文案.docx

上传人:scccc 文档编号:13962615 上传时间:2022-01-28 格式:DOCX 页数:15 大小:40.08KB
返回 下载 相关 举报
岭回归解决多重共线性教学文案.docx_第1页
第1页 / 共15页
岭回归解决多重共线性教学文案.docx_第2页
第2页 / 共15页
岭回归解决多重共线性教学文案.docx_第3页
第3页 / 共15页
岭回归解决多重共线性教学文案.docx_第4页
第4页 / 共15页
岭回归解决多重共线性教学文案.docx_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《岭回归解决多重共线性教学文案.docx》由会员分享,可在线阅读,更多相关《岭回归解决多重共线性教学文案.docx(15页珍藏版)》请在三一文库上搜索。

1、A引言回归分析是一种比较成熟的预测模型 ,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中有着非常广泛的应用,但是经典的最小二乘估计,必需满足一些假设条件,多重共线性就是其中的一种。实际上,解释变量间完全不相关的情形是非常少见的,大多数变量都在某种程度上存在着一定的共线性,而存在着共线性会给模型带来许多不确定性的结果。:、认识多重共线性(一)多重共线性的定义设回归模型y为零的数ko , ki , k2 kp使得ko存在完全共线性,如果koki4i近似的多重共线性。2 APXP如果矩阵k1 A k2 A 2kp Xi pk2 xi 2k p xi p 0X的列向量存在一组不全0,

2、i =1,2, n,则称其i =1,2, n ,则称其存在(二)多重共线性的后果1.理论后果对于多元线性回归来讲,大多数学者都关注其估计精度不高,但是多重共线性不可多重共线性其实是由样本容能完全消除,而是要用一定的方法来减少变量之间的相关程度O量太小所造成的后果,在理论上称作“微数缺测性” 才是非常严重的。,所以当样本容量共线性n很小的时候,多重多重共线性的理论后果有以下几点:(1)保持OLS估计量的BLUE性质;(2)戈德伯格提出了近似多重共线性其实是样本观测数刚好超过待估参数个数时出现的情况。所以多重共线性并不是简单的自变量之间存在的相关性,也包括样本容量的 大小问题。(3)近似的多重共线

3、性中,OLS估计仍然是无偏估计。无偏性是一种多维样本或重复抽样OLS的性质;如果X变量的取值固定情况下,反复对样本进行取样,并对每个样本计算估计量,随着样本个数的增加,估计量的样本值的均值将收敛于真实值(4)多重共线性是由于样本引起的。即使总体中每一个X之间都没有线性关系,但在具体取样时仍存在样本间的共线性。2.现实后果(1)虽然存在多重共线性的情况下,得到的OLS估计是BLUE的,但有较大的方差和协方差,估计精度不高;(2)置信区间比原本宽,使得接受 H 0假设的概率更大;(3) t统计量不显著;(4)拟合优度 R2的平方会很大;(5) OLS估计量及其标准误对数据微小的变化也会很敏感。(三

4、)多重共线性产生的原因1 .模型参数的选用不当,在我们建立模型时如果变量之间存在着高度的相关性,我们又没有进行处理建立的模型就有可能存在着共线性。2 .由于研究的经济变量随时间往往有共同的变化趋势,他们之间存在着共线性。例如当经济繁荣时,反映经济情况的指标有可能按着某种比例关系增长3 .滞后变量。 滞后变量的引入也会产生多重共线行,例如本期的消费水平除了受本期的收入影响之外,还有可能受前期的收入影响,建立模型时,本期的收入水平就有可能和前期的收入水平存在着共线性。(四)多重共线性的识别1.直观的判断方法(1)在自变量 的相关系数矩阵中,有某些自变量的相关系数值比较大。(2)回归系数的符号与专业

5、知识或一般经验相反(3)对重要的自变量的回归系数进行t检验,其结果不显著,但是F检验确得到了显著的通过(4)如果增加一个变量或删除一个变量,回归系数的估计值发生了很大的变化(5)重要变量的回归系数置信区间明显过大2.方差扩大因子法(VIF )定义VIF j = (1 R2j ) 1其中R2j是以X j为因变量时对其他自变量的复测定系数。一般认 为如果最大的 VIF j超过10,常常表示存在多重共线性。事实上VIF j = (1 R2j ) 1 10这说明1 R2j 0.9。3.特征根判定法根据矩阵行列式的性质,矩阵行列式的值等于其特征根的连乘积。因此,当行列式| XX |0时,至少有一个特征根

6、为零,反过来,可以证明矩阵至少有一个特征根近似为零时,X的列向量必存在多重共线性,同样也可证明 X X有多少个特征根近似为零矩阵,XI就有多少个多重共线性。根据条件数,K i / m 其中m为最大的特征根,i为其他的特 i征根,通常认为 0 k 10存在着多重共线性。(五)多重共线性的处理方法1 .增加样本容量当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本,而不存在于总体但是在现实的生活中,由于受到各种条时,通过增加样本容量可以减少或是避免线性重合, 件的限制增加样本容量有时又是不现实的。2 .剔除法对于一些不重要的解释变量进行剔除,主要有向前法和后退法,逐步回归法。 理论上这三种

7、方法都是针对不相关的的数据而言的,在多重共线性很严重的情况下, 结论的可靠性受到影响,在一些经济模型中,要求一些很重要变量必须包含在里面, 这时如果贸然的删除就不符合现 实的经济意义。3 .主成分法当自变量间有较强的线性相关性时,利用p个变量的主成分,所具有的性质,如果他们是互不相关的,可由前m个主成Zi, Z2 , Zm来建立回归模型。由原始变量的观测数据计算前m个主成分的得分值,将其作为主成分的观测值,建立Y与主成分的回归模型即得回归方程。这时p元降为m元,这样既简化了回归方程的结构,且消除了变量间相关性带来的影响4 . PLS (偏最小二乘法)H.Wold在1975年提出的偏最小二乘法近

8、年来引起广泛的关注,在解决多重共线性方面,它与主成分回归法,岭回归法一样都能很好的达到目的,但偏最小二乘又与前者又有较大的区别, 偏最小二乘法集中了最小二乘法、主成分分析法和典型相关分析的的优点克服了两种方法的缺点。偏最小二乘法吸取了主成分回归提取主成分的思想,但不同的是主成分回归只是从自变量中去寻找主成分与因变量无关,因而主成分与因变量在算法上关系不密切,从而导致最后主成分在实际应用中无法更好的进一步拟合因变量,偏最小二乘法则是从因变量出发,选择与因变量相关性较强而又能方便运算的自变量的线性组合。5 .岭回归法.岭回归分析是1962年由Heer首先提出的,1970年后他与肯纳德合作,进一步发

9、展了该方法,在多元线性回归模型的矩阵形式Y X ,参数的普通最小二乘估计为6 (XX) 1 X Y ,岭回归当自变量存在多重共线性| XX 1 0时,给矩阵加上一个正常系数矩阵kI ,那么=(X X kI ) 1 X Y ,当时就是普通最小二乘估计。三、实际的应用我们对于重庆市1987至2010年的统计数据做一个回归预测模型,选取工业总产值为因变量,固定投资总额、货物周转量、财政支出、能源消耗总量四个变量为自变量。设模型为 Y01X12X23X34X4(3.1)(一)普通的最小二乘法对模型进行最小二乘估计得到如下的结果:表3.1 :模型总结Change StatisticsModelSquar

10、e.998 a.996Adjusted RSquare.995 1Std. Error ofthe Estimate61.9431718R SquareChange.996Sig. FChange198.108df1df219Change.000表3.2 :方差分析表ModelSum of Squaresdf Mean SquareFSig.Regression1.257E843.142E71.198E3.000 aResidual498286.2271926225.591Total1.262E823表3.3:系数矩阵表ModelBStd. ErrorBetatSigToleranceVIF1

11、-193.968311.594-.623.541X1.622.393.4871.582.130.002455.510X 2.025.016.1881.570.133.01568.694X31.202.743.3491.617.122.004224.271X 4-.030.117-.023-.261.797.02737.372调整的可决系数R2为0.995 , F=1198,在置信水平为95%,自由度4,方程通过了显著性的检验,从这里我们可以看出从整体上来说方程得到了很好的拟合,但是各个系数的检验却并没有通过,而且能源消费的系数为负,这于经济学的原理相反,我们初步断定回归的方程可能存在着多重共线

12、性。根据方差扩大因子VIF1 =455.510, VIF 2 =68.694,VIF3 =224.271, VIF 4 =37.372. 均SPSS软件进,来判断多重共线性的存在。为此,利用大于10说明存在多重共线性。此外我们还可以根据共线性的诊断行相关处理可以得到下表:ConditionVariance Proportions114.4121.000.00.00.00.00.002.5682.788.01.00.00.00.003.01716.264.13.00.00.05.224.00339.288.25.00.80.07.395.00171.989.611.00.20.88.39XiX

13、2X 3X 4Index(Constant)Model Dimension Eigenvalue从特征值我们可以看到有两个接近于零,条件数我们可以看到最大条件数为71.989 ,说明存在着共线性,以上的分析说明因变量间存在着多重共线性。(二)运用岭回归解决多重共线性用SPSS软件的岭回归功能的语法实现岭回归,做出的结果如下:表3.5: 岭参数K值表K RSQ X1X2X3X4.00000.99605.486610.187544.349141-.022974.05000.99450.298761.231025.351029.109212.10000.99286.279395.234139.315

14、824.148780.15000.99135.268288.234093.295846.168122.20000.98984.260456.232912.282446.178951.25000.98824.254302.231210.272489.185418.30000.98652.249140.229240.264570.189368.35000.98466.244625.227127.257967.191744.40000.98265.240562.224938.252270.193079.45000.98050.236833.222713.247230.193695.50000.978

15、22.233363.220477.242684.193798.55000.97581.230101.218244.238524.193528.60000.97327.227009.216026.234672.192980.65000.97062.224062.213829.231075.192222.70000.96786.221240.211658.227690.191305.75000.96501.218527.209517.224485.190265.80000.96206.215912.207406.221437.189132.85000.95903.213385.205328.218

16、526.187927.90000.95591.210938.203284.215736.186667.95000.95273.208564.201273.213056.1853661.0000.94948.206258.199296.210473.184034雪, IH4 X2 r K何猫4口 500080,4000000,3000000 OOCOu-0I0fi0o- Q OQOCOOY 10OC&C- ndoco ojuboo ojiddoo d.godod osaoao 1 .qiSooo图3,1岭迹图从岭迹图上看,最小二乘的稳定性很差,当k稍微增大时,系数有较大的变化。对各个变量分别来看

17、,当 k =0, Xi、X 2和X 3对于变量有显著性正的影响,X 4对于变量有负的影响,从岭回归的角度来看,变量 Xi和X 3随着k的增大其系数值迅速减小最终趋于稳定,X 2随着k的增加变化不大,对于X 4讲,当k逐渐增大时,由负的影响变为正的影响。由于Xi和X 4的岭参数都迅速减少,两者之和比较稳定。从岭回归的角度看, Xi和X4只要保留一个就可以了。X 2和X 3的岭回归系数相对稳定。通过分析,决定剔除X4,对剩下的三个变量进行岭回归。把岭参数步长改为0.02,范围缩小到0.2,在SPSS中用命令生成得到如下结果::步长为0.02时的岭参数值表3,6表K RSQ X1,00000.996

18、04.436166,02000.99584.351867.04000.99560.342222,06000.99531.336854,08000.99497.332900.10000.99457.329612.12000.99410.326701.14000.99357.324028.16000.99297.321521.18000.99231.319135X2 X3.179183.385799.262568.380494.282832.363342.291961.353101.296644.345962.299105.340458.300300.335921.300709.332010.30

19、0600.328527.300137.325355.20000 .99159 .316844 .299420 .322417由上表可以看到,剔除了X4后岭回归系数变化幅度减小,从岭迹图看岭参数在0.12到0.20之间时,岭参数已基本稳定,当k =0.16时,R2 0.99297仍然很大,因而可以选取 k =0.16岭参数。然后给定,重新作岭回归,计算结果如下:表3.7: k = 0.16时的岭回归Mult R.9964780RSquare.9929685Adj RSqu.9919137SE 210.6252025:表3.8 :方差分析表df SS MS F value Sin FRegress

20、3.000 125295417 41765139941.44.000000Residual20.000 887259.52 44362.976表3.9 :方程中的变量B SE(B) Beta B/SE(B)X1.4110191X2.0399873X31.1311326Constant -451.7066055.0098800.321520841.6010169.0017557.300600422.7755604.0405681.3285272 27.882349069.6480613.0000000-6.4855589得到对Y对X1 , X 2和X 3的标准化岭回归方程为:?Y 0.3215X

21、10.3006X2 0.3285X 3(3.2)(41.601)(22.776)(27.882 )R20.993F =941.44普通最小二乘法得到的回归方程为?Y 0.487X 1 0.188X 2 0.349X 3 0.023X4(3.3)(1.582 )(1.570)(1.617)( -0.261)标准化岭回3得到的T统计量都比 OLS估计显著,因此岭回归得到预期的效果。(二)主成分分析法同样利用SPSS软件中的 Analyze下拉菜单进行主成分分析。可以得到如下结果:表3.10 :总的解释方差表ComponentInitial EigenvaluesExtraction Sums of

22、 Squared LoadingsTotal一% of Variance-Cumulative %一Total一% of VarianceCumulative %13.92798.16698.1663.92798.16698.1662.0601.49199.657.0601.49199.6573.012.30699.964.012.30699.9644001036100 000001036100 000表3.10 :总的解释方差表CompoInitial EigenvaluesExtraction Sums of Squared LoadingsnentTotal% of VarianceCu

23、mulative %Total% of VarianceCumulative %13.92798.16698.1663.92798.16698.1662.0601.49199.657.0601.49199.6573.012.30699.964.012.30699.9644.001.036100.000.001.036100.000由上表可以知道,四个主成分的特征值的最大值为3.927 ,最小值为0.001 ;前两个因子的累积贡献率已经达到99.657% ,故只需要保留前两个主成分。利用SPSS的主成分分析进入变量计算。对前两主成分作普通最小二乘 法:(3.4)(3.5)(3.6)(3.7)各个

24、系数解释也更加第一主成分 Ti 0.254 X 1 0.253 X 2 0.252 X 3 0.250 X 4第二主成分 T21.014 Xi 0.315 X 2 2.408 X3 3.137 X 4用Y对T1、T2做普通最小二乘法,得如下回归方程为?Y 0.995T1 0.08T2因此,可以得出主成分回归方程为?Y 0.3339X10.2769X 2 0.4434X 3 0.012X 4回归方程的的修正的可决系数为0.996 。由上面的分析我们看到岭回归和主成分的所得到的结果比较接近,的合理,符合现实意义。五、结论主成分法和岭回归所估计的参数,都已经不是无偏的估计,主成分分析法作为多元统计分

25、析的一种常用方法在处理多变量问题时具有其一定的优越性,其降维的优势是明显的,主成分回归方法对于一般的多重共线性问题还是适用的,尤其是对共线性较强的变量之间.岭 回归估计是通过最小二乘法的改进允许回归系数的有偏估计量存在而补救多重共线性的方法,采用它可以通过允许小的误差而换取高于无偏估计量的精度,因此它接近真实值的可能性较大。灵活运用岭回归法,可以对分析各变量之间的作用和关系带来独特而有效的帮助。作为统计方法,每种方法都有其适用范围,我们应该比较其效果而选用而不是断然否定种方法。参考文献1何晓群.应用回归分析M.中国人民统计大学出版社:2007,(13).2钱晓莉.基于特征值的多重共线性处理方法

26、J.统计与决策:2004,(10).3白雪梅,赵松山.更深入地认识多重共线性J.东北财经大学学报:2005,(02).4赵松山,白雪梅.关于多重共线性检验方法的研究J.中国煤炭经济学院学报:2001,(04).5高辉.多重共线性的诊断方法J.统计与信息论坛:2003,(01).6达摩达尔.N.古扎拉蒂.计量经济学M.中国人民大学出版社:2004, ( 6).7薛薇.SPSS统计分析方法及应用M.电子工业出版社: 2009, ( 1).网 秦红兵.多元回归分析中多重共线性的探讨与实证J.科技信息:2007,(31).9 柳丽,魏庆征.回归分析中多重共线性的诊断与处理J.中国卫生统计:1994,(

27、11).10 John S. Y. Chiu . A Simulation Study of Effects of Multicollinearity and Autocorrelation onEstimates of ParametersJ. The Journal of Financial and Quantitative Analysis:1996,(6).11 Mark Z. Fabrycy.Multicollinearity caused by Specification ErrorsJ. Applied Statistics:1975,(4).12 Nityananda sarkar.Mean square error matrix comparision of some estmators in linear regressions with muillinearityJ. Statistics and Probability letters :1996,(10).

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1