多元线性回归预测法PPT课件.ppt

资源描述

《多元线性回归预测法PPT课件.ppt》由会员分享，可在线阅读，更多相关《多元线性回归预测法PPT课件.ppt（43页珍藏版）》请在三一文库上搜索。

1、1,多元线性回归预测法,多元线性回归模型估计回归参数多元线性回归模型的检验预测区间标准化回归系数,2,一、多元线性回归模型,设随机变量y与x1,x2,xp一般变量的线性回归模型为,(4-20),其中，是p+1个未知参数，称为回归常数，称为回归系数。y称为因变量，而x1,x2,xp是p个可以精确测量并可控制的一般变量，称为自变量。是随机误差，对随机误差项假定,3,对一个实际问题，如果我们获得n组观测数据（xi1,xi2,xip;yi), i=1,2,n，则线性回归模型式（4-20）可表示为,写成矩阵形式为,(4-21),4,其中,(4-22),5,二、估计回归参数,回归系数B的估

2、计采用最小二乘法估计，设观察值与模型估计值的残差为E，则,其中,(4-23),根据最小平方法要求，应有,即,6,由极值原理，根据矩阵求导法则，对B求导，并令其等于零，则得,整理得回归系数向量B的估计值,(4-24),7,2. 二元线性回归方程回归系数的估计,二元线性回归方程为,此时,得出的计算公式如下：,(4-25),8,(4-28),(4-27),(4-26),9,以上计算公式较繁，较易算的计算公式为,(4-30),(4-29),(4-31),10,三、多元回归模型的检验,1. 复相关系数检验检验线性关系密切程度的指标称为相关系数，在多元回归模型中，由于自变量在两个以上，所以称为复相关

3、系数.,样本复相关系数的计算公式是,(4-32),11,复相关系数检验的步骤为：,第一步，计算复相关系数二元回归方程复相关系数的计算常用其简捷公式,(4-33),三元回归方程R计算常用其简捷公式,(4-34),12,第二步，根据回归模型的自由度n-p和给定的显著性水平值查相关系数临界表，得值,第三步，判断。若，表明变量之间线性相关显著，检验通过，这时回归模型可用来进行预测。若，表明变量之间线性相关关系不显著，检验通不过，这时的回归模型不能用来预测，应分析原因，对回归模型重新加以处理。,13,2. 拟合优度检验,拟合优度用于检验回归方程对样本观测值的拟合程度。定义复可决系数R2,(4

4、-35),复可决系数R2是检验多元线性回归模型拟合优度的度量指标，R2越接近1，表示拟合得越好；反之，则拟合得不好。,14,定义一个校正R2，记为,(4-36),这里，n-p是残差平方和的自由度，n-1是总离差平方和的自由度。根据式（4-35）和（4-36）可得与之间关系如下,(4-37),（1）当时，。说明中包含了自变量个数的影响，随着自变量个数的增加，总小于 . (2) 尽管总是非负的，但都可能为负。若为负，取值为0。,15,3. 回归方程的显著性检验F检验,原假设,如果H0被接受，则表明随机变量y与x1,x2,xp之间的关系由线性回归模型表示不合适。 F检验程序如下：

5、第一步，计算统计量F的值。,(4-38),16,第二步，对给定的显著性水平，查F分布表，得临界值,第三步，判断。若，则认为回归方程有显著意义，也就是p1=p2=pp=0不成立；反之，则认为回归方程不显著.,F统计量与可决系数，相关系数有以下关系：,(4-39),(4-40),17,回归系数的显著性检验t检验检验假设,如果接受原假设 H0j ，则 xj 不显著；如果拒绝原假设 H0j ，则 xj是显著的。 t检验的具体步骤如下：第一步，计算估计标准误差其中二元和三元估计标准误差的简捷公式分别为,(4-41),18,第二步，计算样本标准差式中 Cjj 为矩阵 (XX)-1 对角线上第

6、j个元素。第三步，计算 t 统计量,(4-43),(4-42),(4-44),(4-45),19,第四步，对给定的显著水平，查自由度为n-p的t 分布表，得。第五步，判断。若，则回归系数与零有显著差异，必须保留在原回归方程中，否则应去掉重新建立回归方程。,20,5.自相关检验DW检验（1）DW检验,(4-46),其中：，是的估计值。因的最初序号也必须是1，所以分子求和公式必须从2开始。将式（4-46）展开，得,(4-47),21,在大样本情况下，即n30，可以认为所以上式可以写成（4-48） R1是与的相关系数的估计量。当与正自相关时， R1 1

7、,DW 0；当与负相关时， R1 -1,DW 4；若不存在自相关或相关程度很小时， R1 0,DW 2 。从式（4-48）可以看出，DW值在04之间。,22,根据DW统计量，检验模型是否存在自相关，其步骤如下：第一步，利用最小平方法求回归模型及残差；第二步，利用式（4-46）、（4-47）或（4-48）可以计算DW 统计量；第三步，确立假设，即假定回归模型不存在自相关；第四步，根据给定的检验水平及自变量个数p从DW检验表中查得相应临界值。第五步，判断。DW的取值域在04之间。在 DW小于等于2时， DW检验法则规定：如DW ,认为无自相关；如 DW ,不能确定是否

8、存有自相关,23,在DW大于2时， DW检验法则规定：如4- DW ，认为无自相关；如 4 - DW ，不能确定是否有自相关。由图4-2可以看出，值等于2时为最好。根据经验， DW统计量在1.52.5之间时表示没有显著自相关问题。,24,从图4-2可看出,DW检验的最大弊端是存在着无结论区域。无结论区域的大小与样本容量n和自变量个数p有关。当n一定时，p愈大，无结论区域也愈大；当p一定时，n愈大，无结论区就愈小。如果计算的DW统计量落到了无结论区域，那么，决策者就不能做出回归模型是否存在自相关现象的结论。,25,（2）产生自相关的原因及补救办法,当检验结果出现和情况时，说明随

9、机误差项相互独立的假设不能成立，回归模型存在相关。在实际预测中，产生自相关的原因可能是：（i）忽略了某些重要的影响要素。（ii）错误地选用了回归模型的数学形式。（iii）随机误差项本身的确是相关的。合适的补救办法是：（i）把略去的重要影响因素引入回归模型中来。（ii）重新选择合适的回归模型形式。（iii）增加样本容量，改变数据的准确性。,26,6. 多重共线性检验,多重共线性检验的步骤如下：第一步，计算任何两个自变量和间的相关系数为,第二步，对自变量作中心标准化，则XX=(rij) 为自变量的相关阵。记 C=(cij)=(XX)-1 称其主对角线元素VIFj=cjj为自变量

10、xj的方差扩大因子（VIF）. 经验表明，当时，就说明自变量xj与其余自变量之间有严重的多重共线性，且这种多重共线性可能会过度地影响最小二乘估计值。,(4-49),(4-50),27,四、预测区间,多元回归模型的预测值和预测区间计算步骤如下：（1）计算估计标准误差,（2）记预测点为X0=(X01,X02,X0P)，则预测值为,(4-51),预测误差的样本方差为,(4-52),28,（3）当预测值的显著性水平为时，多元线性回归模型的预测区间为,(4-52),(4-53),由于这里X0的是一个影响因素数据向量，按公式（4-52）计算S0较复杂，故在实际预测中，一般运用SY代替S0近似地估

11、计预测区间.,29,五、标准化回归系数,如果先将所有的变量xj和因变量进行标准化，取得标准化变量和，再进行回归便可以得到标准化回归方程,因为z变量是无量纲变量，所以它们的回归系数称为标准化回归系数，它表示当其它变量不变时，xj变化一个标准单位，y的标准差的平均变化。由于标准化消除了原来自变量不同的测量单位，于是之间可以互相比较，它们绝对值的大小就代表了各自对y作用的大小。,30,计算的另一种计算方法为,其中sy和sj分别为原变量y和原自变量sj的标准差。一般统计软件都能够同时输出回归系数和标准化回归系数 .,31,案例,承上例，该饮料公司的许多零售点设在体育比赛场地，该公司明白，

12、当比赛一边倒时，观众会比往常喝得多一些，因为这时观众就有时间注意到口渴，而不是把注意力完全集中在比赛场上。因此，可以利用比赛结束时的比分差作为第二个自变量，其预测模型就成为：饮料销售量=b0+b1气温+ b2比分差,32,表4-5 二元回归分析计算表,33,34,解（1）设饮料销售量为y，气温为x1，比分差为x2，则二元回归模型为（2）计算回归系数。,35,所求回归预测模型为：,36,（3）R检验,当显著水平 =0.05， =10-3=7时， =0.666，因，说明相关关系显著。,37,(4) 拟合优度检验,由此可见，此回归模型解释了饮料销售变差的94.9%，而一元线性回归模

13、型只解释了饮料销售量变差的74%。,(5) F检验,当显著水平 =0.05时，F0.05（3-1，10-3）=4.74 ，说明回归效果非常显著。,38,(6) t检验,这个数据与一元线性回归获得的标准误差65相比，多元回归的标准误差缩小了一半多，在对标准性要求更高的预测中，就能表现出这种误差缩小的好处。,39,当显著水平 =0.05时，t0.05/2（10-3）=2.365 因为和均大于t0.05/2（7）=2.365，故拒绝假设b1=0和b2=0。因此可以断言，气温和比分差对饮料销售量有显著影响。,40,(7) DW检验,41,当显著水平 =0.05，p=3,n=10时,查DW检验表，

14、因DW检验表中样本容量n最低为15，故取dL=0.82和dU=1.75, 即DW统计量在dU=1.75 DW=2.19 4- Du=2.25之间。检验结果表明回归模型不存在自相关。,42,(8) 多重共线性检验,自变量x1和x2之间的相关系数,说明本题没有多重共线性的问题。,43,(9) 预测,（i）当气温，比分差x2=8时，代入回归模型得的点估计值为,（ii）当显著性水平 =0.10，自由度n-p=7时，查t分布表得 t0.05（7）=1.895 预测区间这是一个很大的改进，因为对一元线性回归模型而言，概率为90%的置信区间为458+130，而对于二元线性回归模型，当气温为，比分差为8时，其预测的近似置信范围在375491箱之间，其概率保证程度为90%。,

展开阅读全文