第3章多元线性回归.ppt

上传人:本田雅阁 文档编号:2566342 上传时间:2019-04-09 格式:PPT 页数:57 大小:449.51KB
返回 下载 相关 举报
第3章多元线性回归.ppt_第1页
第1页 / 共57页
第3章多元线性回归.ppt_第2页
第2页 / 共57页
第3章多元线性回归.ppt_第3页
第3页 / 共57页
第3章多元线性回归.ppt_第4页
第4页 / 共57页
第3章多元线性回归.ppt_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《第3章多元线性回归.ppt》由会员分享,可在线阅读,更多相关《第3章多元线性回归.ppt(57页珍藏版)》请在三一文库上搜索。

1、第 3 章 多元线性回归,3.1 多元线性回归模型 3.2 回归参数的估计 3.3 参数估计量的性质 3.4 回归方程的显著性检验 3.5 中心化和标准化 3.6 相关阵与偏相关系数 3.7 本章小结与评注,3.1 多元线性回归模型,一、多元线性回归模型的一般形式,y=0+1x1+2x2+pxp+,3.1 多元线性回归模型,一、多元线性回归模型的一般形式,对n组观测数据 (xi1, xi2,xip; yi), i=1,2,n, 线性回归模型表示为:,3.1 多元线性回归模型,一、多元线性回归模型的一般形式,写成矩阵形式为: y=X+, 其中,3.1 多元线性回归模型,二、多元线性回归模型的基本

2、假定,1. 解释变量x1,x2,xp是确定性变量,不是随机变量,且要求 rk(X)=p+1n。表明设计矩阵X中的自变量列之间不相关, X是一满秩矩阵。,2 .随机误差项具有0均值和等方差,即,这个假定称为Gauss-Markov条件,3.1 多元线性回归模型,二、多元线性回归模型的基本假定,3. 正态分布的假定条件为:,用矩阵形式(3.5)式表示为:,N(0, s2In),yN(X, s2In),E(y)=X var(y)= s2In,3.1 多元线性回归模型,三、多元线性回归方程的解释,y表示空调机的销售量, x1表示空调机的价格, x2表示消费者可用于支配的收入。,y=0+1x1+2x2+

3、 E(y)=0+1x1+2x2,在x2保持不变时,有,在x1保持不变时,有,3.1 多元线性回归模型,三、多元线性回归方程的解释,考虑国内生产总值GDP和三次产业增加值的关系, GDP=x1 + x2+ x3,现在做GDP对第二产业增加值x2的一元线性回归, 得回归方程,3.1 多元线性回归模型,3.1 多元线性回归模型,三、多元线性回归方程的解释,建立GDP对x1和x2的回归,得二元回归方程,=2 914.6+0.607 x1+1.709 x2,你能够合理地解释两个回归系数吗 ?,3.2 回归参数的估计,一、回归参数的普通最小二乘估计,最小二乘估计要寻找,3.2 回归参数的估计,一、回归参数

4、的普通最小二乘估计,3.2 回归参数的估计,一、回归参数的普通最小二乘估计,经整理后得用矩阵形式表示的正规方程组,移项得,存在时,即得回归参数的最小二乘估计为:,3.2 回归参数的估计,二、回归值与残差,为回归值,称为帽子矩阵,其主对角线元素记为hii ,则,3.2 回归参数的估计,二、回归值与残差,此式的证明只需根据迹的性质tr(AB)=tr(BA),因而,3.2 回归参数的估计,二、回归值与残差,cov(e,e)=cov((I-H)Y,(I-H)Y) =(I-H)cov(Y,Y)(I-H) =2(I-H)In(I-H)=2(I-H),得 D(ei)=(1-hii)2,i=1,2,n,3.2

5、 回归参数的估计,二、回归值与残差,是2的无偏估计,3.2 回归参数的估计,三 、回归参数的最大似然估计,yN(X,2In),似然函数为,等价于使(y-X)(y-X)达到最小,这又完全与OLSE一样,3.2 回归参数的估计,例3.1 国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素,本例研究第三产业对旅游外汇收入的影响。中国统计年鉴把第三产业划分为12个组成部分,分别为x1农林牧渔服务业,x2地质勘查水利管理业,x3交通运输仓储和邮电通信业,x4批发零售贸易和餐饮业,x5金融保险业,x6房地产业,x7社会服务业,x8卫

6、生体育和社会福利业,x9教育文化艺术和广播,x10科学研究和综合艺术,x11党政机关,x12其他行业。采用1998年我国31 个省、市、自治区的数据,以国际旅游外汇收入(百万美元)为因变量y,以如上12 个行业为自变量做多元线性回归,数据见表3.1,其中自变量单位为亿元人民币。,3.2 回归参数的估计,3.3 参数估计量的性质,性质1 是随机向量y的一个线性变换。,性质2,是的无偏估计。,3.3 参数估计量的性质,3.3 参数估计量的性质,当p=1时,3.3 参数估计量的性质,性质4 Gauss-Markov定理,预测函数,是 的线性函数,Gauss-Markov定理 在假定E(y)=X, D

7、(y)=2In时,的任一线性函数 的最小方差线性无偏估计(Best Lnear Unbiased Estimator简记为BLUE)为c,其中c是任一p+1维向量, 是的最小二乘估计。,3.3 参数估计量的性质,第一,取常数向量c的第j(j=0,1,n)个分量为1,其余分量为0,这时G-M定理表明最小二乘估计是j的最小方差线性无偏估计。 第二,可能存在y1, y2 , , yn的非线性函数,作为 的无偏估计,比最小二乘估计 的方差更小。 第三,可能存在 的有偏估计量,在某种意义(例如均方误差最小)下比最小二乘估计 更好。 第四,在正态假定下, 是 的最小方差无偏估计。也就是说,既不可能存在y1

8、, y2 , , yn的非线性函数,也不可能存在y1, y2 , , yn的其它线性函数,作为 的无偏估计,比最小二乘估计 方差更小。,3.3 参数估计量的性质,性质5 cov(,,e)=0,此性质说明 与e不相关,在正态假定下等价于与e独立, 从而与 独立。,性质6 在正态假设,(1),(2),3.4 回归方程的显著性检验,一、F检验,H0:1=2=p=0,SST = SSR + SSE,当H0成立时服从,3.4 回归方程的显著性检验,一、F检验,3.4 回归方程的显著性检验,二、回归系数的显著性检验,H0j:j=0, j=1,2,p,(,(X)-1),记 (X)-1=(cij) i,j=0

9、,1,2, ,p,构造t统计量,其中,3.4 回归方程的显著性检验,二、回归系数的显著性检验 (剔除x1),3.4 回归方程的显著性检验,二、回归系数的显著性检验,3.4 回归方程的显著性检验,二、回归系数的显著性检验,从另外一个角度考虑自变量xj的显著性。 y对自变量x1,x2,xp线性回归的残差平方和为SSE,回归平方和为SSR,在剔除掉xj后,用y对其余的p-1个自变量做回归,记所得的残差平方和为SSE(j),回归平方和为SSR(j),则 自变量xj对回归的贡献为SSR(j)=SSR-SSR(j), 称为xj的偏回归平方和。由此构造偏F统计量,3.4 回归方程的显著性检验,二、回归系数的

10、显著性检验,当原假设H0j :j=0成立时,(3.42)式的偏F统计量Fj服从自由度为(1,n-p-1)的F分布,此F检验与(3.40)式的t检验是一致的,可以证明Fj=tj2,3.4 回归方程的显著性检验,三、回归系数的置信区间,可得j的置信度为1-的置信区间为:,3.4 回归方程的显著性检验,四、拟合优度,决定系数为:,y关于x1,x2,xp的样本复相关系数,3.5 中心化和标准化,一、中心化,经验回归方程,经过样本中心,将坐标原点移至样本中心,即做坐标变换:,回归方程转变为:,回归常数项为,3.5 中心化和标准化,二、标准化回归系数,当自变量的单位不同时普通最小二乘估计的回归系数不具有可

11、比性,例如有一回归方程为:,其中x1的单位是吨, x2的单位是公斤,3.5 中心化和标准化,二、标准化回归系数,样本数据的标准化公式为:,得标准化的回归方程,3.5 中心化和标准化,二、标准化回归系数,标准化 回归系数,3.6 相关阵与偏相关系数,一、样本相关阵,自变量样本相关阵,增广的样本相关阵为:,3.6 相关阵与偏相关系数,一、样本相关阵,3.6 相关阵与偏相关系数,二、偏判定系数,当其他变量被固定后,给定的任两个变量之间的 相关系数,叫偏相关系数。 偏相关系数可以度量p+1个变量y,x1,x2, xp之中 任意两个变量的线性相关程度,而这种相关程度是在 固定其余p-1个变量的影响下的线

12、性相关。,3.6 相关阵与偏相关系数,二、偏判定系数,偏判定系数测量在回归方程中已包含若干个自变量时,再引入某一个新的自变量后y的剩余变差的相对减少量,它衡量y的变差减少的边际贡献。,3.6 相关阵与偏相关系数,二、偏判定系数,以x1表示某种商品的销售量, x2表示消费者人均可支配收入, x3表示商品价格。 从经验上看,销售量x1与消费者人均可支配收入x2之间应该有正相关,简单相关系数r12应该是正的。但是如果你计算出的r12是个负数也不要感到惊讶,这是因为还有其它没有被固定的变量在发挥影响,例如商品价格x3在这期间大幅提高了。反映固定x3后x1与x2相关程度的偏相关系数r12;3会是个正数。

13、,3.6 相关阵与偏相关系数,1两个自变量的偏判定系数,二元线性回归模型为:yi=0+1xi1+2xi2+i,记SSE(x2)是模型中只含有自变量x2时y的残差平方和, SSE(x1,x2)是模型中同时含有自变量x1和x2时y的残差平方和。因此模型中已含有x2时再加入x1使y的剩余变差的相对减小量为:,此即模型中已含有x2时,y与x1的偏判定系数。,3.6 相关阵与偏相关系数,1两个自变量的偏判定系数,同样地,模型中已含有x1时,y与x2的偏判定系数为:,3.6 相关阵与偏相关系数,2.一般情况,在模型中已含有x2,xp时,y与x1的偏判定系数为:,3.6 相关阵与偏相关系数,三、偏相关系数,

14、偏判定系数的平方根称为偏相关系数, 其符号与相应的回归系数的符号相同。,例3.2 研究北京市各经济开发区经济发展与招商投资的关系,因变量y为各开发区的销售收入(百万元),选取两个自变量, x1为截至1998年底各开发区累计招商数目, x2为招商企业注册资本(百万元)。 表中列出了至1998年底招商企业注册资本x2在5亿至50亿元的15个开发区的数据。,3.6 相关阵与偏相关系数,三、偏相关系数,北京开发区数据,3.6 相关阵与偏相关系数,三、偏相关系数,偏相关系数表,3.6 相关阵与偏相关系数,三、偏相关系数,用y与x1做一元线性回归时,x1能消除y的变差SST的比例为,再引入x2时,x2能消

15、除剩余变差SSE(X1)的比例为,因而自变量x1和x2消除y变差的总比例为,=1-(1-0.651)(1-0.546)=0.842=84.2%。,这个值84.2%恰好是y对x1和x2二元线性回归的判定系数R2,3.6 相关阵与偏相关系数,三、偏相关系数,对任意p个变量x1,x2,xp定义它们之间的偏相关系数,其中符号ij表示相关阵第i行第j列元素的代数余子式,验证,3.7 本章小结与评注,例3.3 中国民航客运量的回归模型。 y民航客运量(万人), x1国民收入(亿元), x2消费额(亿元), x3铁路客运量(万人), x4民航航线里程(万公里), x5来华旅游入境人数(万人)。 根据1994年统计摘要获得1978-1993年统计数据,3.7 本章小结与评注,3.7 本章小结与评注,3.7 本章小结与评注,3.7 本章小结与评注,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1