三章回归分析概要.ppt

上传人:本田雅阁 文档编号:2626001 上传时间:2019-04-23 格式:PPT 页数:58 大小:974.01KB
返回 下载 相关 举报
三章回归分析概要.ppt_第1页
第1页 / 共58页
三章回归分析概要.ppt_第2页
第2页 / 共58页
三章回归分析概要.ppt_第3页
第3页 / 共58页
三章回归分析概要.ppt_第4页
第4页 / 共58页
三章回归分析概要.ppt_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《三章回归分析概要.ppt》由会员分享,可在线阅读,更多相关《三章回归分析概要.ppt(58页珍藏版)》请在三一文库上搜索。

1、第三章 回归分析概要 第一节、经典线性回归模型 第二节、普通最小二乘估计和最大似然估计 第三节、假设检验 第四节、置信区间 1 第一节 经典线性回归模型 一、函数关系和统计关系 (一)函数关系是一一对应的确定性关 系。(举例见教材) (二)统计关系是不完全一致的对应关 系。(举例见教材) 二、理论模型和回归模型 Y=f(X1,X2,Xp) Y=f(X1,X2,Xk; ) 2 三、随机误差和系统误差 1、随机误差:是由随机因素形成的误差。 所 谓随机因素,是指那些对被解释变量的作用不 显著,其作用方向不稳定(时正时负),在重 复试验中,正作用与负作用可以相互抵消的因 素。 2、系统误差:由系统因

2、素形成的误差。所谓 系统因素,是指那些对被解释变量的作用较显 著,其作用方向稳定,重复试验也不可能相互 抵消的因素。 3 四、线性回归模型和非线性回归模型 分类的标准:回归模型的期望函数关于 参数的倒数是否与参数有关。即期望函 数的一阶导函数是否仍然是关于参数的 函数。如果导函数不是关于参数的函数 ,即参数是线性的,则称该回归模型是 线性回归模型;反之,则称该回归模型 是非线性回归模型。 4 五、回归模型的矩阵方法和随 机矩阵 5 6 7 8 9 六、经典线性回归模型及其 假设条件 一、有正确的期望函数。 它要求在线性回归模型中没有遗漏任何重 要的解释变量,也没有包含任何多余的解释变 量。 二

3、、被解释变量等于期望函数与随机干扰项之 和。 三、随机干扰项独立于期望函数。即所有解释 变量Xj与随机干扰项u不相关。 四、解释变量矩阵X是非随机矩阵,且其秩为 列满秩的,即rank(X)k。 10 五、随机干扰项服从正态分布。该假设 给出了被解释变量的概率分布。 六、随机干扰项的期望值为0。即: E(u)0 七、随机干扰项具有方差齐性。即: 八、随机干扰项相互独立。 11 第二节 模型参数的估计 一、普通最小二乘法 (OLS估计) 通过协方差或相关系数证实变量之间存在关系,仅仅 只是知道变量之间线性相关的性质正(负)相关 和相关程度的大小。 既然它们之间存在线性关系,接下来必须探求它们之 间

4、关系的表现形式是什么? 最好用数学表达式将这种关系尽可能准确、严谨的表 示出来y=a+bx+u把它们之间的内在联系挖掘 出来。也就是直线中的截距a=?;直线的斜率b=? 消费支出=基本生存+边际消费倾向可支配收入+随机 扰动 12 解决问题的思路可能性 寻找变量之间直线关系的方法多多。于是,再接下 来则是从众多方法中,寻找一种优良的方法,运用 方法去求出线性模型y=a+bx+u中的截距a=?; 直线的斜率b=?正是是本章介绍的最小二乘法。 根据该方法所得,即表现变量之间线性关系的直线 有些什么特性? 所得直线可靠吗?怎样衡量所得直线的可靠性? 最后才是如何运用所得规律变量的线性关系? 13 最

5、小二乘法产生的历史 最小二乘法最早称为回归分析法。由著 名的英国生物学家、统计学家道尔顿( F.Gallton)达尔文的表弟所创。 早年,道尔顿致力于化学和遗传学领域 的研究。 他研究父亲们的身高与儿子们的身高之 间的关系时,建立了回归分析法。 14 最小二乘法的地位与作用 现在回归分析法已远非道尔顿的本意 已经成为探索变量之间关系最重要的方 法,用以找出变量之间关系的具体表现 形式。 后来,回归分析法从其方法的数学原理 误差平方和最小(平方乃二乘也) 出发,改称为最小二乘法。 15 父亲们的身高与儿子们的身高之间 关系的研究 1889年F.Gallton和他的朋友K.Pearson收 集了上

6、千个家庭的身高、臂长和腿长的 记录 企图寻找出儿子们身高与父亲们身高之 间关系的具体表现形式 下图是根据1078个家庭的调查所作的散 点图(略图) 16 160 165 170 175 180 185 140150160170180190200 Y X 儿子们身高向着平均身高“回归”,以保持种族的稳定 17 “回归”一词的由来 从图上虽可看出,个子高的父亲确有生出个子 高的儿子的倾向,同样地,个子低的父亲确有 生出个子低的儿子的倾向。得到的具体规律如 下: 如此以来,高的伸进了天,低的缩入了地。他 百思不得其解,同时又发现某人种的平均身高 是相当稳定的。最后得到结论:儿子们的身高 回复于全体男

7、子的平均身高,即“回归”见 1889年F.Gallton的论文普用回归定律。 后人将此种方法普遍用于寻找变量之间的规律 18 最小二乘法的思路 1为了精确地描述Y与X之间的关系,必须使 用这两个变量的每一对观察值,才不至于以点 概面(作到全面)。 2Y与X之间是否是直线关系(协方差或相关 系数)?若是,将用一条直线描述它们之间的 关系。 3在Y与X的散点图上画出直线的方法很多。 任务?找出一条能够最好地描述Y与X( 代表所有点)之间的直线。 4什么是最好?找出判断“最好”的原则。 最好指的是找一条直线使得这些点到该直线的 纵向距离的和(平方和)最小。 19 三种距离 y x 纵向距离 横向距离

8、 距离 A为实际点,B为拟 合直线上与之对应 的点 20 距离是度量实际值与拟合值 是否相符的有效手段 点到直线的距离点到直线的垂直线 的长度。 横向距离点沿(平行)X轴方向到直 线的距离。 纵向距离点沿(平行)Y轴方向到直 线的距离。也就是实际观察点的Y坐标减 去根据直线方程计算出来的Y的拟合值。 这个差数以后称为误差残差(剩余 )。 21 最小二乘法的数学原理 纵向距离是Y的实际值与拟合值之差,差 异大拟合不好,差异小拟合好,所以又 称为拟合误差或残差。 将所有纵向距离平方后相加,即得误差 平方和,“最好”直线就是使误差平方和 最小的直线。 于是可以运用求极值的原理,将求最好 拟合直线问题

9、转换为求误差平方和最小 。 22 数学推证过程 23 关于所得直线方程的结论 结论之一: 由(5)式,得 即拟合直线过y和x的平均数点。 结论之二: 由(2)式,得 残差与自变量x的乘积和等于0,即两者不相关 。 24 拟合直线的性质 1估计残差和为零 2Y的真实值和拟合值有共同的均值 3估计残差与自变量不相关 4估计残差与拟合值不相关 25 1估计残差和为零 (Residuals Sum to zero) 由(1)式直接得此结论无须再证明。并 推出残差的平均数也等于零。 26 2Y的真实值和拟合值有共同的均值 (The actual and fitted values of yi have

10、the same mean) 27 3估计残差与自变量不相关( Residuals are unrelated with independent variable) 28 4估计残差与拟合值不相关( Residuals are unrelated with fitted value of yi) 29 关于回归直线性质的总结关于回归直线性质的总结 残差和=0 平均数相等 拟合值与残差不相关 自变量与残差不相关 注意:这里的残差与 随机扰动项不是一个 概念。随机扰动项是 总体的残差。 30 二、极大似然估计法 31 32 33 34 35 最佳线性无偏估计 36 高斯马尔柯夫定理 37 第三节

11、拟合优度的评价 38 问题的提出 由最小二乘法所得直线究竟能够对这些 点之间的关系加以反映吗? 对这些点之间的关系或趋势反映到了何 种程度? 于是必须经过某种检验或者找出一个指 标,在一定可靠程度下,根据指标值的 大小,对拟合的优度进行评价。 分四个问题进行讨论:平方和分解、方 差分析、拟合优度、拟合优度与简单相 关系数的关系。 39 一、平方和与自由度的分解 1、总平方和、回归平方和、残差平方和 的定义 2、平方和的分解 3、自由度的分解 40 1、总平方和、回归平方和、残 差平方和的定义 TSS度量Y自身的差异程度,RSS度量因 变量Y的拟合值自身的差异程度,ESS度 量实际值与拟合值之间

12、的差异程度。 41 2、平方和的分解 42 平方和分解的意义 TSS=RSS+ESS 被解释变量Y总的变动(差异)= 解释变量X引起的变动(差异 ) +除X以外的因素引起的变动(差异 ) 如果X引起的变动在Y的总变动中占很大 比例,那么X很好地解释了Y;否则,X 不能很好地解释Y。 43 3、自由度的分解 总自由度 dfT=n-1 回归自由度 dfR=1(自变量的个数,k元为k) 残差自由度 dfE=n-2 自由度分解 dfT=dfR+dfE 44 平方和分解图 正交分解 45 为什么回归平方和是由X引起的变动 A B C 46 二、方差分析 模型:y=a+bx+u =LS估计:y=a+bx

13、H0:b=0 HA:b0 H0:b=0 RSS中的X不起作用,RSS变动 无异于随机变动= 分子方差与分母方差是一回事=F=1 如果F显著地大于1,甚至FF=小概率事件发生了 ,根据小概率原理,小概率事件在一次试验中是不可 能发生的,于是H0不成立。就不能认为X没有作用。 则直线是有意义的。可靠性=1- 48 三、拟合优度(或称判定系数、 决定系数) 目的:企图构造一个不含单位,可以相互进行 比较,而且能直观判断拟合优劣。 拟合优度的定义: 意义:拟合优度越大,自变量对因变量的解释 程度越高,自变量引起的变动占总变动的百分 比高。观察点在回归直线附近越密集。 取值范围:0-1 49 拟合优度与

14、F统计量之间的联系 F显著=拟合优度必然显著 50 四、拟合优度等于实际值与拟合值之 间简单相关系数的平方 51 第四节各回归系数的显著性检 验 上述由回归方差分析给出的F检验是 对整个线性回归模型的检验,即使我们 在上述检验中否定了原假设H0:Bi=0, 也并不意味着每个解释变量都对被解释 变量有显著的影响。因此,还必须对模 型中每个解释变量的重要性,即解释变 量对被解释变量是否有显著性的影响进 行检验。 52 对于一般线性回归模型,要检验某个解 释变量Xi是否对被解释变量Y有显著的影 响,可建立原假设和备择假设为: H0:Bi0;H1:Bi不等于0 (见教材P40-41) 53 复习与提高

15、 y=a+bx +u xn+1 yn+1 xn yn x2 y2 x1 y1 根据已知样 本采用LS得 一拟合直线 拟合直线性质: 残差和=0 残差与自变量无关 拟合值与残差值无关 两个平均数均值相等 R20 TSS RSS ESS R2 R21 用直线反映总体 Good ? no Yes 54 案例分析一:教学指导书P20 教学目的: 1掌握普通最小二乘法 2掌握回归方程的拟合优度的判断 3掌握回归方程的显著性检验。 55 例1 下表是某地区10户家庭人均收入(X)和 人均食物消费支出(Y)的数据。 试根据表中数据 (1)用普通最小二乘法估计该地居民家庭食 物消费支出的回归直线. (2)计算

16、判定系数R2,说明回归方程的拟合 优度。 (3)在5%的显著性水平下,对回归方程进行 显著性检验。 56 Y X 70 80 65 100 90 120 95 140 110 160 115 180 120 200 140 220 155 240 150 260 57 Y X XY x2 Yei y2 1 70 80 5600640065.18 4.8181 4900 2 65100 650010000 75.36 -10.364225 3 90120 10800 14400 85.54 4.4545 8100 495140 13300 19600 95.72 -0.7279025 5110 160 17600 25600 105.9 4.0912100 6115 180 20700 32400 116.1 -1.09113225 7120 200 24000 40000 126.3 -6.27314400 8140 220 30800 48400 136.5 3.54519600 9155 240 37200 57600 146.6 8.36424025 150 260 39000 67600 156.8 -6.81222500 111 0 170 0 20550 0 32200 0 1110013210 0 58

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1