线性回归分析的基本步骤要点.pdf

上传人:tbuqq 文档编号:5211348 上传时间:2020-02-22 格式:PDF 页数:13 大小:194.75KB
返回 下载 相关 举报
线性回归分析的基本步骤要点.pdf_第1页
第1页 / 共13页
线性回归分析的基本步骤要点.pdf_第2页
第2页 / 共13页
线性回归分析的基本步骤要点.pdf_第3页
第3页 / 共13页
线性回归分析的基本步骤要点.pdf_第4页
第4页 / 共13页
线性回归分析的基本步骤要点.pdf_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《线性回归分析的基本步骤要点.pdf》由会员分享,可在线阅读,更多相关《线性回归分析的基本步骤要点.pdf(13页珍藏版)》请在三一文库上搜索。

1、步骤一、建立模型 知识点: 1、总体回归模型、总体回归方程、样本回归模型、样本回归方程 总体回归模型: 研究总体之中自变量和因变量之间某种非确定依赖关系 的计量模型。 YXU 特点:由于随机误差项U 的存在,使得Y 和 X 不在一条直线 /平面上。 例 1:某镇共有60 个家庭,经普查,60 个家庭的每周收入(X)与每周 消费( Y)数据如下: 每周收入(X)每周消费支出( Y) 80 55 60 65 70 75 100 65 70 74 80 85 88 120 79 84 90 94 98 140 80 93 95 103 108 113 115 160 102 107 110 116

2、118 125 180 110 115 120 130 135 140 200 120 136 140 144 145 220 135 137 140 152 157 160 162 240 137 145 155 165 175 189 260 150 152 175 178 180 185 191 作出其散点图如下: 40 60 80 100 120 140 160 180 200 4080120160200240280 X Y 总体回归方程(线) :由于假定0EU,因此因变量的均值与自变量 总处于一条直线上, 这条直线|E YXX就称为总体回归线 (方程)。 总体回归方程的求法:以例1

3、的数据为例 1)对第一个 Xi,求出 E(Y|Xi)。 每周收入( X)每周消费支出( Y)E(Y|Xi) 80 55 60 65 70 75 65 100 65 70 74 80 85 88 77 120 79 84 90 94 98 89 140 80 93 95 103 108 113 115 101 160 102 107 110 116 118 125 113 180 110 115 120 130 135 140 125 200 120 136 140 144 145 137 220 135 137 140 152 157 160 162 149 240 137 145 155 1

4、65 175 189 161 260 150 152 175 178 180 185 191 173 由于 01 | iii E YXX, 因此任意带入两个Xi和其对应的E(Y|Xi)值, 即可求出 01 和,并进而得到总体回归方程。 如将 222777 100,|77200,|137XE YXXE YX和代 入 01 | iii E YXX可得: 010 011 7710017 1372000.6 以上求出 01 和反映了 E(Y|Xi)和 Xi之间的真实关系,即所求的总体回归 方程为:|170.6 iii E YXX,其图形为: 40 60 80 100 120 140 160 180 2

5、00 4080120160200240280 X Y Y vs. X 样本回归模型:总体通常难以得到,因此只能通过抽样得到样本数据。 如在例 1 中,通过抽样考察,我们得到了20 个家庭的样本数据: 每周收入( X)每周消费支出( Y) 80 55 100 65 70 120 79 84 140 80 93 160 102 107 110 180 110 200 120 136 220 135 137 240 137 145 260 150 152 175 那么描述样本数据中因变量Y 和自变量X 之间非确定依赖关系的模型 ? YXe就称为样本回归模型。 样本回归方程(线) :通过样本数据估计出

6、 ?,得到样本观测值的拟合 值与解释变量之间的关系方程 ? YX称为样本回归方程。如下图所示: 40 60 80 100 120 140 160 180 4080120160200240280 X Y Y vs. X 四者之间的关系: :总体回归模型建立在总体数据之上,它描述的是因变量Y 和自变量 X 之间的真实的非确定型依赖关系;样本回归模型建立在抽样数据基础之 上,它描述的是因变量Y 和自变量 X 之间的近似于真实的非确定型依赖 关系。这种近似表现在两个方面:一是结构参数 ? 是其真实值的一种 近似估计;二是残差e是随机误差项U 的一个近似估计; :总体回归方程是根据总体数据得到的,它描述

7、的是因变量的条件均值 E(Y|X)与自变量X 之间的线性关系;样本回归方程是根据抽样数据得到 的,它描述的是因变量Y 样本预测值的拟合值 ? Y与自变量 X 之间的线性 关系。 :回归分析的目的是试图通过样本数据得到真实结构参数的估计值, 并要求估计结果 ? 足够接近真实值。由于抽样数据有多种可能,每一 次抽样所得到的估计值 ? 都不会相同,即的估计量 ? 是一个随机变量。 因此必须选择合适的参数估计方法,使其具有良好的统计性质。 2、随机误差项U 存在的原因: 非重要解释变量的省略 人的随机行为 数学模型形式欠妥 归并误差(如一国GDP 的计算) 测量误差等 3、多元回归模型的基本假定 随机

8、误差项的期望值为零()0 i E U 随机误差项具有同方差性 2 ()1,2, i Var uin 随机误差项彼此之间不相关(,)0 ; ,1,2, ij Cov u uiji jn 解释就变量X1,X2, ,Xk为确定型变量,与随机误差项彼此不相关。 (,)0 1,2,1,2, ijj Cov Xuikjn 解释就变量X1,X2, ,Xk之间不存在精确的(完全的)线性关系,即解 释变量的样本观测值矩阵X 为满秩矩阵: rank(X)=k+1n 随机误差项服从正态分布,即:uiN(0, 2),i=1,2, ,n 步骤二、参数估计 知识点: 1、最小二乘估计的基本原理:残差平方和最小化。 2、参

9、数估计量: 一元回归: 12 01 ? ? ii i x y x YX 多元回归: 1 ? T X XX Y 3、最小二乘估计量的性质(Gauss-Markov 定理) : 在满足基本假设的情况下, 最小二乘估计量 ? 是的最优线性无偏估 计量( BLUE 估计量) 步骤三、模型检验 1、经济计量检验(后三章内容) 2、统计检验 拟合优度检验 知识点: :拟合优度检验的作用:检验回归方程对样本点的拟合程度 :拟合优度的检验方法:计算(调整的)样本可决系数 22 /RR 2 1 RSSESS R TSSTSS , 2/1 1 /1 ESSnk R TSSn 注意掌握离差平方和、回归平方和、 残差

10、平方和之间的关系以及它们 的自由度。 计算方法:通过方差分析表计算 方差来源符号计算公式自由度 (d.f.) 均方值 (MSS) 离差平方和TSS 2 i i YY n-1 2 i i YY/n-1 回归平方和RSS 2 ? i i YY k 2 ? i i YY/k 残差平方和ESS 2 ? i i YY n-k-1 2 ? i i YY/ n-k-1 例 2:下表列出了三变量(二元)模型的回归结果: 方差来源平方和( SS) 自由度均方值 离差平方和TSS66042 14 回归平方和 RSS65965 残差平方和 ESS 1)样本容量为多少? 解:由于 TSS的自由度为n-1,由上表知n-

11、114,因此样本容量n=15。 2)求 ESS 解:由于 TSSESSRSS,故 ESSTSSRSS77 3)ESS 和 RSS 的自由度各为多少? 解:对三变量模型而言,k=2,故 ESS 的自由度为 n-k-112 RSS 的自由度为 k2 4)求 22 RR和 解: 2 65965 0.9988 66042 RSS R TSS , 2 /1 10.9986 /1 ESS nk R TSS n 回归方程的显著性检验(F 检验) 目的:检验模型中的因变量与自变量之间是否存在显著的线性关系 步骤: 1、提出假设: 012 1 :.0 :0 ,1,2,., k j H Hjk至少有一 2、构造统

12、计量: / ( ,1) /1 RSS k FF k nk ESSnk 3、给定显著性水平,确定拒绝域,1FFk nk 4、计算统计量值,并判断是否拒绝原假设 例 3:就例 2 中的数据,给定显著性水平1%,对回归方程进行显著性 检验。 解:由于统计量值 /65965 /2 5140.13 /177/12 RSS k F ESSnk , 又 0.01 2,126.93F,而 0.01 5140.132,126.93FF 故拒绝原假设,即在1% 的显著性水平下可以认为回归方程存在显著 的线性关系。 附: 2 RF与检验的关系: 由于 2 2 2 2 2 / 1 /1/1 /1 RSSRSSR RR

13、SSESS Rk TSSESSRSSR F RSS kRnk F ESS nk 又 解释变量的显著性检验(t 检验) 目的:检验模型中的自变量是否对因变量存在显著影响。 知识点: 多元回归: 2 ?1,1 1 i i ii e SC nk ,其中 1,1ii C为 1 X X中位于第i+1 行 和 i+1 列的元素; 一元回归: 01 222 ? 22 , 22 iii ii eXe SS n nxnx 变量显著性检验的基本步骤: 1、提出假设: 01 :0 :0 ii HH 2、构造统计量: ? ? (1) i i tt nk S 3、给定显著性水平,确定拒绝域 /2( 1)ttnk 4、计

14、算统计量值,并判断是否拒绝原假设 例 4:根据 19 个样本数据得到某一回归方程如下: 12 ? 58.90.20.1 (0.0092) (0.084) YXX se 试在 5%的显著性水平下对变量 12 XX和的显著性进行检验。 解:由于 /20.025 (1)(16)2.12tnkt,故 t 检验的拒绝域为2.12t。对 自变量 1 X而言,其 t 统计量值为 1 1 ? ? 0.2 21.742.12 0.0092 t S ,落入 拒绝域, 故拒绝 1 0的原假设, 即在 5%的显著性水平下, 可以认为自变 量 1 X对因变量有显著影响; 对自变量 2 X而言,其 t 统计量值为 2 2

15、 ? ? 0.1 1.192.12 0.084 t S ,未落入拒 绝域,故不能拒绝 2 0的原假设,即在5%的显著性水平下,可以认为 自变量 2 X 对因变量 Y 的影响并不显著。 回归系数的置信区间 目的:给定某一置信水平1,构造某一回归参数 i的一个置信区间,使 i落在该区间内的概率为 1 基本步骤: 1、构造统计量 ? ? (1) i ii tt nk S 2、给定置信水平 1,查表求出水平的双侧分位数 / 2( 1)tnk 3、求出 i的置信度为 1的置信区间 ?/ 2/ 2 ? , ii ii tStS 例 5:根据例 4 的数据,求出 1的置信度为 95%的置信区间。 解:由于

16、0.025(16) 2.12t,故 1的置信度为 95% 的置信区间为: 0.22.12 0.0092,0.22.12 0.00920.18,0.22 3、经济意义检验 目的:检验回归参数的符号及数值是否与经济理论的预期相符。 例 6:根据 26 个样本数据建立了以下回归方程用于解释美国居民的个人 消费支出: 12 2 ? 10.960.932.09 ( 3.33) (249.06) ( 3.09) 0.9996 YXX t R 其中: Y 为个人消费支出(亿元) ;X1为居民可支配收入(亿元) ;X2为 利率( % ) 1)先验估计12 ? 和的符号; 解:由于居民可支配收入越高,其个人消费

17、水平也会越高,因此预期自变 量 X1回归系数的符号为正;而利率越高,居民储蓄意愿越强,消费意愿 相应越低,因此个从消费支出与利率应该存在负相关关系,即 2 ? 应为负。 2)解释两个自变量回归系数的经济含义; 解: 1 ? 0.93表示,居民可支配收入每增加1 亿元,其个人消费支出相应 会增加 0.93 亿元,即居民的边际消费倾向MPC0.93; 2 ? 2.09表示,利率提高 1 个百分点,个人消费支出将减少2.09 亿元。 截距项表示居民可支配收入和利率为零时的个人消费支出为-10.96 亿元,它没有明确的经济含义。 3)检验 1是否显著不为1; ( 5%) 解:1)提出假设: 0111

18、:1 :1HH 2)构造统计量: 1 11 ? ? (1)tt nk S 3)给定显著性水平 5%,查表得 /20.025 (1)(23)2.07tnkt,故拒绝 域为2.07t 4)计算统计量值:由于 1 1 11 ?1 ? 1 ? 0.93 ? ()0.003734 ? 249.06() tS St 则 1 11 ? ? 0.07 18.752.07 0.003734 t S ,落入拒绝域。故拒绝 1 1 的原假设。 即在 5%的显著性水平下,可认为边际消费倾向MPC 显著不为 1。 4)检验 2显否显著不为零; ( 5%) 解:1)提出假设: 0212 :0 :0HH 2)构造统计量:

19、2 2 ? ? (1)tt nk S 3)给定显著性水平 5%,查表得 /20.025 (1)(23)2.07tnkt,故拒绝 域为2.07t 4)计算统计量值:由于 2 ? ()3.092.07t,落入拒绝域,故拒绝原假 设。即在 5%的显著性水平下,可以认为 2显著异于零。 5)计算 2 R值; 解:由于 22/111 1111 /111 261 110.99960.99957 2621 ESSnkESSnn RR TSSnTSSnknk 6)计算每个回归系数的标准差; 解:由于 0 1 2 0 ? 0 1 ? ? 1 2 ? 2 ? 10.96 3.29 ? 3.33() ? 0.93

20、? ()0.00373 ? 249.06 ()() ? 2.09 0.6764 ? 3.09 () i i ii i i S t tSS S tt S t 7)给出 2置信水平为 95% 的置信区间; 解:由于 2 ?20.025 ? 2.09 ,0.6764 ,(23)2.07St,故 2置信水平为95%的置信 区间为2.092.07 0.6764 , 2.092.07 0.6764-3.49 , -0.69 8)对回归方程进行显著性检验; 解:提出假设: 012112 :0 :0HH或 构造统计量 / ( ,1) /1 RSS k FF k nk ESSnk 确定拒绝域: 0.05 ( .

21、1)(2,23)3.42FFk nkF 计算统计量并进行判断: 由于 2 2 /0.9996 /2 28738.53.42 0.0004 / 231/1 Rk F Rnk 故拒绝原假设,即在5% 的显著性水平下认为回归方程的线性关系显 著成立。 步骤四:经济预测 点预测: 00 ? YX可以看着是Y 的条件均值 00 |E YX和个别值 0 Y的预测值, 分别称为均值预测和个值预测; 性质: 00 ? YX是 00 |E YX和 0 Y的一个无偏估计量。 区间预测:均值 00 |E YX的区间预测 预测步骤: 1)确定统计量: 0 000 ? ? | (1) Y YE YX tt nk S 其

22、中 0 2 1 ?00 1 i Y e SXX XX nk 2)给定置信水平 1,确定 00 |E YX的预测区间为: 00 ?0/ 20/ 2 ? (1),(1) YY YtnkSYtnkS 个值 0 Y的区间预测 预测步骤: 1)确定统计量: 00 000 ? (1) ee eYY tt nk SS 其中 0 2 1 00 1 1 i e e SXX XX nk 2)给定置信水平 1,确定 0 Y的预测区间为: 00 0/ 20/2 ? (1),(1) ee YtnkSYtnkS 作业: 为解释某地对酒的消费, 根据 20 年的样本数据得到了如下回归方程: 1234 ? 0.0140.35

23、40.0180.6570.059YXXXX 其中:Y:每一成年人每年对酒的消费量(升); 1 X:酒类的平均价格(元) ; 2 X:个人可支配收入(元) 3 X:酒类经营许可证数量(张) 4 X:酒类广告投入(万元) 已知 2 0.689R, 1 X X对角线上的元素分别为 1,1 0.0576C, 2,2 28.9014C, 3,3 0.01C, 4,4 28.3042C, 5,5 0.4624C, 回归方程的残差平方和0.0375ESS 1)先验地,你认为各自变量回归系数的符号为什么? 2)请完成以下方差分析表: 方差来源平方和( SS)自由度均方值 离差平方和 TSS 回归平方和 RSS 残差平方和 ESS0.0375 3)计算 2 R值 4)对 4 个自变量进行显著性检验,并分析其经济含义; 5)给出 2置信水平为 95% 的区间估计; 6)对方程进行显著性检验;

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1