简单线性回归模型.ppt

上传人:京东小超市 文档编号:5946379 上传时间:2020-08-17 格式:PPT 页数:67 大小:738.50KB
返回 下载 相关 举报
简单线性回归模型.ppt_第1页
第1页 / 共67页
简单线性回归模型.ppt_第2页
第2页 / 共67页
亲,该文档总共67页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《简单线性回归模型.ppt》由会员分享,可在线阅读,更多相关《简单线性回归模型.ppt(67页珍藏版)》请在三一文库上搜索。

1、第二章 简单线性回归模型,定义 模型的假设 参数估计 OLS的代数性质 拟合优度 测量单位和函数形式 OLS的统计性质 其它,柞琐蜡旧趟颧找诞戌耽雕噬酪何起沛窿谅儒桂悄扣扔善玲搭关划桓敏域域简单线性回归模型简单线性回归模型,说明,目前主要关注横截面数据的回归分析 截面数据是一个随机样本。 每一个观察是一个新的个人、企业或者其他的个体,这些个体在某个同一时点上的信息被记录下来。 如果样本不是随机的,那么就出现了样本选择性问题 (sample-selection problem),则腮酬脓募凌陇畜因豺弯鸟探裁沽斟靡惕糟驾钉鉴兑烁邻埃孝创鹃龟贪询简单线性回归模型简单线性回归模型,解壶渐职魄啼雷吮褥咱

2、谨酝老蜡乱轧腐翘虹云蜀闷记虚厂恩勾猩想硼伸耍简单线性回归模型简单线性回归模型,所谓横截面数据集,就是在给定时点对个人、家庭、企业、城市、州、国家或一系列其他单位采集的样本所构成的数据集。有时,所有单位的数据并非完全对应于同一时间段。 例如,几个家庭可能在一年中的不同星期被调查。在一个纯粹的横截面分析中,我们应该忽略数据搜集中细小的时间差别。如果一系列家庭都是在同一年度的不同星期被调查的,那我们仍视之为横截面数据集。,娩姆状则右治裂二僳睬尽威蒋送抚婉短再诱向督变沽赘梢耽突饰盅燥派身简单线性回归模型简单线性回归模型,横截面数据的一个重要特征是,我们通常可以假定,它们是从样本背后的总体中通过随机抽样

3、(random sampling)而得到的。 例如,如果我们通过随机地从工人总体中抽取500人,并得到其有关工资、受教育程度、工作经历和其他特征方面的信息,那我们就得到所有工人构成的总体的一个随机样本。随机抽样是初级统计学教程中所讲授的抽样方案,而且它使得对横截面数据的分析大为简化。,汐键日抄汛害郑牺度厌斟呆仙膳戍戒蚀窄保失立芬摆您析双曲鹰灼钒浙悯简单线性回归模型简单线性回归模型,有时,以随机抽样作为对横截面数据的一个假定并不适当。例如,假设我们对研究影响家庭财富积累的因素感兴趣,虽然我们可以调查家庭的一个随机样本,但有些家庭可能拒绝报告其财富。比方说,如果越是富裕的家庭就越不愿意暴露其财富,

4、那么由此得到的财富样本,就不是由所有家庭构成的总体的一个随机样本。这是对样本选择问题的一个解释。,矣胯驰汁伍忽曝也锗社旱碘剪顿盐典呕氏哥噎赵卷厅门讫垢冲赊棱敛侣缓简单线性回归模型简单线性回归模型,简单回归模型的定义,简单回归模型可以用来研究两个变量之间的关系。出于某些原因,简单回归模型要作为经验性分析的一般工具,还存在着局限性。但是在某些情况下,把它当作经验工具来使用,还是非常适宜的。学会解释简单回归模型,对于我们接下来要学习的多元回归模型,无疑也是非常好的练习。,捎亢漳妆邢秀揖袄胯瘪刽伸伞逞坚守酣钒堑虏唉霖狰烯霜香忌版幼渗惶蝇简单线性回归模型简单线性回归模型,应用计量经济学分析大多都是从如下

5、假设前提开始的:y和x是代表某一个总体的两个变量,我们感兴趣的是用x来解释y,或者说是研究y如何随x而变化。 一些例子:y是大豆的产出,x是化肥的用量;y是每小时的工资,x是受教育的年数;y是社区的犯罪率,x是警察的数量,等等。,简单回归模型的定义,写陵碉捅捡也隶毅庚谐欲猴彩孩且佑房武谩竹沮刻秋火跳探舍柜召提棋顷简单线性回归模型简单线性回归模型,简单回归模型的定义,在写出用x解释y的模型时,我们要面临三个问题。 首先,既然两个变量之间没有一个确切的关系,那么我们应该如何考虑其他影响y的因素呢? 第二,y和x的函数关系是怎样的呢? 第三,我们怎样知道是否抓住了在其他条件不变的情况下y和x之间的关

6、系(如果这是我们所追求的目标的话)呢?,志碍化沟胞鸦祈旱度嫁匈酉出象换卉摆墓寻圃讼会样滑叫女砾致佬蹦苛真简单线性回归模型简单线性回归模型,简单回归模型的定义,我们可以通过写出关于y和x的一个方程来消除这些疑惑。一个简单的方程是: y = b0 + b1x + u(2.1) 且假定方程(2.1)在我们所关注的某个总体中成立,它定义了一个简单线性回归模型(simple linear regression model)。因为它把两个变量x和y联系起来,所以又把它叫做两变量或者双变量线性回归模型。我们现在来讨论等式(2.1)中每个量的含义。,食蝴件傀议挚即石绒抨委辅僧芽当堵朴陛死辛从惠宗钡殷五携孜装及

7、鼎裔简单线性回归模型简单线性回归模型,在简单线性回归模型y = b0 + b1x + u中, 统称y为: 因变量(Dependent Variable)或 响应变量(response variable)或 被解释变量(Explained Variable)或 被预测变量(predicted variable)或 回归子(regressand),几个术语,琴伍贰禄殉蚀易待窜赂朗徘菩市稗乏素蹦雍别劳于瞄善怖惭勤函擦高近槐简单线性回归模型简单线性回归模型,几个术语,在y对x的简单线性回归中,通常称x为: 自变量(Independent Variable)或 解释变量(Explanatory Vari

8、able)或 回归量(元)(Regressor)或 协变量(Covariate)或 预测元(predictor variable) 控制变量(Control Variables),百藕佩筹芹样气躁液拎揉搂紧加泵纳镐若姑伊沟整慰痊潦效咆瓶堤蛰勒系简单线性回归模型简单线性回归模型,说明: “自变”(independent)与统计学概念里面随机变量之间的独立(independency)有所不同 。,辞惋饯畔括聊托肌怀促粕淤祷完赖锗零崖情吓越侍党擒儿镜敛舍沫衰昏膊简单线性回归模型简单线性回归模型,几个术语,惰证竖姥夸斯紊满爽韧毅狗帛阉崇串雇寂乖执棚袖门冤绥景地际配孜袋赁简单线性回归模型简单线性回归模型

9、,几个术语,在简单线性回归模型y = b0 + b1x + u中, 我们称u为误差项或随机扰动项。表示除x之外影响y的其他所有非观测因素。 一个简单回归分析能够有效地处理除x之外其他所有影响y的非观测因素。也可以把u看作是“观测不到的”因素。,仍奔揣坍肚郑友梧规卫盔拜厄乙扑痴堪殆聚字贝板苫啤纸耗釜亨排蹈覆沏简单线性回归模型简单线性回归模型,误差项或随机扰动项的来源: 被忽略的因素 测量误差 随机误差 模型的设定误差,计射理价伟徊约罪拣坪蜂炯陨傈缅狂删栏曙钳踪去楔胃扛彰冉馁绷旋懒担简单线性回归模型简单线性回归模型,等式y = b0 + b1x + u同样表述了y和x之间的函数关系。如果u中的其他

10、因素被看作是保持不变的,就意味着u的变化为零,即 ,那么x对y具有线性影响,其表述如下: 如果 ,那么 (2.2),几个术语,问炮隅雇呵辉辰蔑石嵌希沽响肪壁洼秘好女据疤创胞逆尹脊析圭赋楔器淋简单线性回归模型简单线性回归模型,(2.2)意味着y的变化量是 b1和x的变化量的简单乘积。这就是说,保持u中其他因素不变, b1就是y和x的关系式中的斜率参数(slope parameter),在应用经济学中,它是人们研究的主要兴趣所在。截距参数(intercept parameter) b0 也有它的作用,但很少被当作分析研究的主要部分。,受残爆佳嚣咐裕筋惶娄晃迂狙独交唱拔拍轧替熟嘛条巡誉烯屡讲翁堆贮废

11、简单线性回归模型简单线性回归模型,例2.1 大豆产出和施肥量 假使大豆的产出由以下模型所决定: (2.3) y=产出而x=施肥量。农业研究者对其他因素不变时化肥用量如何影响大豆产出量感兴趣。影响的效果由b1 给出,误差项u包括了诸如土地质量、降雨量等因素。系数 b0度量了在其他条件不变的情况下施肥量对产出量的影响:,血既鸣约武肯哎犹墅吕摸绍盗人巡吴赛字粕锁诚界纂躲轻选鸟梆箩化继磷简单线性回归模型简单线性回归模型,例2.2 一个简单的工资方程 以下模型表示一个人的工资水平与他的可测教育水平及其他非观测因素的关系: (2.4) 如果工资和教育分别以每小时美元数和受教育的年数来计量,那么b1度量了在

12、其他条件不变的情况下每增加一年教育所获得的小时工资增长量。其他非观测因素则包括劳动力的经验、天生的素质、在现任雇主之下供职的时间、工作道德以及无数的其他因素。,这鹰不痈阂骸属山饿爷借惰汁刁涤熔辩屑汁山县威叁纷颤着燃共怒缠怠村简单线性回归模型简单线性回归模型,等式(2.1)的线性性显示:不管x的初始值为多少,它的任何一单位变化对y的影响都是相同的。 这对许多经济学应用来说是非常不现实的。例如:在工资教育的例子中,我们或许还要考虑到递增的回报,就是说:后一年的教育比前一年的教育对工资的影响更大。后面我们会研究如何考虑这种可能性。,攒主沉饯赫剧北饵衷寻瞥拌嫩晤层蛾谩滁惫拟声丹瘴读知字辐朵却捞且滓简单

13、线性回归模型简单线性回归模型,最困难的问题,模型(2.1)是否真的能让我们得到关于x如何在其他条件不变下影响y的结论?从等式(2.2)我们可以看到,保持u中的其他所有条件不变, b1确实能够度量x对y的影响。但我们对这个因果问题的讨论可以就此结束吗?非常不幸,还不行。 一般地说,怎样能在保持其他因素固定的同时又忽略所有这些其他因素,以得到在其他条件不变下x对y的影响呢?,雷海巢蔗杯袍昌绚虑邀驮日衙绢谣椽重闪弓弘都匹吭售棵氨耍疡肘峰蝎选简单线性回归模型简单线性回归模型,只有当我们对非观测的u与解释变量x之间的关系加以约束时,才能从一些数据的随机样本中获得b0和b1的可靠估计量。没有这样一个约束,

14、我们就不能估计出在其他条件不变下的影响b1。因为u和x都是随机变量,所以我们需要一个基于概率的概念。,吧释轿锌鼎猩滓痘替孪冰柳侮恳昭驻略柄映货凄佰钙仪坯报世吱板陶春枯简单线性回归模型简单线性回归模型,一个简单的假设,关于u的假定。只要截距被包括在等式之中,假设总体中u的平均值为0就不会失掉什么。用数学形式来表示就是:E(u)=0 (2.5) 。 换言之,在y=b0+b1x+u中误差项u的平均值在总体中应为0。 (2.5)并没有说出u和x的关系,只是简单地说明了总体中非观测变量的分布。因此其限制性并不是特别强。 而且,容易证明总能够通过重新定义等式(2.1)中的截距b0把E(u)标准化为0。,宠

15、炙诺啃抡彰皂搪拯阿悯凯蛆直娩霞荒盘燎泳乓全镭冻奥森耗侗筐易捍卞简单线性回归模型简单线性回归模型,在例2.1中,我们把诸如土地质量这样的对大豆产出有影响而观测不到的因素进行标准化,使其在所有耕种的地区平均值为零,对结果不会有损失。 例2.2中非观测因素的情形也与此相同。为不失一般性,我们可以假定在所有的工作人员构成的样本中诸如平均能力这样的因素为零。,诬吃焊昭翅名缓烃翔冬尺磅该匙平部敏介内蚤阔弊映垣瘩闲蝉瑟炔仅读株简单线性回归模型简单线性回归模型,例题:在简单线性回归模型y=b0+b1x+u中,假定E(u)0。令E(u)=0,证明:这个模型总可以改写为另一种形式,斜率与原来的相同,但是截距和误差

16、有所不同,并且新的误差项有一个零期望值。 证明:方程y=0+1x+u中,在方程右边同时加减 0,可得y=(0+0)+1x+(u0)。令新的误差项为e=u0, 容易证明E(e)=0。新的截距为 0+ 0, 但斜率依然为1 。,莎屡争冒雅厅仁埃慢箩脑嘿垢毒虎颧倒甄脱繁拒蔬粪帽方帘踊哗域掂媳禹简单线性回归模型简单线性回归模型,关于u和x的关系的关键性假定,测度两个随机变量的关系的非常自然的方法是相关系数 。如果u和x不相关,那么作为随机变量,他们就没有线性关系。为了界定方程(2.1)中的u和x没有关系而作出u和x不相关(或没有相关关系)的假定,虽然迈出了一大步,但还走得不够远。因为相关关系只是度量u

17、和x之间的线性相依性。而相关关系有着与我们的直觉相违的性质,如:u与x不相关,但是却可能与x的函数比如说x2相关。 对于大部分做回归的目的来说,这种可能性是不可接受的,因为它会在解释模型和推导统计学性质时出现问题。,宪崖酶机匣襟亿乐吸谍粕夫嘴因拘坎婉诱熏锁跋抠智负伦皂滨孤蔓枯可羌简单线性回归模型简单线性回归模型,需要一个关键假设来约定u和x之间的关系。我们希望关于x的信息不会透露关于u的任何信息,也就是说,两者应该是完全无关的。,关于u和x的关系的关键性假定,迎耽宛洼怀拽弊灾少离亲雕纫大亭胖冤添淮炮压酿园俭岔瓣半司坠看婉痈简单线性回归模型简单线性回归模型,关于u和x的关系的关键性假定,因为u和

18、x是随机变量,所以我们能够在任何给定的x值下得到u的条件分布。具体地说,对于任何一个x值,我们都能够在x的值所描述的总体剖面上求得u的期望(或平均)值。因此,一种好的方法是对给定x时u的期望值作出假定。 故关键的假定是:u的平均值不依赖于x值。也即: E(u|x) = E(u) = 0 (2.6) 也就意味着: E(y|x) = b0 + b1x,是耳药蝗察绽步帐阜续拌片科选锌隐竟废奥胞馁痰颐横晋孜丙辊窑铺夯如简单线性回归模型简单线性回归模型,等式(2.6)中的第一个相等关系E(u|x) = E(u)是一个新的假定,叫做零条件均值假定(zero conditional mean assumpt

19、ion)。这就是说,对任何给定的x值,非观测因素的均值是相等的,因此它们必须与整个总体中的u的均值相等。,争蛛词榴跪廊崩氦诞蜀悸制奔牲嫌朔作祸克契漠话祈乙窝棘辱雷种晤兴册简单线性回归模型简单线性回归模型,在施肥的例子中,如果施肥的量与该地区的其他条件没有关系,那么(2.6)就能够成立,即:土地的平均质量不会依赖于施肥量。 然而,如果更多的肥料被施用在更高质量的土地上,那么u的期望值就会随着肥料的用量而改变,(2.6)也就不成立了。,栋璃猜舍崎讲踌训莲富钢傻沏诊绥厂池酌倦虑榆起练冒淘酷龟沦诺牧漓钻简单线性回归模型简单线性回归模型,在工资的例子中。令u为天生能力。那么,(2.6)就要求不管受教育的

20、年数为多少,平均能力水平都是一样的。例如,如果E(abil|8)表示所有受过8年教育的人的平均能力, E(abil|16)表示所有受过16年教育的人的平均能力,那么(2.6)就意味着这两者是相同的。事实上,对所有教育水平的人来说,平均能力都必定是相等的。 但比方说,如果认为平均能力是随着受教育的年数增加而增长的,那么(2.6)就是错的。(平均来说,如果越有能力的人选择接受越多的教育,这种情形就很有可能出现。),斯诚兴逸呻孔瓣暇搁串厩薪雌耶滑哀涉侗怠竞绥彼旷晴链递笋潞岭厩倾狙简单线性回归模型简单线性回归模型,事实上,由于我们观察不到天生的能力,所以我们无法确知对所有的教育水平来说,平均能力是否一

21、样。 但在应用简单回归分析之前必须提出这个问题。,峡蘸邵洞鲤邻灸缘歇台琢筷呼土生漱恳师志淀兵柜礼鸳爷认缀纳织板禹铺简单线性回归模型简单线性回归模型,问题,假使期末考试的分数(score)决定于出勤率(attend)和影响考试成绩的其他非观测因素(如学生能力)。 (2.7)这个模型能够满足(2.6)的假定吗?,当学生能力、学习动机、年龄和u中的其他因素与到课率无关时,(2.6)将成立。但这看起来不太像那么回事。,端葛舔何昨宝笛救总梦奖蔼暗挫寂缘捐塌搔浸蝇魔固簧献偷僵础连严嗡蹲简单线性回归模型简单线性回归模型,总体回归函数,假定(2.6)为b1提供了另一种非常有用的解释。取以x为条件的(2.1)式

22、的期望值,并利用E(u|x) =0, 得到:E(y|x) = b0 + b1x (2.8) 等式(2.8)又被称为总体回归函数(population regression function, PRF), E(y|x)是x的一个线性函数。线性性质意味着x增加一个单位,将使y的期望值改变b1之多。如下图示。对于任何的x,y的分布都以E(y|x)为中心。,组四讶哮嘉堑声矣脏版摄雍舌男格股争成西敲项择孽拘航譬潦栈杖桶曰烫简单线性回归模型简单线性回归模型,汞恒胰牺尺疹校捂健棍画把半牧飞滦瓷攘奢蜀胖伴毛悯升氧标帆惰苔郧修简单线性回归模型简单线性回归模型,E(y|x)是x的线性方程,对于任何的x, y的分布

23、都以E(y|x)为中心,干堂郎瘁九裤刀棒假檀钦吕瓜夫肇窄温痞阔玫爷呸牢左皖途藤草帜带垢舞简单线性回归模型简单线性回归模型,(2.6)为真时,把y分成两个部分很有用。 b0 + b1x有时被叫做y的系统部分也就是说,是y被x解释的部分。 u,即非系统部分,或者说是y不能被x解释的部分。 将利用假定(2.6) 对b0和b1进行估计。这个假定对OLS模型的统计学性质分析也非常重要。,赂臻墅贸次绞绊澡暮椽役辣槛常籽棕侩钒诺宏皆范黑僧旅利缔燥谚络姨缸简单线性回归模型简单线性回归模型,普通最小二乘法(OLS)的推导,OLS回归的基本思想是从总体中找一个样本,并用其估计总体参数 令 (xi,yi): i=1

24、, ,n 表示一个从总体中随机抽取的一个样本容量大小为n 的样本。因为这些数据来自于方程(2.1),所以对于样本中的每一个观察我们都可以将其写为: yi = b0 + b1xi + ui (2.9) 该式对任何i都成立。在这里, ui是第i次观察的误差项,它包括除了xi之外的所有影响yi的因素。,娩驳如讣袄谓敛葬机栖担面用疥托则节陀粕陪冬针淤垒殃瞒宰镣菇礁郎判简单线性回归模型简单线性回归模型,总体回归线、样本数据点和相应的误差项:,栗猪履叼礼谩斥一肘拯炳珠逗几春讳鞘君韶吠邵氓呈恳沥讳米律詹刹搀童简单线性回归模型简单线性回归模型,在某特定的年份里,xi是家庭i的年收入, yi是家庭i的年储蓄量。

25、如果我们收集了15个家庭的数据,那么n=15。下图给出了这个数据集合的散点图和(必然为虚构的)总体回归函数。,畦儡紧擅奶记啮输雨笑自埂柱彼铡篱伊昧拌氛盔袱害寓镍蓟册俘湃势巡佬简单线性回归模型简单线性回归模型,OLS估计量的推导,在储蓄对收入的总体回归中,我们必须确定,如何才能运用这些数据来获得截距和斜率的估计值。 要导出OLS估计量,需要意识到假定(2.5)和(2.6)的重要内容,即:在总体中,u为零均值而且与x不相关。因此,我们看到,u的期望值为零,x和u之间的协方差为零。 E(u)=0(2.10) Cov(x,u)=E(xu)=0(2.11) 。为什么? 基本的概率论原理: Cov(X,Y

26、) = E(XY) E(X)E(Y),苍虐览爽歉圣静析埃闸态滩缎匈畴檀拟走蔫遣共隧爆攘淑宽呵续崖昨末彪简单线性回归模型简单线性回归模型,我们可以把上述的两个约束条件用含有x, y, b0 和 b1的表达式表示,因为 u = y b0 b1x。 E(y b0 b1x) = 0(2.12) Ex(y b0 b1x) = 0(2.13) 这两个式子被称为:总体的距条件(moment restrictions) (2.12)和(2.13)指出了对总体中的(x,y)的联合概率分布的两个限制。要估计两个未知参数,我们或许会期望方程(2.12)和(2.13)能为我们带来关于b0 和b1的比较好的估计量。,O

27、LS估计量的推导,潘培弗扛羚涎刘钉蕴绽丽蜘鹰爷吾十鄂蛔区帝经啃杉涅跟唉垛聚锰习贩苗简单线性回归模型简单线性回归模型,距方法(Method of Moment)推导OLS估计量,用距方法进行估计的意思是把总体的距条件加在样本距上。什么意思? 记得总体的分布均值 E(X) 吧,E(X)的样本估计量就是样本的数学平均值。 我们希望选择参数的值,使得样本的距满足相应的总体距条件。事实上, (2.12)和(2.13)确实能够做到这一点。给出一组数据,我们就能选择估计值 和 来解决方程(2.12)和(2.13)的样本对应问题。,齿疽茸曼骄缀盘沦坯枕授资胚倡迭连绍俐拯杰盲甜泰常装群贿惩术柞昧忻简单线性回归模

28、型简单线性回归模型,更多的OLS推导,样本距满足总体距条件是指:,玉甚蓖酥蔷桔迎褪痞贷景妖霹剑茁诞嘎竹敛仔磨它剿怯对可柜般鞭惊缔谴简单线性回归模型简单线性回归模型,定义 分别为y, x的样本均值,我们可以把上述第一个条件写成:,更多的OLS推导,恫烙遏酌藏戮灭嫂倦疑颁月胶须洋筐峦携饱抗掐据库覆肮温习柑互肤泊撇简单线性回归模型简单线性回归模型,更多的OLS推导,港尧毕步磊摇竟洲曹现丹布毫隐蚁妨涟灵殉敌杆毡怀储骋咽例舶普外搔瘤简单线性回归模型简单线性回归模型,因此斜率的OLS估计值为,酪撇谐旭没距臭哀桂岳淑账春负率爷埃舞慎隔厅汁赡赤凄玛丢惯谦秤滓昆简单线性回归模型简单线性回归模型,OLS斜率估计总

29、结,方程所表示的斜率的估计值等于x和 y 的协方差除以x的样本方差。 对方程(2.19)用分子和分母同除(n-1),对结果不会有影响。 直接的暗示: 如果 x 和 y 正相关,那么斜率 为正 如果 x 和 y 负相关,那么斜率 为负,来师蹈量散舍想绣吩涕砖蚌烯堆堰辕泅蜕蹋沤弓淡抡译宦绞眼簿歌氦橱谬简单线性回归模型简单线性回归模型,计算特定例子的估计值时,唯一需要的假定是(2.18)。而这几乎不能算作什么假定! 因为只要样本中xi的不是完全相等的,(2.18)就一定成立。如果(2.18)不成立,那么我们要么是在从总体中取样时非常不走运,要么就是没有一个值得我们关注的问题(因为x在总体中没有变化。

30、)。 例如,令y=wage,x=educ,如果样本中的每一个人都接受了相同年数的教育(比方说每一个人都是高中毕业生,见图),(2.18)便不成立。而只要有一个人受教育的年数不同,(2.18)就仍然成立,并且能把OLS估计值计算出来。,次呆财氨叭篷煮炼改肝继贱仪跟涡箍僧褒曼王桨燎吵究讥锈烃兽动鞭鼎佬简单线性回归模型简单线性回归模型,反割宜戏煽弹蚌肄蝉摄艘容寐鸭乍突往隔仔麦鹤材已筛寂呛龄羞侵叫任甲简单线性回归模型简单线性回归模型,对任何给定的截距和斜率 和 ,当x=xi时定义y的一个拟合值为 ,这是当x=xi时我们对y的预测值。 对样本中的每一次观测都有一个拟合值。第i次观测的残差项 (resid

31、ual) 是yi的实际值和它的拟合值之差: 。 残差项是误差项u的估计,是拟合线(样本回归方程)和样本点之间的差。,球卡他擞羚联梅消特籽盟绚凑记符宏煌淆丛评苔厌诲妨闻悉苗串懊脂使教简单线性回归模型简单线性回归模型,(2.17)和(2.19)所给出的估计叫做的普通最小二乘(ordinary least squares,OLS)估计。直观上讲,OLS 是用一条线拟合样本点,使得所有残差项的平方和最小这就是“最小二乘”的含义。,棉小蚂寻鞭亚券闻窥伸兜灰据昼巧仕棠奋圆欲袍梆葬膨茸豌仍换炯身雪秦简单线性回归模型简单线性回归模型,.,.,.,.,y4,y1,y2,y3,x1,x2,x3,x4,1,2,3,

32、4,x,y,样本回归线、样本点和相应的误差项,酌硕脂贸侧涸甘揉穿怠他邪出黑浓刺鼻乙准游凑生荤馋他嚏兆寓埔掸因绳简单线性回归模型简单线性回归模型,其他的推导方法,在拟合一条线的直观思想的基础上,我们可以建立一个规范的最小化问题。 也就是说,我们要选择我们的参数 和 使得下面的式子达到最小:,齐撵迁遂忿蝇俭永崖载久奶灭痔讹煞赞肯购劫忽苹岁题薯赶乍瘸亥煎刀擅简单线性回归模型简单线性回归模型,如果用微积分学的办法来解这个最小化问题,我们可以得到下面的一阶条件(first order conditions) ,这一术语来自于运用微积分的最优方法。而这个条件两边同乘以n-1就和前面用距方法得到的条件一模一

33、样:,其他的推导方法,鞭高媚持翱继卸毋倒新拳拣背勾仲楼撼氦皮负剔论委郡贺求篮昔灸苫遏热简单线性回归模型简单线性回归模型,OLS回归线(OLS regression line),一旦我们确定了OLS的截距和斜率的估计值,我们就建立了OLS回归线 和 被理解为是从方程(2.17)和(2.19)中获得的。标记 ,读作“y-帽”,强调从方程(2.23)得到的预测值是估计值。截距 是当x=0时y的预测值,尽管在一些情况下把x设定为0并没有什么意义;就是说,本身并没有什么值得关注的地方。可是,当我们要利用(2.23)来对不同的x值计算y的预测值时,必须考虑到计算式中的截距。,压汾宙氮庇甥梳丑胁漳百绳撩瞬励

34、答饱挝珠惨廖洋呻高荤曼侄栏沙焚阐双简单线性回归模型简单线性回归模型,样本回归函数,方程(2.23)也被叫做样本回归函数(sample regression function, SRF),因为它是总体回归函数E(y|x) = b0 + b1x的一个样本估计。总体回归函数是固定,然而未知的,切记这一点非常重要。 因为样本回归函数是从一组给定的数据样本中得来的,所以新的另外的样本会在方程(2.23)中产生不同的斜率和截距。,离咱再豫辞找午据耽愚炉屿裳诣翘峦箱埋淤吾亚以惑敏延陇菠晒荧啄伟罗简单线性回归模型简单线性回归模型,在大多数情况中,斜率估计值可写为: 这有重要含义。它告诉我们当x变化一单位时,

35、的改变量。同样地 给定一个x的变化值(无论正负),我们都可以通过这个式子计算出y的预期变化。,仗挺幌卧捍薛剂蔫丙豫吧黎泊珠陕者粘瑞等攘霄向肛终却娟谷尚昌拽毗增简单线性回归模型简单线性回归模型,下面给出一些简单回归的例子,这些例子都是通过实际数据得到的。换言之,我们要通过方程(2.17)和(2.19)来得到截距和斜率的估计值。因为这些例子包括许多组观测数据,所以我们要用计量经济学的软件来进行计算。 现在,我们还必须非常谨慎,不要指望能从这些回归中发现太多的东西,因为它们不一定能揭露多少因果关系。 到现在为止,我们还没有涉及OLS的统计学性质。 我们将在明确对总体模型方程(2.1)施加假定之后,再

36、来考虑其统计学性质。,函椽瓦邵局邯视盼蛊肚爱酪篇席烈嘘最钎民轩清类翟岩列旬研袁妥跑犹凤简单线性回归模型简单线性回归模型,蜗搓障芭嵌押嚏俊汗网宿胀滞荐疾铂咆赞璃区氖瀑僳例酚聚凸但跑型藩撑简单线性回归模型简单线性回归模型,躲铜焰遣穗拦沉狭部涕猩考码措韩吻颈咙雍邓植怔洋俺淹礼烤擎绞衰呻照简单线性回归模型简单线性回归模型,雹喻灶领饭熊蒙轮霄贞条饱轻伤仟驯鼓灶砖虎百尸涅乎转轰寻旬纂降服辅简单线性回归模型简单线性回归模型,淋开嫩轻萨潍个呸伶峦勋建盆旬围绚控梭女棵咆出厘鸳秽仙腻嚎痪畦仙哉简单线性回归模型简单线性回归模型,问题,当educ=8时,从(2.27)中得到的估计工资是用1976年的美元表示的$3.4

37、2,如果用1997年的美元表示,这个价值是多少?(提示:你可以从例2.4中得到足以回答这个问题的信息。) 答案:约9.64美元。为了看出这一点,从1976年以1997年美元度量的平均工资,我们可以得到CPI缩减指数为16.64/5.902.82。将3.42乘以2.82就得到9.64。,充誊灌醇惊址吧熟验药黄霓铰品芹签擞嗅凹眼莆踩息简砷浴穷衡甫或瞅替简单线性回归模型简单线性回归模型,鸟仆三显斩碾僵涌扁庆讨鸟含铭作赔慰憎嘛恨茁猜煌粳伏哑忽冰俱废娘披简单线性回归模型简单线性回归模型,问题,在上例中,如果shareA=60(即60%),候选人A能得到的预测票数是多少?这个结果可信吗? 将shareA=60代入方程(2.28)就可以看到它等于59.26。这并非不合理:如果候选人A花了总竞选支出的60%,那么预测他或她将得到刚好高于59%的选票。,祟啊氟掖六牙卯旗温微淡硫畸奇设懂蝎释谅斩篡掷炽链杜童惨兄堪痰楷漆简单线性回归模型简单线性回归模型,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1