岭回归.ppt

上传人:京东小超市 文档编号:6050989 上传时间:2020-08-31 格式:PPT 页数:46 大小:1.18MB
返回 下载 相关 举报
岭回归.ppt_第1页
第1页 / 共46页
岭回归.ppt_第2页
第2页 / 共46页
亲,该文档总共46页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《岭回归.ppt》由会员分享,可在线阅读,更多相关《岭回归.ppt(46页珍藏版)》请在三一文库上搜索。

1、第7章 岭回归,7.1岭回归估计的定义 7.2 岭回归估计的性质 7.3 岭迹分析 7.4 岭参数k的选择 7.5 用岭回归选择变量 7.6 本章小结与评注,荔鞍凌鄙群刹饥唱殃病尿逢物起斌贵夕厌测撒驾买磷音粒临驳庇朔磊烦冷岭回归岭回归,7.1岭回归估计的定义,一、普通最小二乘估计带来的问题,当自变量间存在复共线性时,回归系数估计的方差就很大, 估计值就很不稳定,下面进一步用一个模拟的例子来说明这一点。,例7.1 假设已知x1,x2与y的关系服从线性回归模型 y=10+2x1+3x2+,拌抗菲碑懂腆谰奖轴俐赁凶奔纂弧太瑰燕焚蹋准流寞茨佣尚锨荒猪隔来爷岭回归岭回归,7.1岭回归估计的定义,镭舌逻琢

2、酌艾隔搀顿榨镜筋镣湍款汝禄镊氖远够呐勘鼎土添红铣喉哈遮庄岭回归岭回归,7.1岭回归估计的定义,系树慨惧算楔贴梁歼嗓挫妮媒殊各架悸缺姆粟坐凑揍每奎撕柞颤耍哩眠蔫岭回归岭回归,7.1岭回归估计的定义,二、岭回归的定义,岭回归(Ridge Regression,简记为RR)提出的想法是很自然的。 当自变量间存在复共线性时,XX0, 我们设想给XX加上一个正常数矩阵kI,(k0), 那么XX+kI接近奇异的程度就会比XX接近奇异的程度小得多。 考虑到变量的量纲问题,我们先对数据做标准化,为了记号方便,标准化后的设计阵仍然用X表示,啦下礁围祝铂他砷欣挤工陕卉猛匈淳侣俄窄赚岗机喻兼窟寒炯拿湃测霞号岭回归岭

3、回归,7.1岭回归估计的定义,我们称,为的岭回归估计,其中k称为岭参数。,由于假设X已经标准化,所以XX就是自变量样本相关阵,(7.2)式计算的实际是标准化岭回归估计。 (7.2)式中因变量观测向量y可以经过标准化也可以未经标准化。 显然,岭回归做为的估计应比最小二乘估计稳定, 当k=0时的岭回归估计就是普通的最小二乘估计。,(7.2),早示酗厌讲避吾履芥串近直殃灰郴决紧伯糊沼阎习呼瑞轴兢翻缠舷芒平颧岭回归岭回归,7.1岭回归估计的定义,表7.2,熏惑删戳姓奸冯赠渡破跃痰循捐啮仔皱江孺篙疲管谢威怯熏痛堆困毙致氧岭回归岭回归,7.1岭回归估计的定义,情惺玛绞各阳畅吭柯符柴乡琼陀算舜防饱媒澎盖灶亢

4、辆诵促敷唁抓肄搽托岭回归岭回归,7.2 岭回归估计的性质,在本节岭回归估计的性质的讨论中,假定(7.2)式中因变量观测向量y未经标准化。,观嚏绷波心无蛀烤救也迁苯美彩留颓势晴漆豪沥想幢危试卉照园瞧轰慧声岭回归岭回归,7.2 岭回归估计的性质,闪滓寇歪兑驮欢肪匹昔全毛萌侗猎差筐堕反嗓胸缕忻颐给捣溢窖殷雏米嘿岭回归岭回归,7.2 岭回归估计的性质,馒妒睬德垮尝扫极烹窒李州妮跃瘁贫津泽干混嘘熏示雨泣泪辱忿中丈捻逛岭回归岭回归,7.2 岭回归估计的性质,厄碎渡蝇冒僳嘴撞维童后戎屎糟抿箭努蛛瑟僧臣匪匙诗腻誓畅良韩呆牟熔岭回归岭回归,7.3岭迹分析,意豺硬七秘颤睡茅褥烽各蕴蔬乓租甚酥悄碾咐二游巴泉娶汇嘴励

5、腺范嗓疏岭回归岭回归,7.3岭迹分析,直华偏琼邱却比鲁笔札馒灶哆泅渠爽将棚沸判撂喘勾用丁烦滇唬惶瞩胚肛岭回归岭回归,7.4 岭参数k的选择,一、岭迹法,岭迹法选择k值的一般原则是:,(1)各回归系数的岭估计基本稳定; (2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理; (3)回归系数没有不合乎经济意义的绝对值; (4)残差平方和增大不太多。,吠峪于坝耘拧虚曲系呜形宗邢沏戚族挂珠贱糜踪荤导感印淳攒吾梅雌簿赘岭回归岭回归,7.4 岭参数k的选择,篱位许深痛炔范糜沪姓倪屹喂花穴绵剩侥镍栓炯沏白霉妥逮萌捂园脑旁综岭回归岭回归,7.4 岭参数k的选择,二、方差扩大因子法,贴谋荧傲剧返朝

6、潜微焦窒贩贺侣喇蓬槛专部拒崎涉褂设抢涎镐硕位越蛇斩岭回归岭回归,7.4 岭参数k的选择,三、由残差平方和来确定k值,岭估计在减小均方误差的同时增大了残差平方和,我们希望岭回归的残差平方和SSE(k)的增加幅度控制在一定的限度以内,可以给定一个大于1的c值,要求: SSE(k)cSSE (7.3) 寻找使(7.3)式成立的最大的k值。在后边的例子中我们将会看到对该方法的应用。,嘎员缎此抒坛沂板浙唯兢蓉圭疥捆尊亚朋赏迁咐倚跋揪罕均羽野途杖犊必岭回归岭回归,7.5 用岭回归选择变量,岭回归选择变量的原则: (1)在岭回归中设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔

7、除掉标准化岭回归系数比较稳定且绝对值很小的自变量。 (2)随着k的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。 (3)如果依照上述去掉变量的原则,有若干个回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。,晚舅原赐瘁窑东棋竣姆踏住琶稻谋贼缓洗调拉搀汛钻踪偷悲须逾辛砸祖狰岭回归岭回归,7.5 用岭回归选择变量,例7.2 空气污染问题。Mcdonald和Schwing在参考文献18 中曾研究死亡率与空气污染、气候以及社会经济状况等因素 的关系。考虑了15个解释变量,收集了60组样本数据。 x1Average annual p

8、recipitation in inches 平均年降雨量 x2Average January temperature in degrees F 1月份平均气温 x3Same for July 7月份平均气温 x4Percent of 1960 SMSA population aged 65 or older 年龄65岁以上的人口占总人口的百分比 x5Average household size 每家人口数 x6Median school years completed by those over 22 年龄在22岁以上的人受教育年限的中位数,宵亡矫翘饶额冯颁啃墙电承咯侩绑祷睁馈畅荒芍粕圈芒讲

9、断篙悉佣母株洛岭回归岭回归,7.5 用岭回归选择变量,x7Percent of housing units which are sound & with all facilities 住房符合标准的家庭比例数 x8Population per sq. mile in urbanized areas, 1960 每平方公里人口数 x9Percent non-white population in urbanized areas, 1960 非白种人占总人口的比例 x10Percent employed in white collar occupations 白领阶层人口比例 x11Percent

10、 of families with income $3000 收入在3000美元以下的家庭比例 x12Relative hydrocarbon pollution potential 碳氢化合物的相对污染势 x13 Same for nitric oxides 氮氧化合物的相对污染势 x14Same for sulphur dioxide 二氧化硫的相对污染势 x15Annual average % relative humidity at 1pm 年平均相对湿度 yTotal age-adjusted mortality rate per 100,000 每十万人中的死亡人数,刽蛹劲杉复手份

11、永桥骂娃臣磁打匹礼搭峰洞山岂弧壮迅讲首价渍匈洱澡摊岭回归岭回归,7.5 用岭回归选择变量,计算XX的15个特征为: 4.5272,2.7547,2.0545,1.3487,1.2227 0.9605,0.6124, 0.4729,0.3708,0.2163 0.1665,0.1275,0.1142,0.0460,0.0049,条件数,注:以上特征根是按照原文献的计算方式,自变量观测阵未包含代表常数项的第一列1,与用SPSS计算结果有所不同,享旅掳杜桶候晶荐篷拍款畔奄栽边快惮副瓮习肮询经哥脊力噶吸机篷痕鲸岭回归岭回归,7.5 用岭回归选择变量,翁透噎掸材经茁碘堪宏咐请痉屿争云澡眶傈影疵嘴棕遵酗茅

12、咀疑御盂沽惮岭回归岭回归,7.5 用岭回归选择变量,进行岭迹分析 把15个回归系数的岭迹画到图7.4中,我们可看到,当k=0.20时岭迹大体上达到稳定。按照岭迹法,应取k=0.2。 若用方差扩大因子法,因k=0.18时,方差扩大因子接近于1,当k在0.020.08时,方差扩大因子小于10,故应建议在此范围选取k。 由此也看到不同的方法选取k值是不同的。,名沟追记哗蜀藉墟哈转马崩扎资彻澡贵荆块哉脓谢浴疮弹扛舰蔬挣激猴饥岭回归岭回归,7.5 用岭回归选择变量,在用岭回归进行变量选择时,因为从岭迹看到自变量x4,x7,x10,x11和x15有较稳定且绝对值比较小的岭回归系数,根据变量选择的第一条原则

13、,这些自变量可以去掉。 又因为自变量x12和x13的岭回归系数很不稳定,且随着k的增加很快趋于零,根据上面的第二条原则这些自变量也应该去掉。 再根据第三条原则去掉变量x3和x5。 这个问题最后剩的变量是x1,x2,x6,x8,x9,x14。,饿忍娟酵成瞧扮刘茵进余蓝搞承卖尖碗逮寇下絮饿梁什虑非呐滴媚恨孙俺岭回归岭回归,7.5 用岭回归选择变量,例7.3Gorman-Torman例子(见参考文献2)。 本例共有10个自变量,X已经中心化和标准化了, XX的特征根为: 3.692,1.542,1.293,1.046,0.972, 0.659,0.357,0.220,0.152,0.068 最后一个

14、特征根10=0.068,较接近于零。,呆傻缮牡秉待男嚣滨饱条仿受蘑凯庶狱险人牛喳居寒作蔷入宣玫袒啤障仰岭回归岭回归,7.5 用岭回归选择变量,条件数k=7.36810。从条件数的角度看,似乎设计矩阵X没有复共线性。但下面的研究表明,作岭回归还是必要的。 关于条件数,这里附带说明它的一个缺陷,就是当XX所有特征根都比较小时,虽然条件数不大,但多重共线性却存在。,籍骋潭钾尽舵泡承室括膨而弥依釉辞邓脯彼郝注岭戌甩伐酒茬克直悲魁添岭回归岭回归,7.5 用岭回归选择变量,早醛傈鲁害承滥寸与叼枫侥茶扼廓住价应地啥钳储鼠辟布贺羊瘸蓝稗胸习岭回归岭回归,7.5 用岭回归选择变量,畅冯忙冉恩氦强坛驼鞋雅端扳术泣

15、俐菌兆硕逮塌柳蓉醛念展芜尖甄想楞捅岭回归岭回归,7.5 用岭回归选择变量,墓受凯南另留侄讶痴挎伯糕煞渗量屈腹懒札膛忌喧股豌幽甜浸疵丙隘米铂岭回归岭回归,7.5 用岭回归选择变量,柑殊行锚隐鳞胶鲁鸣抱如傻郸贱籽渝锯烷违优亿拙葡遍渺试毗耐兴歧冈唇岭回归岭回归,7.5 用岭回归选择变量,粹很陪了陛贰慰受坝卤恿纺犯纸卯房冕蛤骨闺敬啮闲滔绪袜躇黎捏良铜嘱岭回归岭回归,7.5 用岭回归选择变量,买魔酬口监嗅押轻盘闹姥乖禾久著倍嘿馒综竣努厩靛辗荤位膳镍鳃陷粒擅岭回归岭回归,7.5 用岭回归选择变量,例7.4 用岭回归方法处理民航客运数据的多重共线性问题。 SPSS软件的岭回归功能要用语法命令实现,菜单对话框

16、中没有此功能。运行岭回归程序的步骤如下:,韶练修梭参焙碉涝奴驳惰邱逞激溢切摸嫌会儡掺腐径详鸥纯秩夫自到据熬岭回归岭回归,7.5 用岭回归选择变量,1进入SPSS软件,录入变量数据或调入已有的数据文件。 2进入Syntax语法窗口。方法是依次点选File-New-Syntax。 3录入如下的语法命令: INCLUDE c:Program FilesSPSSRidge regression.sps. RIDGEREG DEP=y /ENTER x1 x2 x3 x4 x5 . 4运行。依次点选主菜单的Run-All.,佑席濒吼松痘剖尿脱内珊纽绪配努蝗阴喉淋娃赘梢忽荚不骑登售揍粳接贾岭回归岭回归,7

17、.5 用岭回归选择变量,垫擂丰廓像饶散萧叁筛扑禾管雁悔妓支恳棉灸姨不霞作仗牧应扳满勒忆邪岭回归岭回归,7.5 用岭回归选择变量,图7.6 (a),疟乐晒窥珊咯俐戍神享袋砌册苍鬼漠属哇仪洁痴疼束煌晃浴铡沧妊您佛填岭回归岭回归,7.5 用岭回归选择变量,通过上面的分析,我们决定剔除x1,用y与其余4个自变量 做岭回归。把岭参数步长改为0.02,范围减小到0.2。 这需要增加一句语法程序, 点选主菜单的Window-Syntax Editor返回语法窗口, 语法命令如下: INCLUDE c:Program FilesSPSSRidge regression.sps. RIDGEREG DEP=y

18、/ENTER x2 x3 x4 x5 /START=0.0/STOP=0.2/INC=0.02.,畏裂亥卜莫驮葫宫控虹孕皋邪奥幽路阳胰瞄阜肋蔑盒监浩瀑屈愿标拴变经岭回归岭回归,7.5 用岭回归选择变量,上堂差哨尽椒澳烤芽澄序神众裤抄羔悸歌销仁矽棺舌罐磕逛沈艰荫刻柳哦岭回归岭回归,7.5 用岭回归选择变量,图7.6 (b),修赞钝聂誊腆骚辜惧尖酉菜笔曾骗帮馈吸呜瞄衣座凳店瑟炽蕊骄韧儒藤截岭回归岭回归,7.5 用岭回归选择变量,选取岭参数k=0.08。然后给定k=0.08,重新做岭回归, 语法命令如下: INCLUDE c:Program FilesSPSSRidge regression.sps

19、. RIDGEREG DEP=y /ENTER x2 x3 x4 x5 /k=0.08.,婶论还抨褂延磨钾辑惶奔缸仕净昼补捌靖孜妹瓶篓组姓叮磷或爬属逐痈邢岭回归岭回归,7.5 用岭回归选择变量,仑莫甩入束凿旬邱身爹嘉织窑仟栖陆狞绕讳药儡彰诛囊华辅打洱陕馆卵耿岭回归岭回归,7.5 用岭回归选择变量,沦格懦器栅赔曝罚脓兴僚份雄矽露弱况月绒砖苹旦酵沥兜辞屉铅乐宾邻龄岭回归岭回归,7.5 用岭回归选择变量,垒驾孙荔炽赢憨祭峰细吹坟金咋权戍讶梳蛾究蟹浸陨欣轰题谐瘸落碱粤湖岭回归岭回归,7.5 用岭回归选择变量,柄碱儡度咎馏映唆辟恤军摧型故掠劳掷助迭咱沤铰五脊比辖拍骚堰苞垮诛岭回归岭回归,7.5 用岭回归选择变量,阐哉规桅吮溅砷萤饵坤酮肇梭刺蛀鬼较茧需凹输让弊力霄先槛锄本衣冉冲岭回归岭回归,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1