SAS学习系列23.多元线性回归.docx

上传人:rrsccc 文档编号:9696865 上传时间:2021-03-18 格式:DOCX 页数:19 大小:126.99KB
返回 下载 相关 举报
SAS学习系列23.多元线性回归.docx_第1页
第1页 / 共19页
SAS学习系列23.多元线性回归.docx_第2页
第2页 / 共19页
SAS学习系列23.多元线性回归.docx_第3页
第3页 / 共19页
亲,该文档总共19页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《SAS学习系列23.多元线性回归.docx》由会员分享,可在线阅读,更多相关《SAS学习系列23.多元线性回归.docx(19页珍藏版)》请在三一文库上搜索。

1、23.多元线性回归、多元线性回归1.模型为Y= o+1X1 + + nXn+ e其中Xi,,Xn是自变量,Y是因变量,o, i,n是待求的 未知参数,e是随机误差项(残差),若记f Vq心灯y21 a;2心Er,无=*4,0 二花-JXg多元线性回归模型可写为矩阵形式:Y=X B + e通常要求:矩阵X的秩为k+1 (保证不出现共线性),且kN; e 为正态分布,E(e)和E(ee)=2I错误!未定义书签。,其中I为N x N单位矩阵。用最小二乘法原理,令残差平方和ESS = (F - IY -浙)最小,得到力二(XX尸为B的最佳线性无偏估计量(高斯-马尔可夫定理)。2.2的估计和T检验选取2

2、的估计量:假如t值的绝对值相当大,就可以在适当选定的置信水平上否定原假设,参数的1- a置信区间可由下式得出:A 土 4审忌其中t a /为与a %显著水平有关的t分布临界值。3. R2和F检验*32.1回归方聲分析找离羞平方和自 iiK-均方“F统计篡-尸概率值.source-MS.Fp、.回归兄RSSk-MSR = RSS/k Ff = MSR MSEiF.ESS-HMSE ESS N - k-I)总变异TTSSAr-b应12若因变量不具有0平均值,则必须对R2做如下改进:PXXP-N& RSSR-二TSS讨随着模型中增添新的变量,R2的值必定会增大,为了去掉这种增 大的干扰,还需要对R2

3、进行修正(校正拟合优度对自由度的依赖 关系):R2ESS/(N -k-1)TSS/(N -1)做假设检验:Ho:1 =n=0;Hi: i ,使用F统计量做检验,R2/k-(1卞)N - k -1N至少有一个工0 ;_ R2 N-k-lW 1TF k若F值较大,则否定原假设。、PROC REG过程步基本语法:PROC REG data = 数据集;MODEL因变量=自变量列表/可选项;说明:MODEL语句用来指定因变量和自变量;restrict 语句示例:restrict a1+a2=1;常用的输出可选项:STB输出标准化偏回归系数矩阵CORRB 输出参数估计矩阵 COLLINOINT 对自变量

4、进行共线性分析P输出个体观测值、预测值及残差(R/CLM/CLI包含P)R输出每个个体观测值、残差及标准误差CLM 输出因变量均值 95%的置信界限的上下限 CLI 对各预测值输出 95%的置信界限的上下限 MSE要求输出随机扰动项方差2的估计?与残差分析有关的可选项VIF输出变量间相关性的方差膨胀系数,VIF越大,说明由于共线性存在,使方差变大;输出条件数,它表示最大的特征值与每个自 变量特征值之比的平方根。一般情况下,条件数越大越可能存在共线性;表示共线性水平的容许值,TOL越小说明其可用别的自变量解释的部分多,自然可能与别的自变量存在共线性关 系;输出Durbin-Watson 统计量;

5、in flue nee对异常点进行诊断,对每一观测点输出统计量(Cook s D 50%, defits/debetas 2 说明该点影响较 大)。交互式语句add向模型中增加变量;delete 删除原拟合模型中的有关变量; refit重新拟合模型;print输出有关模型的相关信息。绘制回归分析的图形在PROC REG过程步加入绘图选项语句即可。基本语法:PROC REG data = 数据集PLOTS =(图形类型);可选的绘图类型:FITPLO带回归线、置信预测带的散点图;RESIDUALS自变量的残差图;DIAGNOSTICS 诊断图(包括下面各图); COOKSDCooks D统计量图

6、;OBSERVEDBYPREDICTED根据预测值的因变量图; QQPLOT 检验残差正态性的 QQ图;RESIDUALBYPREDICTE根据预测值的残差图; RESIDUALHISTOGRAM 残差的直方图;RFPLOT残差拟合图;RSTUDENTBYLEVERAGE杠杆比率的学生化残差图; RSTUDENTBYPREDICTE预测值的学生化残差图;注:残差图(RESIDUALS)和诊断图(DIAGNOSTICS)是自动生 成的,根据模型也有其它默认的图形输出; 若只绘制指定的图形 需要加上ONLY:PROC REG data =数据集 PLOTS(ONLY)=(图形类型);例1用多元线性

7、回归模型,来研究耗氧量的是如何依赖其它变 量的。31位成年人心肺功能的调查数据 (见下表),由于回归是相关的, 所以理论上还应该做共线性诊断。Oxygrun timrstpulsrun pulsMaxpulsagweigeneeeeeht耗氧跑15英休息时跑步时每分钟心量哩的时每分钟每分钟跳次数最间(分)心跳次数心跳次数大值89.444.60447911.376217818275.045.31407310.076218518585.854.2944478.654515616868.159.5742518.174016617289.049.8738249.225517818077.444.814

8、75111.635817617675.945.68408111.957017618081.149.09439110.856416217081.439.44442213.08631741763881.860.058.634817018675,3.050.54443110.134516816887.637.38456814.035618619266.444.75455411.125117617679.147.27475310.604716216483.151.85542510.335016617081.449.1549268.954418018569.640.83513610.9557168172

9、77.946.67511210.004816216891.646.77483410.254816216473.350.38497810.08761681685773.3739.40712.635817417679.346.08548011.176215616576.345.4452219.634816416670.854.6250758.924814615567.245.11515811.084817217291.639.20543312.884416817273.745.79511010.475918618859.050.5457859.934914815576.348.6749239.40

10、5618618861.247.92484011.50521701765282.747.4610.505317017287代码:data fitness ;in put age weight oxyge n run time rstpulse run pulse maxpulse;datalines ;4489.47 44.60911.37 62 1781824075.07 45.31310.07 62 1851854485.84 54.2978.65 45 1561684268.15 59.5718.17 40 1661723889.02 49.8749.2255 1781804777.45

11、44.81111.63 58 1761764075.98 45.68111.95 70 1761804381.19 49.09110.85 64 1621704481.42 39.44213.08 63 1741763881.87 60.0558.63 48 1701864473.03 50.54110.13 45 1681684587.66 37.38814.03 56 1861924566.45 44.75411.12 51 1761764779.15 47.27310.60 47 1621645483.12 51.85510.33 50 1661704981.42 49.1568.95

12、44 1801855169.63 40.83610.95 57 1681725177.91 46.67210.00 48 1621684891.63 46.77410.25 48 1621644973.37 50.38810.08 76 1681685773.37 39.40712.63 58 1741765479.38 46.08011.17 62 1561655276.32 45.4419.63 48 1641665070.87 54.6258.92 48 1461555167.25 45.11811.08 48 1721725491.63 39.20312.88 44 168172517

13、3.71 45.79010.47 59 1861885759.08 50.5459.93 49 1481554976.32 48.6739.4056 1861884861.24 47.92011.50 52 1701765282.78 47.46710.50 53 170172runproccorr data =fitn ess PLOT =MATRIX(HISTOGRAMn var=all);var oxyge n age weight run time rstpulse run pulse maxpulse;abeloxyge n= Oxyge n con sumptio nage = A

14、ge in yearsweight = weight in kgrun time = Min. to run 1.5 miles rstpulse = Heart rate while resti ng run pulse = Heart rate while running maxpulse = Maximum heart rate ; run ;proc reg data = fitness PLOTS(ONLY)= (DIAGNOSTICS FITPLOT);model oxyge n = age maxpulse rstpulse run pulserun time weight/ss

15、1 ss2; /* ss1 为第I类型平方和,ss2 为第H 类型平方和*/print ;”un ; proc modelrstpulse;reg data = fitness;oxyge n = age maxpulse run pulse run timeweight;run ;proc reg data = fitness;model oxyge n = age maxpulse run pulse run time weight/ ss2; /*带restrict约束条件的回归,ss1不可用*/restrict maxpulse+runpulse=0;run ;data fitness

16、2;set fit ness;maxrun=maxpulse-r un pulse;run ;proc reg data = fitness2;model oxyge n = age maxrun run time weight/ss1 ss2:run ;运行结果及说明:(1)相关性分析senserve i ghrunt i irierstpu l| sb runpu I seminu I se4-S一 一-4U.3-IsiG-ndAEiid-ndum 劭口_一 ndxms散点图矩阵中第一行的6个散点图分别表示oxygen变量作 为y轴,其他六个变量作为x轴的散点图,第一列的6个散点图分 别表

17、示oxygen变量作为x轴,其他六个变量作为y轴的散点图; 对角线是该变量数值变化的直方图。绘制散点图矩阵图是为了观察变量间的相关性。从图中可以看出变量run pulse与maxpulse 之间存在有较强的共线性,如 果在回归模型中增加方差膨胀系数(vif),共线性水平的容许值(tol),条件数(collin )选项对回归进行共线性诊断,也会得 到相同的结论。另外,我们从图中还发现耗氧量 oxygen与变量 run time有较强的负相关,从下面的相关系数也能得到相同的结 论。CORR过程7 芟早:oxyffcn age weighl runt ime istpulue runpulse aa

18、xpulse简单统计址变罕N均值标准差总和星小值最犬值标签oxygon3147.375315. 32723I4C937. 3880060. 05500Djtyguti conuuMpl i onago3147.677425.2114-1I47S38, 0000057. QDOOOAge in yearswe i jvht3111. 444528. 329572401讯,UEUOO91.630CDweight in 网runt ime3110.5SS191 39741328 I70LKJ3. 170001 4. rnouoMkn. to tun 1. b fni 1 eerstpu1 so315

19、3.741918. 2944b16罠40. 0000076. 00000Ncnrt i ute wtii Ic rcyt ingrunpu1 sc31159. 6451610. 251395259140, OtWOO136.00000Heart rate while runningniaxpu 1 se311 i3. 77419 1MI0538 /1 bb. UOCOOI92.CCXXJUMaxiaun heait ratePear son相关系数,N - 31 Prob |r1 under HO; RhoOoxygenafiewe i ffhtrunt i mnrstpu1ser uinpu

20、 1 snnwxpu 1 seoxygen1.00000-D, 309-0, (02750 86210Q. 3祁410 397970.235740xjrgen coiiKLiapt ion0.0057a senCQ0010 0Sfl30. Q2fiC0, 1 997ARP-o. 3fl91. 00000-o. ?33EHa W5-0.14167-ft 337S7-0. 43292Ajjc in Yir3u.跑0 20610” 30920.50.05300.Q15Qwu i ght-0. I62;b-a 233141. OUOUO0. 143510.022700. ISlb2a细舞wtiin 科

21、0. 3317a. 20C10,44120.30350. 32040. 1761r unt imc-0, B0?190, IG8750, 143511 000000. 400540. 31365O.22CIOMirk to rum IL 5 miles300 32610. O85S0. 0&I3r1 rt e 1997 OI5OQ_ 1761O. 2213O 1 B20 F模型&J21.97421120. 3290422. 32 |t |1型龄1 1 32 SS1ntercept1102. 2383412, 21 0001095783B3.4S26Aage1-O.219fl2C. 09959-

22、2 210.037078. 9S82226.29149nwixpu 110. 304730. 137222 220.0361142. 3554326.59054r sl.pu 110. (1044210. 0S8C30. 01U. 988好82. 447860. 0D112runpu1se1-0.3/3160.120G83. 09O.OCJbO98. 34O751.55541runt i me1-2. C8062(X 37488-7, 15275A7H4wei ghl1-0. 072300. 05467-1 320.19809. 449949.44894得到回归方程:oxyge n=102.2

23、38339-0.219916age+0.304735maxpulse-0.000844rstpuls-0.373164ru npulse-2.680516ru ntime-0.072380weight多元线性回归模型的一个重要问题是,如何正确地缩减自变量到达最优的简化模型。判断回归模型是否还能缩减自变量, 可以通过这第I类平方 和(I型SS)和第类平方和(型 SS,构造F检验(等同于 这个自变量的参数t检验,因为F=t2)来比较确定。run time自变量的两类平方和都是最大的且占的比例很大,说明是回归模型中第一重要的自变量。而rstpulse自变量在第一类平方和中有比较大的数值却在第I类平方

24、和中是最小的,这是rstpulse自变量(休息时每分钟心跳次数)应该被考虑第一个删 除的主要原因。(3 )剔除不显著的回归变量,继续回归分析自变量rstpulse和weight的回归系数的t检验的P值分别 为0.9886和0.1980,都大于a =0.05,故不拒绝“系数=0”的 原假设。这里要小心地看待这些检验,因为它们都是在其他自变量都 加入回归的前提下进行显著性检验的, 完全可能因为自变量间存 在较强的相关而掩盖他们对回归的贡献。所以,在剔除不显著的回归变量时必须逐个进行。另外,从 自变量rstpulse的回归系数更接近于0,也提示我们应先考虑删 除自变量 rstpulse.delete

25、 rstpulse; print ;run ;方差分新源自由度方和平均方F值Pr F模型5721,9/309144. 394622/. 90 |l|1型ss1 1 9 ssIntercept1102,2042311,97929E 53,000169578376.78935白侶10.219620. 09550-2. 300. (XJ01?B.9882327.37429nwjxpu 1 se1O 304910.133942、280. 0316142.3554326.92640runpu1se1-0. 373400. 1 1714-3. 190. 003313S, 1721852. 59024run

26、t i mo12. 6$2520.34099-7.87F分子18.刘?0r co0 218?分母255. 17634在test语句中的线性方程组只有1个,所以自由度为1,线 性方程组的平方和为8.2572。F检验的分子为均方和 8.2572/1=8.2572 , F检验的分母为均方误差 MSE=5.176338 ,自由度为25。因此,,P 值=0.21820.05,F(1,25)=8.2572/5.176338=1.5952即不能拒绝回归系数线性组合的原假设。(5 )有约束条件的回归模型若回归模型中的回归系数有线性组合的约束条件,则可以使用restrict语句在此约束条件下重新拟合回归模型。p

27、roc reg data = fitness;model oxyge n=age maxpulse run pulse run timeweight/ ss2; /便用bota分布计算的嘅率“运行结果与前面相同带restrict约束条件的回归,ss1不可用*/restrict maxpulse+runpulse=0;run ;方差分析源自由度均方F值Pr F模型1713.71590178,4289733.70 |l|1 1 型ss1nter eep t189. 407426. 5641713.C3 0001984. 04807age1-0. 1G2970. 08527 1.S1O 007119

28、.33945maxpu1se10. 388260 117882a 002957 44495runpu1 so1-0. 383200.11788-3 290. 002957 44495runt imo1-2. 805550. 33049-8,493-1 2b0. 21 82*8.2&720得到新的回归方程:oxyge n=89.487420-0.162973age+0.388260(maxpulse-ru npulse)-2.805552 run time-0.080635weight 注意到maxpulse 变量的系数为0.388260, run pulse 变量的系 数为0.388260,两

29、者之和为0.同时,它们的第H类平方和也 相等为 57.444946.没有约束条件时的RSS=721.97309,增加约束条件后的RSS= 713.71590,减少了 8.25720,说明为了增加这个约束条件 损失了回归平方和8.25720,但换来了简化的回归模型。这个数 值越小越表明这个约束条件客观存在。所以restrict语句的第H类平方和为8.257198,且自由度为1 (是减少不是增加)。同 时注意到这个8.25720数字就是前面线性组合检验结果中的分 子值。自变量系数存在线性组合的约束条件,本质上是指这些自变量可以通过这种组合方式转换为一个新的自变量,例如,在这个样本中产生一个新变量m

30、axrun=maxpulse-r un pulse,这个新变量 maxrun 加入到回归模型中,而变量 maxpulse 禾口 run pulse 从回归模型中删除,重新拟合回归模型。data fitness2;set fit ness;maxrun=maxpulse-r un pulse;run ;proc reg data = fitness2;model oxyge n = age maxrun run time weight/ss1 ss2;run ;方差分析源自由度均方F值Pr F模型4713.11E9O178.4289733. 70C. 0001欣差26137.665655. 29

31、483校止合计3()851,38154均去根误差2. 30105R h0. 8383因变量均值47. 37581调整R方0. 913-1变异系数4. 8S7CP参数估计值自由度参数 估计伯差 标误tftPr |t|1塑ss1 1 叩 SS1ntercept189. 4874?6.5641713. 63.000169E78994. 04807agfi1-0.162970. 08527-1.910.067178.9882319. 33946maxrun10. 388260. 11 7883.290.0029186.0504157.44495r urit i ine1-2.俪邸0. 330498. 49C 0001436. 65048381 55672we i fiht1-0. D80630. 05350-1. 5I0, 1-13812.0267912. 02679回归方程为:oxyge n=89.487420-0.162973age+0.388260maxrun-2.805552 run time-0.080635weight

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1