用SAS作回归分析.pdf_三一文库31doc.com

资源描述

《用SAS作回归分析.pdf》由会员分享，可在线阅读，更多相关《用SAS作回归分析.pdf（47页珍藏版）》请在三一文库上搜索。

1、用 SAS作回归分析前面我们介绍了相关分析，并且知道变量之间线性相关的程度可以通过相关系数来衡量。但在实际工作中，仅仅知道变量之间存在相关关系往往是不够的，还需要进一步明确它们之间有怎样的关系。换句话说，实际工作者常常想知道某些变量发生变化后，另一个相关变量的变化程度。例如，第六章中已经证明消费和收入之间有很强的相关关系，而且也知道，消费随着收入的变化而变化，问题是当收入变化某一幅度后，消费会有多大的变化？再比如，在股票市场上，股票收益会随着股票风险的变化而变化。一般来说，收益和风险是正相关的，也就是说，风险越大收益就越高，风险越小收益也越小，著名的资本资产定价模型（ CAPM

2、）正说明了这种关系。现在的问题是当某个投资者知道了某只股票的风险后，他能够预测出这只股票的平均收益吗？类似这类通过某些变量的已知值来预测另一个变量的平均值的问题正是回归分析所要解决的。第一节线性回归分析方法简介一、回归分析的含义及其所要解决的问题 “回归” (Regression)这一名词最初是由19 世纪英国生物学家兼统计学家F.Galton(F.高尔顿 ) 在一篇著名的遗传学论文中引入的。高尔顿发现，虽然有一个趋势：父母高，儿女也高；父母矮，儿女也矮，但给定父母的身高，儿女辈的平均身高却趋向于或者“回归”到全体人口的平均身高的趋势。这一回归定律后来被统计学家K.Pearson

3、通过上千个家庭成员身高的实际调查数据进一步得到证实，从而产生了“回归”这一名称。当然，现代意义上的“回归”比其原始含义要广得多。一般来说，现代意义上的回归分析是研究一个变量（也称为因变量Dependent Variable或被解释变量Explained Variable ）对另一个或多个变量（也称为自变量Independent Variable或 Explanatory Variable ）的依赖关系，其目的在于通过自变量的给定值来预测因变量的平均值或某个特定值。具体而言，回归分析需要解决以下问题： 1构建因变量与自变量之间的回归模型，并依据样本观测值对回归模型中的参数进行估计，给出

4、回归方程。 2对回归方程中的参数和方程本身进行显著性检验。 3评价自变量对因变量的贡献； 4利用所求得的回归方程对因变量进行预测，对自变量进行控制。二、经典线性回归模型及其假设条件在回归分析中，因变量Y和自变量 X 之间的关系通常可用以下带有条件期望的方程表示： )|(XYEY（9.1 ）其中)|(XYE为变量 Y 关于变量 X （可以是一个变量，也可以是由多个变量构成的向量）的条件均值，为随机误差，称方程9.1 为 Y关于 X的总体回归模型。由于条件均值 )|(XYE 是变量 X的函数，所以可记为：)()|(XfXYE（9.2 ）其中)( Xf为 X的某个函数，方程（9.2 ）

5、被称为总体回归方程，它表明了Y的条件均值与X之间的关系。在回归分析中，关于函数)(Xf的形式至关重要。若函数)(Xf只含有一个自变量，则称为一元回归；若含有两个或两个以上的自变量则称为多元回归。若 )(Xf 是 X 的线性函数，即： kkx xxxf 22110 )(（9.3 ）其中 0 、 1 为未知参数，称为回归系数，则称方程（9.3 ）为线性回归方程，而方程： XXYEY10)|(（9.4 ）则称为线性回归模型。特别地，当模型中只有一个自变量时称为一元线性回归模型，其一般形式可表示为： 0Y+ 1X （9.5 ）

6、当模型中有 P 个自变量 1 X， 2 X，, ， p X时称为 P元线性回归模型，或多元线性回归模型，其一般形式可表示为： ppX XXY 22110 （9.6 ）需要注意的是，回归分析中的“线性”一词一般是针对参数而不是针对自变量而言的。例如：方程 )( Xf= 0 + 1 2 X关于自变量X不是线性的，但关于参数 0 、 1 却是线性的，此时我们仍称为线性回归，而方程)(Xf= 0 + 2 1 X虽然关于自变量X是线性的，但关于 1却是非线性的，则不能称其为是线性回归。类似地，方程)( Xf= 2 0 + 1 X也不是线性的。对于 P元线性回归，如果获得了自变量 1 X， 2

7、 X，, ， p X和因变量Y的一个容量为 n的样本（1i x， 2i x，,， ip x， i y）| ni,2,1 ，则每一组观测值（1 ix ， 2i x，,， ip x， i y）都应满足方程（9.6 ），从而有： i y= 0 + 1ippii xxx 221 + i （ni,2, 1）（9.7 ）特别地，当 P=1时一元线性回归模型有： i y = 0 + 1i x+ i （ ni,2, 1 ）（9.8 ）如果记 n y y y Y 2 1 ， npnn p p xxx xxx xxx X 21 22221 11211 1 1 1 ， p 1 0 ， n 2 1 ，则

8、方程（ 9.7 ）可表示为以下矩阵形式： XY（9.9 ）在经典的线性回归分析中，一般有以下假定：（1）随机误差项均值为0，即 E（）=0；（2）对每个 i ，随机误差项 i的方差均为 2 ，且各误差项之间相互独立，即： COV （ i ， j ）=0，ij（nji,2,1,），用矩阵表示为：E 2 )( ，其中 I 为n 阶单位阵；（3）自变量是非随机的确定性变量；（4）自变量和误差项互不相关，即COV （X，）=0；（5）自变量之间不存在多重共线性，即矩阵X的秩 nPXR1)( ，也即矩阵X的列向量是互不相关的。（6）为进行假设检验，通常还进一步假定误差项服从均值为0，

9、协差阵为 2 的多元正态分布，即 ),0( 2 N。三、经典线性回归模型的参数估计 1参数估计对于满足以上（1）到（ 6）条假定的回归模型（9.9 ）式 , 其参数的最小二乘估计量（OLS ）为 : 1 ? X XX Y（9.10 ）记 ? ?YX，则： 1 ? ? 2 pn （9.11 ）特别地，对于一元线性回归，其参数的估计量为： xy S S xx yyxx xx xy n i i n i ii 10 1 2 1 1 ? ? （9.12 ）其中： n i i n i i y n yx n x 11 1 , 1 ， n i iixy yyxxS 1 )(， n i ixx xxS

10、 1 2 )(，则： ii xy 10 ? ? ，从而有： 2 1 2 )?( 2 1 ? n i ii yy n （9.13 ） 2参数估计量性质在误差项服从正态分布的假定下，估计量 1 ? X XX Y是线性无偏最小估计量（BLUE ）。且有： 1 2 ? (,)NX X，即估计量服从均值为，协方差阵为 21 XX的多元正态分布。特别地对于一元线性回归有： ),( ? 1 2 2 11 n i i xx N，) 1 ( ,( ? 2 1 2 2 00 n i i xx x n N，即估计量 0 ? ， 1 ? 均服从正态分布，且是线性无偏最小估计量。四、回归模型诊断在线性回归分

11、析中，当对n组独立观测运用最小二乘法估计出总体回归方程中的参数后，总体回归方程的估计样本回归方程就可以用参数的估计值表示出来，即： ppx xxy ? ? 22110 （9.14 ）特别地，当p=1 时，一元线性回归方程的估计式可表示为： 110 ? ?xy（9.15 ）在估计出了回归方程后，一个很自然的问题是，这个方程拟合得好吗？对于线性回归模型，因变量与自变量之间的关系是线性的吗？方程中的每个自变量都对因变量有显著影响吗？换句话说回归方程中的参数都与 0 有显著差异吗？随机误差项满足0 均值、不相关、同方差和正态性假定吗？自变量之间是否存在多重共线等等这些问题正是回归诊断需要

12、解决的。以上这些问题在回归分析中一般可通过以下一些指标或假设检验得到部分解决。 1方程拟合好坏通常用拟合优度指标 2 R来反映。它被定义为： SST SSE SST SSR R1 2 （9.16 ）其中 2 )(yySST i 称为总离差平方和， 2 )?(yySSR i 称为回归平方和，它表示来自自变量对总离差的贡献， 2 )?( ii yySSE称为残差平方和，它表示来自误差项对总离差的贡献。与一元方差分析类似有： SSESSRSST 。拟合优度 2 R表示，因变量的总离差平方和有多少部分能够通过自变量予以解释。换句话说，不能由自变量来解释的部分为：1- 2 R。显然 2

13、R越大，越接近于1 表明拟合就越好。由于 2 R随着自变量个数的增加而增加，所以在多元回归的情况下，通常要对 2 R进行调整。调整后的 2 R用 2 adj R表示，定义为： 1 )1(1 ) 1/( )1/( 1 22 pn in R nSST PnSSE Radj ，其中当模型中不包含常数项时 0i ，当模型中包含常数项时1i。 2自变量与因变量之间线性关系的F 检验在线性回归分析中，我们一般假定回归方程有以下形式： 01122 (|) pp E YXXXX，即 )(YE与 P个自变量之间线性相关，但实际情况怎样呢，这需要通过检验来回答。为此，记 p SSR MSR，称为回归均方和

14、， 1pn MSE MSR，称为误差均方和，定义： ) 1,(pnpF MSE MSR F（9.17 ）在给定的显著性水平下，若由样本观测值计算的F 值大于)1,(pnpF，则自变量与因变量之间具有显著的线性关系，否则，变量之间不具有显著的线性关系。在SAS系统中，一般通过F 值对应的 P 值来判断变量之间线性关系的显著性。若F 值对应的 P 值小于给定的显著性水平，则因变量与P 个自变量存在显著的线性关系，否则线性关系不显著，需用自变量的其它曲线形式来拟合。 3回归参数的t 检验在线性回归方程中，回归参数 j 表示自变量 j X每变动一个单位，因变量Y的平均变动幅度，即 j

15、X 的单位变动对因变量的影响程度。因此，检验回归参数 j 是否有显著差异至关重要，实际应用中通常作如下假设： 0: 0j H，0: 1j H 由于 12 ? ( ,()NX X，记： pppp p p aaa aaa aaa XX 10 11110 00100 1 )( 则有： jj E) ? (， 2 ) ? ( jjj aVar，pjaN jjjj , 2, 1 , 0),( ? 2 ，从而统计量： ) 1( ? ? ) ? ( ? pnt as t jj j j j ，pj,2,1 ,0 当给定显著性水平为下，若由样本观测值计算的t值的绝对值大于 ) 1( 2 pnt ，则参数 j

16、与 0 有显著性差异，否则，参数 j 与 0 没有显著差异。在SAS系统中，一般通过t值所对应的P 值来判断回归参数与0 是否有显著性差异。若t值所对应的P 值小于给定的显著性水平，则回归参数 j 与 0 有显著性差异。特别地，当 P=1时，一元线性回归系数 1 的检验统计量为： )2( ? ? ) ? ( ? 1 1 1 nt S s t xx 类似可以给出判断是否与0 有显著性差异的判别准则，请读者自行完成。五、回归模型诊断 1残差分析残差分析是诊断回归模型拟合状况的又一种易行而有效的方法。我们知道，关于回归模型中的误差项的假定是：零均值、同方差、不相关和正态性，即),0( 2

17、 N i 。如果我们采用的回归模型对样本数据的拟合是良好的话，那么误差项 i 的估计量 i ?就应该反映 i 这种分布特性。记 iiii yyr ? ，称为残差，则 i r应近似服从),0( 2 N，从而标准化残差 / i r应近似服从)1 ,0(N。考虑到的估计量为MSE，所以标准化残差的估计量也应近似服从标准正态分布，即： )1 ,0( N MSE r e i i 若以 i y ? 为横坐标，以 i e为纵坐标作（ i y ? ， i e）的散点图（ni,2,1），则得到的图形称为标准化残差图。一般来说，如果回归直线

18、拟合的较好，则残差图中应有95% 的点在 i e= -2和 i e= +2 的两条直线之间随机分布，见图9-1 （a），表明残差 i e是服从均值为0，方差为 2 的正态分布，符合原来对随机误差项 i 的假定。如果残差图中的点不是在 i e=0 的直线上下随机分布的，而是呈现出渐增、渐减的趋势，见图 9-1 （b），则表示同方差性假定不成立。此时，或采取加权最小二乘法，或采取对因变量进行数据变换使得变换后的数据同方差性近似得到满足。如果残差图呈现某种曲线形式，如图9-1（c），则误差项与预测值之间存在某种线性关系。特别地，若横轴代表时间，由时间和残差 te作成的散点图有如图9-1（

19、c）时，在一元回归分析中，常用自变量作为横轴。表明误差项之间存在某种形式的自相关，此时需要对观测值进行自相关性处理。（a）（b）（c） 2方差齐性的统计检验及其处理除了上面利用残差图可以直观地判断误差项是否存在异方差性外，更正式的方法就是通过统计检验来判断。（1）格莱泽（Glejser ）检验。其检验的一般步骤是：首先进行 OLS估计，并得到误差项的估计值 i r。其次用 i r的绝对值对被认为与 2 i 密切相关的自变量 j X进行线性回归，若自变量的回归参数经检验与0 有显著差异，则误差项存在异方差性，否则可以接受同方差性假定。（2）斯皮尔曼 (Spearman) 等级

20、相关检验。其检验的一般步骤是：首先进行OLS估计，并得到误差项的估计值 i r。其次对 i r的绝对值和自变量 j X的观测值进行排序，并计算斯皮尔曼等级相关系数 s r。最后利用检验统统计量)2( 1 2 nt r nr t s s 来检验残差与自变量是否相关。若计算的t值的绝对值不超过临界值，则可以认为同方差性得到满足，反之，则认为存在异方差性。除了以上两种检验方差是否齐性的统计检验外，还有许多其它方法，这里不再一一予以介绍，有兴趣的读者可以参考有关文献。 8 （3）在误差项存在异方差性的情况下，通常的处理方法有两种：一是在误差项的方差i 2 已知的情况下，以 1/i 2

21、作为权重进行加权最小二乘法，此时得到的估计量仍是BLUE估计量。但实际工作中，i 2 往往未知，此时可以通过格莱泽（Glejser）法对模型： ii iukxr 22 或 iii ukxr进行估计，然后令权重 2 ii kxw或 ii xkw进行加权最小二乘估计。二是对数据进行变换。当误差项的方差i 2 与自变量之间存在 22 i i kx或i i kx 2 关系时，可以在回归方程两边同时除以 i x或 i x，变换后的回归模型中的误差项就具有同方差性。当实践中研究人员根据经验判断因变量具有异方差性时，如消费随着收入的增加其变异性性会更大，常直接对因变量进行数据变换。通常的变换方法有

22、：（1）) 0( , YYZ，（2）)0(),(YYLnZ，（3）)0(1YYZ。通过这样数据变换，往往可以消除异方差性的存在。六、回归预测在回归模型通过以上各种检验后，就可以用来解决实际问题了。实践中，回归分析的一个重要目的就是根据自变量的给定值对因变量进行预测。所谓回归预测是指根据已知的 0 X预测因变量的平均值 )|( 00 XYE或个别值 0 Y。 1平均值)|( 00 XYE预测当用最小二乘法估计出回归方程 ? YX后，若给定 0 XX，则平均值)|( 00 XYE预测值可以根据以下两式给出：（1）平均值)|( 00 XYE的点估计值为： 00 ? YX ；（2

23、）平均值)|( 00 XYE的 100（1-）% 置信区间估计为：（ ) ? ()1( ? ) ? () 1( ? 020020 YspntYYspntY ）（9.18 ）其中 ) ? (0Ys是0 ? Y的方差0 1 0 2 )(XXXX的估计的平方根，即 0 1 00 )(?) ? (XXXXYs。特别地，当 P=1时，平均值)|( 00 xyE的点估计值为： 0100 ? ?xy，100（1-）% 置信区间估计为：（)?() 2(?)?()2(? 020020 ysntyysnty ），其中 )( 1 ) ? ( 2 0 0 xx S xx n MSEys。（2）个别值 0

24、 Y的预测（1）个别值 0 Y的点估计值仍为： 00 ? YX；（2）个别值 0 Y的 100（1-）% 置信区间估计为：（) ? () 1( ? ) ? () 1( ? * 020 * 020 YspntYYspntY ）（9.18 ）其中 ) ? ( * 0Ys 是 0 Y- 0 ? Y的方差 1+0 1 0)(XXXX 2 的估计的平方根，即： )(1?) ? ( 0 1 0 * 0 XXXXYs 特别地，当P=1 时，个别值 0 y的点估计值为： 0100 ? ?xy ， 100（1-）%置信区间估计为：（)?()2(?)?()2(? * 020 * 020 ysntyysn

25、ty ），其中 )(1 1) ? ( 2 0* 0 xx S xx n MSEys。第二节、 REG过程（回归分析过程）简介一、 REG过程的主要功能作为线性回归分析的通用过程，REG 过程主要有以下一些常见的功能。 1根据用户需要，REG 过程中的 MODEL 语句可以对任意多个自变量建立线性回归模型，还可以对参数进行线性约束，建立具有线性约束的线性回归方程。 2提供了通过MODEL 语句后的选项来实现九种变量选元的方法。 3可以对变量之间进行各种形式的假设检验，包括常见T检验、 F 检验和 D.W检验等。 4通过绘图过程中的PLOT语句，可以对输入数据或由回归分析产生的统计量绘图

26、，包括散点图、参考线以及置信线等，并且这些图形还可以绘制在一张图上。 5根据需要，可以输出参数的估计值及贝塔系数、因变量的预测值、置信上限和下限、残差和标准残差等各种常用统计量。 6提供了回归模型诊断的一些常见方法，如共线诊断、强影响点诊断、误差项自相关性诊断。 7当自变量间存在多重共线时，REG过程还提供了岭回归方法。二 REG过程的一般格式（一） REG过程的一般格式 REG 过程的一般格式如下： PROC REG ; 拟合模型 MODEL dependent=independents ; 必需的语句 BY variables; FREQ variable; WEIGHT vari

27、able; 可以选择，但必须出现在第一个RUN 之前 ID variable; VAR variables; ADD variables; DELETE variables; 出现在 MODEL 语句 OUTPUT OUT=sas-data-set keyword=names; 之后，且可以交互 PLOT ; 使用 TEST eqution ; （二） REG过程中常用语句说明 1PROC REG 语句该语句一般格式为：PROC REG ; 该语句表示调用REG过程，执行线性回归分析，它是回归分析中必需的语句。该语句后面的选项常用的主要有以下两类：（1）关于数据集选项 COVOUT：将参

28、数估计的协方差阵输出到由OUTEST=DATA-SET规定的数据集中，显然该选项只有在同时规定了 OUTEST=DATA-SET才有效。 DATA=DATA-SET：规定执行REG过程的输入数据集，缺省时系统使用最新创建的SAS数据集作为输入数据集。 OUTEST=DATA-SET：要求把参数估计量和一些常用的统计量输出到指定的SAS数据集中。（2）关于输出选项 ALL：要求打印 MODEL 语句和 VAR语句中规定变量的简单统计量和相关矩阵。 CORR ：要求打印MODEL 语句和 VAR语句中规定变量的相关矩阵。 NOPRINT ：不打印输出。 2MODEL 语句该语句的一般格式

29、为：MODEL dependents=independents ; 该语句规定线性回归模型的形式，其中等式左边为因变量，可以多于一个，右边为自变量。等式两边的变量如果多于一个，则各变量间用空格隔开。注意在该语句中使用的变量必须在输入数据集已被定义，没有定义的则不能使用。比如你想在模型中拟合X的平方项，则必须在输入数据集中用赋值语句进行定义。可以出现在 MODEL 语句中的选项较多，常用的主要有以下三类：（1）模型选择选项 SELECTION=name: 规定自变量的选元方法，其中name为选元方法名。常用的选元方法有：逐步回归法（ STEPWISE ）、向前选择法（FORWARD

30、或 F）、向后排除法 (BACKWARD或 B)、最大 R 2 增量法（ MAXR ）、最小 R 2 增量法（ MINR ）、R 2 选择法（ RSQUARE）、Mallows 的 CP选择法（ CP ）以及全回归模型法（NONE ）。当省略 SELECTION= 选项时，系统以NONE 代替，即建立所有自变量的回归模型。 NOINT ：取消回归模型中的常数项，即拟合一个过原点的回归模型。 SLENTRY=value|SLE=value：对 FORWARD和 STEPWISE 选元方法规定变量被选入模型的显著性水平。其中对 FORWARD方法缺省时系统规定为0.5 ，而对 STEP

31、WISE 方法缺省时系统规定为0.15 。 ALSTAY=value|SLS=value ：对 BACKWARD和 STEPWISE 选元方法规定变量保留在模型里的显著性水平。其中对 BACKWARD方法缺省时系统规定为0.1 ，而对 STEPWISE 方法缺省时系统规定为0.15 。（2）关于估计细节的选项 COLLIN ：给出自变量间多重共线性的诊断统计量，包括特征值（Eigenvalue ）、条件指数 (Condition Number)以及相对于特征值的这些估计的方差分解(Var Prop) 。当方程中不包括截据项时，使用 COLLINOINT 。 COVB ：输出参数估计

32、量的协方差阵的估计量，即 21 )(sXX。 STB ：输出标准回归系数。 TOL ：输出自变量的容许值，它被定义为1-R 2。其中 R2 是由该自变量对模型中的其它自变量进行回归所得到的拟合优度。一般来说，R 2 越大，表明某一自变量可以被其它自变量线性表示的可能性就越大，从而自变量之间多重共线性的可能性就越大。由于R 2 越大， TOL就越小，所以小的TOL表明自变量之间存在多重共线性的可能就越大。 VIF：输出方差膨胀因子。它被定义为容许值的倒数，即VIF=1/TOL。一般来说，当VIF 大于 10 时就可以认为自变量间存在严重的多重共线性。 (3) 关于预测值与残差值的选项 C

33、LI：输出每个个别值的95% 的置信上限和下限。 CLM ：对每个观测输出因变量均值的95% 的置信上限和置信下限。 DW ：计算 Durbin-Watson 统计量，该统计量仅对时间序列资料有效。 INFLUENCE ：输出每个观测对预测值影响的详细资料。这是诊断强影响点非常有用的一个选项。 P：由输入数据和估计模型计算出的因变量预测值。输出包括观测序号、ID 变量、实际值、预测值和残差。当规定了CLI 或 CLM或 R，P 可以省略。 R：进行残差分析。输出包括选项P要求的所有内容以及预测值的标准误差、学生化残差和COOK 的 D统计量。 3BY语句、 FREQ 语句、 WEIGHT 语

34、句、 ID 语句以及 VAR语句这些语句作为PROC 过程步中的通用语句，其用法也与在其它SAS过程的用法基本一致，请读者自行参考前面有关章节。 4ADD语句该语句的一般格式为：ADD variables; 它的作用是增加一些新变量到模型中，并重新拟合模型。注意增加的新变量必须事先用VAR语句予以说明。该语句必须与PRINT语句连用方能输出结果，输出的内容与没有增加变量前的模型输出一致。 5DELETE 语句该语句的一般格式为：DELETE variables; 它的作用是从已有的模型中删除一些变量，并重新拟合模型。由于删除的变量已经在MODEL 语句中出现，所以不必再用VAR语句

35、予以说明。该语句也必须与PRINT语句连用，输出的内容与没有删除变量前的模型输出一致。 6OUTPUT 语句该语句的一般格式为：OUTPUT OUT=sas-data-set keyword=names; 该语句创建一个包括所有输入变量、由keyword=names 命名的统计量在内的新的SAS数据集，数据集名由“ OUT= ”后的 SAS数据集名给出。如果“OUT= ”缺省，则系统自动以DATA n 命名。允许出现在该语句中的统计量常见的有： COOKD=name：COOK 的 D影响统计量。 COVRATIO= name ：观测在贝塔的协方差上的标准影响。 DFFITS=name

36、：观测在预测值上的标准化影响。 H=name ：杠杆率，第i个观测的杠杆率定义为 ii xXXx 1 )(。 P=name ：预测值； L95（U95）= name ：因变量单个值的95% 预测下限（上限）L95M （U95M ）= name ：因变量平均值的95% 的置信下限（上限）。 R= name ：残差；STDI= name ：单个预测值的标准差；STDP= name ：均值预测值的标准差；STDR= name ：残差的标准差； STUDENT= name ：标准化残差。 7PLOT语句该语句的一般格式为：PLOT ; 该语句要求对给定变量绘图，包括散点图、连线图等，其中yva

37、r作为纵坐标变量，xvar作为横坐标变量。该语句的用法与GPLOT 过程中的 PLOT语句的用法基本相同。 8TEST语句该语句的一般格式为：TEST eqution ; 该语句用于对MODEL 语句出现的参数进行假设检验。第三节、 REG 过程在一元线性回归分析中的应用一、一元线性回归分析所要解决的问题我们知道，当经过一次抽样获得了自变量X 和因变量 Y 的一个容量为n 的样本后，一元线性回归模型一般可表示为以下形式： i y= 0 + 1 i x+ i （ni,2, 1）对该模型，通常作以下假定：（1）随机误差项均值为0，即 E（ i ）=0，（ ni,2, 1 ）；

38、（2）对每个i，随机误差项 ), 0( 2 N i ，且 COV （ i ， j ）=0，ij；（3）自变量是非随机的确定性变量；（4）自变量和误差项互不相关。对以上一元线性回归模型，实际中通常要解决以下问题：（1）利用样本数据拟合回归方程，即通过最小二乘法进行参数估计。（2）对拟合的回归方程进行诊断。（3）当诊断结果发现方程拟合不充分或误差项不能满足经典假定时，需对观测进行或模型进行适当的处理，然后再利用处理后的数据对处理后的方程进行拟合，直到模型诊断符合要求为止。（4）利用诊断后的模型进行预测或控制，这是回归分析的主要目的之一。作为 REG 过程的一个应用，我们先来处理一

39、个简单的一元线性回归问题。例 9.1 某保险公司打算对收入在25000 元及其以下的家庭考察其收入与户主生命保险额之间的关系。为此该公司随机抽取了12 个家庭进行了调查，结果如下：家庭 1 2 3 4 5 6 7 8 9 10 11 12 保险额（千元） 32 40 50 20 22 35 55 45 28 22 24 30 收入（千元）14 19 23 12 9 15 22 25 15 10 12 16 问题：（1）以收入为自变量，保险额为因变量，用最小二乘法确定线性回归方程，并就表上给出的各收入水平计算y ?。（2）对方程的拟合情况进行诊断。（3）本题中，回归系数 1 ? 的含

40、义是什么？（4）在收入为 20000 元的家庭中，平均每个户主的保险额和某一个户主的生命保险额的估计值各是多少？显著性水平取 0.05 解: 若用 INCOME 代表收入 ,INSURE代表保险额 , 根据本例中的问题SAS程序编辑如下 : data insuranc; input insurce income; cards; 32 14 40 19 50 23 20 12 22 9 35 15 55 22 45 25 28 15 22 10 24 12 30 16 . 20 ;proc gplot;plot insurce*income;run; proc reg graphics; m

41、odel insurce=income; model insurce=income/noint r clm cli; plot student.*p.;run; 程序解释：上述程序可以分为四个部分。第一部分利用DATA 步创建 SAS数据集 insuran 。在这部分中需要注意的是最后一个观测给出了INCOME 的观测值却没有给出INSURCE 的值，这是为了解决题目中的第四个预测问题而有意缺省的。一般来说，如果需要预测，只需给定自变量的值，而因变量的值用缺省来表示。经过回归后，系统会根据给定的自变量值计算出因变量的预测值。程序第二部分利用GPLOT 绘图过程画收入和保险额的散点图，通

42、过散点图来了解两变量之间是线性的还是非线性的。本例中的散点图如下：图 9.1(A) 家庭收入与户主之间的散点图由收入与保险额的散点图可以看出，两变量间具有明显的线性关系，因此可以构建以下线性回归模型： INSURCE= 10 INCOME+。根据以上模型给出了程序的第三个部分，即程序中的第一个MODEL 语句。其中PROC REG 语句表示调用线性回归过程，该语句中的GRAPHICS 选项要求用高分辨率绘制散点图。MODEL 语句的左边为因变量，而右边为自变量，正是上面所设定的模型。程序运行结果如下：输出 9.1 （A）收入水平对保险额的线性回归（含截据项） Model: MOD

43、EL1 Dependent Variable: INSURCE Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 1 1273.34228 1273.34228 57.991 0.0001 Error 10 219.57438 21.95744 C Total 11 1492.91667 Root MSE 4.68588 R-square 0.8529 Dep Mean 33.58333 Adj R-sq 0.8382 C.V. 13.95298 Parameter Estimates P

44、arameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INTERCEP 1 0.509508 4.54890673 0.112 0.9130 INCOME 1 2.067114 0.27144554 7.615 0.0001 输出 9.1 （A）的最上部分是收入对保险额回归结果的方差分析表。输出中用于检验两变量间是否存在线性关系的F 检验值为57.991 ，其对应的临界值为0.0001 ，远小于显著性水平0.05 ，说明用两变量线性关系显著，即用以上设定的线性回归模型来拟合是合适的。输出9.1

45、（A）的中间部分给出的模型拟合精度 Root MSE 为 4.68588 ，拟合优度 R 2 和调整的 R 2 值分别为 0.8529 和 0.8382, 表明保险额的变差有83.82% 可以由收入来解释，由此可以得出，方程拟合是比较充分的。输出9.1 （A）的最下面部分给出了参数估计以及参数与0 是否有显著性差异的T 检验。截据项INTERCEP 即参数 0 的估计值为0.509508, 其对应的概率为 0.9130 ，大于显著性水平0.05 ，说明 0 与 0 无显著性差异，而变量INCOME 前的系数 1的估计值为 2.067114 ，其对应的概率为0.0001 小于显著性水平0

46、.05 ，说明 1与 0 有显著性差异。由于0 的 T 检验不显著，所以需要拟合不带截据项的线性回归模型。程序中第二个MODEL 语句中的选项NOINT正是要求系统拟合一个不带截据项的线性回归模型，此外按题目第一、二两个问题的要求还增加了选项r 以及 clm 和 cli 。其中选项r 要求输出每个观测的预测值、残差、标准化残差、COOK 统计量，选项clm 要求输出平均保险额的预测值的95% 的置信上限和下限，而 cli则要求输出个别户主保险额的95% 的置信上限和下限，这里的 95% 是系统设定的。 PLOT语句要求绘制标准化误差与预测值的残差图，其中student.(小数点可省略

47、) 代表 studentized residual，P. 代表 predicted value。这段程序输出如下：输出 9.1 （B）收入水平对保险额的线性回归（不含截据项） Model: MODEL2 NOTE: No intercept in model. R-square is redefined. Dependent Variable: INSURCE Analysis of Variance Sum of Mean Source DF Squares Square F Value ProbF Model 1 14807.15015 14807.15015 740.863 0.000

48、1 Error 11 219.84985 19.98635 U Total 12 15027.00000 Root MSE 4.47061 R-square 0.9854 Dep Mean 33.58333 Adj R-sq 0.9840 C.V. 13.31199 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob |T| INCOME 1 2.096142 0.07701083 27.219 0.0001 Dep Var Predict Std Err Lower95% Upper95% Lower95% Upper95% Obs INSURCE Value Predict Mean Mean Predict Predict Residual 1 32.0000 29.3460 1.078 26.9730 31.7190 19.2242 39.4678 2.6540 2 40.0000 39.8267 1.463 36.6062 43.0472 29.4733 50.1801 0.1733 3 50.0000 48.2113 1.771 44.3128 52.1098

展开阅读全文