SASGLM过程.ppt

上传人:本田雅阁 文档编号:2977328 上传时间:2019-06-17 格式:PPT 页数:280 大小:1.36MB
返回 下载 相关 举报
SASGLM过程.ppt_第1页
第1页 / 共280页
SASGLM过程.ppt_第2页
第2页 / 共280页
SASGLM过程.ppt_第3页
第3页 / 共280页
SASGLM过程.ppt_第4页
第4页 / 共280页
SASGLM过程.ppt_第5页
第5页 / 共280页
点击查看更多>>
资源描述

《SASGLM过程.ppt》由会员分享,可在线阅读,更多相关《SASGLM过程.ppt(280页珍藏版)》请在三一文库上搜索。

1、采用GLM过程进行 回归和方差分析,1、 GLM应用背景 2、 GLM原理简介 3、 GLM的功能 4、 GLM的格式 5、 GLM作一元线性 回归 6、 GLM作多元线性回归 7 、GLM作多项式回归 8、虚拟变量的设置 9、多个随机实验组协方差分析 ( GLM应用),10 趋势面回归分析( GLM应用) 11 非线性回归分析一 (对数、多项式回归) 12 非线性回归二 (拟合Logistic曲线与正负指数的回归) 13 方差分析(ANOVA ) 14 多因素二水平排列组合方差分析( ANOVA 的应用) 15随机配伍组与对照组的方差分析( ANOVA 的应用),采用GLM过程进行 回归和方

2、差分析,1、 GLM应用背景 相关分析只能反映两变量之间的相关性强弱及趋势,但无法给出变量间因果关系的函数关系,即函数方程。 回归分析可以给出因变量(随机变量)与自变量(可控变量)的相关关系的函数关系式,GLM就是研究相关关系广泛的使用的方法。,2、 GLM原理简介,(一)最小二乘法原理 GLM原理,是使用最小二乘法(least square method),研讨一个线性模型。,(一)最小二乘法原理,一、背景基本介绍 在实际应用中如,金融、经济变量之间的关系,大体上可以分为两种: (1)函数关系:Y=f(X1,X2,.,XP),其中Y的值是由Xi(i=1,2.p)所唯一确定的。 (2)相关关系

3、: Y=f(X1,X2,.,XP) ,这里Y的值不能由Xi(i=1,2.p)精确的唯一确定。,(一)最小二乘法原理,图5-1表示的是我国货币供应量M2(y) 与经过季节调整的GDP(x)之间的关系 (数据为1995年第一季度到2004年第二季度的季度数据)。,(一)最小二乘法原理,但有时候我们想知道当x变化一单位时,y平均变化多少,可以看到,由于图中所有的点都相对的集中在图中直线周围,因此我们可以以这条直线大致代表x与y之间的关系。如果我们能够确定这条直线,我们就可以用直线的斜率来表示当x变化一单位时y的变化程度,由图中的点确定线的过程就是回归。,(一)最小二乘法原理,但有时候我们想知道当x变

4、化一单位时,y平均变化多少,可以看到,由于图中所有的点都相对的集中在图中直线周围,因此我们可以以这条直线大致代表x与y之间的关系。如果我们能够确定这条直线,我们就可以用直线的斜率来表示当x变化一单位时y的变化程度,由图中的点确定线的过程就是回归。,(一)最小二乘法原理,对于变量间的相关关系,我们可以根据大量的统计资料,找出它们在数量变化方面的规律(即“平均”的规律),这种统计规律所揭示的关系就是回归关系(regressive relationship),所表示的数学方程就是回归方程(regression equation)或回归模型(regression model)。,(一)最小二乘法原理,

5、图5-1中的直线可表示为 (5.1),根据上式,在确定、的情况下,给定一个x值,我们就能够得到一个确定的y值,然而根据式(2.1)得到的y值与实际的y值存在一个误差(即图2-1中点到直线的距离)。,(一)最小二乘法原理,如果我们以表示误差,则方程(5.1)变为:,其中t(=1,2,3,T)表示观测数。,(5.2),(5.3),式(2.3)即为一个简单的双变量回归模型(因其仅具有两个变量x, y)的基本形式。,(一)最小二乘法原理,其中yt被称作因变量 (dependent variable)、 被解释变量 (explained variable)、 结果变量 (effect variable)

6、;,xt被称作自变量 (independent variable)、解释变量 (explanatory variable)、 原因变量 (causal variable),(一)最小二乘法原理,、为参数(parameters),或称回归系数(regression coefficients); t通常被称为随机误差项(stochastic error term),或随机扰动项(random disturbance term),简称误差项, 在回归模型中它是不确定的,服从随机分布(相应的,yt也是不确定的,服从随机分布)。,(一)最小二乘法原理,为什么将t 包含在模型中? (1)有些变量是观测不到

7、的或者是无法度量的,又或者影响因变量yt的因素太多; (2)在yt的度量过程中会发生偏误,这些偏误在模型中是表示不出来的; (3)外界随机因素对yt的影响也很难模型化,比如:恐怖事件、自然灾害、设备故障等。,(一)最小二乘法原理,假设线性回归模型为 t=1,2,3.T(5-4) 对y产生影响的解释变量共有k-1(x2t,x3t,xkt)个,系数(12k)分别衡量了解释变量对因变量y的边际影响的程度。 最小二乘法的基本原则是:最优拟合直线应该使各点到直线的距离的和最小,也可表述为距离的平方和最小。,(一)最小二乘法原理,方差分析 SST=SSE+SSR SST、SSE、SSR的关系以下图来表示更

8、加直观一些:,图52 SST、SSE、SSR的关系,(一)最小二乘法原理,= + (5.5),是被模型所解释的部分,称为回归平方和(the explained sum of squares,简记SSR); 是不能被模型所解释的残差平方和(SSE),即 =,配置最佳线性方程的条件是: 1、 SSR达到最小 2、因变量的偏离其均值的偏差和为零。,采用GLM过程进行 回归和方差分析,1、 GLM应用背景 2、 GLM原理简介 3、 GLM的功能 4、 GLM的格式 5、 GLM作一元线性 回归 6、 GLM作多元线性回归 7 、GLM作多项式回归 8、虚拟变量的设置 9、多个随机实验组协方差分析 (

9、 GLM应用),10 趋势面回归分析( GLM应用) 11 非线性回归分析一 (对数、多项式回归) 12 非线性回归二 (拟合Logistic曲线与正负指数的回归) 13 方差分析(ANOVA ) 14 多因素二水平排列组合方差分析( ANOVA 的应用) 15随机配伍组与对照组的方差分析( ANOVA 的应用),概述,本章目录,GLM中语句的格式,Proc GLM data=datanameoutput =输出统计量order=formated | freq| data|internal; Class 分类变量;/*此为第二条语句,后面需model配合*/ Model 因变量 Y=自变量 X

10、 /NOINT| INT|intercept|NounI |solution| tolerrance| E |E1 |E2|E3|E4 |SS1 |SS2|SS3 |SS4|P|CLM|CLI|ALPHA= | XPX|INVERSE|SINGULAR=1E-8或0|ZETA=1E-8或0,GLM过程,GLM中语句的格式(续),CONTRAST 对照说明 。10个汉字,20个字符 向量 L及元素/E|E=effect或默认为MS|ETYPE=n|SINGULAR=number; ESTIMATE 估计的说明,小于20个字符 值1 值2 /E|DIViSOR=number |SINGULAR=n

11、umber; LSMEANS effect /E|=effect|ETYPE=n|SINGULAR=number|STDERR|PDIFF; NMAMES=names PREFIX=name/PRINTH PRINTE HTYPE=n ETYPE=nCANONICAL SUMMARY ORTH;,GLM过程,GLM中语句的格式(续),output out=数据集名称 predicted=变量表|P=变量表RESIDUAL=变量表|R=变量表; Random effect/Q; REPEATED 因变量名 因子1 因子2 因子3 (值1 值2 ) 转换的关键字/选项;/*详见ANOVA一章*/

12、TEST H=effects E=effect/HTYPE=ETYPE=; /*详见ANOVA一章*/,GLM过程,GLM中语句的格式(续),BY 变量表; ABSORB 变量表;/*变量表须预先sort。此语句使GLM无法产生预测值或输出一个数据集*/ FREQ 变量表;/*按变量表中的观察值n,显示n次*/ ID 变量表;/*要求在同行上显示出各变量值、预测值及残差*/ MEANS Effcet/ 选项; /*详见ANOVA一章means语句*/,GLM过程,GLM中各语句的格式说明,1、主语句 proc GLM 的说明 Proc GLM data=datanameoutput =输出统计

13、量order=formated | freq| data|internal; order=关键字, order=formated | freq| data|internal可选4个中的某个: order=formated :要求人为指定数据显示格式 order= freq:要求按观察值频次降序排列,GLM过程,GLM中各语句的格式说明(续),order= data:要求按数据录入顺序(即原始数据行)显示数据行。 order=internal:按系统默认格式显示数据行。,GLM过程,GLM中各语句的格式说明(续),2、Class 分类变量; 格式为: class V1 V2 V1 V2均为分类变

14、量,字符型变量限于10个字符内。 Class 分类变量;/*此为第二条语句,后面必需与model配合*/,GLM过程,GLM中各语句的格式说明(续),Model语句(必不可少) Model语句(必不可少),用于建立各种回归模型或方差分析模型。 例:设A、B、C代表分类变量,V1-V3代表连续变量,可用Model语句建立三类模型,,GLM过程,GLM中各语句的格式说明(续),GLM过程,GLM中各语句的格式说明(续),Model 备注 : 1)model Y= A b c a*b a*c b*c a*b*c 等效于 model Y=a |b|c; 等号右边为自变量或独立变量,比如 A b 等号左

15、边为因变量,3、控制标准假设检验方面的选项,E:要求GLM显示所有估计函数的一般格式。 E1:显示每个效应(effect)第一类(TYPEI)的估计函数。 E2:显示每个效应(effect)第二类(TYPE2)的估计函数。 E3:显示每个效应(effect)第三类(TYPE3)的估计函数。 E4:显示每个效应(effect)第四类(TYPE4)的估计函数。,3、控制标准假设检验方面的选项(续),ss1:显示每个效应配合type1估计函数所产生的平方和ss ss2:显示每个效应配合type2估计函数所产生的平方和ss ss3:显示每个效应配合type3估计函数所产生的平方和ss ss4:显示每个

16、效应配合type4估计函数所产生的平方和ss,4、预测值与残差值的选项,P:要求GLM显示每个观测值、预测值、残差及DW统计量。 Clm 显示每个观测值、预测值的置信度 Cli显示每个观测值置信度 ALPHA=p :指定置信区间的ALPHA值,5、显示中间结果,XPX:要求显示XTX矩阵 Inverse:显示XTX矩阵逆矩阵或一般化矩阵,6、调整模型,Singular =值n: 调整回归模型对线性关系的敏感性。默认值为n=1E-8 ZETA= 值m:对可估计的type3和type4两检验函数的敏感性进行检验。m=1E-8 Proc glm; Class a b c ; Model y=a|b|

17、c| E2 E3 ZETA=1E-6,GLM过程,Contrast (对照)语句,Contrast 格式 contrast 对照说明 向量L 值1 值2 /选项; 该语句可以对结果进行假设检验 如 单变量 (H0: LB =0)多变量(H0: LBM =0),GLM过程,Contrast (对照)语句,例如 Model Y= A B;A有五种值,B有三种值 向量L元素为: (miu A1 A2 A3 A4 A5 B1 B2 B3) H0:A合并线性(pooled A liner)与A二次效应为0 L矩阵(0 -2 -1 0 1 2 0 0 ) (0 2 -1 -2 -1 2 0 0 ),GLM

18、过程,Contrast (对照)语句,/ 后的选项 E 要求显示整个L向量 E=effect: 在模型中指定一个effect项为误差项。省略用估计的MS作为误差项 ETYPE=n n=1 2 3 4 指明E=effect类型 Singular =number:用于检查估计值。,GLM过程,Contrast (对照)语句,Proc glm; Class a b c ; Model y=a|b|c| E2 E3 ZETA=1E-6 Contrast A的线性与二次效应 A -2 -1 0 1 2 A 2 -1 -2 -1 2 / E Singular =1E-2;,GLM过程,Estimate语句

19、,该句用于估计参数的线性函数,它必须紧跟在MODEL之后 格式: model estimate 标签内容(20个字符) 向量名称 元素1 /E divisor=m (向量中元素除以m) singular=n(估计向量L所用的检验值);,GLM过程,Lsmeans 语句,格式: Lsmeans B C/E stderr pdiff E=effct Etype=n singular=number; 说明同上。 Proc glm; Class a b c ; Model y=a b c a*b; Lsmeans y=a b c a*b; Lsmeans 语句要求显示 a b c 主效应及 a*b 交

20、互效应中每个水平(lever)的最小二乘法的均值。,GLM过程,Manova 语句,Manova H=effect E=effect M=式1 ,式2, Mnames=V1; Prefix=被转换的变量名/ printh printe short Canonical summary; 说明见 ANOVA(ANOVA,全称是Analysis Of Variation ),GLM过程,Output语句,Output out= 数据及名称 predicted|P=Vn Residual|R=vn Vn 为新变量名 例如: Proc glm; Class a b c ; Model y=a b c a

21、*b; Output out= new1 P=Yhat R=Resid; Run;,GLM过程,RANDOM,该语句指定模型中具有随机性的effect项,以便显示type1-type4中每个effect的期望值。 格式: Random a b c/q; /Q x显示出主效应中期望均方 的完整二次型。 Eg: Random sex edc/q;,GLM过程,Repeated 语句,该语句表示同一试验单位下,在model语句中因变量值具有的重复测量 格式 repeated 因变量名 因子1 因子2,GLM过程,其他语句,Absorb V1 V2 BY V1 V2 Freq V; ID V1 V2,

22、GLM过程实例1,options nodate nonumber; proc format; value groupfmt 1=Hydrolysate-I 2=Hydrolysate-II 3=Casein; data aconova1; do i=1 to 8; do group=1 to 3; input age food weight ; output; end; end;,format group groupfmt.; cards; 6 281.7 37 5 309.8 24 8 259.3 82 10 274.0 47 6 317.8 43 5 241.2 66 8 253.8 37

23、 10 326.1 60 6 248.5 74 5 261.4 34 8 322.1 50 7 242.8 79 7 272.8 42 7 323.5 47 8 255.7 82 5 272.2 27 6 321.2 42 7 254.3 76 6 272.3 32 5 311.8 39 5 244.6 73 7 293.2 44 10 324.5 53 10 243.8 90 ; proc glm; class group; model weight=group age food/solution; lsmeans group/pdiff stderr; run;,GLM过程实例1,The

24、SAS System The GLM Procedure Dependent Variable: weight Sum of Source DF Squares Mean Square F Value Pr F Model 4 8557.689709 2139.422427 142.31 .0001 Error 19 285.643625 15.033875 Corrected Total 23 8843.333333,GLM过程实例1解释,R-Square Coeff Var Root MSE weight Mean 0.967700 7.270039 3.877354 53.33333 S

25、ource DF Type I SS Mean Square F Value Pr F group 2 7364.333333 3682.166667 244.92 F group 2 4452.034676 2226.017338 148.07 .0001 age 1 868.748973 868.748973 57.79 .0001 food 1 69.150708 69.150708 4.60 0.0451 Type III SS表示每一个自变量分别最后选入到回归模型时model(ssR)的增加值,GLM过程实例1解释,Standard Parameter Estimate Error

26、t Value Pr |t| Intercept -52.36421256 B 32.01484931 -1.64 0.1184 group Casein 49.08673657 B 7.51889522 6.53 .0001 group Hydrolysate-I 4.50030871 B 5.15175258 0.87 0.3933 group Hydrolysate-II 0.00000000 B . . . age 3.73762612 0.49168184 7.60 .0001 food 0.22053700 0.10282971 2.14 0.0451,GLM过程实例1解释,The

27、 GLM Procedure Least Squares Means weight Standard LSMEAN group LSMEAN Error Pr |t| Number Casein 84.5577215 3.5301129 .0001 1 Hydrolysate-I 39.9712936 1.5696985 .0001 2 Hydrolysate-II 35.4709849 4.2399044 .0001 3 显示每个效应下的均值及标准误差,GLM过程实例1解释,Least Squares Means for effect group Pr |t| for H0: LSMean(

28、i)=LSMean(j) Dependent Variable: weight i/j 1 2 3 1 .0001 .0001 2 .0001 0.3933 3 .0001 0.3933 显示所有可能的概率值。,GLM过程,5、调用GLM程序作一元线性回归,例如: Proc glm; Format edc edcf; Format sex sexf; model sal2 =edc; Output out= new1 P=predict R=residual; Proc plot ; Plot sal2*edc predict*edc=p/overlay; Plot residual*edc/

29、vref=0; Run;,GLM过程,结果说明,P 表示图点 Vref 表示正负分界线 残差不独立说明,GLM过程,第二节 一元回归估计与检验理论,估计(LSE) 检验(F),第一节估计理论-参数的最小二乘估计 (一) 方法介绍 本章所介绍的是普通最小二乘法(ordinary least squares,简记OLS); 最小二乘法的基本原则是:最优拟合直线应该使各点到直线的距离的和最小,也可表述为距离的平方和最小。 假定根据这一原理得到的、估计值为 、 ,则直线可表示为 。,直线上的yt值,记为 ,称为拟合值(fitted value),实际值与拟合值的差,记为 ,称为残差(residual)

30、 ,可以看作是随机误差项 的估计值。 根据OLS的基本原则,使直线与各散点的距离的平方和最小,实际上是使残差平方和(residual sum of squares, 简记RSS) 最小,即最小化:,RSS= = (2.4),根据最小化的一阶条件,将式2.4分别对、求偏导,并令其为零,即可求得结果如下 :,(2.5),(2.6),(二)一些基本概念 1.总体(the population)和样本(the sample) 总体是指待研究变量的所有数据集合,可以是有限的,也可以是无限的;而样本是总体的一个子集。 2、总体回归方程(the population regression function,

31、简记PRF),样本回归方程(the sample regression function,简记SRF)。,总体回归方程(PRF)表示变量之间的真实关系,有时也被称为数据生成过程(DGP),PRF中的、值是真实值,方程为:,+,(2. 7),样本回归方程(SRF)是根据所选样本估算的变量之间的关系函数,方程为:,注意:SRF中没有误差项,根据这一方程得到的是总体因变量的期望值,(2.8),于是方程(2.7)可以写为: (2.9) 总体y值被分解为两部分:模型拟合值( )和残差项( )。,3.线性关系 对线性的第一种解释是指:y是x的线性函数,比如,y= 。 对线性的第二种解释是指:y是参数的一个

32、线性函数,它可以不是变量x的线性函数。比如y= 就是一个线性回归模型, 但 则不是。 在本课程中,线性回归一词总是对指参数为线性的一种回归(即参数只以一次方出现),对解释变量x则可以是或不是线性的。,有些模型看起来不是线性回归,但经过一些基本代数变换可以转换成线性回归模型。例如,,(2.10),可以进行如下变换:,(2.11),令 、 、 ,则方程 (2. 11)变为:,(2.12),可以看到,模型2.12即为一线性模型。,4.估计量(estimator)和估计值(estimate) 估计量是指计算系数的方程;而估计值是指估计出来的系数的数值。,最小二乘估计量的性质和分布 (一) 经典线性回归

33、模型的基本假设 (1) ,即残差具有零均值; (2)var ,即残差具有常数方差,且对于所有x值是有限的; (3)cov ,即残差项之间在统计意义上是相互独立的; (4)cov ,即残差项与变量x无关; (5)tN ,即残差项服从正态分布,(二)最小二乘估计量的性质 如果满足假设(1)(4),由最小二乘法得到的估计量 、 具有一些特性,它们是最优线性无偏估计量(Best Linear Unbiased Estimators,简记BLUE)。,估计量(estimator):意味着 、 是包含着真实、值的估计量; 线性(linear):意味着 、 与随机变量y之间是线性函数关系; 无偏(unbia

34、sed):意味着平均而言,实际得到的 、 值与其真实值是一致的; 最优(best):意味着在所有线性无偏估计量里,OLS估计量 具有最小方差。,(三) OLS估计量的方差、标准差和其概率分布 1.OLS估计量的方差、标准差。 给定假设(1)(4),估计量的标准差计算方程如下 :,其中, 是残差的估计标准差。,(2.21),(2.22),参数估计量的标准差具有如下的性质: (1)样本容量T越大,参数估计值的标准差越小; (2) 和 都取决于s2。 s2是残差的方差估计量。 s2越大,残差的分布就越分散,这样模型的不确定性也就越大。如果s2很大,这意味着估计直线不能很好地拟合散点;,(3)参数估计

35、值的方差与 成反比。 其值越小,散点越集中,这样就越难准确地估计拟合直线;相反,如果 越大,散点越分散,这样就可以容易地估计出拟合直线,并且可信度也大得多。 比较图22就可以清楚地看到这点。,图22 直线拟合和散点集中度的关系,(4) 项只影响截距的标准差,不影响斜率的标准差。理由是: 衡量的是散点与y轴的距离。 越大,散点离y轴越远,就越难准确地估计出拟合直线与y轴的交点(即截距);反之,则相反。,2OLS估计量的概率分布 给定假设条件(5),即 ,则 也服从正态分布 系数估计量也是服从正态分布的:,(2.30),(2.31),需要注意的是:如果残差不服从正态分布,即假设(5)不成立,但只要

36、CLRM的其他假设条件还成立,且样本容量足够大,则通常认为系数估计量还是服从正态分布的。,其标准正态分布为:,(2.32),(2.33),但是,总体回归方程中的系数的真实标准差是得不到的,只能得到样本的系数标准差( 、 )。用样本的标准差去替代总体标准差会产生不确定性,并且,、 将不再服从正态分布,而服从自由度为T-2的t分布,其中T为样本容量,即:, (2.34),(2.35),3.正态分布和t分布的关系,图2-3 正态分布和t分布形状比较,从图形上来看,t分布的尾比较厚,均值处的最大值小于正态分布。 随着t分布自由度的增大,其对应临界值显著减小,当自由度趋向于无穷时,t分布就服从标准正态分

37、布了。 所以正态分布可以看作是t分布的一个特例。,第二节 一元线性回归模型的统计检验,一、拟合优度(goodness of fit statistics)检验 拟合优度可用R2 表示:模型所要解释的 是y相对于其均值的波动性,即 (总平方和,the total sum of squares, 简记TSS),这一平方和可以分成两部分:,= + (2.36),是被模型所解释的部分,称为回归平方和(the explained sum of squares,简记ESS); 是不能被模型所解释的残差平方和(RSS),即 =,TSS、ESS、RSS的关系以下图来表示更加直观一些:,图24 TSS、ESS、

38、RSS的关系,拟合优度 因为 TSS=ESS+RSS 所以 R2 (2.39),(2.37),(2.38),R2越大,说明回归线拟合程度越好;R2越小,说明回归线拟合程度越差。由上可知,通过考察R2的大小,我们就能粗略地看出回归线的优劣。,但是,R2作为拟合优度的一个衡量标准也存在一些问题: (1)如果模型被重新组合,被解释变量发生了变化,那么R2也将随之改变,因此具有不同被解释变量的模型之间是无法来比较R2的大小的。,(2)增加了一个解释变量以后, R2只会增大而不会减小,除非增加的那个解释变量之前的系数为零,但在通常情况下该系数是不为零的,因此只要增加解释变量, R2就会不断的增大,这样我

39、们就无法判断出这些解释变量是否应该包含在模型中。 (3)R2的值经常会很高,达到0.9或更高,所以我们无法判断模型之间到底孰优孰劣。,为了解决上面第二个问题,我们通常用调整过的R2来代替未调整过的R2 。对R2进行调整主要是考虑到在引进一个解释变量时,会失去相应的自由度。调整过的R2用 来表示,公式为: 其中T为样本容量 ,K为自变量个数,(2.40),二、假设检验 假设检验的基本任务是根据样本所提供的信息,对未知总体分布某些方面的假设做出合理解释 假设检验的程序是,先根据实际问题的要求提出一个论断,称为零假设(null hypothesis)或原假设,记为H0(一般并列的有一个备择假设(al

40、ternative hypothesis),记为H1 ) 然后根据样本的有关信息,对H0的真伪进行判断,做出拒绝H0或不能拒绝H0的决策。,假设检验的基本思想是概率性质的反证法。 概率性质的反证法的根据是小概率事件原理。该原理认为“小概率事件在一次实验中几乎是不可能发生的”。在原假设H0下构造一个事件(即检验统计量),这个事件在“原假设H0是正确的”的条件下是一个小概率事件,如果该事件发生了,说明“原假设H0是正确的”是错误的,因为不应该出现的小概率事件出现了,应该拒绝原假设H0 。,假设检验有两种方法: 置信区间检验法(confidence interval approach)和显著性检验法

41、(test of significance approach)。 显著性检验法中最常用的是t检验和F检验,前者是对单个变量系数的显著性检验,后者是对多个变量系数的联合显著性检验。,(一)t检验 下面我们具体介绍对方程(2.3)的系数进行t检验的主要步骤。 (1)用OLS方法回归方程(2.3),得到的估计值 及其标准差 。 (2)假定我们建立的零假设是: ,备则假设是 (这是一个双侧检验)。,则我们建立的统计量 服从自由度为T-2的t分布。,(3)选择一个显著性水平(通常是5%),我们就可以在t分布中确定拒绝区域和非拒绝区域,如图2-5。如果选择显著性水平为5%,则表明有5%的分布将落在拒绝区域

42、,图2-5 双侧检验拒绝区域和非拒绝区域分布,(4)选定显著性水平后,我们就可以根据t分布表求得自由度为T-2的临界值,当检验统计值的绝对值大于临界值时,它就落在拒绝区域,因此我们拒绝的原假设,而接受备则假设。反之则相反。 可以看到,t检验的基本原理是如果参数的假设值与估计值差别很大,就会导致小概率事件的发生,从而导致我们拒绝参数的假设值。,(二)置信区间法 仍以方程2.3的系数为例,置信区间法的基本思想是建立围绕估计值 的一定的限制范围,推断总体参数是否在一定的置信度下落在此区间范围内。,置信区间检验的主要步骤(所建立的零假设同 t检验)。,(1)用OLS法回归方程(2.3),得到的估计值

43、及其标准差 。 (2)选择一个显著性水平(通常为5%),这相当于选择95%的置信度。查t分布表,获得自由度为T-2的临界值 。 (3)所建立的置信区间为( , ) (2.41),(4)如果零假设值 落在置信区间外,我们就拒绝 的原假设;反之,则不能拒绝。 需要注意的是,置信区间检验都是双侧检验,尽管在理论上建立单侧检验也是可行的。,(三)t检验与置信区间检验的关系,在显著性检验法下,当 的绝对值小于临界值时,即: (2.42) 时,我们不能拒绝原假设。 对式(2.41)变形,我们可以得到: (2.43) 可以看到,式(2.43)恰好是置信区间法的置信区间式(2.41),因此,实际上t检验法与置

44、信区间法提供的结果是完全一样的。,(四)第一类错误和第二类错误,如果有一个零假设在5的显著性水平下被拒绝了,有可能这个拒绝是不正确的,这种错误被称为第一类错误,它发生的概率为5。 另外一种情况是,我们得到95的一个置信区间,落在这个区间的零假设我们都不能拒绝,当我们接受一个零假设的时候也可能犯错误,因为回归系数的真实值可能是该区间内的另外一个值,这一错误被称为第二类错误。 在选择显著性水平时人们面临抉择:降低犯第一类错误的概率就会增加犯第二类错误的概率。,(五)P值 P值是计量经济结果对应的精确的显著性水平。 P值度量的是犯第一类错误的概率,即拒绝正确的零假设的概率。P值越大,错误地拒绝零假设

45、的可能性就越大;p值越小,拒绝零假设时就越放心。现在许多统计软件都能计算各种统计量的p值,如Eviews、Stata等。,第三节 多变量线性回归模型的统计检验,一、多变量模型的简单介绍 考察下面这个方程: t=1,2,3.T (2.44) 对y产生影响的解释变量共有k-1(x2t,x3t,xkt)个,系数(12k)分别衡量了解释变量对因变量y的边际影响的程度。,方程(2.44)的矩阵形式为 这里:y是T1矩阵,X是Tk矩阵,是k1矩阵,u是T1矩阵,(2.46),在多变量回归中残差向量为:,(2.47),残差平方和为:,(2.48),可以得到多变量回归系数的估计表达式,(2.49),同样我们可

46、以得到多变量回归模型残差的样本方差,(2.50),参数的协方差矩阵 (2.51),二、拟合优度检验 在多变量模型中,我们想知道解释变量一起对因变量y变动的解释程度。我们将度量这个信息的量称为多元判定系数R2。 在多变量模型中,下面这个等式也成立: TSS=ESS+RSS (2.52) 其中,TSS为总离差平方和;ESS为回归平方和;RSS为残差平方和。,与双变量模型类似,定义如下: 即,R2是回归平方和与总离差平方和的比值;与双变量模型唯一不同的是,ESS值与多个解释变量有关。 R2的值在0与1之间,越接近于1,说明估计的回归直线拟合得越好。,(2.53),可以证明: (2.54) 因此, (2.55),三、假设检验 (一)、t检验 在多元回归模型中,t统计量为:,(2.56),均服从自由度为(n-k)的t分布。下面的检验过程跟双变量线性回归模型的检验过程一样。,(二)、F检验 F检验的第一个用途是对所有的回归系数全为0的零假设的检验。第二个用途是用

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1