Chapter工具变量法.docx

上传人:scccc 文档编号:13616510 上传时间:2022-01-20 格式:DOCX 页数:22 大小:54.69KB
返回 下载 相关 举报
Chapter工具变量法.docx_第1页
第1页 / 共22页
Chapter工具变量法.docx_第2页
第2页 / 共22页
Chapter工具变量法.docx_第3页
第3页 / 共22页
Chapter工具变量法.docx_第4页
第4页 / 共22页
Chapter工具变量法.docx_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《Chapter工具变量法.docx》由会员分享,可在线阅读,更多相关《Chapter工具变量法.docx(22页珍藏版)》请在三一文库上搜索。

1、第1章两阶段最小二乘法在模型的基本假定中,解释变量与误差项正交保证了参数估计量的无偏性和一致性。当 这一假定被违背时,称解释变量是内生的。常见的几种情况会导致内生问题:忽略重要的解 释变量、变量的测量误差、变量的联立性。工具变量估计是解决解释变量内生问题的基本方 法。本章介绍工具变量法和两阶段最小二乘法,以及模型内生性检验和过度识别约束检验等 问题。1.1 变量的内生性如果模型中的解释变量与误差项出现相关,即E(X u) =0,称解释变量是内生的。导致解释变量内生性的原因有很多,主要的几个原因包括:模型中忽略了重要的解释变量、变量 因果关系的双向性、变量的测量误差等。模型中出现内生解释变量时,

2、OLS估计量是不一致的。根据OLS估计量:?=(X X )1 X y=)3 +x X “ X)u(=6+)N X X 卜-x)u( )(1.1)由假定Rank( X)= K和大数定律,样本均值的概率极限等于总体均值,可得:Plim(N,XX) =E(XX)三A ,Plim( N 二X u) = E(X u) #0。(1.2)又由Slustky定理,Plim( N AXX) A =A /Plim?= B+A 七(X u)丰 3(1.3)1.2 工具变量估计1.2.1 工具变量在如下模型中,y = X + u第i个解释变量x为内生解释变量。如果存在变量z, z满足如下两个条件:正交条件:与 u不相

3、关,即 cor(z, u) = 0相关条件:与 x相关,即cor(z, Xi)丰0,也称为识别约束条件。那么,z被称作Xi的工具变量。设回归模型为:y=X/u(1.4)其中,解释变量为 X (1XK)工具变量为 Z (1XK)。Z作为工具变量满足正交条件和识别约束条件。在正规方程组x (y-X?) =0中,用Z替换X ,z (y X?) =0(1.5)解此方程组,可得 IV估计量为:?-(Z X 尸 Z y(1.6)将y= X/u带入估计量中,可得? = (ZX)-z(X u) = 3 (zX)-zu可以证明,E( ?) = 3 (Z X)Z E( u) = 3Var( 1) =E(ZX),Z

4、uuZ(XZ)-C2(ZX)ZZ(X Z)-二二2(X X),即IV估计量是无偏的,但不是有效的。同时,由Plim( ?) = B Plim( NZX)(N,Z u)n ,:二n_ 二Plim( NZX)二An ?二Plim( N,Zu) =E(Ziui) =0可知,IV估计量是一致的。1.3两阶段最小二乘法设模型中存在 K个内生解释变量,存在 L=K个工具变量。每个工具变量都必须满足正 交条件和相关条件。如果L=K ,称为恰好识别;如果 LK ,称为过度识别。即利用其中不同的K个工具变量,都可以得到不同的估计量。当然,用任何一组工具变量得到的估计量都是 一致的。因此,现在的问题是如何在这L个

5、工具变量中找到 K个工具变量使其估计量最有效。这即是两阶段最小二乘法。1.3.1 TSLS 估计设模型为:y =X B u(1.7)其中,解释变量为 X (1XK)工具变量为 Z (1XL)O用Z作为工具变量,Z满足正交条件和识别约束条件。首先回归模型x=zn+v(1.8)可得?=(Z Z)-ZX ,并提取拟合值 义=Z? =Z (Z Z)- ZX。令 Pz=Z (Z Z )-Z , Pz 为对称 哥等矩阵,则 X =PzX。然后,利用 又做为工具变量回归模型,可得 iv估计量为:?=(又X)-又y =(X PzX)-(XPzY)(1.9)而X x =XPzX =X Pz PzX =(PzX)

6、 PzX =义父。由此可得:?=(又X)-又y K又又),Xy(1.10)而(火乂),又y是y对文的OLS回归估计量。因此,利用又作为工具变量作IV回归与利用 X 替换X作LS回归是等价的。也正因为此,我们称之为两阶段最小二乘法。估计步骤归纳如下。Step1:利用X对Z作OLS回归:X =zn+v;提取拟合值 X。Step2:用X替换X,直接作 OLS回归。1.3.2 2SLS的渐进特征假定1 :令X表示解释变量(包括常数变量1 )。假定存在L个工具变量构成的(1 XL)向量Z,满足E(Zu)= 0。Z包含模型中的外生解释变量。如果*II型中存在内生变量,则Z必须包含模型以外的外生变量。假定2

7、: (A) Rank(ZZ尸L; (B) Rank(ZX尸K。(A)条件是指 L个向量Z不存在完全 的线性关系;条件(B)是指Z与X充分线性相关,即所有工具变量都必须满足识别约束条 件。条件(B)称为秩条件。秩条件成立的必要条件是L米。即,工具变量的个数至少等于解释变量的个数,称之为阶条件。由X = zn+v (其中,口为L*矩阵),两侧同时乘 Z并求期望可得: z X =z zn+z v二 E( Z X) =E(Z Z )n(1.11)n =E(Z z) AE( z X)令 X*=zn = Z E(Z Z)-1 E(Z X)。在 X /u=y 两边同日乘以 X*可得,X *X 3 + X *

8、u = X *y(1.12)求期望可得:E( X *X )3= E( X *y)(1.13)而X *X = X *zn + X * v, E( X *X) = E( X * Z)- + E( X *v) = E( X *Z )二E(X*Z)= E( X-v) Z = E XZ - v Z = E( XZ)将n = E(Z Z)-1 E(Z X)带入上两个式子中,可得:E(X*X) = E( XZ) E(ZZ)-1 E(ZX)=E(XZ) E(ZZ)-1 E(ZX)(1.14)E( X *y) = E( X Z) E( Z Z )1 Z y注意,上式中Z是(1XL)阶,X是(1XK)阶。因此,X

9、Z是(KXL)阶,Z Z是(L4) 阶,Z X是(LXK)阶。如果要估计出 3 E(X*X)必须是非奇异的,当且仅当E(ZX)的秩为Ko 将其带入 3 = E(X*X)-1 E(X*y),可得3 = E( X *X )-1 E( X *y)=E( X Z) E( Z Z )-1 E( Z X )-1E( X Z) E( Z Z )-1 Z y)(1.15)3的TSLS估计量为:?2sls =权Z(Z Z)-(Z X) F 仅Z(Z Z)-Z y (1.16)1 . 一致性由2SLS估计量可得:/sls =X Z(Z Z产(Z X)-1X Z (Z Z尸Z (X B+u)=B X Z (Z Z)

10、 1(Z X)-1X Z (Z Z产Z u(1.17)=B (N 1X Z)(N AZ Z)(N Z X)-1(N X Z)(N % Z)(N,Z u)由大数定律和 Slustky定理,可得:Plim?2sLs =B。即2SLS估计量具有一致性。2 .渐进正态性根据Plim(N A Z U )= EZi %户0,并由中心极限定理,N2Z u - Normal (0, B)o同方差假定下,B =E(u2Zi Zi) =t2E(Zi Zi) , a2=var(ui) o根据Slutsky定理,疝密sls B) =(NX Z )(NZ Z )(NZ X )-1(N,X Z )(NZ Z 尸(N Z

11、u)(1.18)定理:在假定1、2以及同方差假定下, JN(窝SLS -份渐进服从正态分布,均值为 0,方差矩 阵为二2 %(XZ)E(Z Z) aE(Z X):(1.19)其中,E(X Z)E(Z Z尸E(Z X )可以用样本进行估计,仃2的估计量公式为::?2 =(N -K)八:/:其中,u? =yi -x龟sls ,而不是第二阶段的残差项。gsLS的渐进方差估计量为:Avar(?2SLs)=?2 百二(父i父”=&2因5?尸=k2(i.2i)(i.22)(i.23)SSRj ;j X2对Z回归,y对父i回归,令X2对Z进彳亍OLS(i.24)Step4:构建 LM 统计量1.3.4 异方

12、差稳健推断如果只有假定1、2成立,模型中存在异方差时,言SLS的渐进方差估计量为:(1.25)Avar(传sls)=(又叹)二世2?)(X制。可以用作构建异方差稳健 t统计量。存在异方差时,对参数约束的稳健LM检验。Stepl:用Z作为工具变量,利用 TSLS用y对X i回归,计残差项为 U ;Step2:用X2中每一个变量对 Xi中的所有变量进行 OLS回归,提取残差项 ?;Step3:禾1J用OLS方法回归方程1 =a(M?)+v ,计其回归平方和为SSR。Step4:稳健LM统计量为(N SSR)72 (K2),其中K2表示X2中变量的个数。1.3.5 内生变量的显著性检验1 .单个内生

13、变量的显著性检验在stata中,单个内生解释变量的显著性检验可以通过condivreg实现。Condivreg利用2SLS或LIML方法回归线性模型,并利用条件似然比( conditional likelihood ratio ,简写为 CLR)方法(Moreira (2003) , Andrews, Moreira, and Stock (2006)计算内生变量参数估计量 的置信区间和概率值。Andrews, Moreira, and Stock (2004) 证明,CLR检验是渐进最优的,明显地优于 Anderson and Rubin (1949) 检验和由 Kleibergen (20

14、02) 及 Moreira (2001)提出的 LM 检验。例:.condivreg y1 x1 (y2 = z1 z2 z3), liml interval.condivreg y1 x1 (y2 = z1 z2 z3 z4), ar lm test(0.1)2 .多个内生变量的显著性检验结构方程中内生解释变量显著性检验的Anderson-Rubin 统计量(注意,不要与 Anderson-Rubin过度识别检验混淆)。原假设为:所有内生解释变量的参数都等于 0。对其检 验等价于对简化方程中工具变量Z的联合显著性检验。Anderson-Rubin卡方统at量 卡方分布(自由度为L2 =被排除

15、的工具变量个数)Anderson-Rubin对于弱工具变量是稳健的。例:.ivreg2 lwage exper expersq (educ=fatheduc motheduc), ffirst1.3.6工具变量的冗余检验其中,模型解释变量的个数为 K,其中外生解释变量的X i个数为Ki,内生解释变量 X 2的个数为K= K i + K2。设工具变量Z = (Z1, Z2A, Z2B),共有L个。其中Zi = X i,包含Li = Ki个工具变量。Z2A , Z2B分别包含L2A、L2B个工具变量, 令L2 = L2A + L22 ,则L = Ki + L2A + L2b。检验部分被排除的工具变

16、量Z2b是否是多余的(redundant)。检验统计量是基于解释变量X i与工具变量(Z i, Z 2A, Z 2B)的典型相关系数。如果 X i与(Z i, Z 2A, Z 2B)的典型相关 系数比X i与(Z i, Z 2A)的典型相关系数有了显著提高,则表明工具变量Z 2B不是多余的。统计量渐进服从自由度为K2XL2。参见 Hall and Peixe (2000)。1.4内生性检验与过度识别约束检验在工具变量估计中,有三个问题是需要关注的。第一,解释变量是否具有内生性。如果没有内生性,则LS估计是一致有效估计量,而TSLS估计量则是一致非有效估计量。如果变量具有内生性,则LS估计没有一

17、致性,而 TSLS估计量则具有一致性。即是说, IV估计在保证参数估计计量的一致性特征是有代价的。只有当模型中存在内生解释变量时,TSLS才优于LS。因此,在应用 TSLS方法之前,首先应该检验解释变量具有内生性,称之为内生性 检验。第二,工具变量的正交约束条件是否得以满足。工具变量必须满足两个基本条件:相关 条件和正交条件。在过度识别的模型中,可以检验正交条件是否成立。因此,工具变量(被 排除)的正交检验也叫做过度识别约束检验。过度识别约束检验常用的统计量包括Sargan(i958)、Basmanns (i960)、Hansen J统计量以及 C统计量。实际上,工具变量的正交性检验 和解释变

18、量的内生性检验是一个问题的两个方面。第三,工具变量的有效性问题,即工具变量与内生解释变量必须相关。对于工具变量的有效问题,一般通过偏R2或Shea R2来观察。实践中经常出现的问题是弱工具变量问题。Cragg-Donald和Anderson-Rubin统计量则用于考查弱工具变量问题。1.4.1 内生性检验1. Durbin-Wu-Hausman 检验内生性的检验等价于检验plim( Xu) =0。但检验不能通过 LS估计的残差项进行。因为LS估计的残差项与 X总是不相关的。Hausman ( i978)提出了另外一种检验思路,即Hausman检验。其基本思路是,如果解释变量x具有外生性,那么其

19、对应参数口的OLS估计量具有一致性和有效性,而TSLS估计量具有一致性但没有有效性。所以,如果x是外生的,那么OLS估计量?ls与TSLS估计量?iv之间差异d =?ls - ?iv的概率极限为 0,即Plim d= 0,否则Plim dwOb构建 Wald统计量: 1H =dAsyVar(d) _d(1,26)其中,AsyVar(?LS -?iv ) = AsyVar(?LS)+ AsyVar(?v ) - 2 AsyCoV?ls ,? iv )Hausman (1978)证明,对于参数3的两个一致估计量 ?e和?i ,隹是有效估计量而 ?i是 无效估计量,则 &与(?E ?I)的协方差为0

20、,即(1.27)(1.28)C ov电,?e - 4 ) = Var (?e ) - Cov( ?e , ?i ) = 0Cov(?E,?) =Var (璀)在内生变量的情况下,星=M,?I=?IV。有AsyVar(M - ?iv) = AsyVar(?v ) - AsyVar(M)因此,H统计量可以表达为H =dAsyVar(d),d-(?LS - ?IV ) Var (?IV ) -Var( &S ) ( M -?V )前文已经推导出,AsyVar(机)=o2(XX尸,AsyVar(?IV )=仃2(戏)将其以及方差估计量92带入H统计量可得Var( d)-?iv2(XXy -%(XX )

21、(1.29)H统计量渐进服从 K2个自由度的卡方分布。一般情况下,o2的估计量分别利用TSLS和LS估计各自的残差项来计算。如 Stata中的Hausman命令即是分别计算 TSLS和LS各自的标准差。但是, Hausman统计量虽然渐进有 效,在小样本情况下Var( d)却可能出现负值(或负定矩阵),从而H检验统计量为负值。因此在实践应用中,o2的估计量全部用(?ls2或全部用 Iv2。这样保证了 Var( d)的广义逆的存在, 从而保证了检验统计量取正数。如果用Hls2作为。2的估计量,则Var(d) =Vs2(XX),-(XX广这种统计量由 Durbin ( 1954)、Wu ( 197

22、3)和Hausman (1978)分别提出。经常被称作 Durbin-Wu-Hausman 统计量(简写为 DWH 统计量)。在Stata中,可以利用 Hausman命令中 的sigmamore选项来实现。如果用*v2作为o2的估计量,则Var(d)=mo但实践中我们可能并不确定模型中哪些解释变量是内生的。这种不确定性经常使得我们经常错误地选择过多的工具变量,即:部分工具变量不恰当。对于m个内生解释变量,如果工具变量的个数大于m ,则存在过度识别约束(over-identifying restriction )。过度识别约束的个数为=(工具变量的个数 -内生解释变量的个数)。如果存在 m个工具

23、变量,则不存在过度识别名束的问题;如果存在( m+q)个工具 变量,则存在q个过度识别约束。 过度识别约束检验就是检验这q个过度识别约束是否成立,或者说这(m+q)个工具变量是否合适。检验的核心即是这些工具变量是否与u相关,如果这些工具变量与 u相关,则过度识别约束无效,否则过度识别约束有效。工具变量的两个基本条件中,第二个条件(即z与x相关)可以比较容易地通过x对z回归方程的F检验来完成。而第一个条件也是至关重要的,如何检验第一个条件是否成立呢?如果内生解释变量(设为 x)只有一个工具变量(设为 z),对第一个条件(即 z与u不相关) 的检验则无法实现。但如果存在多个工具变量,则可以通过如下

24、方法实现。对于模型y = X i 囱 + X 2 向 + u其中,模型解释变量的个数为K,其中外生解释变量的 X i个数为Ki,内生解释变量 X 2的个数为K2, K= K i + K2。设工具变量 Z = (Z1, Z 2)。共有L个工具变量,Z i= X i,包含L1个工 具变量,Z2包含L2个工具变量,即 L = Ki + L2。一般地,X i为模型所包含的工具变量,而 Z2为模型所排除的工具变量。如果L2 K2,则存在过度识别约束,(L - K) = (L2 - K2)为过度识别约束的个数。原假设:被排除的工具变量Z2与U不相关,且被正确地排除;备择假设:工具变量Z2无效。令?表示IV

25、估计的残差项,令P =Z(ZZ)-iZ, M = I-Po QPQQP?Sargan (i958) 卡方统计重 =或(小样本修正后的统计重)(U?U?)/N(?)/(N -K)或者Basmanns (i960)卡方统计量?PU?(?MU?)/(N -L)Sargan (i958)拟 F 统计量?PU?/(L -K)(U?)/(N -K)Basmanns (i960)拟 F 统计量?PU?/(L -K)(U?MU?)/(N -L)这两个统计量都渐进服从(L-K)个自由度的卡方分布,均具有一致性。参见Davidson andMacKinnon (i993, 235-36 )。二者的差异在于估计方程

26、标准差的方法,Sargan (i958)利用过度识别约束,而 Basmann (i960)则没有施加过度识别约束。另外,Sargan统计量可以通过计算NR2的形式计算。同方差假定下的基本检验步骤如下。Stepi:利用所有的工具变量Z = (Zi, Z2)回归结构方程,记 TSLS的残差项为?。Step2:用?对所有的外生变量 Z = (Zi, Z2)(包括结构方程中的外生变量以及工具变量) 进彳T OLS回归,其非中心化的可决系数为RC。Step3:构建统计量 nRC-三 4l*)。给定检验水平 口,如果nRuc2大于临界值,则拒绝 原假设,即模型中存在内生解释变量;否则,接受原假设,即所有变

27、量都是外生的。需要注意的是,如果模型存在条件异方差,则Sargan统计量或Basmann统计量均无效。这时,可以利用 GMM估计的Hansen J统计量来实现过度识别约束的检验,称之为稳健的过度识别约束检验。事实上,Sargan统计量是Hansens J统计量在同方差假定下的特殊形式。因此,这两个统计量经常被称作Hansen-Sargan统计量。稳健的过度识别检验可以通过ivgmm0 或 ivreg2 实现。(参见 GMM 估计一章, Hayashi(2000, 227-228) , Baum, Schaffer, and Stillman (2002)。异方差情况下,Sargan统计量可以通

28、过如下步骤实现。Step1:利用所有的工具变量Z = (Z1, Z2)回归结构方程,记 TSLS的残差项为?。Step2:第一阶段回归中的拟合值记为又2。Step3:从Z 2中任意选择 &个工具变量,分别对(X1,又2)进行OLS回归,记其残差 项为P。Step4:利用OLS方法回归方程1=(?”+ v,记其回归平方和为 SSR。Step5:构建统计量 N SSR-J 9凶。给定检验水平 a,如果N-SSR大于临界值,则拒绝原假设,即模型中存在内生解释变量;否则,接受原假设,即所有变量都是外生的。C统计量用于检验部分工具变量的外生性。C等于用部分工具变量回归方程的Hansen-Sargan统计

29、量与用全部工具变量回归方程的Hansen-Sargan统计量的差。原假设为要检验的部分工具变量是有效工具变量。为了保证C统计量是非负数,两个方程的Hansen-Sargan统计量都是用完全正交条件(即有效估计)得出的。在 IV/2SLS估计中,C统 计量是基于无约束模型的MSE计算的;在LIML估计中,C统计量是基于无约束模型与受约束模型的 Anderson-Rubin 过度识别统计量计算的(参见 Hayashi (2000, 218-222 and 232-34)。1.4.3 工具变量的有效性检验作为识别约束,工具变量必须与内生解释变量具有明显的相关性。否则,无法进行估计。所谓工具变量的有效

30、性即是指工具变量与内生解释变量存在相关。设模型为:y = X i 就 + X 2 用 + u其中,模型解释变量的个数为 K,其中外生解释变量的 X i个数为Ki,内生解释变量 X 2 的个数为K2,K= Ki +K2。设工具变量Z =(Zi,Z2)。共有L个工具变量,Zi=Xi,包含L1个工具变量,Z 2包含L2个工具变量。1 , 偏R2统计量、F统计量工具变量的有效性检验即是检验Z2与X2的相关性的检验。这可以通过第一阶段回归中Z 2的联合显著性来实现,即利用F统计量或偏 R2统计量。偏 R2 = (SSEz2-SSEz)/SST其中,SSEZ2表示内生解释变量X 2对Z1的回归平方和,SSEz表示内生解释变量X 2对Z = (Z1,Z2)的回归平方和,SST表示总离差平方和。但F统计量或偏 R2统计量存在一个较大的缺陷。它们只能用于检验Z2与X2的联合显著性,而不能检验 Z 2中单个变量与 X2的相关性。因此,这两种统计量适合于模型中仅存在一 个内生变量的情况。Sheas (1997)提出了另一种偏 R2统计量,称之为Shea R2。Sh

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1