面板数据回归(Panel Data).ppt

资源描述

《面板数据回归(Panel Data).ppt》由会员分享，可在线阅读，更多相关《面板数据回归(Panel Data).ppt（61页珍藏版）》请在三一文库上搜索。

1、面板数据分析 (Panel Data Analysis),2013,2013年7月9日下午,变量遗漏问题,被解释变量：y 解释变量：x 不可观察的效果：c 我们感兴趣的是：E(yx,c)，不是E(yx) 假设：E(yx,c)=+x +c x与c无关，仍然可以得到的无偏估计量 x与c相关，无法得到的一致估计量,解决办法,寻找c的代理变量p p直接影响因变量y 当给定p时，c对y没有影响 p与随机扰动项无关寻找一个IV Z与c相关，但与随机扰动项无关 Panel Data的方法当遗漏变量不随时间而变化，如国家的初始技术效率，城市的历史，或个人的一些特征等问题的解决得益于对同一个个体的重

2、复观测,一个简单的例子,yt,xt ， t=1,2 c不随时间而改变，但是随个体变化而改变考虑教育回报问题：yt=0+xt+c+ut 外生性假设：E(ut| xt, c)=0 E(xtut)=0 讨论：如果E(xtc)=0，则可以进行Pooled OLS估计如果：E(xtc)0，则Pooled OLS不一致,解决办法：一阶差分（时间上相减） y=x+uc=0不见了,考察古典假设：要求E(xu)=0，即x与u不相关 E(xu)=E(x2-x1)(u2-u1) =E(x2u2)-E(x1u2)-E(x2u1)+E(x1u1) =0 -E(x1u2)-E(x2u1) 则E(x1u2)+E(x

3、2u1)=0 要求xx满列秩，则没有一个x=0，即每个x在t=1,2中随时间有变化,什么是 Panel Data,定义对固定单位、个人、企业、家庭或其他经济体重复观测所形成的数据典型的Panel在时间上进行重复观察跟踪同样的个体（如个人、家庭、企业、城市、国家等）而得到的跨时间数据例单位：i=1,2,N 观察时点：t=1,2, Ti,一般而言，NTi 是Panel Data， Ti N 是多元时间序列数据,如果Ti对于每个单位都相同，叫平衡面板（Balanced Panel）如果Ti对于每个单位不都相同，叫不平衡面板（Unbalanced Panel）对于非平衡面板数据，

4、我们关心非平衡是否是内生的比如，yit是收入，随着时间流逝富人更容易退出样本，因为他们的时间成本比较高，此时数据的非平衡就是内生引起的此时，即使最初的模型是线性模型，yit的条件期望是xit 的线性函数，我们需要非线性的样本选择方法,更多例子,双胞胎数据yij 老大、老二： i=1,2 不同的家庭： j=1,2,J 教师的教学评估成绩yijt 不同的教师：i=1,2,N 所授的课程：j=1,2,Ji 不同学年：t=1,2,Ti 都是对固定单位进行重复观察,面板数据的优势,面板数据模型提供了更多的数据信息，增加了自由度，并减少了解释变量的共线性，从而得到更为有效的估计量面板数据模型可以分析

5、单纯截面数据和时间序列数据无法分析的重要经济问题当遗漏变量是不随时间而变化的表示个体异质性的一些变量时，面板数据可以用来处理某些遗漏变量问题,面板数据模型,广义的面板数据模型：随机参数模型, 参数太多，不可估计需要对 it，t，uit 进行更多的假设限定静态面板数据模型vs.动态面板数据模型如果xit不包含滞后因变量，上述模型为静态线性面板数据模型，否则就是动态线性面板数据模型,= it + xit t + uit ,i = 1,2,.,n, t = 1,.,Ti,yit,双向效应模型：引入个人和时间dummy,个人效应模型,固定效应与随机效应模型：ci是否和xit相关, 固定效应：

6、E(ci | xit ) 0 随机效应： E(ci | xit ) = 0 混合模型（总体均值模型）,= i + t + xit + uit,yit,= ci + xit + uit,yit,= i + xit + uit,yit,= + xit + uit,yit,面板数据模型的假设,以未观测效应模型为例,ci+ uit称为合成误差 (composite error) ci称为个体效应 (individual effect)、个体异质性 (individual heterogeneity)，或不可观测的异质性 uit是随时间和个体变化的特异性误差 (idiosyncratic error),

7、= xit + ci + uit,yit,假设特异性误差uit和解释变量xit是不相关的, 如果个体异质性ci和解释变量xit也不相关，则可以用混合最小二乘（pooled OLS，POLS）来得到一致估计所谓的POLS方法，是指对所有跨i和t的观测值进行OLS回归，对模型进行POLS回归但是个体异质性往往和解释变量相关，此时用 POLS估计得到的估计量是有偏且不一致的，此偏差称为异质性偏差（heterogeneity bias）,这是遗漏（不随时间变化的）变量引起的偏差,严格外生性假设,假设 E(ux, ci)=0 即E(uitxi1, xi2,xis,xiT, ci)=0 等价于

8、E(yitxi1, xi2,xis,xiT, ci)=xit+ci 可以得到E(xituis)=0 解释当ci和xit被控制，对任意的st，xis对yit没有偏效应(patial effect)，即解释变量给定条件ci下是严格外生的,严格外生性假设是一个比较强烈的假设在严格外生性假设下，滞后因变量不能出现在解释变量中严格外生性假设也禁止了t期随机扰动项uit 对t+1期解释变量xit+1的影响如果解释变量中包含有政策变量，而政策变量经常会对前期的冲击进行调整，即为冲击的反馈效应(feedback effect)，此时uit 和xit+1相关，严格外生性假设被违反,面板数据模型的

9、估计量,Pooled OLS 估计量：前面介绍过如果解释变量xit与ci和uit都不相关，POLS一致但是方差的估计结果有问题总的随机扰动项存在序列相关 Cov(ci+uit, ci+uit+1) 0，且很高如果固定效应面板模型是正确的话，POLS不一致 Cov(xit, ci) 0 Cov(xit, ci+uit+1) 0,组间(between) 估计量：, POLS运用时间和截面上的变化估计组间估计量运用不同个人间的变化估计, 如果与、ci不相关，则对上式的POLS估计一致不是最有效的,组内(within) 估计量：, 也称为固定效应(FE)估计量 POLS运用时间和截面

10、上的变化估计组间估计量运用不同个人间的变化估计组内估计量运用同一个个人的变化估计, 无法识别时间固定的解释变量的影响,一阶差分(FD)估计量：, 面板数据模型滞后一期并相减得到： yit = xit + uit 对上式进行POLS估计满足严格外生性假设时，FD估计量一致 E(uit | xi 2 ,xi 3 ,.,xiT ) = 0 当uit服从随机游走时(random walk)，FD估计量最有效 E(ui ui | xi ,i ) = u 2IT 1 在T=2而且平衡面板的条件下，FD估计量和FE 估计量是一样的,随机效应面板模型Random-Effect Panel Model,

11、如果总体很大，抽取的样本单位具有较大的随机性，那么与个体有关的效应将被视为具有随机分布的性质,基本假设,假设RE.1 (a) 严格外生性 E(uit|xi,ci)=0, xi=xi1,xi2,xiT,t=1,2,T,(b) ci独立于xit，即 Eci|xi=Eci=0,RE.3假设 (a)同方差假设：,E(u u | x ) = 2 I (b) E(c2 | x ) = 2,i i iu T,i i c,假设RE.2,具体表述：,这种结构表明误差项是同方差且存在序列相关的,在RE.1-RE.3成立时，如果我们用Pooled OLS来估计模型，估计量是一致的但是POLS估计量忽略了随机

12、误差项的结构信息，所以不是有效的,而且其方差-协方差矩阵不会等于 2 ( X X )1,因此可以考虑GLS的方法 RE.1和RE.2假设保证后面的GLS估计结果是一致的，RE.3保证v具有同方差结构，从而假设保证FGLS估计结果是最有效的,v,RE估计：GLS,在RE.1-RE.3成立时，如果我们用Pooled OLS来估计模型，估计量是一致的但是POLS估计量忽略了随机误差项的结构信息，所以不是有效的,而且其方差-协方差矩阵不会等于 2 ( X X )1,因此可以考虑GLS的方法 RE.1和RE.2假设保证后面的GLS估计结果是一致的，RE.3保证v具有同方差结构，从而假设保证

13、FGLS估计结果是最有效的,v,随机效应估计量实际上是通过准去除时间均值（quasi time demeaning）而得到的随机效应并不是在每个时间t去掉因变量和自变量的时间均值，而是在每个时间t去掉时间均值的一部分,对Q个多重假设 H0 : R = r 进行假设检验在RE.3成立时，可用F检验不论RE.3是否成立，都可以用Wald检验：,RE.3成立与否，决定对的估计方法,随机效应模型的参数检验,对Unobserved Effect存在性的检验,如果不存在Unobserved Effect，直接用 Pooled OLS估计就可以了对Unobserved Effect存在性的检验

14、也可以看成是模型设定检验在Pooled Model和RE Model之间进行选择,检验假设：H0: 2c = 0，即vit不存在序列相关,Breusch and Pagan (1980) 检验拉格朗日乘数检验(LM) 依赖于对uit的正态假设具体检验统计量为,原假设成立下，LM统计量卡方分布，自由度为1,Wooldridge (2002)检验统计量BPW,在原假设成立下，vit序列不相关，BPW的渐进分布是标准正态分布该统计量能够探察vit中的许多种序列相关但是拒绝原假设并不意味着RE的误差结构就是正确的如果xit中没有包括滞后的被解释变量，vit即使满足Random Ef

15、fect的误差结构，原假设仍然会被拒绝,固定效应模型 Fixed-Effect Panel Model,固定效应模型的基本假设,与RE模型最大的不同在于,FE模型假设ci可以与uit相关，即对ciuit是否成立不做假定。由于少了RE中的独立性假定,FE比RE的结果更加稳健。 X中不能包含不随时间改变的变量解释变量如果包含不随时间变化的变量，我们无法识别这些变量对的影响不随时间变化的变量指的是对所有的样本单位都不随时间而变化。如果该变量对部分样本单位随时间变化，就可以包含进来。,固定效应转换估计,固定效应模型的估计策略是转换方程消去不可观测的效应ci 我们可以采用一阶差分的方法，也可以采用固

16、定效应转换 (fixed effects transformation) 固定效应转换也叫做组内转换 (within transformation),的固定效应估计量, FE是对组内模型进行的POLS估计，所以也称为组内估计量,在固定效应模型假设下，是无偏且一致的, FE.1严格外生性假设中中假定E(uit|xi,ci)=0 可以推出,但是如果在随机效应模型假设下，仅仅用了组内的信息，因此它不是有效估计量,在固定效应模型假设下，是无偏且一致的, FE.1严格外生性假设中中假定E(uit|xi,ci)=0 可以推出,但是如果在随机效应模型假设下，仅仅用了组内的信息，因此它不是有效估

17、计量,虚拟变量回归(LSDV),虚拟变量回归是传统的固定效应估计方法把ci看成参数，和一起进行估计对此，可以采用最小二乘虚拟变量回归定义,有 yit,= xit + di c + uit,估计结果,可以证明：,最小二乘虚拟变量回归得到的的估计量和固定效应估计量是一样的 Wooldridge (2002)认为这里 LSDV和 FE 相等仅仅是一种巧合很多情况下，尤其在非线性面板数据模型中，把c看成参数和一起进行估计得到的估计量是不一致的,非主要参数问题,当截面观测增加时，ci的个数也增加了当n趋于无穷大，ci并没有截面信息的积累，而时间长度T是固定的，随着截面长度 n趋于无穷

18、大，非主要参数ci的个数也趋于无穷大加上非线性模型的复杂性很难先行消去ci ，参数的估计也被污染（contaminated），从而在一般情况下也无法得到一致估计量,虚拟变量回归估计量性质, FE是的一个无偏估计量，当T固定而n趋于无穷时， FE 是的一个一致估计量；而 ci 仅仅是ci 的无偏估计量，在T固定时 ci 不是一致估计量计量软件一般不汇报固定效应ci的估计值，不过经常会汇报整体截距项的值,随机效应和固定效应估计量的比较,可以证明：, RE估计量是组间回归估计量和FE估计量的加权平均 FE模型对ci与xi的关系不作假定，因此比RE更Robust，其代价是： FE中由于包

19、含了一个均值 x ，自由度自动减少,了一个，并且的精度降低；, 解释变量过多，易引起多重共线性(LSDV)； FE观察不出不随时间改变的变量的影响,FE,随机效应和固定效应估计量的比较,或,E(ci | Xi ) = E(ci ) = 0,Cov(ci , xit ) = 0,RE还是FE：Hausman检验,仅仅从估计量的性质来说，我们可能认为，随机效应估计量要好于固定效应在对两个估计量进行比较时，我们发现当个体效应方差非常大的情况或T非常大时，FE估计量是RE估计量的一个极限但是，随机效应模型有一个非常强的假设：,FE是无论原假设成立与否都是一致的，但在原假设下不是有效的 RE在原

20、假设下是一致的，并且渐进有效（样本越大越有效），但如果原假设被拒绝，则RE不是一致的不论在原假设还是备择假设下，我们都保持严格外生假设。如果严格外生假设被违反，则固定效应和随机效应估计量都是不一致的,RE还是FE：应用考虑,数据当数据为省份、国家、单位资料时，即为非随机抽取的资料时用FE较合适；为随机抽取的资料时,用RE较合适研究问题：政策分析政策变量通常会与观察不到的个体特征ci与观察到的xi相关 ci与xi存在相关性 FE模型更合适,Stata程序应用实例,假设有3期的跟踪数据，变量及数据如下：,截面1：,截面2：,截面3：,use D:cross1.dta for

21、each aaa of varlist y-d ren aaa aaa1 sort id save D:ff1.dta, replace use D:cross2.dta foreach bbb of varlist y-d ren bbb bbb2 sort id save D:ff2.dta, replace use D:cross3.dta foreach ccc of varlist y-d ren ccc ccc3 sort id save D:ff3.dta, replace,1. 创建panel data：,调整过后，各截面的变量名修正为（数值不变）：,截面1：,截面2：,截面3

22、：,2. 截面合并:,use D:ff1.dta merge id using D:ff2.dta drop _merge sort id merge id using D:ff3.dta drop _merge save D:total.dta, replace,合并后的文件”total”中，数据格式如下：,3.转化为面板数据：,use D:total.dta xtset id reshape long y a b c d, i(id) j(year) save D:sample.dta, replace,转化后的面板数据格式：,如果仍将转化回宽数据格式，命令行如下:,use D:sampl

23、e.dta reshape wide y-d, i(id) j(year) save D:sample.dta, replace,面板数据回归指令：,GLS random-effects (RE) model xtreg depvar indepvars if in , re RE_options Between-effects (BE) model xtreg depvar indepvars if in , be BE_options Fixed-effects (FE) model xtreg depvar indepvars if in weight , fe FE_options M

24、L random-effects (MLE) model xtreg depvar indepvars if in weight , mle MLE_options,实例：,Random-effects (RE) model: xtreg y a b c d, i(id) xtreg y a b c d if a=25, i(id) Fixed-effects (FE) model: xtreg y a b c d, fe i(id) Logit Model: xtlogit y a b c d, i(id) xtlogit y a b c d, fe i(id) Probit Model: xtprobit y a b c d, i(id),xtlogit nest01 childsurv married trueage agesq male rural, fe est store fe,面板模型的Hausman检验,xtlogit nest01 childsurv married trueage agesq male rural est store re,面板模型的Hausman检验,hausman fe,面板模型的Hausman检验,

展开阅读全文