第十一讲自相关和面板数据.ppt

资源描述

《第十一讲自相关和面板数据.ppt》由会员分享，可在线阅读，更多相关《第十一讲自相关和面板数据.ppt（82页珍藏版）》请在三一文库上搜索。

1、自相关,多元线性回归模型的基本经典假定,假设1 随机误差项具有零均值。,假设2 对于解释变量的所有观测值，随机误差项有相同的方差。,(如果违反，则出现异方差),假设3 随机误差项彼此之间不相关,(如果违反，则出现自相关),假设4 所有的解释变量Xi与随机误差项彼此之间不相关。,(遗漏变量中经常出现，会出现参数估计有偏),假设5 解释变量Xi之间不存在精确的线形关系，即解释变量的样本观测值矩阵X是满秩矩阵，应满足关系式： rank(X)=k+1n,(如果违反，则出现多重共线性),假设6 随机误差项服从正态分布，Y也服从正态分布。,在大样本下，这一假设可以放松为i.i.d.,假设7 不太可能出现大

2、异常值。,u的方差协方差矩阵,经典假设,异方差,自相关,异方差经常出现在截面数据中，因为在截面数据中经常会出现的情况。解决方法：异方差稳健的标准差。 FGLS（可行性广义最小二乘法）自相关经常出现在时间序列数据中，因为在时间序列数据中，经常会出现的的情况。面板数据可以看作是截面数据和时间序列的集合，所以既有可能出现异方差，又有可能出现自相关。,截面数据的残差图,时间序列数据的残差图,由于经济活动通常具有某种连续性或持久性，自相关现象在时间序列中很常见。比如，相邻两年的GDP 增长率、通货膨胀率。又比如，某个意外事件或新政策的效应需要逐步地随时间推移而释放出来；滞后的调整过程，比如，最

3、优资本存量需要通过若干年的投资才能逐渐达到。,再比如大多数经济时间数据都有一个明显的特点:惯性，表现在时间序列不同时间的前后关联上。,由于消费习惯的影响被包含在随机误差项中，则可能出现序列相关性（往往是正相关）。,例如，绝对收入假设下居民总消费函数模型： Ct=0+1Yt+t t=1,2,n,或者写成：,其中称为相关系数,自相关的数学形式,自相关的检验,图形法残差与X的散点图自相关图(auto-correlation cofficient) 偏自相关图(partial auto-correlation cofficient),例题：利用B2_lutkepohl.dta数据集建立消费和收入

4、之间的一元线性回归模型。并检验是否存在自回归，是一阶还是高阶。 use B2_lutkepohl.dta, clear tsset year reg consum income predict e1, res scatter e1 income,yline(0) ac e1 pac e1,杜宾和沃特森他们成功地导出了临界值的下限dL和上限dU ，且这些上下限只与样本的容量n和解释变量的个数k有关，而与解释变量X的取值无关。,D.W. 统计量:,D.W检验步骤:,（1）计算DW值（2）给定，由n和k的大小查DW分布表，得临界值dL和dU （3）比较、判断,若 0D.W.dL 存在正自相关 dL

5、D.W.dU 不能确定 dU D.W.4dU 无自相关 4dU D.W.4 dL 不能确定 4dL D.W.4 存在负自相关,0 dL dU 2 4-dU 4-dL,正相关,不能确定,无自相关,不能确定,负相关,经验上DW值1.8-2.2之间接受原假设，不存在一阶自相关。 DW值接近于0或者接近于4，拒绝原假设，存在一阶自相关。 Stata中对方程进行回归后直接使用 dwstat命令即可。,Box-Pierce Q 检验和Bartlett检验（Ljung and Box, 1979）,Q检验和Bartlett检验 reg consum income predict e1,res wntest

6、q e1 wntestb e1,Breusch-Godfrey（LM）检验,reg consum income bgodfrey,自相关的处理：,1。使用“OLS + 异方差自相关稳健的标准差”（Heteroskedasticity and Autocorrelation Consistent Standard Error，简记HAC），即在同时存在异方差与自相关的情况下也成立的稳健标准差。这种方法被称为Newey and West (1987)估计法，它只改变标准差的估计值，并不改变回归系数的估计值。,Newey 稳健型估计(White1980估计的扩展),reg consum incom

7、e newey consum income , lag(1) newey consum income , lag(2),广义差分法： CO-PW方法,Cochrane-Orcutt(1949) 估计(舍弃第一期观察值) Prais-Winsten(1954) 估计(对第一期观察值进行处理 sqrt(1-rho2)*y1),关键问题是，差分的结果一定会损失一个样本（第一个样本）。CO和PW方法给了不同的处理方式。CO为了计算方便而将第一个方程（即第一个观测数据）删去。 PW不删去第一个样本，而是用sqrt(1-rho2)*y1)加以估计。由于时间序列的数据往往较少，所以尽量不损失样本,广义差分

8、的stata命令： prais y x1 x2 x3 （使用默认的PW方法） prais y x1 x2 x3, corc （使用CO方法） prais consum income,corc prais consum income,广义差分法： CO-PW方法,面板数据回归,一些面板数据教材,面板数据分析（美）萧政著横截面与面板数据的经济计量分析伍德里奇著，王忠玉译 Baltagi. Econometric Analysis of Panel Data 最新动态可关注期刊： Journal of Econometrics,时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按

9、时间得到的数据；截面数据是变量在截面空间上的数据。面板数据是同时在时间和截面上取得的二维数据。所以，面板数据（panel data）也称时间序列截面数据（time series and cross section data）或混合数据（pool data）。,面板数据，简言之是时间序列和截面数据的混合。严格地讲是指对一组个体(如居民、国家、公司等) 连续观察多期得到的资料。所以很多时候我们也称其为“追踪资料”。近年来，由于面板数据资料的获得变得相对容易，使其应用范围也不断扩大。,面板数据的格式（例一）,1996-2002年中国15个省级地区的居民家庭人均消费数据（不变价格）（例二）,当描述截

10、面数据时，我们用下标表示个体，如Yi表示第i个个体的变量Y。当描述面板数据时，我们需要其他符号来同时表示个体和时期。为此我们采用双下标而不是单下标，其中第一个下标i表示个体，第二个下标t表示观测时间。于是Yit表示n个个体中第i个个体在T期中的第t个时期内变量Y的观测值。,面板数据用双下标变量表示。例如 Yit, i = 1, 2, , N； t = 1, 2, , T N表示面板数据中含有N个个体。T表示时间序列的最大长度。,对于样本点来说：,Stata中面板数据的表示,在stata中，首先使用xtset命令指定个体特征和时间特征，然后可以用xtdes命令显示面板数据的结构。 use gr

11、unfeld,clear xtset company year xtdes,面板数据的分类,1。短面板和长面板 2。平衡面板和非平衡面板 3。静态面板和动态面板,短面板和长面板,如果面板数据 T 较小，而n 较大，这种面板数据被称为“短面板”（short panel）。（大n小T）如Nlswork.dta 反之，如果T 较大，而n 较小，则被称为“长面板”（long panel）。（大T小n）如Grunfeld.dta,平衡面板和非平衡面板,平衡面板和非平衡面板的区别在于观测值是否有缺失。平衡面板(balanced panel)指所有的观测值，即变量在每个个休和每时期中都能被观测到。(Gr

12、unfeld.dta) 非平街面板(unbalanced panel)指如果至少有一个个体在至少一个时期中的数据没有被观测到。(Nlswork.dta),静态面板和动态面板,静态面板数据模型，是指解释变量中不包含被解释变量的滞后项(通常为一阶滞后项) 的情形。动态面板数据模型，是指解释变量中包含被解释变量的滞后项。如,我们主要学习静态面板数据。,面板数据的优势,（1）可以解决遗漏变量问题：遗漏变量偏差是一个普遍存在的问题。虽然可以用工具变量法解决，但有效的工具变量常常很难找。遗漏变量常常是由于不可观测的个体差异或“异质性”（heterogeneity）所造成，如果这种个体差异“不随时间而改

13、变”（time invariant），则面板数据提供了解决遗漏变量问题的又一利器。（2）提供更多个体动态行为的信息：由于面板数据同时有截面与时间两个维度，有时它可以解决单独的截面数据或时间序列数据所不能解决的问题。,比如，如何区分规模效应与技术进步对企业生产效率的影响。在截面数据中，由于没有时间维度，故无法观测到技术进步。然而，对于单个企业的时间序列数据来说，我们无法区分其生产效率的提高究竟有多少是由于规模扩大，有多少是由于技术进步。（3）样本容量较大：由于同时有截面维度与时间维度，通常面板数据的样本容量更大，可以提高估计的精确度。,面板数据的建模方法主要有三种：固定效应回归模型随机效

14、应回归模型混合回归模型,实例:交通事故死亡人数和酒精税,由此我们就能得出增加啤酒税收会导致更多的交通事故死亡人数吗？不一定，这是因为这些回归中可能存在着巨大的遗漏变量偏差。,影响死亡率的因素有很多，包括州内驾驶的汽车质量、高速公路的维修情况是否良好、大部分驾驶的路程是在乡下还是市内、路上的汽车密度，社会文化能否接受酒后驾车等。这些因素都有可能与酒精税有关。若相关，则会导致遗漏变量偏差。一种解决这些导致遗漏变量偏差潜在根源的方法是收集这些变量的数据，并把它们加入到上式中。不幸的是，我们很难或不可能度量诸如酒后驾车的文化接受度等变量。,解决方法：固定效应OLS回归,具有两个时期的面板数据：“前

15、后”比较,特别注意：Zi不随时间变化,结论：两期的变化表示的回归消除了随时间不变的不可观测变量Zi的效应。换言之，分析Y和X的变化可以控制随时间不变的变量，于是就消除了这种产生遗漏变量偏差的来源。,上述回归控制了诸如对待酒后驾车的文化接受度等固定因素。但依然存在着很多其他影响交通安全的因素，如果它们随时间变化且与啤酒税相关，那么，漏掉它们就会产生遗漏变量偏差。当数据是在两个不同年份里观测得到的时候，这种“前后”分析很有效。但我们的数据集中包含7个不同年份里的观测值，即当T2时不能直接应用这种“前后”比较方法。为了分析该面板数据集中的所有观测值，我们使用固定效应回归方法。,固定效应模型,对于

16、特定的个体i而言，ai 表示那些不随时间改变的影响因素，如个人的消费习惯、国家的社会制度、地区的特征、性别等，一般称其为“个体效应” (individual effects)。如果把“个体效应”当作不随时间改变的固定性因素，相应的模型称为“固定效应”模型。,固定效应模型,对于固定效应模型，可采用虚拟变量法。基本思想：固定效应模型实质上就是在传统的线性回归模型中加入 N-1 个虚拟变量，使得每个截面都有自己的截距项。由于固定效应模型假设存在着“个体效应”，每个个体都有其单独的截距项。这就相当于在原方程中引入n1个虚拟变量（如果省略常数项，则引入n个虚拟变量）来代表不同的个体，获得每个个体的截

17、据项。,例如：共有7个州，方程可以写成：,7个州的回归线斜率相同，但截距不同。第1个州的截距是：第2个州的截距是：第3个州的截距是：,固定效应模型的估计算法,“个休中心化”OLS算法或者组内离差估计法假设原方程为：,(式1),给定第i 个个体，将(式1)两边对时间取平均可得，,(式2),(式1) (式2)，得：,可以用OLS方法一致地估计，称为“固定效应估计量”（Fixed Effects Estimator），记为,由于主要使用了每个个体的组内离差信息，故也称为“组内估计量”（within estimator）。,固定效应模型的优势和劣势,面板固定效应模型的优势是：即使个体特征u

18、i与解释变量Xit相关，只要使用组内估计量，就可以得到一致估计，即即使存在不随时间改变的遗漏变量，也可得到无偏一致的估计。面板固定效应模型的劣势是：模型无法估计不随时间而变的变量之影响，这需要用我们后面要讲到的随机效应模型。,在交通事故死亡人数中的应用,由于(10. 8)式中的“差分”回归只用了1982年和1988年的数据(具体讲就是这两年的差额)，而(10. 15)式中的固定效应回归用到了所有7年的数据，因此这两个回归是不同的。由于利用了更多的数据，因此(10. 15)式中的标准误差小于(10. 8)式中的标准误差。,固定效应模型的stata实现,use grunfeld,clear xt

19、set company year xtdes xtline invest 固定效应模型： xtreg invest mvalue kstock ,fe,回归结果解读,1。三个R2哪个重要？ 2。固定效应为什么有两个F检验？ 3。corr(u_i, Xb) 的含义。 4。 sigma_u、sigma_e、rho的含义。,1。因为固定效应模型是组内估计量（离差），因此，只有within是一个真正意义上的R2，其他两个是组间相关系数的平方。 2。右侧的F统计量表示除常数项外其他解释变量的联合显著性。最后一个F检验，原假设所有U_i=0，即不存在个体效应，此时证明pooled ols 更有效。,首先注

20、意：结果中的u_i不表示残差，而是表示个体效应。,3。corr(u_i, Xb) 个体效应与解释变量的相关系数，相关系数为0或者接近于0，可以使用随机效应模型；相关系数不为0，需要使用固定效应模型。 4。 sigma_u：表示个体效应的标准差 sigma_e：表示干扰项的标准差 rho：rho = sigma_u2 / (sigma_u2 + sigma_e2) 个体效应的波动占整个波动的比例。,显示每个个体截距的方法： tab company,gen(dum) drop dum1 reg invest mvalue kstock dum* 与上述方法比较一下： xi:reg invest m

21、value kstock pany 结果完全一样。,几个常见问题,1。既然固定效应每个个体都有单独的截距项，如何获得每个个体的截距项？ xi:reg invest mvalue kstock pany 即LSDV方法或者添加虚拟变量法。,2。面板数据格式不符合要求的处理。例如如下表格格式该如何处理？处理方法：扁平数据变长条数据的命令：reshape use invest2,clear edit reshape long invest kstock, i(company) j(year),时间固定效应回归,其中St是只随时间改变，不随个体改变的变量，如汽车的性能。,只有时间效应,个体和时间

22、固定效应（双向固定效应模型）,固定效应模型： Yit=ai+XitB+it 双向固定效应模型：Yit=ai+ft+XitB+it 实际上添加了t-1个时间虚拟变量。主要反应随着时间变化的一些特征。 tab year,gen(yr) edit drop yr1 xtreg invest mvalue kstock yr*,fe 大部分时间虚拟变量显著，说明随着时间的变动，invest有不断变动的趋势。,检验：可以使用似然比检验。原假设：时间虚拟变量不显著。 xtreg invest mvalue kstock ,fe est store fe1 xtreg invest mvalue kstock yr*,fe est store fe2 lrtest fe1 fe2 整体来看时间虚拟变量不够显著。,

展开阅读全文