第8虚拟变量模型.ppt_三一文库31doc.com

资源描述

《第8虚拟变量模型.ppt》由会员分享，可在线阅读，更多相关《第8虚拟变量模型.ppt（86页珍藏版）》请在三一文库上搜索。

1、第8章虚拟变量模型,一、虚拟变量的基本含义二、虚拟变量的设置原则三、虚拟变量作用四、虚拟变量的引入五、虚拟变量的特殊应用六、虚拟被解释变量模型,一、虚拟变量的基本含义,许多经济变量是可以定量度量的，其取值可用数值表示，如：商品需求量、价格、收入、产量等但也有一些影响经济变量的因素无法定量度量，如：职业、性别对收入的影响，战争、自然灾害对GDP的影响，季节对某些产品（如冷饮）销售的影响等等，反映这些定性因素的变量被称为品质变量，这些变量由于各种原因不能计量。为了在模型中能够反映这些因素的影响，并提高模型的精度，需要将它们“量化”.,这种“量化”通常是通过人为地虚构出来一种特殊

2、的变量来完成的。即根据这些因素的属性类型，构造只取“0”或“1”的人工变量，通常称为虚拟变量（dummy variables），文献中习惯用表示。,例如，反映性别这个属性的虚拟变量可取为：,一般地，在虚拟变量的设置中：用1表示这种属性或特征存在，用0表示这种属性或特征不存在。或者说，设置虚拟变量时,将比较类型、肯定类型取值为1；而将基础类型、否定类型取值为0。,再如：,虚拟变量模型概念：,把包含虚拟变量的模型称为虚拟变量模型（Dummy Variable Model）,若仅有解释变量中包含虚拟变量，称为虚拟解释变量模型；若被解释变量是虚拟变量，称为虚拟被解释变量模型，或称为离散选择模型。一

3、个以性别为虚拟变量考察企业职工薪金的模型：,其中：Yi为企业职工的薪金，Xi为工龄， Di=1，若是男性，Di=0，若是女性。,研究居民住房消费支出和居民可支配收入之间的数量关系。回归模型的设定为：现在要考虑城镇居民和农村居民之间的差异，如何办？为了对 “城镇居民”、“农村居民”进行区分，分析各自在住房消费支出上的差异，设为城镇; 为农村,则模型为 (模型有截距，“居民属性”定性变量只有两个相互排斥的属性状态（），故只设定一个虚拟变量。),虚拟变量陷阱 (一个例子),虚拟变量陷阱,二、虚拟变量的设置原则,虚拟变量的个数须按以下原则确定：每一定性变量所需的虚拟变量个数要比该

4、定性变量的类别数少1，即如果定性变量有m个类型，只在模型中引入m-1个虚拟变量。每个虚拟变量定义为：,当第i种属性类型出现时，第i,个虚拟变量取1,其它,都取0时，则表示出现第,种属性类型。,虚拟变量皆取0，而当所有,例:虚拟变量反映季节变动的影响,已知冷饮的销售量Y除受k种定量变量Xk的影响外，还受春、夏、秋、冬四季变化的影响，要考察该四季的影响，只需引入三个虚拟变量即可：,则冷饮销售量的模型为：,在上述模型中，若再引入第四个虚拟变量,则冷饮销售模型变量为：,其矩阵形式为：,如果只取六个观测值，其中春季与夏季取了两次，秋、冬各取到一次观测值，则式中的：,显然，(X,D)中的第1列可表示成后

5、4列的线性组合，从而(X,D)不满秩，参数无法唯一求出。这就是所谓的“虚拟变量陷阱”，应避免。,1.可以检验和度量用文字所表示的定性因素的影响例如，为了反映甲、乙两种不同的工艺过程对产量的影响，可以在生产函数中引入描述甲、乙两种不同的工艺过程的虚拟变量：通过对模型中的显著性检验来确定甲、乙两种不同的工艺过程是否对产量有显著影响。,三、虚拟变量的作用,2. 可以测量变量在不同时期的影响,例如：研究我国国民生产总值Y随时间X而增长的过程，需要考虑反常年份这一特殊因素的影响。若定义则引入虚拟变量的模型为通过对参数进行检验，可以检验反常年份对社会总产值有无显著影响，就把受反常年份

6、影响的时期从总过程中区分出来,3. 可以用来处理异常数据的影响。,例如，变量Y和X在长期中基本满足线性回归模型的各个假设，但在时刻有一个突发情况，使得Y出现一个k单位的暂时性波动。如果用线性回归模型分析这两个变量的关系，其误差项的均值是解决的办法是引进一个针对性的虚拟变量，其定义为新的回归模型为：解决了均值非0的问题,其中,四、虚拟变量的引入方式,在计量经济模型中引入虚拟解释变量，一般地有三种方式：加法方式、乘法方式和混合方式。 1.加法方式：所谓加法方式，即将虚拟变量直接作为一个解释变量引入模型，它同其他解释变量之间是相加的关系。当不同类型模型的斜率相同，截距不相同时，可考虑以加

7、法形式引入虚拟变量。以加法方式引入虚拟变量时，主要考虑的问题是定性因素的属性和引入虚拟变量的个数。,（1）解释变量只有一个定性变量而无定量变量，而且定性变量为两种相互排斥的属性；（2）解释变量分别为一个定性变量（两种属性）和一个定量解释变量；（3）解释变量分别为一个定性变量（两种以上属性）和一个定量解释变量；（4）解释变量分别为两个定性变量（各自分别是两种属性）和一个定量解释变量；,加法方式分为四种情形讨论：,（1）一个两种属性定性解释变量而无定量变量的情形,（2) 一个定性解释变量（两种属性）和一个定量解释变量的情形,几何意义：两个函数有相同的斜率，但有不同的截距,Y,X,（3）一个

8、定性解释变量（三种属性）和一个定量解释变量的情形,在工资模型中如果我们考虑的是员工的受教育程度，比如可以将员工的分为：高中以下，高中毕业和大学及其以上三种。如果虚拟变量设为高中以下其他高中毕业其他大学及其以上其他,则,将会出现多重共线性，因此需要去掉一个虚拟变量。,假设模型为：,高中其他大学及其以上其他,模型变为：,估计出的回归方程为：,高中以下：高中：大学及其以上：,假定32，其几何意义：,（3）一个定性解释变量（四种属性）和一个定量解释变量的情形,四个季节对某些商品的需求量分别为：,模型中系数、、、分别反映了四、一、二、三、一季度对该商品的平均影响程度，根据这

9、些系数的统计检验就可以判断季度因素对该商品的需求量是否存在着显著影响。,（4）两个定性解释变量（均为两种属性）和一个定量解释变量的情形,运用OLS得到回归结果，再用t检验讨论因素是否对模型有影响。,各类型居民香烟消费量分别为：,几何意义,加法方式引入虚拟变量的主要作用为： 1.在有定量解释变量的情形下，主要改变方程截距； 2.在没有定量解释变量的情形下，主要用于方差分析。,基本思想: 以乘法方式引入虚拟变量时，是在所设立的模型中，将虚拟解释变量与其它解释变量的乘积，作为新的解释变量出现在模型中，以达到其调整设模型斜率系数的目的。或者将模型斜率系数表示为虚拟变量的函数，以达到相同的

10、目的。乘法引入方式的特点: （1）截距不变；（2）斜率发生变化；,2.乘法方式,例：研究文化用品消费支出Y受收入X、居民身份D的影响，模型形式：,截距不变但斜率发生变化的情形：,3.混合方式：截距和斜率均发生变化,例: 同样研究消费支出Y 、收入X 、居民身份D 间的影响关系。模型形式：,几何意义：,虚拟变量的引入小结：,五、虚拟解释变量特殊应用,所谓特殊应用是指将引入虚拟解释变量的加法方式、乘法方式进行综合使用。基本分析方式：仍然是条件期望分析。本课主要讨论（1）分段回归分析；（2）交互效应分析；（3）结构变化分析,在经济发生转折时期，可通过建立临界指标的虚拟变量模型来反映数

11、量因素的不同阶段。例如，进口消费品数量Y主要取决于国民收入X的多少，中国在改革开放前后，Y对X的回归关系明显不同。这时，可以t*=1979年为转折期，以1979年的国民收入Xt*为临界值，设如下虚拟变量：,则进口消费品的回归模型可建立如下：,1.分段回归分析,用OLS法得到该模型的回归方程为：,几何意义：,1979年之前，回归模型的斜率为； 1979年之前，回归模型的斜率为；,若统计检验表明，显著不为零，则我国居民的消费行为在1979年前后发生了明显改变。,例: 是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总收益的影响研究。模型设定为: （1）式中, 以加法形式引入虚拟变量

12、暗含何假设?,2.交互效应分析,上式以加法形式引入，暗含的假设为：菜籽生产和养蜂生产是分别独立地影响农副品生产总收益。但是，在发展油菜籽生产时，同时也发展养蜂生产，所取得的农副产品生产总收益，可能会高于不发展养蜂生产的情况。即在是否发展油菜籽生产与养蜂生产的虚拟变量和间，很可能存在着一定的交互作用，且这种交互影响对被解释变量农副产品生产收益会有影响。,（1）,为了反映交互效应，将（1）变为：同时发展油菜籽和养蜂生产：发展油菜籽生产：发展养蜂生产：基础类型：,基本思想:在模型中引入相关的两个变量的乘积,如何检验交互效应是否存在？,3.结构稳定性分析,模型结构的稳定性是指两个不同时期

13、(或不同空间)研究同一性质的问题时所建立的同一形式的回归模型的参数之间有无显著差异，如果存在着差异，则认为模型结构不稳定。在现实经济生活中，往往由于某些重要因素的影响，解释变量和被解释变量之间关系可能会发生结构变化；如我国由于经济体制的变化，改革开放前后国民经济总量指标之间的关系都会发生变化；或者研究我国发达地区和不发达地区投资对经济增长的影响，也会因地区不同而产生结构差异等等。这一问题可通过引入乘法形式的虚拟变量来解决,例：以Y为储蓄，X为收入，为反映1992年前后储蓄与收入之间的结构关系有无明显变化，可引入虚拟变量进行检验。设根据两个样本估计的回归模型分别为：,1992年前： Yi=

14、1+ 1 Xi+1i i=1,2,n1 1992年后： Yi= 2 +2Xi+2i i=1,2,n2 设置虚拟变量：将样本1和样本2的数据合并，估计以下模型：然后利用t检验判断、的系数的显著性.,于是有：,则有可能出现下述四种情况中的一种：,(1) 1=2 ，且1 =2 ，即两个回归相同，说明两个回归模型之间没有显著差异，称为重合回归（Coincident Regressions）；模型结构是稳定的 . (2) 1 2,但1 =2 ，说明两个回归模型之间的斜率相同，两个回归模型结构的差异仅在其截距，称为平行回归（Parallel Regressions）; (3) 1= 2 ，但1 2

15、，说明两个回归模型之间的截距相同，两个回归模型结构的差异仅在其斜率，称为汇合回归(Concurrent Regressions)； (4) 12 ，且12 ，即两个回归完全不同，存在着结构差异称为相异回归（Dissimilar Regressions）。,不同截距、斜率的组合图形,结构变化小结,结构变化的实质是检验所设定的模型在样本期内是否为同一模型。显然，平行回归、共点回归、不同的回归三个模型均不是同一模型。平行回归模型的假定是斜率保持不变（加法类型，包括方差分析）；共点回归模型的假定是截距保持不变（乘法类型，又被称为协方差分析）；不同的回归的模型的假定是截距、斜率均为变动的（加法、

16、乘法类型的组合）。,邹氏结构变化的检验,为了检验两个模型的结构是否相同，可提出原假设：两个回归方程的结构相同，然后看看能否拒绝这个假设,这个检验称为Chow检验. 设两个样本待检验回归模型为: 样本1（n1个）样本2 (n2个) 邹检验的基本假定: 将n1与n2个观察值合并，并用以估计以下回归：,(1).假设原假设为真 (2).用OLS对这两个方程分别进行估计，可得到各自的残差平方和和，并求和计算合并后的模型的残差平方和 (3).统计量: (4).查F分布表，得临界值 (5).结论:F 的值,则拒绝回归相同的假设,即拒绝结构稳定性假定;另外,若F的P值低,则拒绝结构稳定性假定.,检验步

17、骤:,1.用虚拟变量只需做一个回归。 2.一个回归可以做各种检验。截距检验和斜率检验都可以一次完成。 3.邹至庄检验没有明确告诉是哪一个系数发生变化，而虚拟变量模型则可以很清楚看出这一点。 4.合并后样本容量变大，估计精度也有所提高,虚拟变量法相比邹至庄检验的优越性：,被解释变量也可以是定性变量，因此，可以用虚拟变量表示。虚拟被解释变量在日常经济活动中常表现在人们的决策行为上，即对某一问题人们要作出“是”或“否”的回答，如是否购买家用汽车，是否购买人寿保险，企业是否在某个地区投资等。当被解释变量只取有限个离散值，特别是只取两个值时，所建立的模型被称为离散选择模型。离散选择模型的目的是对被解释

18、变量取值的概率建模，而不是直接预测其取值。常用的模型有线性概率模型和非线性概率模型（包括Logit模型和Probit模型）。,六、虚拟被解释变量,1 线性概率模型（LPM),即,条件期望事实上可解释为Y在给定 X下事件（家庭拥有住宅）的条件概率，该线性模型称为线性概率模型（LPM）,前面假设干扰项服从正态分布。但在线性概率模型中干扰的正态性不成立,后果,虽然u不服从正态分布，即对参数的估计不会产生影响，因为OLS估计的无偏性、有效性与u的概率分布无关。但进行检验t、F检验等统计推断时，却要求误差项服从正态分布。根据中心极限定理可知，在大样本情况下二项分布趋近于正态分布，所以这时仍然可以

19、在正态分布假定下进行统计推断。,随机误差项的方差,线性概率模型：一个数值例子,我们用一个数值例子来说明线性概率模型的一些问题。表8.1给出40各家庭的住宅所有权Y （1拥有住宅，0不拥有住宅）和家庭收入 X（千美元）的虚构数据。根据这些数据，用 OLS估计的线性概率模型如下：（0.1128）（0.0082） t（-7.6984）（12.515）（8.1）,解释,首先我们来解释这一回归。截距值-0.9457给出零收入的家庭拥有自己的住房的概率。由于是负值，而概率又不可能是负值，我们就把该值当作零看待，这样做在本例中是说得过去的。斜率值0.1021意味着收入每增加1单位，平均地说拥有住宅的

20、概率增加0.1021或约10。当然，对某一给定的收入水平，我们可以从（8.1）估计出拥有住宅的实际概率。例如，对于X12（12000美元），估计拥有住宅的概率是,WLS估计,就是说，收入为12000 美元的家庭拥有住宅的概率为28。对于上面的估计受异方差的影响，因此我们可以用WLS来获得更有效的估计值。由于某些是负的，和某些大于1，对于这些来说，将是负的，因此删去这些值。得到的WLS回归为：,（0.1206）（0.0069） t （-10.332）（17.454）,4、拟和优度通常情况下，拟和优度不会太高，在0.2至0.6之间，当实际的散点非常密集在点A和B处时，

21、才会高。,非线性概率模型,应当指出的是，虽然我们可以采用WLS解决异方差性问题、增大样本容量减轻非正态性问题，通过约束迫使所估的事件Y发生的概率落入0-1，但是，LPM与经济意义的要求不符：随着X的变化，X对的 “边际效应”保持不变。即不论X的变化是在什么水平上发生的，参数都不发生变化，显然这与现实经济所发生的情况是不符的。,2 对数单位模型（Logit Model),因此，表现概率平均变化比较理想的模型应当具有这样的特征：（1）随着增加，也增加，但不超出0-1这个区间。（2）随着X变小,概率趋于零的速度越来越慢，而随着 X变得很大，概率趋于1的速度也越来越慢”。P随X变化而变化，且变化

22、速率不是常数，P和X之间是非线性关系。,这是一个（累积）逻辑斯蒂分布函数为名的模型,(对数单位模型),这些特征正好满足前面讨论的非线性概率模型的要求。,即一个家庭拥有住房的概率对不拥有住房的概率之比。,现在就是有利于拥有住房的机会比率一个家庭将拥有住房的概率对不拥有住房的概率之比。对取自然对数得：即机会比率的对数不仅对为线性，而且对参数也是线性。被称为对数单位模型。,3.对数单位模型,1、从0变到1，对数单位从变到 2、虽然对为线性，但概率本身却不然。 3、斜率系数给出每单位变化的的变化，它告知人们随着收入变化一单位，有利于拥有住房的对数机会比率是怎样变化的。截

23、距是当收入为零时的有利于拥有住房的对数机会比率的值。 4、对给定的某个收入水平，我们其实想估计的并不是有利于拥有住房的机会比，而是拥有住房本身的概率。 5、对数单位模型假定机会比率的对数与有线性关系。,对数模型的特点：,在这种情形下只有用最大似然估计求解，另外的一种估计方法，当我们拥有的数据如下表所示时可以用OLS求解。,用OLS求解,1.数据构造,显然模型中存在异方差，因此我们考虑使用加权最小二乘法，权重取。用代替则可求出：,为了解释二分应变量，有必要使用适当CDF。对数单位模型使用的是累积逻辑斯蒂函数。在实际应用中发现正态CDF效果也不错。使用正态CDF的估计模型通常称为概率单位

24、模型。引入概率单位模型有两种途径：一是模仿前面逻辑斯蒂函数的形式，直接用正态分布函数替换；二是依据麦克法登的效用理论或行为的理性选择引入概率单位模型。,3 概率单位模型(probit Model),直接用正态分布函数替换,用正态分布函数去拟合S曲线时，所得到的模型就是著名的Probit模型。Probit模型的具体形式为：,将其转化成线性模型：,对于模型上式，一般也是采用极大似然估计法进行估计。 Probit模型和Logit模型都是对线性概率模型的改进，两者的区别在于趋于0或1的速率不同。逻辑分布函数趋于0或1的速率慢于正态分布函数的速率。,Logit模型与Probit模型的比较,逻辑分布函

25、数趋于0和1的速度慢于正态分布函数的速度,1、几何形状,下面根据效用理论阐明使用概率单位模型的动机。表示一种不可观测的效用指数，表示收入，仍然研究家庭拥有住房的概率。当越大时，认为拥有住房的概率越大。现在假定有这样一个临界值，当时，该家庭拥有住房，否则不拥有。,在正态性假定下，的概率可由标准化正态 CDF算出。 t是标准化正态变量，。,根据获得关于效用函数以及和的信息，可得到：如果我们掌握了的分组数据，便可由计算出，一旦有了，就可很轻松的估计和在对数单位分析中，被称为正态等效离差(n.e.d.)。当时，将是负数，在实际中通常把5加到上，其结果称为

26、概率单位.,现在估计和。通过下面的式子：概率单位模型的估计步骤： 1、从分组数据中估计出。 2、根据，从标准正态CDF中求出n.e.d. 3、用作为回归的应变量。 4、由于随机误差项存在异方差，因此还要进行数据转换或用WLS估计出最后结果。 5、用普通方式进行假设检验，但得到的结果只在大样本下有效，同时已没有多大价值,概率单位模型的例子,根据所给的数据，可以估计出如下结果。以n.e.d.作为应变量：以概率单位作为应变量：除截距外，两种回归结果没有差别。,比较对数单位与概率单位的估计值: 虽然对数单位模型和概率单位模型给出性质相同的结果，但是两个模型参数的估计值不可直接比

27、较。一般两者参数有如下关系：另外，LPM的系数与对数单位模型的系数有如下关系：不含截距项时含有截距项时,模型的检验与评价,对Logit模型的检验包括参数的显著性检验、拟合优度检验等 1.参数的显著性检验原假设是由于参数的最大似然估计量具有渐进正态性，因此检验统计量为：对给定的显著性水平当时，不能拒绝原假设，认为变量的系数不能通过显著性检验；当时，可以拒绝原假设，认为变量的系数能够通过显著性检验。,2.拟合优度检验,模型参数估计后，选取适当的截断值P（），将观测数据分为两组：归入第一组，归入第二组，其中。如果样本中的一个观测数据Y的取值为0并且该样本属于第一组，或者一个观测数据Y的取值为1并且属于第二组，就称这个观测数据是分组恰当的；否则就称这个观测数据是分组不恰当的。显然，如果模型估计与实际观测数据比较一致，则大多数的观测数据应该是分组恰当的。因此，可以利用分组恰当观测数据占总样本的比例来衡量模型的拟合优度。这种检验方法称为期望-预测表检验。,4 托比（tobit)模型,托比模型是概率的拓展，还是以住房为例，对因变量我们不仅想知道有或是没有，还要问一个消费者相对于其收入花在购房上的金额。出现一个问题：如果一个消费者不买住房就得不到这类消费者的住房支出数据。托比模型就是针对这种情况而言的。,截取样本：仅对某些观测有因变量的信息的样本。,

展开阅读全文