第四章定性变量的建模.ppt

资源描述

《第四章定性变量的建模.ppt》由会员分享，可在线阅读，更多相关《第四章定性变量的建模.ppt（119页珍藏版）》请在三一文库上搜索。

1、第四章定性变量的建模,背景,定类与定序变量统称为定性变量在经济领域，许多重要因素都需要使用定性数据加以刻画：经济体制（改革前-改革后）、所有制形式（国有-集体-外资等等）、区域（东-中-西）、性别（男-女）、信用等级自变量采用定性数据，在量化与解释上要十分注意，因变量如果采用定性数据，会给模型的估计与解释带来更大的困难。,背景,本章的研究对象是定性变量无论是定类还是定序，处理方法是一致的但，当定序变量的水平很多时，可以当定量变量处理例：大学排名,背景,定性变量的水平可以是自然的，也可以是人为规定的自然的：性别人为规定：规定水平：相貌对工资的影响合并水平（计量等级的退化）：

2、地区差异对人均收入的影响大学排名对最初工资的影响,背景,有时，自变量的影响有如下模式：在某个区间内的变动，不会显著影响因变量，但区间外与区间内的不同则会有显著影响。此时直接用原始变量效果不好，则可将变量转换为水平较少的定性变量进行建模定量变量的系数不显著，有时将其退化为定性变量就会显著。,背景,定性变量有些来自于不得已有些来自于主动,主要内容,一、定性变量作为自变量的建模方法虚拟变量法二、定性变量作为因变量的建模方法,一、定性变量作为自变量的建模,（一）二值变量的建模 1、二值变量的量化方法 2、回归系数的含义 3、多个虚拟变量的建模与解释 4、含虚拟变量模型的其他变化 5、Cho

3、w检验（二）多值变量的建模,（一）二值变量的建模,所谓二值变量，是指变量只有两种可能取值，是某种属性或者不是二值变量可以是自然的，也可以是人为规定的人为规定：所有制：国有企业-非国有企业,1、二值变量的量化方法,可以有三种量化方法 1）,1、二值变量的量化方法,2）,1、二值变量的量化方法,3）,1、二值变量的量化方法,使用虚拟变量（dummy variable）的基本原则 0，1只是代号用0，1代入，会有较好的经济含义二值变量，只需设置一个虚拟变量，否则会出现完全共线性问题（有截距项）,2、回归系数的含义,较正式的表述：,2、回归系数的含义,虚拟变量回归系数的基本含义：不同属性模

4、型之间的截距移动,2、回归系数的含义,虚拟变量回归系数可以解释为：在其他因素水平相同的情况下，不同属性的平均差异以前数据为例，虚拟变量回归系数为67，意味着在资本水平相同的情况下，三资企业的平均利润要高于国有及国有控股企业67亿元。在解释时，一定要注意谁是基组（取0）,2、回归系数的含义,类似模型都蕴含有一个假定：斜率是一致的，即无论对于哪一组（按虚拟变量属性划分），其它变量对因变量的影响都是一样的,3、多个虚拟变量的建模与解释,如果在自变量有两个以上虚拟变量，则可以有三类建模方法,3、多个虚拟变量的建模与解释,3、多个虚拟变量的建模与解释,第一种模型可以变化为四组方程：,3、多个虚拟

5、变量的建模与解释,所以，虚拟变量回归系数的含义：,3、多个虚拟变量的建模与解释,第二种模型也可以变化为四组方程：,3、多个虚拟变量的建模与解释,所以，虚拟变量回归系数的含义（平均意义上）：,4、含虚拟变量模型的其他变化,考虑交互影响的模型显然，资本水平不同，利润会有不同，三资企业和国有企业的差异也不会都是67亿元,4、含虚拟变量模型的其他变化,在交互模型中，虚拟变量前的回归系数只表示在资本为0情况下，三资企业与国有企业的利润差距,4、含虚拟变量模型的其他变化,交互模型中虚拟变量前回归系数的经济含义不好，可以采用如下方法解决：,4、含虚拟变量模型的其他变化,4、含虚拟变量模型的其他变化,交互项

6、的引入实际意味着非虚拟变量的斜率是不一致的。,4、含虚拟变量模型的其他变化,判断是否需要交互项，可通过相应系数的t检验来进行；要注意到：是否需要交互项等价于检验斜率是否相等；,5、Chow检验,简言之，所以需要虚拟变量，是因为在虚拟变量不同水平下，自变量对因变量的影响程度有差别，这种差别表现在截距和斜率上。判断系数是否相同的方法是使用Chow statistics进行检验。,5、Chow检验,邹至庄统计量（ Chow statistics ）检验对象：两个变量相同、样本不同的模型的回归系数是否相同。,5、Chow检验,检验统计量：,5、Chow检验,判断规则如果样本F值大于临界值，则

7、可拒绝原假设，认为各回归系数（包括截距项）中至少有一个系数不同。如果不能，则两组样本可以合并，统一建模。,如果允许截距不同，仅需要判断斜率是否相同，办法是：在模型中设置交互项，检验所有交互项的联合显著性，如果不能拒绝原假设，应认为斜率无显著差异。,（二）多值变量的建模,多值变量意味着虚拟变量有3个以上取值，如考虑季节的影响，则季节有四个水平。,（二）多值变量的建模,正确量化方法,（二）多值变量的建模,基本原则：只用0，1来量化，0，1只表示真或不真只需设置比水平数少一个的虚拟变量,（二）多值变量的建模,基本解释每个虚拟变量前的系数都表示和基组（不专设虚拟变量的组）相比，在因变量上的平

8、均差异。,（二）多值变量的建模,对于定序变量而言，由于水平之间的差值依然没有意义，所以，上述方法仍然适用。,（二）多值变量的建模,有时，某定性因素的多个虚拟变量在统计上都不显著，但这并不意味着该因素就一定是不显著的，此时联合检验将发挥关键作用。,要点,自变量中定性变量的回归系数，在解释上与定量变量有很大不同，此时判定系数含义，主要不使用导数，而是依靠将定性变量代入，计算不同方程之间的差别。,二、因变量为定性变量,线性概率模型（LPM） Logit模型 Probit模型 Tobit模型,（一）线性概率模型,Linear Probability Model,（一）线性概率模型,线性概率模型的解释,

9、（一）线性概率模型,线性概率模型的问题 1、异方差 2、常规检验失效 3、函数设定不当 4、易出现无法解释的结果,异方差,函数设定不当,线性概率模型是线性的，而实际是非线性关系,函数设定不当,易出现无法解释的结果,由于函数形式设定不当，预测时很难避免出现得到的Y值大于1或小于0的情况，为结果的解释带来困难。,解决思路,（二）Logit模型,又称Logistic模型，该模型克服了线性概率模型的取值范围的弱点。,（二）Logit模型,（二）Logit模型,（二）Logit模型,（二）Logit模型,（二）Logit模型,1、模型的解释 2、模型的数据与估计 3、模型的检验 4、累积模型与多项模型,

10、1、模型的解释,1、模型的解释,发生比和发生比率（Odds and Odd Ratio）发生比率是为了比较发生比而提出的指标,1、模型的解释,计算发生比与发生比率,1、模型的解释,自变量为定量变量的解释,1、模型的解释,发生比的相对变化率,1、模型的解释,自变量为定量变量的解释回归系数的指数表示在其他因素不变情况下，相应自变量增加1个单位，发生比变化的幅度与方向，即发生比率。价格上升1单位，发生比率为0.9564，即需求超过100的发生比下降，变化率为-4.36%,1、模型的解释,自变量为定量变量的解释需要了解自变量发生一个离散的变化，如价格下降100元时，发生比的变化。,1、模型的解

11、释,自变量为虚拟变量的解释,1、模型的解释,自变量为虚拟变量的解释,1、模型的解释,自变量为虚拟变量的解释回归系数的指数表示在其他因素不变情况下，两种属性在发生比上的差异。高等级与低等级，发生比率为57.76，即高等级产品需求大于100的发生比为低等级的57.76倍,2、模型的数据与估计,进入模型的数据分为两类：微观数据分组数据,2、模型的数据与估计,微观数据,2、模型的数据与估计,分组数据,2、模型的数据与估计,对于微观数据，最小二乘法是无用武之地的。,2、模型的数据与估计,对于分组数据，为避免异方差，可以使用加权最小二乘关键在于同一分组有几个数据，可以计算概率,2、模型的数据与估

12、计,对于微观数据，一般采用极大似然估计（Maximum Likelihood Estimation，MLE）基本思想假定一枚硬币，其抛掷后为正面的真实概率有两种可能取值：0.1和0.01，如果做一次试验，结果为正面，则应估计概率为0.1。,2、模型的数据与估计,MLE的基本思想,2、模型的数据与估计,在Y为二分变量的情况下，服从贝努里分布，得到一个观测值的概率为：,2、模型的数据与估计,为便于计算，取对数：,2、模型的数据与估计,2、模型的数据与估计,极大似然估计主要适用于大样本（100以上基本可以）当大样本情况下，MLE将具有一致性、渐近有效性和渐近正态性等优良性质。,2、模型的数据

13、与估计,分组数据：加权最小二乘法用根据样本获得的频率来代替概率，获得对数发生比，进行计算。,2、模型的数据与估计,2、模型的数据与估计,2、模型的数据与估计,由此可知，方差的估计为：,3、模型的检验,模型整体的评价拟合优度拟合准确性模型卡方统计参数的检验,3、模型的检验,模型整体的评价（1）拟合优度 Hosmer-Lemeshow指标 AIC SC,（1）拟合优度,Hosmer-Lemeshow指标将预测概率值按升序排列，根据预测概率值的大小将数据分成大致相同规模的10个组，由于有相同预测概率的数据必须放在同一组中，所以各组规模一般不会相同，由于同样的原因，也有可能无法分成10组

14、。,（1）拟合优度,Hosmer-Lemeshow指标,（1）拟合优度,Hosmer-Lemeshow指标决策规则：如果HL小于临界值，不显著，则表示模型拟合数据注意：如果分组少于5，则不能使用这一指标。,（1）拟合优度,AIC（Akaikes information criterion）,（1）拟合优度,SAS当中AIC的定义只能用以比较同一数据的不同模型,（1）拟合优度,SC（Schwarts criterion） AIC和SC都是越小越好的,（2）拟合准确性,类R2指标（Analogous R2）,（2）拟合准确性,等级相关评价用类似肯达尔系数的方法观察所有因变量不同值的观测数据

15、对。 Concordant：如果值为1的预测概率大于为0的，为concordant ； Discordant：如果值为1的预测概率小于为0的，为discordant ； Tie：如果值为1的预测概率等于为0的，为tie ；,（2）拟合准确性,例：,（2）拟合准确性,因变量不同值的总对数：6 （取0值样本数乘以取1值样本数） concordant：5对 discordant：1对 tie：0对,（2）拟合准确性,一致对比例越大越好,基于极大似然估计的检验,似然比检验（likelihood ratio） Wald检验 Lagrange乘数检验（ Lagrange multiplier）,基于极大似

16、然估计的检验,似然函数原假设或者理解为对参数估计的约束条件,基于极大似然估计的检验,基于极大似然估计的检验,似然比检验的统计量（大样本）,基于极大似然估计的检验,Wald检验的统计量,基于极大似然估计的检验,Lagrange乘数检验,基于极大似然估计的检验,一般的结果 WLRLM,（3）模型卡方统计,所谓模型卡方是指零假设模型与所设模型在-2倍对数似然值上的差距,回归系数的检验,Wald检验,4、累积模型与多项模型,当因变量分类数须在3个以上时，可以使用累积Logit模型（Cumulative Logit Model）或多项模型（Multinomial Logit Model）前者适用于定

17、序变量，后者适用于分类变量,4、累积模型与多项模型,多分类定序变量成绩：（优、良、中、差）态度：（强烈反对、反对、中立、支持、强烈支持）需求：（大于200、大于100、不到100）信用、股票表现等等,4、累积模型与多项模型,有学者认为，当分类超过5个，可以当定量变量处理但由于定序变量差距的含义始终是无意义的，所以即使超过5个，也会产生误导,4、累积模型与多项模型,累积模型的定义,4、累积模型与多项模型,核心思想：构造一个隐变量，它是一个连续变量，而将实际变量理解为这个隐变量的一个外在的表现。,4、累积模型与多项模型,给定X的累积概率可以按如下形式表示：,4、累积模型与多项模型,采用

18、Logistic函数（为一种分布函数），则模型可以表示为：,4、累积模型与多项模型,假如J=4：,4、累积模型与多项模型,不同Logit函数之间斜率相同截距不同所以，使用累积模型需要检验不同累积对数发生比的回归线是否平行，非截距项是否相同,4、累积模型与多项模型,例：注意：对SAS而言，系数不要乘以负号；截距不表示门槛，是门槛与截距项之和。,4、累积模型与多项模型,获得对数发生比，可以推出累积概率，进一步可以推出特定类别的概率。,4、累积模型与多项模型,4、累积模型与多项模型,如果为分类变量，或者拒绝了斜率相同假设，还可以使用多项模型在多项模型中，logit的it是指两种属性水平的发生比多项模型中，每一模型不仅截距不同而且斜率也不一样。,（三）其他广义线性模型,Probit模型用标准正态分布的累积分布函数代替Logistic函数,（三）其他广义线性模型,robit模型的系数和logit模型不具有可比性，一般认为，probit模型的系数乘以1.84，就可以得到logit模型系数的近似值，也有人认为，应乘以1.6。,（三）其他广义线性模型,Tobit模型适用于截取样本（Censored sample），例如在正值区间为连续变量，但总体中有相当部分取值为0的情况,

展开阅读全文