第四章定性变量的建模.ppt

上传人:土8路 文档编号:11787562 上传时间:2021-09-11 格式:PPT 页数:119 大小:584.02KB
返回 下载 相关 举报
第四章定性变量的建模.ppt_第1页
第1页 / 共119页
第四章定性变量的建模.ppt_第2页
第2页 / 共119页
第四章定性变量的建模.ppt_第3页
第3页 / 共119页
第四章定性变量的建模.ppt_第4页
第4页 / 共119页
第四章定性变量的建模.ppt_第5页
第5页 / 共119页
点击查看更多>>
资源描述

《第四章定性变量的建模.ppt》由会员分享,可在线阅读,更多相关《第四章定性变量的建模.ppt(119页珍藏版)》请在三一文库上搜索。

1、第四章 定性变量的建模,背景,定类与定序变量统称为定性变量 在经济领域,许多重要因素都需要使用定性数据加以刻画: 经济体制(改革前-改革后)、所有制形式(国有-集体-外资等等)、区域(东-中-西)、性别(男-女)、信用等级 自变量采用定性数据,在量化与解释上要十分注意,因变量如果采用定性数据,会给模型的估计与解释带来更大的困难。,背景,本章的研究对象是定性变量 无论是定类还是定序,处理方法是一致的 但,当定序变量的水平很多时,可以当定量变量处理 例:大学排名,背景,定性变量的水平可以是自然的,也可以是人为规定的 自然的:性别 人为规定: 规定水平:相貌对工资的影响 合并水平(计量等级的退化):

2、 地区差异对人均收入的影响 大学排名对最初工资的影响,背景,有时,自变量的影响有如下模式:在某个区间内的变动,不会显著影响因变量,但区间外与区间内的不同则会有显著影响。此时直接用原始变量效果不好,则可将变量转换为水平较少的定性变量进行建模 定量变量的系数不显著,有时将其退化为定性变量就会显著。,背景,定性变量有些来自于不得已 有些来自于主动,主要内容,一、定性变量作为自变量的建模方法 虚拟变量法 二、定性变量作为因变量的建模方法,一、定性变量作为自变量的建模,(一)二值变量的建模 1、二值变量的量化方法 2、回归系数的含义 3、多个虚拟变量的建模与解释 4、含虚拟变量模型的其他变化 5、Cho

3、w检验 (二)多值变量的建模,(一)二值变量的建模,所谓二值变量,是指变量只有两种可能取值,是某种属性或者不是 二值变量可以是自然的,也可以是人为规定的 人为规定:所有制:国有企业-非国有企业,1、二值变量的量化方法,可以有三种量化方法 1),1、二值变量的量化方法,2),1、二值变量的量化方法,3),1、二值变量的量化方法,使用虚拟变量(dummy variable)的基本原则 0,1只是代号 用0,1代入,会有较好的经济含义 二值变量,只需设置一个虚拟变量,否则会出现完全共线性问题(有截距项),2、回归系数的含义,较正式的表述:,2、回归系数的含义,虚拟变量回归系数的基本含义: 不同属性模

4、型之间的截距移动,2、回归系数的含义,虚拟变量回归系数可以解释为:在其他因素水平相同的情况下,不同属性的平均差异 以前数据为例,虚拟变量回归系数为67, 意味着在资本水平相同的情况下,三资企业的平均利润要高于国有及国有控股企业67亿元。 在解释时,一定要注意谁是基组(取0),2、回归系数的含义,类似模型都蕴含有一个假定: 斜率是一致的,即无论对于哪一组(按虚拟变量属性划分),其它变量对因变量的影响都是一样的,3、多个虚拟变量的建模与解释,如果在自变量有两个以上虚拟变量,则可以有三类建模方法,3、多个虚拟变量的建模与解释,3、多个虚拟变量的建模与解释,第一种模型可以变化为四组方程:,3、多个虚拟

5、变量的建模与解释,所以,虚拟变量回归系数的含义:,3、多个虚拟变量的建模与解释,第二种模型也可以变化为四组方程:,3、多个虚拟变量的建模与解释,所以,虚拟变量回归系数的含义(平均意义上):,4、含虚拟变量模型的其他变化,考虑交互影响的模型 显然,资本水平不同,利润会有不同,三资企业和国有企业的差异也不会都是67亿元,4、含虚拟变量模型的其他变化,在交互模型中,虚拟变量前的回归系数只表示在资本为0情况下,三资企业与国有企业的利润差距,4、含虚拟变量模型的其他变化,交互模型中虚拟变量前回归系数的经济含义不好,可以采用如下方法解决:,4、含虚拟变量模型的其他变化,4、含虚拟变量模型的其他变化,交互项

6、的引入实际意味着非虚拟变量的斜率是不一致的。,4、含虚拟变量模型的其他变化,判断是否需要交互项,可通过相应系数的t检验来进行; 要注意到:是否需要交互项等价于检验斜率是否相等;,5、Chow检验,简言之,所以需要虚拟变量,是因为在虚拟变量不同水平下,自变量对因变量的影响程度有差别,这种差别表现在截距和斜率上。 判断系数是否相同的方法是使用Chow statistics进行检验。,5、Chow检验,邹至庄统计量( Chow statistics ) 检验对象: 两个变量相同、样本不同的模型的回归系数是否相同。,5、Chow检验,检验统计量:,5、Chow检验,判断规则 如果样本F值大于临界值,则

7、可拒绝原假设,认为各回归系数(包括截距项)中至少有一个系数不同。如果不能,则两组样本可以合并,统一建模。,如果允许截距不同,仅需要判断斜率是否相同,办法是: 在模型中设置交互项,检验所有交互项的联合显著性,如果不能拒绝原假设,应认为斜率无显著差异。,(二)多值变量的建模,多值变量意味着虚拟变量有3个以上取值, 如考虑季节的影响,则季节有四个水平。,(二)多值变量的建模,正确量化方法,(二)多值变量的建模,基本原则: 只用0,1来量化,0,1只表示真或不真 只需设置比水平数少一个的虚拟变量,(二)多值变量的建模,基本解释 每个虚拟变量前的系数都表示和基组(不专设虚拟变量的组)相比,在因变量上的平

8、均差异。,(二)多值变量的建模,对于定序变量而言,由于水平之间的差值依然没有意义,所以,上述方法仍然适用。,(二)多值变量的建模,有时,某定性因素的多个虚拟变量在统计上都不显著,但这并不意味着该因素就一定是不显著的,此时联合检验将发挥关键作用。,要点,自变量中定性变量的回归系数,在解释上与定量变量有很大不同,此时判定系数含义,主要不使用导数,而是依靠将定性变量代入,计算不同方程之间的差别。,二、因变量为定性变量,线性概率模型(LPM) Logit模型 Probit模型 Tobit模型,(一)线性概率模型,Linear Probability Model,(一)线性概率模型,线性概率模型的解释,

9、(一)线性概率模型,线性概率模型的问题 1、异方差 2、常规检验失效 3、函数设定不当 4、易出现无法解释的结果,异方差,函数设定不当,线性概率模型是线性的,而实际是非线性关系,函数设定不当,易出现无法解释的结果,由于函数形式设定不当,预测时很难避免出现得到的Y值大于1或小于0的情况,为结果的解释带来困难。,解决思路,(二)Logit模型,又称Logistic模型,该模型克服了线性概率模型的取值范围的弱点。,(二)Logit模型,(二)Logit模型,(二)Logit模型,(二)Logit模型,(二)Logit模型,1、模型的解释 2、模型的数据与估计 3、模型的检验 4、累积模型与多项模型,

10、1、模型的解释,1、模型的解释,发生比和发生比率(Odds and Odd Ratio) 发生比率是为了比较发生比而提出的指标,1、模型的解释,计算发生比与发生比率,1、模型的解释,自变量为定量变量的解释,1、模型的解释,发生比的相对变化率,1、模型的解释,自变量为定量变量的解释 回归系数的指数表示在其他因素不变情况下,相应自变量增加1个单位,发生比变化的幅度与方向,即发生比率。 价格上升1单位,发生比率为0.9564,即需求超过100的发生比下降,变化率为-4.36%,1、模型的解释,自变量为定量变量的解释 需要了解自变量发生一个离散的变化,如价格下降100元时,发生比的变化。,1、模型的解

11、释,自变量为虚拟变量的解释,1、模型的解释,自变量为虚拟变量的解释,1、模型的解释,自变量为虚拟变量的解释 回归系数的指数表示在其他因素不变情况下,两种属性在发生比上的差异。 高等级与低等级,发生比率为57.76,即高等级产品需求大于100的发生比为低等级的57.76倍,2、模型的数据与估计,进入模型的数据分为两类: 微观数据 分组数据,2、模型的数据与估计,微观数据,2、模型的数据与估计,分组数据,2、模型的数据与估计,对于微观数据,最小二乘法是无用武之地的。,2、模型的数据与估计,对于分组数据,为避免异方差,可以使用加权最小二乘 关键在于同一分组有几个数据,可以计算概率,2、模型的数据与估

12、计,对于微观数据,一般采用极大似然估计 (Maximum Likelihood Estimation,MLE) 基本思想 假定一枚硬币,其抛掷后为正面的真实概率有两种可能取值:0.1和0.01,如果做一次试验,结果为正面,则应估计概率为0.1。,2、模型的数据与估计,MLE的基本思想,2、模型的数据与估计,在Y为二分变量的情况下,服从贝努里分布,得到一个观测值的概率为:,2、模型的数据与估计,为便于计算,取对数:,2、模型的数据与估计,2、模型的数据与估计,极大似然估计主要适用于大样本(100以上基本可以) 当大样本情况下,MLE将具有一致性、渐近有效性和渐近正态性等优良性质。,2、模型的数据

13、与估计,分组数据:加权最小二乘法 用根据样本获得的频率来代替概率,获得对数发生比,进行计算。,2、模型的数据与估计,2、模型的数据与估计,2、模型的数据与估计,由此可知,方差的估计为:,3、模型的检验,模型整体的评价 拟合优度 拟合准确性 模型卡方统计 参数的检验,3、模型的检验,模型整体的评价 (1)拟合优度 Hosmer-Lemeshow指标 AIC SC,(1)拟合优度,Hosmer-Lemeshow指标 将预测概率值按升序排列,根据预测概率值的大小将数据分成大致相同规模的10个组,由于有相同预测概率的数据必须放在同一组中,所以各组规模一般不会相同,由于同样的原因,也有可能无法分成10组

14、。,(1)拟合优度,Hosmer-Lemeshow指标,(1)拟合优度,Hosmer-Lemeshow指标 决策规则:如果HL小于临界值,不显著,则表示模型拟合数据 注意:如果分组少于5,则不能使用这一指标。,(1)拟合优度,AIC(Akaikes information criterion),(1)拟合优度,SAS当中AIC的定义 只能用以比较同一数据的不同模型,(1)拟合优度,SC(Schwarts criterion) AIC和SC都是越小越好的,(2)拟合准确性,类R2指标(Analogous R2),(2)拟合准确性,等级相关评价 用类似肯达尔系数的方法观察所有因变量不同值的观测数据

15、对。 Concordant:如果值为1的预测概率大于为0的,为concordant ; Discordant:如果值为1的预测概率小于为0的,为discordant ; Tie:如果值为1的预测概率等于为0的,为tie ;,(2)拟合准确性,例:,(2)拟合准确性,因变量不同值的总对数:6 (取0值样本数乘以取1值样本数) concordant:5对 discordant:1对 tie:0对,(2)拟合准确性,一致对比例越大越好,基于极大似然估计的检验,似然比检验(likelihood ratio) Wald检验 Lagrange乘数检验( Lagrange multiplier),基于极大似

16、然估计的检验,似然函数 原假设或者理解为对参数估计的约束条件,基于极大似然估计的检验,基于极大似然估计的检验,似然比检验的统计量(大样本),基于极大似然估计的检验,Wald检验的统计量,基于极大似然估计的检验,Lagrange乘数检验,基于极大似然估计的检验,一般的结果 WLRLM,(3)模型卡方统计,所谓模型卡方是指零假设模型与所设模型在-2倍对数似然值上的差距,回归系数的检验,Wald检验,4、累积模型与多项模型,当因变量分类数须在3个以上时,可以使用累积Logit模型(Cumulative Logit Model)或多项模型(Multinomial Logit Model) 前者适用于定

17、序变量,后者适用于分类变量,4、累积模型与多项模型,多分类定序变量 成绩:(优、良、中、差) 态度:(强烈反对、反对、中立、支持、强烈支持) 需求:(大于200、大于100、不到100) 信用、股票表现等等,4、累积模型与多项模型,有学者认为,当分类超过5个,可以当定量变量处理 但由于定序变量差距的含义始终是无意义的,所以即使超过5个,也会产生误导,4、累积模型与多项模型,累积模型的定义,4、累积模型与多项模型,核心思想: 构造一个隐变量,它是一个连续变量,而将实际变量理解为这个隐变量的一个外在的表现。,4、累积模型与多项模型,给定X的累积概率可以按如下形式表示:,4、累积模型与多项模型,采用

18、Logistic函数(为一种分布函数),则模型可以表示为:,4、累积模型与多项模型,假如J=4:,4、累积模型与多项模型,不同Logit函数之间 斜率相同 截距不同 所以,使用累积模型需要检验不同累积对数发生比的回归线是否平行,非截距项是否相同,4、累积模型与多项模型,例: 注意: 对SAS而言,系数不要乘以负号; 截距不表示门槛,是门槛与截距项之和。,4、累积模型与多项模型,获得对数发生比,可以推出累积概率,进一步可以推出特定类别的概率。,4、累积模型与多项模型,4、累积模型与多项模型,如果为分类变量,或者拒绝了斜率相同假设,还可以使用多项模型 在多项模型中,logit的it是指两种属性水平的发生比 多项模型中,每一模型不仅截距不同而且斜率也不一样。,(三)其他广义线性模型,Probit模型 用标准正态分布的累积分布函数代替Logistic函数,(三)其他广义线性模型,robit模型的系数和logit模型不具有可比性,一般认为,probit模型的系数乘以1.84,就可以得到logit模型系数的近似值,也有人认为,应乘以1.6。,(三)其他广义线性模型,Tobit模型 适用于截取样本(Censored sample),例如 在正值区间为连续变量,但总体中有相当部分取值为0的情况,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1