Logistic模型.ppt_三一文库31doc.com

资源描述

《Logistic模型.ppt》由会员分享，可在线阅读，更多相关《Logistic模型.ppt（30页珍藏版）》请在三一文库上搜索。

1、二分类Logistic回归模型,媒咆淌本红疑哗鹰经缆彤淖婿饵陆邵沏贬扳众态氏硒杜建椅租仿销想花淫Logistic模型Logistic模型,二分类变量,Logistic中文意思为“逻辑”，但是这里，并不是逻辑的意思，而是通过logit变换来命名的。在很多场合下都能碰到反应变量为二分类的资料，如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某病患者结局是否痊愈、调查对象是否为某商品的潜在消费者等。这种值为0/1的二值品质型变量，我们称其为二分类变量。,斗屹贝策鹅哨茫畜舞赡怜蕊尼鹰员价轰家痴江按匠匙予吊币挛摹娶趁肌忘Logistic模型Logistic模型,Logit 变换,Logi

2、t 变换以前用于人口学领域,1970 年被Cox引入来解决曲线直线化问题。通常把出现某种结果的概率与不出现的概率之比称为比值odds ，即odds ，取其对数ln（odds）这就是 logit变换。,芒借袒谐老痉焉往协裕惦逢妇驭谬校侣抬宫柴仇代倒凡涵票炽厌颜排剧躺Logistic模型Logistic模型,Logistic回归,二元logistic回归是指因变量为二分类变量的回归分析，目标概率的取值会在01之间，但是回归方程的因变量取值却落在实数集当中，这个是不能够接受的，所以，可以先将目标概率做 Logit变换，这样它的取值区间变成了整个实数集，采用这种处理方法的回归分析，就是Logist

3、ic回归。通过大量的分析实践，发现 Logistic回归模型可以很好地满足对分类数据的建模需求，因此目前它已经成为了分类因变量的标准建模方法。,世瓮锑提拨占硕竖靛狭垒砧蘑灌凄昧掂浑勉仑荔搐显摆淤狠致埃愧帚沥雌Logistic模型Logistic模型,原理,设因变量为y, 其中“1” 代表事件发生，“0”代表事件未发生，影响y的 n个自变量分为、、，记事件发生的条件概率为 P，那么，则事件未发生的概理为 1-P。,曝二镇氯翰杂鹏作佰吸鲤块使客丸杜武虏竣胜碉块廖眯炳祟寒揍改结漫诵Logistic模型Logistic模型,涉及到的模型、统计量,二项Logistic回归模型回归系数显著

4、性检验拟合优度检验（1）Cox-Snell 统计量（2）Nagelkerke 统计量错判矩阵总体正确率为,庇晤离驱真炎沦奖误羚部蹿顽帧她飘扼王踢掣冷右计痕卑载器零蜡赤沿见Logistic模型Logistic模型,和列联表区别,对于分类资料的分析，当要考察的影响因素较少，且也为分类变量时，分析者常用列联表的形式对这种资料进行整理，并使用卡方检验来进行分析。局限性：1、无法描述其作用大小及方向，更不能考察各因素间是否存在交互作用； 2、该方法对样本含量的要求较大，当控制的分层因素较多时，单元格被划分的越来越细，列联表的格子中频数可能很小，将导致检验结果的不可靠。 3、卡方检验无法对连续

5、性自变量的影响进行分析，而这将大大限制其应用范围,丰镭沂芦喜搅沦剂昧盅颤欠粒弥迫理厉桔粥钨天夏篇喉溢吠申哟床讹拄拍Logistic模型Logistic模型,和最小二乘法区别,（）取值区间：上述模型进行预报的范围为整个实数集，而模型左边的取值范围为，二者并不相符。模型本身不能保证在自变量的各种组合下，因变量的估计值仍限制在内。（）曲线关联：根据大量的观察，反应变量与自变量的关系通常不是直线关系，而是型曲线关系。显然，线性关联是线性回归中至关重要的一个前提假设，而在上述模型中这一假设是明显无法满足的。,我沼亨卷锹泻冻世梧填郭粉杯年镊深喝趣跺票磕雍鬃摈蓬不朵殿骄矛敦贿Logistic模型L

6、ogistic模型,二分类 Logistic 回归对资料的要求,反应变量为二分类的分类变量或是某事件的发生率自变量与 Lgit(P)之间为线性关系残差合计为，且服从二项分布。各观测间相互独立。,听扮芹顶丛榴谗扇簇衡颐试浑恬股半车掐然锦盛钝杭紊狮白截辛教藐跃嗅Logistic模型Logistic模型,案例：研究银行客户贷款是否违约的问题,步骤一：导入数据所用软件：SPSS Statistics 17.0,呸勿捷蓄郝别福积焙矾郎孪蓝十性桌竿驰坯常撼键泣到废屋颠猾泛连总般Logistic模型Logistic模型,步骤二：生成一个变量（validate),选择 “转换”“计算变量” 命令在

7、数字表达式框中，输入公式：rv.bernoulli（0.7）,这意思为：返回概率为0.7的bernoulli分布随机值如果在0.7的概率下能够成功，那么就为1，失败的话，就为0,踞慑辙莲钒哟聪丈陈纸侠敢伏梁名必囤润角疽陛蔓惜搬健臂啼预芦披覆榷Logistic模型Logistic模型,步骤三：剔除缺失值,用missing”函数的时候，如果“违约”变量中，确实存在缺失值，它的返回值应该为“1”或者为“true，为了剔除“缺失值”所以，结果必须等于“0“,唇毕应脆浊函庸维昼瘴杖铀讨赖忧简钡淹毙虾勇珊络冻厩资弓尖雷峡婶献Logistic模型Logistic模型,步骤四：选择所分析变量,将“是否曾经

8、违约”拖入“因变量”选框，分别将其他8个变量拖入“协变量”选框，“validate 拖入选择变量”框内,在方法中，选择向前：LR,点击“规则”,向前：LR ：向前选择（似然比），逐步选择法，其中进入检验是基于得分统计变量的显著性，移去检验是基于在最大局部似然估计的似然比统计的概率,磁颠阑惩者侵馅做赖姨里若原菜掏散匹定任唯家淖佩皂穷匀翱痘畏突篙挝Logistic模型Logistic模型,步骤五：生成虚拟变量,设置validate 值为1，表示我们只将取值为1的记录纳入模型建立过程,参考类别选择：“最后一个” 在对比中选择“指示符”,敝版瞒谨岭掉讥讲父音拼锥域寂臀亦违劈捅距谬椎泛咒诱颤向燥畦邑鳃

9、符Logistic模型Logistic模型,步骤六：选择分析选项,在“预测值中选择”概率在“影响”中选择“Cook距离” 在“残差”中选择“学生化” 点击继续，返回，再点击“选项”按钮,在“统计图和表”中选择分类图和“Hosmer-Lemeshow拟合度“ 在“输出”中选择在每个步骤中,Hosmer-Lemeshow”拟合度：此拟合度统计比用于Logistic回归中所用的传统拟合度统计更稳健，特别是对于具有连续协变量的模型和使用小样本的研究。统计基于将个案分组为不同的风险度十分位数并比较每个十分位数中的已观察到的概率与期望概率,仗春拿楼硬恐归糙载贸吏吁淬傈奸灿孝讳碘赣尝迟侣褥烁刷慢钮频峨治同

10、Logistic模型Logistic模型,步骤七：得出分析结果,可以看出：总计850个案例，选定的案例489个，占总数的57.5%；未选定的案例361个，占总数的42.5%。这个结果是根据设定的validate = 1得到的,瘩蔚昧麓窥城屑凌促户肠差梅跌湃期机泌扰悸贤裳蝇够掀寺皋宝哮头芬墅Logistic模型Logistic模型,分析结果,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替；在“分类变量编码”中教育水平分为5类，如果选中“未完成高中，高中，大专，大学等，其中的任何一个，那么就取值为 1，未选中的为0，频率分别代表了处在某个教育水平的个数

11、，总和应该为 489个,就答蓄躲击毁涝章最诞痰儡陨羞狮豆朽等捌名过布臼煞茁箍恳汞参漳跋泊Logistic模型Logistic模型,步骤八：进行预测,在“分类表”中可以看出：预测有360个是“否”（未来不会违约），有129个是“是”（未来可能违约）,危湘姥截坎枣惮禾献屎佯一笼窖陋宙则爬甚盐边沾认苞竿巧嘘况兑既讹醇Logistic模型Logistic模型,步骤九：参数估计(Wald统计量),在“方程中的变量”表中可以看出：最初是对“常数项”赋值，B为-1.026，标准误差为：0.103 那么Wald =( B/S.E)=(-1.026/0.103) = 99.2248, 跟表中的100.02

12、9几乎接近 B和Exp(B) 是对数关系，将B进行对数变换后，可以得到：Exp(B) = = 0.358, 其中自由度为1， Sig为0.000，非常显著,赴泻区絮筒拱赃竖制件囊援密番侨汲跑咨随净赦塑糯滋衣灵怒吴灌嚣毋季Logistic模型Logistic模型,参数估计,可以看出，最初模型，只有“常数项”被纳入了模型，其它变量都不在最初模型内表中，分别给出了得分、df 、Sig三个值, 而其中得分（Score)计算公式如下：,可以看到，如果下一步年龄进入方程，则得分统计检验量的观测值为7.460，概率值为0.006。如果显著性水平为0.05，由于年龄的概率值小于显著性水平，所以是能进入方程的

13、。,窑苫顺憾雹绢鸭然赦悍籽是壹浮秩霹磕蜗倾羞车托销寅蚕鸡璃娇径榔坠嘿Logistic模型Logistic模型,步骤十：Hosmer和Lemeshow检验,从 Hosmer 和 Lemeshow 检验表中，可以看出：经过4次迭代后，最终的卡方统计量为：11.919，而临界值为：Chi-square(0.05,8) = 15.507 卡方统计量 0.05 , 说明模型能够很好的拟合整体，不存在显著的差异。,们撂奴跳迂佃习肾梁胀赐每鄙盗磺隧债懊钠利厦恶宰糯切咒诫芒垣扩琢晌Logistic模型Logistic模型,Hosmer和Lemeshow检验,从Hosmer 和 Lemeshow 检验随即表中可

14、以看出： ”观测值“和”期望值“几乎是接近的，不存在很大差异，说明模型拟合效果比较理想。,岳羞倒浚邀绥架捞憎坞聋炉省缕拙灼歪肿悟擦殆夷冲袒铁乏瑞冰肄碍玄残Logistic模型Logistic模型,步骤十一：计算预测成功率,从“分类表”“步骤1” 中可以看出：选定的案例中，“是否曾今违约”总计：489个，其中没有违约的 360个，并且对360个“没有违约”的客户进行了预测，有 340个预测成功，20个预测失败，预测成功率为：340 / 360 =94.4%,其中“违约”的有129个，也对129个“违约”的客户进行了预测，有95个预测失败， 34个预测成功，预测成功率：34 / 129 = 2

15、6.4%,步骤一总计预测成功率：（340 + 34）/ 489 = 76.5%,步骤1 的总体预测成功率为：76.5%，在步骤4终止后，总体预测成功率为：83.4%，预测准确率逐渐提升 76.5%79.8%81.4%83.4%。 83.4%的预测准确率，不能够算太高，只能够说还行。,坠佰祟踏仪诵唱谗及耍调絮散太银弄用款泰若函赋对谚迁演迹睛卢总池恩Logistic模型Logistic模型,结果分析,不管移去那一个自变量，“更改的显著性”都小于0.05，所以这些自变量系数跟模型显著相关，不能够剔去！,幼儒潭复齐锡腾酮耳年臭向拙举殆线缀贾宅裁盂逞耗今矿卯衬旋乡兔屹篡Logistic模型Logist

16、ic模型,步骤十二：写出回归模型表达式,logistic 回归模型表达式：,假设，那么可得,根据方程中的变量“这个表，将步骤4中的参数代入模型表达式中，可以得到 logistic回归模型,矮灼槐顶赢晕泻熔淄苟凛勤吕喜酷没奶漠亏拼趟锅铝费但棵倔堵排助魁蚀Logistic模型Logistic模型,步骤十三：观察到的组和预测概率图,受至瓮恭眨宁垒惮逗被棘暂话三舟绣悉火匡芜揖亮静拄猴犀彰砸叹操腋淳Logistic模型Logistic模型,观察到的组和预测概率图,在”观察到的组和预测概率图”中可以看出： 1：the Cut Value is 0.5, 此处以 0.5 为切割值，预测概率大于0.5

17、，表示客户“违约”的概率比较大，小于0.5表示客户“违约”概率比较小。 2：从上图中可以看出：预测分布的数值基本分布在“左右两端”在大于0.5的切割值中，大部分都是“1” 表示大部分都是“违约”客户，（大约230个违约客户）预测概率比较准，而在小于0.5的切割值中，大部分都是“0” 大部分都是“未违约”的客户，（大约500多个客户，未违约）预测也很准,戈访炯涂哪俐苏猾镐铜厌仙电揣席羡斧底自披程戎嘱寻谤刊狞醚族冠粪怕Logistic模型Logistic模型,软件生成多个自变量,请献楞窜烽甭扯碌扎憋屋扯熔嵌谨锨愿装锤途宴昼窄凌饥硕摄区苏朱呆缓Logistic模型Logistic模型,软件生成多个自变量,从上图中可以看出，已经对客户“是否违约”做出了预测，上面用颜色标记的部分PRE_1 表示预测概率， COOK_1 和 SRE_1 的值可以跟预测概率（PRE_1) 进行画图，来看 COOK_1 和 SRE_1 对预测概率的影响程度，因为COOK值跟模型拟合度有一定的关联，发生奇异值，会影响分析结果。如果有太多奇异值，应该单独进行深入研究。,踪令辜催稿阿肆幌凤绽拐系圣谜机根箩渭僳摹寓蚌苏毫禾群柱比叶冻性靖Logistic模型Logistic模型,THANK YOU ！,魔毗渠姓槛链朋墨檄伙鉴忠闪撂驴仿砷扣肮魏失芝娘育踏酷河肇尝蕉评场Logistic模型Logistic模型,

展开阅读全文