第五章判别分析.ppt

上传人:本田雅阁 文档编号:2524891 上传时间:2019-04-05 格式:PPT 页数:94 大小:1.07MB
返回 下载 相关 举报
第五章判别分析.ppt_第1页
第1页 / 共94页
第五章判别分析.ppt_第2页
第2页 / 共94页
第五章判别分析.ppt_第3页
第3页 / 共94页
亲,该文档总共94页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第五章判别分析.ppt》由会员分享,可在线阅读,更多相关《第五章判别分析.ppt(94页珍藏版)》请在三一文库上搜索。

1、第五章 判别分析 v5.1 引言 v5.2 距离判别 v5.3 贝叶斯判别 v5.4 费希尔判别 v5.5 逐步判别 1 判别分析的目标 v目标1(预测方面):分类(或分配)。 在已知历史上用某些方法已把研究对象分成若干组 (亦称类或总体)的情况下,来判定新的观测样品 应归属的组别。 v目标2(描述方面):分离。 就是用图形(通常二维,有时三维或一维,一般通 过降维实现)方法或代数方法描述来自各组的样品 之间的差异性,最大限度地分离各组。 2 5.1 引言 v判别分类的例子: 1.有偿付力与无偿付力的财产责任保险公司。 测量变量:总资产,股票与债券价值,股票与债券 的市值,损失支出,盈余,签定

2、的保费金额。 2.非溃疡胃病组(胃功能紊乱者)与控制组(“正常” 者)。 测量变量:焦虑、依赖性、罪恶感、完美主义的量 度 3 3.两种野草。 测量变量:萼片与花瓣的长度,花瓣裂缝的深度, 苞的长度,花粉直径。 4.新产品的速购者与迟购者。 测量变量:教育,收入,家庭大小,过去更换品牌 的次数。 5.良好信用与不良信用风险。 测量变量:收入,年龄,信用卡数目,家庭规模。 v每一组中所有样品的p维指标值 构 成了该组的一个p元总体分布,我们试图主要从各组 的总体分布或其分布特征出发来判断新样品x是来自 哪一组的。 4 5.2 距离判别 v一、两组距离判别 v二、多组距离判别 5 一、两组距离判别

3、 v设组1和2的均值分别为1和2,协差阵分别为1和 2(1,20) ,x是一个新样品(p维),现欲判断它 来自哪一组。 v1. 1=2=时的判别 v2. 12时的判别 6 1. 1=2=时的判别 v判别规则: v 7 其中 。 v令 ,则上述判别规则可简化为 称W(x)为两组距离判别的(线性)判别函数,称a为 判别系数向量。 8 (5.2.3) 误判概率 v误判概率 v设1Np(1, ), 2Np(2, ),则 其中 是两组之间的马氏距离。 v可见,两个正态组越是分开(即越大),两个误判概率就 越小,此时的判别效果也就越佳。当两个正态组很接近时, 两个误判概率都将很大,这时作判别分析就没有什么

4、实际意 义了。 9 组之间是否已过于接近的界定 v我们可对假设H0:1 =2,H1:12进行检验,若 检验接受原假设H0 ,则说明两组均值之间无显著差 异,此时作判别分析一般会是徒劳的;若检验拒绝 H0 ,则两组均值之间虽然存在显著差异,但这种差 异对进行有效的判别分析未必足够大(即此时作判 别分析未必有实际意义),故此时还应看误判概率 是否超过了一个合理的水平。 10 v例5.2.1 设p=1,1和2的分布分别为N(1,2)和N(2,2), 1,2,2均已知,12,则判别系数a=(12)/ 20, 判别函数: 判别规则: 误判概率: 误判概率图示: 11 抽取样本估计有关未知参数 v设 是来

5、自组1的样本, 是来自组 2的样本,n1+n22p,则1和2的一个无偏估计分别为 的一个联合无偏估计为 其中 12 v实际使用的判别函数为 这里 。其判别规则为 v若1和2都为正态组,则两个误判概率P(2|1)和P(1|2)可估计 为 其中。 该误判概率的估计是有偏的,但大样本时偏差的影响是可以 忽略的。 13 (5.2.5) 误判概率的非参数估计 v若两组不能假定为正态组,则P(2|1) 和 P(1|2) 可以用样本中 样品的误判比例来估计,通常有如下三种非参数估计方法: v(1)令n(2|1)为样本中来自1而误判为2的个数,n(1|2)为样本 中来自2而误判为1的个数,则P(2|1) 和P

6、(1|2) 可估计为 该方法简单、直观,且易于计算。但遗憾的是,它给出的估 计值通常偏低,除非n1和n2都非常大。 14 出现这种乐观估计的原因是,被用来构造判别函数 的样本数据又被用于对这个函数进行评估,该判别 函数自然对构造它的样本数据有更好的适用性,以 致出现偏低的误判率。 15 v(2)将整个样本一分为二,一部分作为训练样本,用于构造判 别函数,另一部分用作验证样本,用于对判别函数进行评 估。误判概率用验证样本的被误判比例来估计,如此得到的 估计是无偏的。 该方法的两个主要缺陷: (i)需要用大样本; (ii)该方法构造的判别函数只用了部分样本数据,与使用全部 样本数据构造的判别函数(

7、这是作判别时实际使用的)相比 ,损失了过多有价值的信息,其效用自然不如后者,表现为 前者的误判概率通常将高于后者的,而后者的误判概率才是 我们真正感兴趣的。该缺陷随样本容量的增大而逐渐减弱, 当样本容量相当大时此缺陷基本可忽略。 16 v(3)称为交叉验证法或刀切法。从组1中取出x1j,用该组的其 余n11个观测值和组2的n2个观测值构造判别函数,然后对 x1j进行判别,j=1,2,n1。同样,从组2中取出x2j,用这一组 的其余n21个观测值和组1的n1个观测值构造判别函数,再 对x2j作出判别,j=1,2,n2。令n*(2|1)为样本中来自1而误判 为2的个数,n*(1|2)为样本中来自2

8、而误判为1的个数,则 两个误判概率P(2|1)和P(1|2)的估计量为 它们都是接近无偏的估计量。 17 2. 12时的判别 v判别规则 v也可采用另一种形式:选择判别函数为 它是x的二次函数,相应的判别规则为 18 (5.2.10) v例5.2.2 在例5.2.1中,设1和2这两个组的方差不相同,分 别为 ,这时 当10),2(0),k(0),x到总体i的平方马氏距离 为 判别规则为 v该判别规则不受变量单位的影响。 v若1=2=k=,则上述判别规则可简化为: d2(x,i)=(xi)1(xi)=x1x2i1x+i1i =x1x2(Iix+ci) 其中 ,判别规则简化为 21 这里Iix+c

9、i为线性判别函数。 v当组数k=2时,可将上式写成 此式等价于书中的(5.2.3)式。 v实践中1,2,k和1,2,k一般都是未知的,它们的值可由 相应的样本估计值代替。设 是从组i中抽取的 一个样本,则i可估计为 (i=1,2,k)。 22 (5.2.13) (5.2.14) 1=2=k=的情形 v的联合无偏估计为 其中n=n1+n2+nk, 为第i组的 样本协方差矩阵。 v实际应用中使用的判别规则是 其中 。 23 (5.2.15) 1,2,k不全相等的情形 vi可估计为Si(i=1,2,k)。 v实际应用中使用的判别规则是 其中 24 (5.2.16) 判别分类是否有效 v除非各组均值向

10、量之间有明显的差异,否则就不适 合作判别分类。 v在各组的数据均近似服从多元正态分布,且有共同 的协方差矩阵的假定下,我们可先进行多元方差分 析。 如果检验没有发现均值间的显著差异,则此时再作 判别分类将是白费精力; 如果检验结果有显著差异,则可考虑再进行判别分 类,但并不意味着所作的判别一定有效,最终还得 看一下误判概率。 25 1,2,k是否假定为相等 v在实际应用中,1,2,k不太会完全相等,我们需 要关心的是,1,2,k之间是否存在着明显的差 异。若没有明显的差异,则通常可以考虑假定 1=2=k=,从而使用与此相应的判别规则。此 时的判别函数为线性函数。 v如果对是否应该假定1=2=k

11、=拿不准,则可以 同时采用相等和不相等两种情形下的相应判别规则 分别进行判别,然后用交叉验证法来比较其误判概 率的大小,以判断到底采用哪种规则更为合适。 26 例5.2.3 v对破产的企业收集它们在破产前两年的年度财务数 据,同时对财务良好的企业也收集同一时期的数据 。数据涉及四个变量:x1=现金流量/总债务,x2=净 收入/总资产,x3=流动资产/流动债务,以及x4=流动 资产/净销售额。数据列于表5.2.1,组为破产企业 ,组为非破产企业。 27 编号组别x1x2x3x4编号组别x1x2x3x4 1-0.45-0.411.090.45240.380.113.270.35 2-0.56-0.

12、311.510.16250.190.052.250.33 30.060.021.010.4260.320.074.240.63 4-0.07-0.091.450.26270.310.054.450.69 5-0.1-0.091.560.67280.120.052.520.69 6-0.14-0.070.710.2829-0.020.022.050.35 70.040.011.50.71300.220.082.350.4 8-0.07-0.061.370.4310.170.071.80.52 90.07-0.011.370.34320.150.052.170.55 10-0.14-0.141.4

13、20.4333-0.1-0.012.50.58 11-0.23-0.30.330.18340.14-0.030.460.26 120.070.021.310.25350.140.072.610.52 130.0102.150.7360.150.062.230.56 14-0.28-0.231.190.66370.160.052.310.2 150.150.051.880.27380.290.061.840.38 160.370.111.990.38390.540.112.330.48 17-0.08-0.081.510.4240-0.33-0.093.010.47 180.050.031.68

14、0.95410.480.091.240.18 190.0101.260.6420.560.114.290.44 200.120.111.140.17430.20.081.990.3 21-0.28-0.271.270.51440.470.142.920.45 220.510.12.490.54450.170.042.450.14 230.080.022.010.53460.580.045.060.13 表5.2.1 破产状况数据 28 v使用书中判别规则(5.2.15)进行判别 29 的联合估计为 30 于是 对某个未判企业x=(0.16, 0.10, 1.45, 0.51),计算得 按判别规

15、则(5.2.15),该企业被判为破产企业。 表5.2.3 判别情况 判别为 真实组 183 124 31 v在表5.2.3中,估计的误判概率为 v使用交叉验证法,判别情况列于表5.2.4。 v在表5.2.4中,估计的误判概率为 表5.2.4 判别情况 判别为 真实组 183 223 32 v如果使用判别规则(5.2.16)进行判别,则由(5.2.7)式 算出的误判率为 v由交叉验证法估算出的误判概率为 33 5.3 贝叶斯判别 v一、最大后验概率法 v二、最小期望误判代价法 34 距离判别不合适的一个例子 v1(校研究生组):N1=2000, 1=500 2(校本科生组):N2=8000, 2

16、=400 研究生组中x500的有1000人,本科生组中 x500的有2000人。某学生的x=500,试判别该生归 属哪一组。 v该例如采用距离判别法则显然不妥,应考虑利用如 下的先验概率: 35 一、最大后验概率法 v 设有k个组1, 2, k,且组i的概率密度为fi (x) , 样品x来自组i的先验概率为pi ,i=1,2,k,满足p1+p2 +pk =1 。则x属于i的后验概率为 v最大后验概率法是采用如下的判别规则: 36 (5.3.2) v例5.3.1 设有1,2和3三个组,欲判别某样品x0属于何组, 已知p1=0.05,p2=0.65,p3=0.30,f1(x0)=0.10, f2(

17、x0)=0.63, f3(x0)=2.4。现计算x0属于各组的后验概率如下: 所以应将x0判为组3。 37 皆为正态组的情形 v设iNp(i,i),i0, i=1,2,k。这时,组i的概率密度为 fi(x)=(2)p/2|i|1/2exp0.5d2(x,i) 其中 d2(x,i)=(xi)i 1 (xi) 是x到i的平方马氏距离。 v以下各情形下后验概率的具体计算公式。 当p1=p2=pk=1/k,1=2=k=时, 38 当p1=p2=pk=1/k,而1,2,k不全相等时, 当1=2=k=,而p1,p2,pk不全相等时, 当p1,p2,pk不全相等,1,2,k也不全相等时, 39 v上述各情形

18、的后验概率可统一表达为 其中 D2(x,i)=d2(x,i)+gi+hi 40 v称D2(x, i)为x到i的广义平方距离。在正态性假定下,上述 判别规则也可等价地表达为 v当1=2=k=时,上述后验概率公式可简化为 其中Ii=1i,ci=0.5i1i, i=1,2,k。此时,判别规则等价 于 v如果我们对x来自哪一组的先验信息一无所知,则一般可取 p1=p2=pk=1/k。这时,判别规则简化为(5.2.13)式。 41 v实际应用中,以上各式中的i和i(i=1,2,k)一般都是未知的 ,需用相应的样本估计值代替。 v例5.3.2 在例5.2.3中,已知破产企业所占的比例约为10%, 即可取p

19、1=0.1,p2=0.9,假定两组均为正态,且1=2=,则 未判企业x=(0.16, 0.10, 1.45, 0.51)的后验概率为 由于P(1|x)0, i=1,2。 v当1=2=时,(5.3.13)式可具体写成 其中a=1(12), 。 在p1=p2,c(1|2)=c(2|1)的条件下上式将退化为(5.2.3) 式。 53 v重要结论:在两组皆为正态组且协差阵相等的情形下,距离 判别(5.2.3)等价于不考虑先验概率和误判代价(相当于p1=p2 ,c(1|2)=c(2|1))时的贝叶斯判别,(作为(5.3.17)式的一个 特例)此时它是最优的,即能使总的误判概率达到最小。 v实践中,因未知

20、参数需用样本值替代,故实际所使用的判别 规则(5.2.5)只是渐近最优的。 v当12时,(5.3.13)式可写为 其中d2(x,i)=(xi)i1(xi), i=1,2。 54 v在p1=p2,c(1|2)=c(2|1)的条件下上式可简化为 v若进一步假定|1|=|2|,则判别规则(5.3.20)将与距离判别的 (5.2.10)式一致。 v基于二次函数的判别规则相比线性判别规则,其判别效果更 依赖于多元正态性的假定(参见参考文献34,第462页)。 v实践中,为了达到较理想的判别效果,需要时可以考虑先将 各组的非正态性数据变换成接近正态性的数据,然后再作判 别分析。 55 (5.3.20) 3

21、.多组的情形 v设 fi(x)为组i的概率密度函数,i=1,2,k。令 pi组i的先验概率,i=1,2,k。 c(l|i)将来自i的x判为l的代价, l,i=1,2,k, 对l=i,c(i|i)=0,i=1,2,k。 Rl所有判为l的x的集合,l=1,2,k。 因而对l,i=1,2,k,将来自i的样品x判为l的条件概 率为 56 期望误判代价 57 v使ECM达到最小的判别规则是 v假定所有的误判代价都是相同的,不失一般性,可令c(l|i)=1, li, l,i=1,2,k,则此时 称为总的误判概率。故此时的最小期望误判代价法也可称为 最小总误判概率法,并且上式可简化为 让 减去上面等式的两边

22、,即有更简洁的形式: 58 v它与(5.3.2)式是等价的。因此,此时的最小总误判概率法等 同于最大后验概率法,或者说,最大后验概率法可看成是所 有误判代价均相同时的最小期望误判代价法。 v当p1=p2=pk=1/k时,上式又进一步简化为 该判别规则实际上也是一种极大似然法。 59 v注 令 B=误判,Ai=样品来自i,i=1,2,k 则利用全概率公式得总的误判概率为 此外,总的正确判别概率为 60 v例5.3.4 在例5.3.1中,假定误判代价矩阵为 现采用最小ECM规则进行判别。 l=1:p2f2(x0)c(1|2)+p3f3(x0)c(1|3) =0.650.6320+0.302.460

23、=51.39 l=2:p1f1(x0)c(2|1)+p3f3(x0)c(2|3) =0.050.1010+0.302.450=36.05 l=3:p1f1(x0)c(3|1)+p2f2(x0)c(3|2) =0.050.10200+0.650.63100=41.95 由于l=2时为最小值,故将x0判为2。 61 5.4 费希尔判别 v费希尔判别(或称典型判别)的基本思想是投影( 或降维):用p 维向量 的少数几个线 性组合(称为费希尔判别函数或典型变量) (一般r明显小于p)来代替原始的p 个变量x1,x2, ,xp ,以达到降维的目的,并根据这r个判别函数 y1,y2,yr对样品的归属作出判

24、别或将各组分离。成功 的降维将使样品的归类或组的分离更为方便和有效 ,并且可以对前两个或前三个判别函数作图,从直 观的几何图形上区别各组。 62 一个说明性的二维例子 63 v设来自组i的p维观测值为xij,j=1,2,ni,i=1,2,k,将它们 共同投影到某一p维常数向量a上,得到的投影点可分别对应 线性组合yij=axij,j=1,2,ni,i=1,2,k。 v费希尔判别需假定1=2=k=。 64 三组之间的分离程度 65 图5.4.2 三组之间的分离程度 123 vyij的组间平方和及组内平方和分别为 v式中 v可用来度量yij的组之间分离程度的一个量是 66 v在约束条件aSpa=1

25、下,寻找a,使得(a)达到最大,其中 是的联合无偏估计。 v设E1H的全部非零特征值依次为12s0,这里 s=rank(H),且有 smin(k1,p) 相应的特征向量依次记为t1,t2,ts(标准化为tiSpti=1, i=1,2,s )。 v当a1= t1时(a1)达到最大值1。所以,选择投影到t1上能使各 组的投影点最大限度地分离,称y1=t1x为费希尔第一线性判 别函数,简称第一判别函数。 v在许多情况下(如k或p是大的),仅仅使用第一判别函数也 许不够,应考虑建立y2=a2x,且满足 67 v用Sp代替未知的,于是在约束条件 t1Spa2=0(或t1Ea2=0) 下寻找a2,使得(a

26、2)达到最大。当a2= t2时(a2)达到最大值2 ,称y2=t2x为第二判别函数。如还不够,可再建立第三判别 函数y3,依次类推。一般地,我们要求第i个线性组合yi=aix 不重复前i1个判别函数中的信息,即 v用Sp替代,上式变为 v在上述约束条件下寻找ai,使得(ai)达到最大。当ai=ti时(ai) 达到最大值i,称yi=tix为第i判别函数,i=2,3,s。 68 费希尔判别函数的特点 v(1)各判别函数都具有单位(联合样本)方差; v(2)各判别函数彼此之间不相关(确切地说,是彼此 之间的联合样本协方差为零); v(3)判别函数方向t1,t2,ts并不正交,但作图时仍将它 们画成直

27、角坐标系,虽有些变形,但通常并不严重 。 69 v组数k=2时只有一个判别函数,k=3时最多只有两个判别函数 。 v(ti)=i表明了第i判别函数yi对分离各组的贡献大小,yi在所 有s个判别函数中的贡献率为 v而前r(s)个判别函数y1,y2,yr的累计贡献率为 它表明了y1,y2,yr能代表y1,y2,ys进行判别的能力。 v在实际应用中,如果前r个判别函数的累计贡献率已达到了 一个较高的比例(如75%95%),则就采用这r个判别函数 进行判别。 70 v由于各判别函数都具有单位方差且彼此不相关,故此时的马 氏距离等同于欧氏距离。我们采用距离判别法,依据 (y1,y2,yr)值,判别新样品

28、归属离它最近的那一组。 v判别规则为 其中 ,i=1,2,k 。该判别规则也可表达 为 71 v如果只使用一个判别函数进行判别(即r=1),则以上判别 规则可简化为 式中y和 (i=1,2,k)分别是前面判别规则中的y1和 (i=1,2,k) 。 v有时我们也使用中心化的费希尔判别函数,即 式中为k个组的总均值。仍使用同上的判别规 则进行判别。 v对于两组的判别,费希尔判别等价于协差阵相等的距离判别 ,对两个正态组也等价于协差阵相等且先验概率和误判代价 也均相同的贝叶斯判别。 72 v当使用的判别函数个数r=2时,可将各样品的两个判别函数 得分画成平面直角坐标系上的散点图,用目测法对新样品的

29、归属进行辨别或对来自各组样品的分离情况及结构进行观测 评估。 v当r=3时,可利用SAS的交互式数据分析菜单系统,让样本中 来自不同组的样品点呈现不同颜色(或不同形状)以区分各 组,然后作(三维)旋转图从多角度来辨别新样品的归属或 观测评估各组之间的分离效果,但其目测效果一般明显不如 r=2时清楚。 v能够利用降维后生成的图形用目测法进行判别是费希尔判别 的最重要应用,图中常常能清晰地展示出(通过计算未必能 得到的)丰富的信息,如发现构成各组的结构、离群样品点 和数据中的其他异常情况等。 73 例5.4.2 v费希尔于1936年发表的鸢尾花(Iris)数据被广泛地 作为判别分析的例子。数据是对

30、3种鸢尾花:刚毛鸢 尾花(第组)、变色鸢尾花(第组)和弗吉尼亚 鸢尾花(第组)各抽取一个容量为50的样本,测 量其花萼长(x1)、花萼宽(x2)、花瓣长(x3)、花瓣宽 (x4),单位为mm,数据列于表5.4.1。 74 编号组别x1x2x3x4编号组别x1x2x3x4 150331427658275119 2642856227757294213 3652846157872305816 467315624795434154 563285115805241151 646341438171305921 7693151238264315518 8622245158360304818 95932481

31、88463295618 1046361028549243310 665630451514155234013 675827411014266304414 68503416414368284814 6946321421445434172 70602945151455137154 71572635101465235152 72574415414758285124 73503614214867305017 747730612314963336025 75633456241505337152 表5.4.1 鸢尾花数据 75 v本题中,n1=n2=n3=50,n=n1+n2+n3=150。经计算 76 7

32、7 E1H的正特征值个数smin(k1,p)=min(2,4)=2,可求得两个 正特征值 1=32.192, 2=0.285 相应的标准化特征向量 78 所以,中心化的费希尔判别函数为 判别函数的组均值为 对于任一样品x,可按下式进行判别: 79 v由于n1,n2,n3都很大,因此用(5.2.7)式估计误判概率的效果还 是不错的,判别情况列于表5.4.2。 所以 这些误判概率是比较低的。 判别为 真实组 5000 0482 0149 表5.4.2 判别情况 80 图5.4.2 鸢尾花数据两个判别式得分的散点图 81 5.5 逐步判别 v逐步判别法是判别分析中一种自动搜索变量子集的 方法,它未必

33、最优,但往往却是有效的,是一种应 用最广泛的判别变量选择方法。 v逐步判别法的基本思想及基本步骤类似于回归分析 中的逐步回归法。 v一、附加信息检验 v二、变量选择的方法 82 一、附加信息检验 v设x=(x1,x2),其中x1=(x1,x2,xr)是原先用作判别的变量,而 x2=(xr+1,xr+2,xp)是新引入的变量。 v我们希望知道,在已有x1用作判别的条件下,x2所提供的( 超越x1所含信息的)附加信息能否使区分各组的能力有显著 的提高。如果没有显著提高,则就认为x2的引入是不值得的 。 v设有k个组1,2,k,其x的分布皆为p元正态分布,且具有相 同的协方差矩阵。从这k个组中各自独

34、立地抽取一个样本,n 为k个组的总样本容量。欲检验 H0:各组的E(x2|x1)相等 83 v将组内平方和及叉积和矩阵E,组间平方和及叉积和矩阵H 分块为: 则检验统计量为 其中 84 v当H0为真时,(x2|x1)服从(pr,k1,nkr)。我们特别感兴 趣的是pr=1(即r=p1)时的情形,此时 偏统计量 偏F统计量 v对给定的,拒绝规则为: 若FF(k1,nkp+1),则拒绝H0 85 二、变量选择的方法 v判别分析的变量选择方法:前进法、后退法和逐步判别法。 v前进法开始时没有用作判别的变量,每次选入一个对判别能 力的提高有最显著作用的变量,过程只进不出,当不再有未 被选入的变量达到临

35、界值时,前进选入的过程停止。 v后退法的过程与前进法相反,开始时引入所有变量,每次剔 除一个对判别能力的提高最不显著的变量,过程只出不进, 当余下的变量都达到用作判别的标准时,后退剔除的过程停 止。 v逐步判别法是前进法和后退法的结合,在变量的选择过程中 有进有出。实践中,逐步判别法通常最受欢迎。 86 逐步判别法的基本步骤 v(1)对每个xi,计算其一元方差分析的F统计量F(xi),不妨设 ,即x1有最大的判别能力。 若F(x1)F(k1,nk),则表明没有一个变量可以选入; 若F(x1)F(k1,nk),则x1选入,并进入下一步。 v(2)对(1)中每一未选入的变量,计算偏F统计量F(xi

36、|x1),不妨 设 ,即x2对判别能力的提升有最大 贡献。若F(x2|x1)F(k1,nk1),则选变量过程结束;若 F(x2|x1) F(k1,nk1),则x2选入,并进入下一步。 87 v一般地,如已选入了r个变量,不妨设是x1,x2,xr,并设 若 ,则选变量过程结 束;若,则xr+1选入, 并进入下一步。 v(3)在第r+1个变量选入后,要重新核实较早选入的r个变量, 应将对判别效果不再显著的变量剔除出去。不妨设 若 ,则没有 变量需剔除,回到(2);若 F(k1,nkr),则剔除变量xl,再对其余r1个变量继续进行 核实,直至无变量可剔除为止,然后再回到(2)。 88 v(4)经过(

37、2)和(3)的不断选入和剔除的过程,最后既不能选进 新变量,也不能剔除已选入的变量,变量选择过程到此结束 。 v如果选入变量的临界值F进和剔除变量的临界值F出相同,则 有很小的可能性会使得变量的选入和剔除过程无休止、连续 不断地循环进行下去。但只要在确定临界值时让F出比F进略 微小一点,这种可能性就可以被排除。 v进行逐步判别实际上是在做逐步多元方差分析,在变量的筛 选过程中没有任何判别函数被计算。在变量筛选完成后,我 们方可以对选择的变量计算判别函数和建立判别规则。 89 v例5.5.1 对例5.4.2中的数据作逐步判别,具体步骤如下: (1)对每一变量分别计算一元方差分析的F统计量和p值,

38、并列 于表5.5.1。x3第一个选入。 (2) 90 表5.5.1 F统计量和p值 变量x1x2x3x4 F119.2649.161180.16960.01 p值0.00010.00010.00010.0001 vi=1,2,4,计算结果列于表5.5.2。x2选入。 v(3)核实x3是否因x2的选入仍保持显著。经计算, F(x3|x2)=1112.95,p0.0001,从而保留x3。 91 表5.5.2 x3已选入时的偏F统计量和p值 变量x1x2x4 偏F34.3243.0424.77 p值0.00010.00010.0001 vi=1,4,结果见表5.5.3。可见,x4选入。 v(4)核实

39、x4选入后早先已选入的x2和x3是否还显著,计算偏F统 计量F(x2|x3,x4)和F(x3|x2,x4),结果列于表5.5.4。可见,x2和x3 皆保留。继续计算 92 表5.5.3 x2,x3已选入时的偏F统计量和p值 变量x1x4 偏F12.2734.57 p值0.00010.0001 v可得F(x1| x2,x3,x4)=4.72,p=0.0103,故x1也选入。 v(5)核实x1选入后原已选入的x2,x3,x4是否还是显著的,计算偏 F统计量F(x2|x1,x3,x4), F(x3|x1,x2,x4)和F(x4| x1,x2,x3),结果列于 表5.5.5。计算结果表明,已选入的变量无一剔除。 93 表5.5.5 选入x1后核实x2,x3和x4是否还显著的偏F统计量和p值 变量x2x3 偏F54.5838.72 p值0.00010.0001 变量x2x3x4 偏F21.9435.5924.90 p值0.00010.00010.0001 步骤1234 变量x3x2x4x1 F1180.1643.0434.574.72 p值0.00010.00010.00010.0103 94 表5.5.6 变量选择过程汇总

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1