判别分析中Fisher判别法的应用.doc

上传人:scccc 文档编号:13248302 上传时间:2021-12-20 格式:DOC 页数:13 大小:505.50KB
返回 下载 相关 举报
判别分析中Fisher判别法的应用.doc_第1页
第1页 / 共13页
判别分析中Fisher判别法的应用.doc_第2页
第2页 / 共13页
判别分析中Fisher判别法的应用.doc_第3页
第3页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《判别分析中Fisher判别法的应用.doc》由会员分享,可在线阅读,更多相关《判别分析中Fisher判别法的应用.doc(13页珍藏版)》请在三一文库上搜索。

1、1.1课题背景随着社会经济不断发展,科学技术的不断进步,人们已经进入了信息时代, 要在大量的信息中获得有科学价值的结果,从而统计方法越来越成为人们必不可 少的工具和手段。多元统计分析是近年来发展迅速的统计分析方法之一,应用于 自然科学和社会各个领域,成为探索多元世界强有力的工具。判别分析是统计分析中的典型代表,判别分析的主要目的是识别一个个体所 属类别的情况下有着广泛的应用。 潜在的应用包括预测一个公司是否成功;决定一个学生是否录取;在医疗诊断中,根据病人的多种检查指标判断此病人是否有 某种疾病等等。它是在已知观测对象的分类结果和若干表明观测对象特征的变量 值的情况下,建立一定的判别准则,使得

2、利用判别准则对新的观测对象的类别进 行判断时,出错的概率很小。而Fisher判别方法是多元统计分析中判别分析方法 的常用方法之一,能在各领域得到应用。通常用来判别某观测量是属于哪种类型。 在方法的具体实现上,采用国广泛使用的统计软件 SPSS(Statistical Product and Service Solutions ),它也是美国 SPSS公司在 20世纪80年代初开发的国际上最流行的视窗统计软件包之一1.2 Fisher判别法的概述根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等。Fisher 判别法是判别分析中的一种,其思想是投影,Fisher判别的基本思

3、路就是投影,针对P维空间中的某点x=(x1,x2,x3,,,xp)寻找一个能使它降为一维数值的线 性函数y(x) :y x CjXj然后应用这个线性函数把 P维空间中的已知类别总体以及求知类别归属的 样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归 属。这个线性函数应该能够在把 P维空间中的所有点转化为一维数值之后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩大不同类别中各个样本点之间的差异,这样才可能获得较高的判别效率。在这里借用了一元方 差分析的思想,即依据组间均方差与组均方差之比最大的原则来进行判别。1.3算法优缺点分析优点:(1)一般对于线性可分的

4、样本,总能找到一个投影方向,使得降维 后样本仍然线性可分,而且可分性更好即不同类别的样本之间的距离尽可能远, 同一类别的样本尽可能集中分布。(2) Fisher方法可直接求解权向量w ;(3) Fisher的线性判别式不仅适用于确定性模式分类器的训练,而且对于随机模式也是适用的,Fisher还可以进一步推广到多类问题中去缺点:(1) 如果M, M2,w* 0,则样本线性不可分;M, M2,未必线性可分;Sw不可逆,未必不可分。(2) 对线性不可分的情况,Fisher方法无法确定分类2实验原理2.1线性投影与Fisher准则函数各类在d维特征空间里的样本均值向量:1M ixk,i 1,2(2.5

5、-2)ni Xk Xi通过变换w映射到一维特征空间后,各类的平均值为:1 .myk , i 1,25-3)ni Yk Y映射后,各类样本“类离散度”定义为:S(ykm),i 1,2(2.5-4)Yk Y显然,我们希望在映射之后,两类的平均值之间的距离越大越好,而各类的样本类离散度越小越好。因此,定义Fisher准则函数:、|g m |2(2 5 5)Jf(w)三 25-5)Ss2使Jf最大的解w*就是最佳解向量,也就是Fisher的线性判别式。2.2求解w从JF(w)的表达式可知,它并非w的显函数,必须进一步变换。1已知:mj丄yk,i 1,2,依次代入(2.5-1)和(2.5-2),有:n

6、Vk Yi1 1 mi 一wTxkwT (一xk) wT M i,i 1,25-6)ni x< Xini xk Xi所以:|gm212|wTM1wtM2| wT(M1M2)wt (M1 M2)(M1 M 2)t w wt Sbw(2.5-7)其中:Sb(M1M2)(M1 M2)t(2.5-8)£是原d维特征空间里的样本类离散度矩阵,表示两类均值向量之间的离散度大小,因此,Sb越大越容易区分1 2xk 代入(2.5-4) Si2式中:S2(WT XkwTMi)2Xk XiWT(Xkxk XiMi)(XkMi)T wTW Sw(2.5-9)其中:S(xkXk XiMi)(XkMi)

7、T,i 1,2将(2.5-6) miwTMi 和(2.5-2) Mini Xk Xi(2.5-10)因此:S2S;WTQ E)W WT SwW(2.5-11)显然:Sw S S2(2.5-12)S称为原d维特征空间里,样本“类离散度”矩阵S.是样本“类总离散度”矩阵。为了便于分类,显然S越小越好,也就是Sw越小越好将上述的所有推导结果代入Jf(w)表达式:可以得到:* 1wSw (M i M2)其中,一是一个比例因子,不影响w*的方向,可以删除,从而得到最后解: 1WSw (M 1M 2)(2.5-18)w*就使Jf(w)取得最大值,w*可使样本由d维空间向一维空间映射,其投影 1方向最好。w

8、* Sw (M1 M2)是一个Fisher线性判断式。这个向量指出了相对于Fisher准则函数最好的投影线方向。2.3 Fisher算法步骤由Fisher线性判别式w* Sw (M1 M2)求解向量w*的步骤: 把来自两类wjw2的训练样本集X分成w1和w2两个子集X1和X2。1 由 Mjxk,i 1,2,计算 M i。ni Xk Xi 由s'(Xk Mi)(Xk Mi)T计算各类的类离散度矩阵S,i 1,2。xk X i 计算类总离散度矩阵Sw § S2。1 计算Sw的逆矩阵Sw 。 1 由 w* Sw (M1 M2)求解 w*。3实验目的应用统计方法解决模式识别问题的困难

9、之一是维数问题,在低维空间行得通的方法,在高维空间往往行不通。因此,降低维数就成为解决实际问题的关键。 Fisher的方法,实际上涉及维数压缩。如果要把模式样本在高维的特征向量空间里投影到一条直线上,实际上就是把特征空间压缩到一维,这在数学上容易办到。问题的关键是投影之后原来线性 可分的样本可能变得混杂在一起而无法区分。在一般情况下,总可以找到某个最 好的方向,使样本投影到这个方向的直线上是最容易分得开的。如何找到最好的 直线方向,如何实现向最好方向投影的变换,是Fisher法要解决的基本问题。这 个投影变换就是我们寻求的解向量 w*本实验通过编制程序体会Fisher线性判别的基本思路,理解线

10、性判别的基本 思想,掌握Fisher线性判别问题的实质。4实验实例例题:根据我国东部沿海11个省市城镇居民家庭平均每人全年家庭收入的 5 个指标(工薪收入、经营净收入、财产性收入和转移性收入)数据将各省市城镇 居民家庭分为高收入组和次高收入组,建立判别函数进而判定未分组省市的类 别。4.1数据录入通过国家统计局得到我国东部沿海11省市的城镇居民家庭平均每人全年家庭收入的5个指标(工薪收入、经营净收入、财产性收入和转移性收入)数据得 到excel表格,并将11个省份划分为高收入组(代号为1)和次高收入组(代 号为2),分类如图2-1组别,将其导入spss得到如图4-1所示:堀谄居民家庭总收入工资

11、性收入懸营性性收财莎性姓收转移性胺入北京帀30674.002673E.0021106.001Q96.00567.00zeae.uo1了血200izseg.oo37.00305.001河北資15675.001471&.00陶.0097.0015.004674.00257宁省1775B.OO157E1 0010421 00笛旳mMOD品 44.002上陶帀J2403.OCJ对田ELJQ23172.DD1435 00473 DO722.01渐迁省27119.0124E11 M1E7C1.aQ329J nn1415 no57FK.D0121692.0019577.001211.002055.0

12、01173.004:5r.nn2山东省19337 0017811.0013996.001379.00413 003559 002广东皆2411&.0021.001E6S9.002J60.00737.00<121.0(117033.0015451.0011194.001386.00493 on3960.00214909.0013751.00S67S.00153200424.00327.034-14.2进行Fisher判别分析在SPSS中进行如下操作:步骤一在analyze菜单中的classify 子菜单中选择discriminant 命令如4-2 图所示。Transform 1&g

13、t; 应总收.I306;233T5S17?t324(27t21H193-241JV'L;T49CRsports>Descriptive Statistics*Tdb咲卜C&rhpre IVehs>General Linear IVodel*Generalized Linear Modsk > Mixed MedelsCorrel-ate*Regrtssfon>Loglirear*Neural Networks>Class If/D&t ReductionGmI&Nonpacarrietric TestsTime矗ri曲Surviva

14、l33 Missing V-alue AnalysisMultjpk Re5pon&eComplex Sa triplesQuatily Control厂j ROC Curve.工资性收入经营性性收财声性性ife转番性H21106.011095.00597 0078814339.03B47.003Q5:003029631 .oa977.00194.0046710421.001553W240.0055423172.001435.00473.0073216701.00329i.OO141500570二仃殆nn1173.00425TvoStep Cluster,. 刚 K-Means Cfu

15、ster,., 血 Hierarchical Cluster.413.00355737.00402493.00396區Tree424.00327* Discriminant.4-34-2步骤二 在如图4-3所示的discriminant analyze 对话框中,从左侧变量的变 量列表中选择“工薪收入”、“经营净收入”、“财产性收入”和“转移性收入”变 量,使之添加到independents框中步骤三 选择“组别”变量使之添加到group ariable 框中。这时group ariable 框下的 defi ne range 按钮变为可用,单击,弹出 discrim inant an aly

16、ze : difi ne对话框如图4-4所示,并在minium中输入1,在maximum中输入2.4-4步骤四在discriminant analyze对话框中单击statistics 按钮,弹出discrim inant an alyze: statistics 对话框,如图 4-5 所示。4-5步骤五在discriminant analyze 对话框中单击classify按钮弹出discrim inant an alyze: classificati on 对话框,如图 4-6 所示4-6步骤六 单击图4-3所示的discriminantanalysis对话框中的ok键,完成操作4.3得到

17、分析结果如表4-1所示可知只有一个判别函数:D1=2.94*城镇居民家庭总收入-1.892*工资性收入+0.943*经营性收入-1.322*财产性收入-1.112*转移性收入次高收入组的Fisher判别函数为:F2=0.*城镇居民家庭总收入-0.015*工资性收 入+0.009*经营性收入-0.05*财产性收入-0.009*转移性收入-55.554 。分类函数系数组别高收入次高收入城镇居民家庭总收入.025工资性收入-.018-.015经营性收入.014.009财产性收入-.064-.050转移性收入-.009-.009(常量)-105.381-55.554Fisher的线性判别式函数表4-2

18、将初始数据代入判别函数可得到表 4-3 ,可知判别函数对初始分组案例100%勺进 行了正确分类。予顾组咸员组别高收入次喜收入含计0次高收入066*高收入100.0.01000次高收入.0100.0100.0a-已耐初始分组案例中的100一0%个进行了正确分4.4应用Fisher判别方程对未分组省份进行分组由分析可知判别函数D 2.94*X 1.892*X2 0.943*X3 1.322*X4 1.112*X5(其中X1X2X3X4X5分别代表城镇居民家庭总收入、工资性收入、经营性收入、 财产性收入、转移性收入)又有高收入组各项指标的均值(1)X =(24632.8 , 18453.4 , 18

19、26.2, 703.4, 6592.4)次高收入组各项指标的均值(2)X =(16178.16667 , 11553.66667, 1480.333333 , 489.5 ,(1)4210.666667 )代入判别函数可得丫 =30968.06,(2)Y =21770.85进而可得丫 1,2 =25951.4将剩余的省份代入判别函数如表4-4所示地区城镇居民家 庭人均可支 配收入工资性收入经营性收入财产性收入转移性收入判别函数值省147189831977194467420138.省139979741944252404518780.216自治区15849112671737364358322451

20、.383省1400694821307146422019584.545省125668357122489402017698.93省14086103621023273403317927.省1402297901153240386419175.231省1437299101203165413019827.699省14367103321232297383819192.122省1508498541744419406022279.146市15749118241019254389420226.省13839101321132305375418006.734省1286390061135134351817759.009

21、省14424964210921044390219474.46自治区1354413326378218105613500.554省1412910775544152383917196.04省11930918269059298614954.096省12692934183546392815999.965回族自治区1402595972036281363620581.21新疆维吾尔自治区1225810233975116227914909.509表4-4根据表4-4判别函数值列与临界值25951.4比较可知:剩余未分类的省份 都属于次高收入组。只有北京、上海、天津、属于高收入组,判别结果与我国 东部沿海地区省市的城镇居民家庭收入较中西部高国情基本吻合。但是,由于先验组的收入水平普遍比较高, 因此临界值偏高,由此导致了陆 地区都划入次咼收入组。从得到的判别函数可以看出城镇居民家庭人均可支配总收入是判别的最主 要的因素,同时相对于其他的因素,财产性收入比重最小。因此要提高居民的家 庭收入,首先要提高可支配收入,另外还要提高财产性收入,使其与其它因素的 比重达到相近水平。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1