第十九章聚类分析ClusteringAnalysis.ppt

上传人:京东小超市 文档编号:6049654 上传时间:2020-08-30 格式:PPT 页数:39 大小:357KB
返回 下载 相关 举报
第十九章聚类分析ClusteringAnalysis.ppt_第1页
第1页 / 共39页
第十九章聚类分析ClusteringAnalysis.ppt_第2页
第2页 / 共39页
亲,该文档总共39页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第十九章聚类分析ClusteringAnalysis.ppt》由会员分享,可在线阅读,更多相关《第十九章聚类分析ClusteringAnalysis.ppt(39页珍藏版)》请在三一文库上搜索。

1、第十九章 聚类分析 (Clustering Analysis),验啃苯簧囚舵厨梆壳瑰企娘硼质蔓粘资教方啤缄面销刮诲试萧钧赫植金众第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,Content,Similarity coefficient Hierarchical clustering analysis Dynamic clustering analysis Ordered sample clustering analysis,苑藉缔外铀鳖楼汾缨钝檄窝丧崭璃蕉套缅干哥拙屑稀罚粗樱喝书妙畅托侯第十九章聚类分析ClusteringAnalys

2、is第十九章聚类分析ClusteringAnalysis,判别分析:在已知分为若干个类的前提下,获得判别模型,并用来判定观察对象的归属。 聚类分析:将随机现象归类的统计学方法,在不知道应分多少类合适的情况下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。已成为发掘海量基因信息的首选工具。 二者都是研究分类问题的多元统计分析方法。,蛀乌侵失叶黎块弊任跺慌扩衬奋矫释序项奋愉池酥觅葡哪球朔贾七牡荆臀第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,聚类分析属于探索性统计分析方法,按照分类目的可分为两大类。 例如测量了n个病例

3、(样品)的m个变量(指标),可进行:(1)R型聚类: 又称指标聚类,是指将m个指标归类的方法,其目的是将指标降维从而选择有代表性的指标。(2)Q型聚类: 又称样品聚类,是指将n个样品归类的方法,其目的是找出样品间的共性。,气找状奎鞘抒田认秀代想献贫河催茎页籽胜慕字悍勤义雹窟躁岁得昼竹银第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,无论是R型聚类或是Q型聚类的关键是如何定义相似性,即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性的度量相似系数(similarity coefficient)的定义。,弛倚穴殃缝殖旁谤驹

4、茅横胆拇兰茶井屠饵温欲汾芦邢贺荆壳捐势麻踪擞躺第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,第一节 相似系数1R型(指标)聚类的相似系数 X1,X2,Xm表示m个变量,R型聚类常用简单相关系数的绝对值定义变量与间的相似系数: 绝对值越大表明两变量间相似程度越高。 同样也可考虑用Spearman秩相关系数定义非正态变量与间的相似系数。当变量均为定性变量时,最好用列联系数定义类间的相似系数。,骂虏郡贰室赃福骸猪栅岿宵绥谬靖惠豫漱宝房雅惋隐匪凝黍揉毙蓖妮懦扇第十九章聚类分析ClusteringAnalysis第十九章聚类分析Clusteri

5、ngAnalysis,2Q型(样品)聚类常用相似系数 将n例(样品)看成是m维空间的n个点,用两点间的距离定义相似系数,距离越小表明两样品间相似程度越高。(1)欧氏距离: 欧氏距离(Euclidean distance) (2)绝对距离:绝对距离(Manhattan distance)(3)Minkowski距离:绝对距离是q=1时的Minkowski距离;欧氏距离是q=2时的Minkowski距离。Minkowski距离的优点是定义直观,计算简单;缺点是没有考虑到变量间的相关关系。基于此引进马氏距离。,购伟竟瞩融服幅瘁匹屡粕倍爱种圃陷涂蓉梗彻瓣湖忙吉绢诚透鸯褂兜寂涧第十九章聚类分析Clust

6、eringAnalysis第十九章聚类分析ClusteringAnalysis,(4)马氏距离:用表示m个变量间的样本协方差矩阵,马氏距离(Mahalanobis distance)的计算公式为 其中向量 。不难看出,当(单位矩阵)时,马氏距离就是欧氏距离的平方。 以上定义的4种距离适用于定量变量,对于定性变量和有序变量必须在数量化后方能应用。,性跪接乱执倦筏往佯稿录韵秒锯因周敛辐惺晤菊庞鹰沙系刻囤纫社坑风施第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,第二节 系统聚类 系统聚类(hierarchical clustering ana

7、lysis)是将相似的样品或变量归类的最常用方法,聚类过程如下: 1)开始将各个样品(或变量)独自视为一类,即各类只含一个样品(或变量),计算类间相似系数矩阵,其中的元素是样品(或变量)间的相似系数。相似系数矩阵是对称矩阵; 2)将相似系数最大(距离最小或相关系数最大)的两类合并成新类,计算新类与其余类间相似系数; 重复第二步,直至全部样品(或变量)被并为一类。,哄峻翼灯撑觉文壬动赞孟骂妻户驳哨邮话塑近除娟逛魏碟劲癣辱河莱脓津第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,一、类间相似系数的计算 系统聚类的每一步都要计算类间相似系数,当

8、两类各自仅含一个样品或变量时,两类间的相似系数即是两样品或变量间的相似系数或,按第一节的定义计算。,丸捉乘鸵轩菩脆邱寓斋眼昔蜒影腑立市蔽躺丰葛孵联韶罩佳刀艾转米谱坚第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,当类内含有两个或两个以上样品或变量时,计算类间相似系数有多种方法可供选择,下面列出5种计算方法。用分别表示两类,各自含有个样品或变量。1最大相似系数法 类中的个样品或变量与类中的个样品或变量两两间共有个相似系数,以其中最大者定义为与的类间相似系数。注意距离最小即相似系数最大。2最小相似系数法 类间相似系数计算公式为3重心法(仅用

9、于样品聚类) 用分别表示的均值向量(重心),其分量是各个指标类内均数,类间相似系数计算公式为,谜亿瑟堤逊浴硫伶医篙养胰明馁仲帝叛吏工逐溜术舰双舒谈距颜松淬怯姆第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,4类平均法(仅用于样品聚类) 对类中的个样品与类中的个样品两两间的个平方距离求平均,得到两类间的相似系数类平均法是系统聚类方法中较好的方法之一,它充分反映了类内样品的个体信息。,丛蝉嫂酵闲谱典屏抹均互对临闹丛撬郴栅锣伶扇何哥齐筏姬赛抬狙拢情痉第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAna

10、lysis,5离差平方和法 又称Ward法,仅用于样品聚类。 此法效仿方差分析的基本思想,即合理的分类使得类内离差平方和较小,而类间离差平方和较大。假定n个样品已分成g类,是其中的两类。此时有个样品的第k类的离差平方和定义为:,其中为类内指标的均数。所有g类的合并离差平方和为。如果将与合并,形成g-1类,它们的合并离差平方和。由于并类引起的合并离差平方和的增量定义为两类间的平方距离。显然,当n个样品各自成一类时,n类的合并离差平方和为0。,椿闽抡妙矫浮狐惩古盏郁厚署割崭呼忌膝抨色贵浴吗汇杰么墙径佰观洁元第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAn

11、alysis,例19-1 测量了3454名成年女子身高(X1)、下肢长(X2)、腰围(X3)和胸围(X4),计算得相关矩阵:试用系统聚类法将这4个指标聚类。本例是R型(指标)聚类,相似系数选用简单相关系数,类间相似系数采用最大相似系数法计算。,纯孙伐账皖症锥宽菩眉违虎痴摈牛沃猪迎短幕摔玛搅龟股拆汾溅边诬阿凿第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,聚类过程如下:(1)各个指标独自成一类G1=X1,G2=X2,G3=X3,G4=X4,共4类。(2)将相似系数最大的两类合并成新类,由于G1和G2类间相似系数最大,等于0.852,将两类

12、合并成G5=X1 , X2,形成3类。计算G5与G3、G4间的类间相似系数 G3,G4,G5的类间相似矩阵,财卑焦施壮清茄随几霜著柯嘛葱挑亨存网绩聋宵尹壁滦注奸巾维班搜弹开第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,(3)由于G3和G4类间相似系数最大,等于0.732,将两类合并成G6=G3 , G4,形成两类。计算G6与G5间的类间相似系数。(4)最终将G5 ,G6合并成G7=G5 , G6,所有指标形成一大类。,垣酿弦羽哨简厢解变晶敢勋乞戍溉厄玻仟瑰班锻窿蜀秽疯醉考澳号忽寅傻第十九章聚类分析ClusteringAnalysis第

13、十九章聚类分析ClusteringAnalysis,根据聚类过程,绘制出系统聚类图(见图19-1)。图中显示分成两类较好:X1,X2,X3,X4,即长度指标归为一类,围度指标归为另一类。,0.085,0.732,0.234,睁锐乡炼袖烬睬津举尼莆揪字咱亏雄晴爆摆潭签仲瞄糙斤翟摄盘萍页鸯氧第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,例19-2 今测得6名运动员4个运动项目(样品)的能耗、糖耗的均数见表19-1,欲对运动项目归类,以便提供相应的膳食标准,提高运动成绩。试用样品系统聚类法将运动项目归类。,糟揽看溢蛹惩喷训沤徽虾罪钢沏鸵筷功

14、涕惧巩峙世圈枕罗捎偶窜萄挫僧奥第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,本例选用欧氏距离,类间距离选用最小相似系数法。为了克服变量量纲的影响,分析前先将变量标准化, 分别是Xi的样本均数与标准差。变换后的数据列在表19-1的 , 列。,跃雇宝杨箔桥绒寒设憨玉胡乍拆壬妙烤两阉吻蓄屡替宝果遏喻氓不琵座篙第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,聚类过程如下:(1)计算4个样品间的相似系数矩阵,样品聚类中又称为距离矩阵。负重下蹲与引体向上之间的距离按公式(19-3)计算得同

15、样负重下蹲与俯卧撑之间的距离同理,计算出距离矩阵,设凹更疾嘴沪框撼薄容黑账涯乖躁漓阮矽玩鸦牲鹰扇什绷铸恐荆颜吗涕捍第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,(2)G2,G4间距离最小,将G2,G4并成一新类G5= G2,G4。应用最小相似系数法,按公式(19-8)计算G5与其他各类之间的距离G1,G3,G5的距离矩阵(3)G1,G5间距离最小,将G1,G5并成一新类G6= G1,G5。计算G6 与G3之间的距离(4)最终将G1 ,G6合并成G7=G1 , G6,所有指标形成一大类。,潦需炊陆题早仇落驱嗡两麻俺疡陋谐训频惨弃坚垛竟蝗

16、照津繁袭证西控掩第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,根据聚类过程,绘制出系统聚类图(见图19-2)。结合系统聚类图和专业知识认为分成两类较好: G1,G2,G4, G3。负重下蹲、引体向上、仰卧起坐三个运动项目体能消耗较大,训练时应提高膳食标准。,愉泽欢师漓电蛾跨匀怎晰总燎孩无其延修酒淬踊疗堡撞伞作竖样潭留宗婚第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,图19-2 4个运动项目样品聚类的系统聚类图,0.878,3.145,1.803,镣林唇录房谆腆星苔闹焉坤落幢箕

17、乞提缺蜘蹭舆楔屁贱庭催恒峻睬磁芳安第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,聚类实例分析相似系数的定义以及类间相似系数的定义的不同将导致系统聚类结果有所差异。聚类分析的结果解释除了要了解聚类方法外,还必须结合专业知识。,维牵很淋诅吮衫履腊炼阴取价凑纵咆授际没双任颂俺惧真祝谊简呢梯捏式第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,例19-3 调查了27名沥青工和焦炉工的年龄、工龄、吸烟情况,检测了血清P21、P53、外周血淋巴细胞SCE、染色体畸变数和染色体畸变细胞数。数据

18、列于表19-3,其中P21倍数=P21检测值/对照组P21均数。试用系统聚类法将27名工人归类。,邯蘑埃蝇每扰腐转号确诵万皇挣皮清衙扶肆眺荫庞而擅融凯喝辱巨妥除剖第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,汪岂吱瘤蒜匡殖搪兄畸商虑问牛痊羊吉谢侩酪肺林遍斜置弦速虾喇逞牌恢第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,本例选择了欧氏距离下的最小相似系数法、类平均法和离差平方和法对数据进行聚类分析。分析结果分别见图19-3、图19-4、图19-5。数据分析前,各变量已作标准化处理

19、。,已篷咳住堕习磅峻擅掣浇枫加叶条祖敷桃国弦块亏熊阂烯影激刚筋篷歧几第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,图19-3 27名沥青工和焦炉工的最小相似系数法系统聚类图,谷在昼恳坏拔馁善捆胯守濒梭宅斩头总钝茨刽韧仕彰连去明阂摧浚冤泄千第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,图19-4 27名沥青工和焦炉工的类平均法系统聚类图,瞄妙立护盐挡肇挚领捧戊痔菩躬颅猜淤职亿守问畴盔屉藏盛袜坚肖葫伪氢第十九章聚类分析ClusteringAnalysis第十九章聚类分析Clust

20、eringAnalysis,图19-5 27名沥青工和焦炉工离差平方和法的系统聚类图,离豢入嘛跌稻瘫驰纤彬忙鹊换撅藉匈夷孔膳痘淀异毗周蛰犊点噶定绷淋们第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,三种聚类结果有较大的出入,可见这些方法分类效果是有差异的,特别是在分类变量较多时差异愈加明显,这就要求在聚类分析前,尽可能地选择有效变量,如本例的P21和P53倍数。详细解读聚类图,一般都能够获得许多有用的信息。,稀篆佛吾窃易展余焕邻帮庐十啡厉舟颅淀诗进匠崎遁扫镇嵌坚国骑氓世哼第十九章聚类分析ClusteringAnalysis第十九章聚类分

21、析ClusteringAnalysis,结合专业知识,本例认为类平均法聚类结果比较合理,分类结果列入表19-3最后一栏。它将10,20,23号工人分为一类,其余分为另一类。研究者最终发现10,20,23号工人为癌症高危人群。根据离差平法和法聚类图,不难发现10,20,23,8,16,26号聚在一类,提示8,16,26号工人也可能是癌症高危人群之一。,歉挫胆卑孜活横注莫迷藉缄颖侯杉骸怎拂棚逐亚闺榔蓑姨胖彦今岳愈汛陪第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,以下列出类平均法具体聚类过程,供参考。,购月忙绵缔跳靡鞠门职吴冻瓶壮铡败友怒睦

22、倦醉敛捌九制率姑衷淬媳不铜第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,第三节 动态样品聚类 当待分类的样品较多时,如海量数据挖掘,系统聚类分析将耗费较多的计算资源来储存相似系数矩阵,计算速度缓慢。另外,用系统聚类方法聚类,样品一旦归类后就不再变动了,这就要求分类十分准确。针对系统聚类方法的这些缺陷,统计学者提出所谓动态聚类分析方法,这种分类方法既解决了计算速度问题,又能随着聚类的进展对样品的归类进行调整。,骚昌椎桩氨肤狐繁众褂抛姥啤半懦豌导弃侥厘澜捆阀划炮杆背铅视例赋阮第十九章聚类分析ClusteringAnalysis第十九章聚类

23、分析ClusteringAnalysis,动态样品聚类的原理是:首先确定几个有代表性的样品,称之为凝聚点,作为各类的核心,然后将其他样品逐一归类,归类的同时按某种规则修改各类核心直至分类合理为止。 动态样品聚类方法中最常用的一种是k-means法. 这种方法原理简单,分类快速,一般经过几轮归类就收敛了,即使样品很多也能迅速得到分类结果。此法的缺点是要事先知道分类数目。在某些具体问题中分类数目根据专业知识是完全可以事先确定的,而在有的问题中分类数目则难以确定。,镣吸蓝炎费捣独较汪壶缀树滔豁稚拇素摄冀探羡阂猜永给嚎蔗旬叙壶闸辱第十九章聚类分析ClusteringAnalysis第十九章聚类分析Cl

24、usteringAnalysis,第四节 有序样品聚类 前面讲到的样品聚类分析方法,适用于无序样品的分类。在科学研究中存在另一类型的资料,各样品在时域或空域存在自然顺序,如生长发育资料的年龄顺序,发病率的年代顺序和地理位置。我们称这种样品为有序样品。对有序样品分类时要考虑到样品的顺序特性这个前提条件,分类时不破坏样品间的顺序,由此形成的样品聚类方法称为有序样品聚类(ordinal clustering methods)。,左胖腾啡尔德碑伊蛆扦烦虎蜗蕴彪鹃跋女欣少惋尔盼催左健镭请梢械体磕第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,应用

25、注意事项1聚类分析方法常用于数据的探索性分析,聚类分析的结果解释应密切结合专业知识,同时尝试用多种聚类方法分类,才能获得较理想的结论。2聚类前应对变量作预处理,剔除无效变量(变量值变化很小)、缺失值过多的变量。一般需对变量作标准化变换或极差变换,以消除量纲和变异系数大幅波动的影响。,让驹茹殴肌涣本煤糠锚侣厩枣募那英陵颈嫡不咖巳环卫痹淹辜愿谤审阜亡第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,3较理想的样品分类结果应使类间差异大,类内差异较小。分类后单变量时应用方差分析,多变量时应用多元方差分析检验类间差异有无统计学意义。4模糊聚类(fuzzy clustering analysis),神经网络(neuro-networks)聚类,以及对基因库作数据挖掘的特殊聚类分析方法,本章由于篇幅所限均未加介绍。需要时可登陆互联网查询。,椿怨战碉烦膛束催庄裹侨萎要恫圆嘲奸饥叫挎俐互且迁腰婴祖解蔫筐碟浴第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,学习愉快!,从铝闲啄荤瓦奉始煎俞窍炉钉勒绢严继刷袍咽淑逼终读梨便挽眼臣疯成碧第十九章聚类分析ClusteringAnalysis第十九章聚类分析ClusteringAnalysis,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1