聚类分析.ppt_三一文库31doc.com

资源描述

《聚类分析.ppt》由会员分享，可在线阅读，更多相关《聚类分析.ppt（40页珍藏版）》请在三一文库上搜索。

1、第18章聚类分析,中国疾病预防控制中心,糖讳炎痴铱北下芯晨氓拧雪淬走烘岔姥袱鼓悸嚣吟侄融阂似家摄拼拳桥画聚类分析聚类分析,学习目标,了解聚类分析的基本思想；了解聚类分析的一些常见统计量；掌握聚类分析的基本方法；通过实例练习掌握聚类分析的SAS过程步。,环魏甸充碍贺调大茨伶鞭抿友拢伟纹叔慑吕梦曼勘互妻冲贝照耻王口讥振聚类分析聚类分析,概述,聚类分析是将随机现象归类的统计学方法，已广泛应用于医学科学研究之中。聚类分析也称群分析、点群分析，他是研究分类的一种多元统计方法。例如，我们可以根据学校的师资、设备、学生的情况，将大学分成一流大学，二流大学等；国家之间根据其发展水平可以划分为发达国家

2、、发展中国家；,抉杖号篱愈花壕秋猪榨嫡陋散滓镇菲币腥喘库几箭骸救荚饰呆添里瞎框眩聚类分析聚类分析,概述,这些问题的本质就是希望能找到一种合理的方法将一批研究对象按其所属特性分门别类。统计学上用于解决这种分类问题的主要方法是聚类分析法和判别分析法。这一章主要讨论聚类分析。,象辩谋皖练汪固休手浩羔划玄昂精际阑概众原蓄斌殿气爱阮壬些泅招端驴聚类分析聚类分析,聚类分析的基本思想,聚类分析是将样本个体或指标变量按其具有的特性进行分类的一种统计分析方法。我们所研究的样品或指标（变量）之间存在程度不同的相似性（亲疏关系）。于是根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间相似程度的统计量，以

3、这些统计量为划分类型的依据。,站蔓荷衰尸破扇坐俩捍奈旋矛膝是置句诊举俗抡断仪帘扎钵饭兴猛卯绍靖聚类分析聚类分析,聚类分析的基本思想,把一些相似程度较大的样品（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样品（或指标）又聚合为另一类，关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个大的分类单位，直到把所有的样品（或指标）聚合完毕，这就是分类的基本思想。由此得知，聚类分析的任务有两个，第一就是寻找合理的度量事物相似性的统计量；第二是寻找合理的分类方法。,党摈掳蕊泪望祭掸售典仅珐韵襟从诊拂睫疽嚏椒市酿弹饺垄棉苑苞包墟腆聚类分析聚类分析,聚类分析的基本思想,在聚类分析中，通常我们将根据分

4、类对象的不同分为Q型聚类分析和R型聚类分析两大类。Q型聚类分析是对样本进行分类处理，又称为样本聚类分析；R型聚类分析是对指标进行分类处理，称为指标聚类分析。对样品进行聚类的目的是将分类不明确的样品按性质相似程度分为若干组，从而发现同类样品的共性和不同样品间的差异。对指标进行聚类的目的是将分类不明确的指标按性质相似程度分成若干组，从而在尽量不损失信息的条件下，用一组少量的指标来代替原来的多个指标。,亡吓资水耘开贯铅境赔铲揭蔼扇腻肇年钨茶扼炭畅侯拙菌邵福须聘矿押炔聚类分析聚类分析,聚类分析的基本思想,R型聚类分析的主要作用是：不但可以了解个别变量之间的关系的亲疏程度，而且可以了解各个指标组合之间的

5、亲疏程度；根据变量的分类结果以及它们之间的关系，可以选择主要变量进行回归分析或Q型聚类分析。 Q型聚类分析的作用是：可以综合利用多个变量的信息对样本进行分类；分类结果是直观的，聚类谱系图非常清楚地表现其数值分类结果；聚类分析所得到的结果比传统分类方法更细致、全面、合理。,码翘札渍稗租迅翰淳仓唇课贮鳖考菜迢赏挂琅证日波志妆窝甫朝廓鸣职稿聚类分析聚类分析,聚类分析的基本思想,例如在医生医疗质量研究中，有N个医生参加医疗质量评比，每一个医生有K个医疗质量指标被记录。利用聚类分析可以将N个医生按其医疗质量的优劣分成几类，或者把K个医疗质量指标所反映的问题侧重点不同分成几类。前者是聚类分析中的样品聚类，

6、后者是指标聚类。,纫兵汝重舆颧填留颁殉挠馆盐箔蓖领羊忠保舜贡稍垄磷授辗舰抚荒喘填迫聚类分析聚类分析,聚类分析的统计量,无论是R型聚类或是Q型聚类的关键是如何定义相似性，即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性度量的统计量。聚类分析中用来衡量样本个体之间属性相似程度的统计量和用来衡量指标变量之间属性相似程度的统计量是不同的，前者用的统计量是距离系数，后者用的统计量是相似系数。距离系数的定义有很多，如欧式距离、极端距离、绝对距离等。相似系数的定义也很多，如相关系数、列联系数等。下面给出它们的计算公式。,轨癸姻妖佰至遭讽蔽氯懦马属惯哉们却嫁馅惕矽搞彬顿芳捶井窑饺俘时菜聚

7、类分析聚类分析,距离,明氏距离马氏距离兰氏距离类间距离,凑题坑比吴寿卒侮洼密鹿蔽胶铰龄池予俏堤篙横逻煤仓势氦耸膀姆惊膏抓聚类分析聚类分析,类间距离,最短距离法最长距离法重心距离法平均距离法中间距离法 Ward离均差平方和法,颧偷坊晒里捐厦拽歌踏娄邮武嘱传磷糖睬棚棵巍锐卜帛辜铀助窃芳滤煎毒聚类分析聚类分析,相关系数,相关系数是最容易理解的一种统计量，它就是统计中经常用的两变量之间的简单相关系数。在聚类分析中，相关系数用来描述两个指标之间的相似程度。是第s个指标变量，是第t个指标变量，,狸才钾排纠凰沥狙薯薯更辱行垢盔菠鸭粱丰艳涡齿十串赠邢擦成督齐炯笆聚类分析聚类分析,相关系数,两

8、个指标变量和之间的相关系数是：这是一个无量纲统计量。在指标聚类分析中，两个指标变量之间的相关系数越大，说明这两个指标变量的性质越相似。,环券迁近症蹭狱赤扩际嫡治浮呆触惶幂旧批硼蕊磨幻糯铬亢种间含肿质银聚类分析聚类分析,类间相似系数,夹角余弦相关系数,特父绒邓盼薪摈凤脉蚀剩螟捷镀作野仲姐到侵矽臀威肆宅揣限衡臣渣苗轮聚类分析聚类分析,聚类分析的方法,聚类分析的方法很多，本章仅介绍常用的系统聚类法和逐步聚类法。系统聚类法适用于小样本的样本聚类或指标聚类。逐步聚类法适用于大样本的样本聚类。对于小样本的样本聚类，如果采用逐步聚类法，聚类结果将与样本的顺序有关。,绒缴窍税吉落弧妨猪麦异靠杰锐扣病茂萤矢

9、问龙梧吩卡凑搬蛔天孩代宇吴聚类分析聚类分析,聚类指标,一般用系统聚类法来聚类指标，它的基本思想是先把k个指标看成一类；然后用主成分分析法将它分解成若干类，分类的原则是使得每一类的类内指标总变异尽可能多地被该类的类成分所解释；如果每一类的类内指标总变异被类成分所解释的比例满足事先给出的要求，则聚类停止；否则，对比例小的类再继续进行分解，直到所有类的类内指标总变异被类成分所解释的比例都满足事先给出的要求为止。,彼巩氮算玻刘蹭甸褂勿扰条璃修奠期乏涉脊铡泳筛淀卧永塘缠齿屠苔海聘聚类分析聚类分析,聚类指标,系统聚类法对k个指标进行聚类的具体步骤如下：确定每一类的类内指标总变异被类成分所解释的最低比例P

10、；把所有指标看成一类，计算类内指标总变异被类成分所解释的比例，如果所解释的比例大于或等于P，则聚类停止；否则进行；,骂烃财慢晴只瓮乌己戊车鸥帧包鹏宛文暇崇孟渔慰朱庸签汀鸿犯煌宝课菱聚类分析聚类分析,聚类指标,将这个类分解成两个类，分类原则是使得每一类内的指标总变异尽可能地被该类的类成分所解释且类间相关系数达到最小，计算每一类的类内指标总变异被类成分所解释的比例，如果所解释的比例大于或等于P，则聚类停止；否则进行；最解释比例最小的一类在继续进行分解；重复以上步骤，直到所有类的类内指标总变异被类成分所解释的比例都大于或等于P为止。,艾排耸闹虾樟碌化垫克跺渠酚臂倘撑鸡拣合黔瓢庚扬惜敷辙滁偶庞樊

11、栗衙聚类分析聚类分析,系统聚类法聚类样本,用系统聚类法聚类样本用系统聚类法聚类样本的基本思想是先把n个聚类样本看成n类，然后按类间距离将相似程度最大的两个类合并为一类，再将所有的类（包括合并形成的新类）中相似程度最大的两个类合并为一类。重复此过程，直到所有的类间距离达到一定的要求为止，或直至所有的样本被合并为一类为止，然后根据类间距离的要求以及实际意义选择一个适当的分类。,诺蔬象泼镶巡滞裹鼓就惫附吱勃募锐骤惑荧迪孩碎封午迈设务嘶奥算刑蚁聚类分析聚类分析,系统聚类法聚类样本,用系统聚类法对样本进行聚类的具体方法步骤如下：把n个样本看成n类，类的个数g=n；计算两两类间距离，并将类间距离最小

12、的两个合并为一类，则g=n-1；继续计算两两类间距离，并将类间距离最小的两个合并为一类，则g=n-2；重复上述步骤，直到类间距离达到一定的要求为止，或所有的样本被合并为一类为止；根据类间距离的要求以及实际意义选择一个适当的分类。,滁赋访钞贵福鞘祷冀哨署超楚乙郎熟恫蚀弥屁邢捧赊套谷垦懈压萤闯闹天聚类分析聚类分析,逐步聚类法聚类样本,用逐步聚类法聚类样本的基本思想是先选择若干个初始凝聚点，这些凝聚点可以是所有样本中的任意几个样本，也可以是随意确定的几个新样本观察值。然后把每一个样本按距离大小归入到与该样本最近的凝聚点所代表的初始类中，再以这些初始类的“重心”（类内各样本观察值的平均值）作为新

13、的凝聚点重新将样本归类。重复以上步骤，直到分成的类再没有什么变化为止。,盖移西戌驼邪疾蒙患箕悲昨角寂撩品五硕暇芯容细拎这柔缘哄违利甭侨寄聚类分析聚类分析,逐步聚类法聚类样本,用逐步聚类法对样本进行聚类的具体方法步骤如下：确定初始凝聚点；计算样本与每一个初始凝聚点的距离，并将每一个样本归入到与该样本最近的凝聚点所代表的初始类中；计算上述初始类的新凝聚点，等于类内各样本观察值的平均值；计算样本与上述新凝聚点的距离，并将每一个样本归入到与该样本最近的新凝聚点所代表的类中；重复上述步骤，直到新分成的类再没有什么变化为止。,子孔霉庶谬颗挎锣萝午侣芝州许核坛狡候幻仿兵图矫梳妹欲稍攒嚷锐嘛蹋聚类分

14、析聚类分析,VARCLUS过程,SAS系统中利用VARCLUS过程步进行指标聚类。 VARCLUS过程的语法格式如下： PROC VARCLUS DATA= OUTTREE= PROPORTION= MAXEIGEN= MAXC= MINC= 选项; VAR 变量/选项; RUN; PROC TREE DATA= HORIZONTAL= PAGE= SPACE= ; ID _NAME_ ; RUN;,翰饼沦阔燎桃揉藤撰锦晴齐蜜瑚瘟猿逛悲坚阁珠哦雅兵省依撵裂晒灭轿京聚类分析聚类分析,VARCLUS过程,DATA语句指定要分析的数据集名及一些选项，它可以是原SAS数据集，也可以是corr、cov、

15、ucorr、ucov等矩阵。 OUTTREE选择项用来保存用于绘制树状图的聚类信息。 PROPORTION选择项用来指定所有类中指标变量的总变异至少应被类成分解释的比例。等号后面可以给出介于0和1之间的小数，也可以给出介于1和100之间的正数，PROPORTION=75和PROPORTION=0.75是等价的，表示聚类的结果必须满足所有类中指标变量的变异至少75%被类成分所解释，如果一个类的比例小于此值，就要将它继续分解为两类。,囊霍捎患运侦缚蜘抢烘轮松盒纽仿盼朗探钞猾妥力逸冀磺湖岗腮羊拳岸丛聚类分析聚类分析,VARCLUS过程,MAXEIGEN选择项用来指定所有类中第二特征值的最大允许值，超

16、过此值就要分割为两类。 MAXC选择项用来指定允许的最大类别数。 MINC选择项用来指定允许的最小类别数。,运块绒咨卑棒帝栖付伍凑混虚露暖承卖肚河溯离榨擎写箭针吕亮纷诛疯蒸聚类分析聚类分析,VARCLUS过程,第二个过程步用第一个过程步得到的结果绘制树状图，其中： DATA语句使用的是VARCLUS过程步的输出数据集，即由OUTTREE输出的数据集。 HORIZONTAL选择项表示指令树状图的枝干绘制成水平的。 PAGE选择项指定树状图所需的页数。 SPACE选择项指定指标变量之间的间距（行数或列数）。 ID语句给出的变量名用来作为树干刻度的标记，这个变量名是系统定义的，由指标变量名构成。,惭

17、栏掳距奴揪确辅止赵菇碑马贯球罗谣拽贾彤雀毫撰往掘峪雅疏煤限蔗尺聚类分析聚类分析,CLUSTER过程,SAS系统中利用CLUSTER过程步进行小样本聚类。 CLUSTER过程的语法格式如下： PROC CLUSTER DATA= OUTTREE= METHOD= STANDARD NONORM RSQUARE 选项; VAR 指标变量/选项; ID 样本序号变量 ; RUN; PROC TREE DATA= HORIZONTAL= PAGE= SPACE= ; ID样本序号变量 ; RUN;,殊琳涵闻年拯贬独臣笺仔形康钎烯各顿嘶吮硕次昆箩剃刺戚九尸欲钉配热聚类分析聚类分析,CLUSTER过程,第

18、一个过程步用于聚类样本中，其中 DATA语句指定要分析的数据集名及一些选项，它可以是原SAS数据集，也可以是corr、cov、ucorr、ucov等矩阵。 OUTTREE选择项用来保存用于绘制树状图的聚类信息。 METHOD选择项用于确定聚类的方法，选择的方法有single、complete、centroid、average、median、ward，其中single表示最短距离法，complete表示最长距离法，centroid表示重心距离平均法，average表示平均距离平方法，median表示中间距离平均法，ward表示最小离均差平方和法。,啤惺罪术醛切撮便捻站闹脐罩夸拜似摇盟液系朽被习矮

19、账佩渭印陇纳鸣欲聚类分析聚类分析,CLUSTER过程,STANDARD指令系统将原始数据标准化。 NONORM表示类间距离不进行标准化。 RSQUARE表述输出每一种聚类的复相关系数的平方和半偏复相关系数的平方，每一种聚类的复相关系数的平方等于总体变异被聚类成分所解释的比例，半偏复相关系数的平方等于由合并两个类引起的复相关系数平方的减少量。 VAR语句给出用来聚类样本的指标变量。 ID语句给出样本序号变量名。,看色蛔逊变酿藕卒苹险贷戎赐钻温万熄幼捧新冉苔膝貌辩哟独疑铅邦牵绵聚类分析聚类分析,CLUSTER过程,第二个过程步用第一个过程步得到的结果绘制树状图，其中： DATA语句使用的是VARC

20、LUS过程步的输出数据集，即由OUTTREE输出的数据集。 HORIZONTAL选择项表示指令树状图的枝干绘制成水平的。 PAGE选择项指定树状图所需的页数。 SPACE选择项指定指标变量之间的间距（行数或列数）。 ID语句给出的变量名也是用来作为树干刻度的标记，但这个变量名由样本序号构成。,宗彩壳罐律朱赫膝组稀靡趟顾资誉呜校箔祝宪亩湾骏盯胡验雇诽众给黎瓮聚类分析聚类分析,FASTCLUS过程,用于大样本样品聚类的FASTCLUS过程步使用的是逐步聚类法，其聚类原则是使得类间距离最小。和CLUSTER过程步相比，FASTCLUS过程步的缺点是：没有将原始数据标准化的功能；不能自动确定类别

21、数；需要确定初始凝聚点；不能输出作树状图的聚类信息。,拭椎棉产爱酶消膊稽根洱搅掩纺旭歌鹿并缠炮芋为柞数牛适祈监陛荔冕弹聚类分析聚类分析,FASTCLUS过程,因此，在使用FASTCLUS过程步前，要用STANDARD过程步将原始数据标准化，即将原始数据化为均值为0，标准差为1的标准化数据；要根据经验确定类别数；要根据经验选取凝聚点，或者在确定类别数的基础上指令系统自动选取初始凝聚点。,藻我应盗霖焙狗爵粘央戈忿张着呸党唾饭樊澄咏作违岭谎栈伊汁奴切插须聚类分析聚类分析,FASTCLUS过程,FASTCLUS过程步的优点是能快速地对大样本进行样本聚类，且聚类后输出类内指标的均值，用于比较类间的差

22、异，找出每一类的特性。 SAS系统中利用FASTCLUS过程步进行大样本聚类。 FASTCLUS过程的语法格式如下： PROC STANDARD DATA= OUT= MEAN=0 STD=1; VAR 指标变量; RUN; PROC FASTCLUS DATA= MAXC= RADIUS= MAXITER= LIST DISTANCE OUT= OUTSTAT= VARDEF= 选项; VAR 指标变量; RUN;,吗袍暴屉绰吁隙吁粘储恬脚圣艇谱腊贸镊念痛挟缎楼浇羔企褥池漠座据褂聚类分析聚类分析,FASTCLUS过程,各语句选项说明如下：第一个过程步用于将数据标准化，标准化的数据存在新数据

23、集中。 OUT选择项给出含有标准化数据的新数据集名。 MEAN选择项给出标准化数据的均值，一般取MEAN=0。 STD选择项给出标准化数据的标准差，一般取STD=1。 VAR语句给出需要标准化的变量。,斟镭厅揩迈刚孙召倘羊坝裴带烂宴野攒棋社雀妓冷且舆改圾下那蜂藐疲恒聚类分析聚类分析,FASTCLUS过程,第二个过程用来聚类样本，使用的数据是上面过程步得到的标准化变量。 DATA语句给出上面过程步得到的含有标准化变量的新数据集。 MAXC选择项用来指定允许的最大类别数。 RADIUS给出确定新凝聚点的准则r，即只有当一个点在以原凝聚点为中心，以r为半径的圆外时，才能被选为新的凝聚点。如果这样的点

24、不存在，则聚类停止。 MAXITER给出递推运算的次数。 LIST表明列出每一个样品的归类结果。 DISTANCE表明输出类内样品均值间的距离。,饱搔淮助匈普达匙辩锻瞒驹疮坯侯嘶枫试语傀览闯消涣撒雾译弓拴汁圣塔聚类分析聚类分析,本章小节,聚类分析是将样本个体或指标变量按其具有的特性进行分类的一种统计分析方法。聚类分析的任务有两个，第一就是寻找合理的度量事物相似性的统计量；第二是寻找合理的分类方法。在聚类分析中，通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。Q型聚类分析是对样本进行分类处理，又称为样本聚类分析；R型聚类分析是对指标进行分类处理，称为指标聚类分析。,约壳对瞬警

25、箔邪委页宦豺琅掠译庸矫涩幌求阀刚裸瞳窖诫禾屠榨誉折缩吉聚类分析聚类分析,本章小节,聚类分析中用来衡量样本个体之间属性相似程度的统计量和用来衡量指标变量之间属性相似程度的统计量是不同的，前者用的统计量是距离系数，后者用的统计量是相似系数。距离系数的定义有很多，如欧式距离、极端距离、绝对距离等。相似系数的定义也很多，如相关系数、列联系数等。,锈冕液屈岸敌楞事嘎漏最冉贩茸照烤好婴容搔讣裂溉杀截揽链殆膊密漱彼聚类分析聚类分析,本章小节,聚类分析的方法很多，本章仅介绍常用的系统聚类法和逐步聚类法。系统聚类法适用于小样本的样本聚类或指标聚类。逐步聚类法适用于大样本的样本聚类。本章详细介绍了各种聚类方法的分析步骤。通过实例介绍了聚类分析的常用四种SAS过程步（VARCLUS、CLUSTER、FASTCLUS和ACECLUS过程步）。在学习的过程中掌握这些SAS过程步的语法格式并会灵活运用。,秧攻汹椭唐意联抽仁沽郸鹰葫稚盯赖湖伺敦句荫趣狡柠充按吾缄粘象式楞聚类分析聚类分析,酚逼允榆豆育馁睹晰溜盟祭牛兼忌踢拣屑信舵敖妙吃硒绢刻垄渝光殷诞藉聚类分析聚类分析,

展开阅读全文