十九章聚类分析ClusteringAnalysisP.ppt

资源描述

《十九章聚类分析ClusteringAnalysisP.ppt》由会员分享，可在线阅读，更多相关《十九章聚类分析ClusteringAnalysisP.ppt（39页珍藏版）》请在三一文库上搜索。

1、第十九章聚类分析（Clustering Analysis）,Content,Similarity coefficient Hierarchical clustering analysis Dynamic clustering analysis Ordered sample clustering analysis,判别分析:在已知分为若干个类的前提下，获得判别模型，并用来判定观察对象的归属。聚类分析:将随机现象归类的统计学方法，在不知道应分多少类合适的情况下，试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。已成为发掘海量基因信息的首选工具。二者都是研究分类问题的多元统计

2、分析方法。,聚类分析属于探索性统计分析方法，按照分类目的可分为两大类。例如测量了n个病例（样品）的m个变量（指标），可进行：（1）R型聚类: 又称指标聚类，是指将m个指标归类的方法，其目的是将指标降维从而选择有代表性的指标。（2）Q型聚类: 又称样品聚类，是指将n个样品归类的方法，其目的是找出样品间的共性。,无论是R型聚类或是Q型聚类的关键是如何定义相似性，即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性的度量相似系数（similarity coefficient）的定义。,第一节相似系数 1R型（指标）聚类的相似系数 X1，X2，Xm表示m个变量，R型聚类常用简单

3、相关系数的绝对值定义变量与间的相似系数：绝对值越大表明两变量间相似程度越高。同样也可考虑用Spearman秩相关系数定义非正态变量与间的相似系数。当变量均为定性变量时，最好用列联系数定义类间的相似系数。,2Q型（样品）聚类常用相似系数将n例（样品）看成是m维空间的n个点，用两点间的距离定义相似系数，距离越小表明两样品间相似程度越高。（1）欧氏距离: 欧氏距离（Euclidean distance）（2）绝对距离：绝对距离（Manhattan distance）（3）Minkowski距离：绝对距离是q=1时的Minkowski距离；欧氏距离是q=2时的Minkowski距离。Mi

4、nkowski距离的优点是定义直观，计算简单；缺点是没有考虑到变量间的相关关系。基于此引进马氏距离。,（4）马氏距离：用表示m个变量间的样本协方差矩阵，马氏距离（Mahalanobis distance）的计算公式为其中向量。不难看出，当（单位矩阵）时，马氏距离就是欧氏距离的平方。以上定义的4种距离适用于定量变量，对于定性变量和有序变量必须在数量化后方能应用。,第二节系统聚类系统聚类（hierarchical clustering analysis）是将相似的样品或变量归类的最常用方法，聚类过程如下： 1）开始将各个样品（或变量）独自视为一类，即各类只含一个样品（或变量），计算类间相

5、似系数矩阵，其中的元素是样品（或变量）间的相似系数。相似系数矩阵是对称矩阵； 2）将相似系数最大（距离最小或相关系数最大）的两类合并成新类，计算新类与其余类间相似系数；重复第二步，直至全部样品（或变量）被并为一类。,一、类间相似系数的计算系统聚类的每一步都要计算类间相似系数，当两类各自仅含一个样品或变量时，两类间的相似系数即是两样品或变量间的相似系数或，按第一节的定义计算。,当类内含有两个或两个以上样品或变量时，计算类间相似系数有多种方法可供选择，下面列出5种计算方法。用分别表示两类，各自含有个样品或变量。 1最大相似系数法类中的个样品或变量与类中的个样品或变量两两间共有个相似系数，以其

6、中最大者定义为与的类间相似系数。注意距离最小即相似系数最大。 2最小相似系数法类间相似系数计算公式为 3重心法（仅用于样品聚类）用分别表示的均值向量（重心），其分量是各个指标类内均数，类间相似系数计算公式为,4类平均法（仅用于样品聚类）对类中的个样品与类中的个样品两两间的个平方距离求平均，得到两类间的相似系数类平均法是系统聚类方法中较好的方法之一，它充分反映了类内样品的个体信息。,5离差平方和法又称Ward法，仅用于样品聚类。此法效仿方差分析的基本思想，即合理的分类使得类内离差平方和较小，而类间离差平方和较大。假定n个样品已分成g类，是其中的两类。此时有个样品的第k类的离差平方和

7、定义为：，其中为类内指标的均数。所有g类的合并离差平方和为。如果将与合并，形成g-1类，它们的合并离差平方和。由于并类引起的合并离差平方和的增量定义为两类间的平方距离。显然，当n个样品各自成一类时，n类的合并离差平方和为0。,例19-1 测量了3454名成年女子身高（X1）、下肢长（X2）、腰围（X3）和胸围（X4），计算得相关矩阵：试用系统聚类法将这4个指标聚类。本例是R型（指标）聚类，相似系数选用简单相关系数，类间相似系数采用最大相似系数法计算。,聚类过程如下：（1）各个指标独自成一类G1=X1，G2=X2，G3=X3，G4=X4，共4类。（2）将相似系数最大的两类合并成新类，由于

8、G1和G2类间相似系数最大，等于0.852，将两类合并成G5=X1 , X2，形成3类。计算G5与G3、G4间的类间相似系数 G3，G4，G5的类间相似矩阵,（3）由于G3和G4类间相似系数最大，等于0.732，将两类合并成G6=G3 , G4，形成两类。计算G6与G5间的类间相似系数。（4）最终将G5 ,G6合并成G7=G5 , G6,所有指标形成一大类。,根据聚类过程，绘制出系统聚类图（见图19-1）。图中显示分成两类较好：X1，X2，X3，X4，即长度指标归为一类，围度指标归为另一类。,0.085,0.732,0.234,例19-2 今测得6名运动员4个运动项目（样品）的能耗、糖耗的均

9、数见表19-1，欲对运动项目归类，以便提供相应的膳食标准，提高运动成绩。试用样品系统聚类法将运动项目归类。,本例选用欧氏距离，类间距离选用最小相似系数法。为了克服变量量纲的影响，分析前先将变量标准化，分别是Xi的样本均数与标准差。变换后的数据列在表19-1的，列。,聚类过程如下：（1）计算4个样品间的相似系数矩阵，样品聚类中又称为距离矩阵。负重下蹲与引体向上之间的距离按公式（19-3）计算得同样负重下蹲与俯卧撑之间的距离同理，计算出距离矩阵,（2）G2，G4间距离最小，将G2，G4并成一新类G5= G2，G4。应用最小相似系数法，按公式（19-8）计算G5与其他各类之间的距离 G1

10、，G3，G5的距离矩阵（3）G1，G5间距离最小，将G1，G5并成一新类G6= G1，G5。计算G6 与G3之间的距离（4）最终将G1 ,G6合并成G7=G1 , G6,所有指标形成一大类。,根据聚类过程，绘制出系统聚类图（见图19-2）。结合系统聚类图和专业知识认为分成两类较好： G1，G2，G4， G3。负重下蹲、引体向上、仰卧起坐三个运动项目体能消耗较大，训练时应提高膳食标准。,图19-2 4个运动项目样品聚类的系统聚类图,0.878,3.145,1.803,聚类实例分析相似系数的定义以及类间相似系数的定义的不同将导致系统聚类结果有所差异。聚类分析的结果解释除了要了解聚类方法外，还

11、必须结合专业知识。,例19-3 调查了27名沥青工和焦炉工的年龄、工龄、吸烟情况，检测了血清P21、P53、外周血淋巴细胞SCE、染色体畸变数和染色体畸变细胞数。数据列于表19-3，其中P21倍数=P21检测值/对照组P21均数。试用系统聚类法将27名工人归类。,本例选择了欧氏距离下的最小相似系数法、类平均法和离差平方和法对数据进行聚类分析。分析结果分别见图19-3、图19-4、图19-5。数据分析前，各变量已作标准化处理。,图19-3 27名沥青工和焦炉工的最小相似系数法系统聚类图,图19-4 27名沥青工和焦炉工的类平均法系统聚类图,图19-5 27名沥青工和焦炉工离差平方和法的系统聚类图

12、,三种聚类结果有较大的出入，可见这些方法分类效果是有差异的，特别是在分类变量较多时差异愈加明显，这就要求在聚类分析前，尽可能地选择有效变量，如本例的P21和P53倍数。详细解读聚类图，一般都能够获得许多有用的信息。,结合专业知识，本例认为类平均法聚类结果比较合理，分类结果列入表19-3最后一栏。它将10，20，23号工人分为一类，其余分为另一类。研究者最终发现10，20，23号工人为癌症高危人群。根据离差平法和法聚类图，不难发现10，20，23，8，16，26号聚在一类，提示8，16，26号工人也可能是癌症高危人群之一。,以下列出类平均法具体聚类过程，供参考。,第三节动态样品聚类当待分类的

13、样品较多时，如海量数据挖掘，系统聚类分析将耗费较多的计算资源来储存相似系数矩阵，计算速度缓慢。另外，用系统聚类方法聚类，样品一旦归类后就不再变动了，这就要求分类十分准确。针对系统聚类方法的这些缺陷，统计学者提出所谓动态聚类分析方法，这种分类方法既解决了计算速度问题，又能随着聚类的进展对样品的归类进行调整。,动态样品聚类的原理是：首先确定几个有代表性的样品，称之为凝聚点，作为各类的核心，然后将其他样品逐一归类，归类的同时按某种规则修改各类核心直至分类合理为止。动态样品聚类方法中最常用的一种是k-means法. 这种方法原理简单，分类快速，一般经过几轮归类就收敛了，即使样品很多也能迅速得到分类结

14、果。此法的缺点是要事先知道分类数目。在某些具体问题中分类数目根据专业知识是完全可以事先确定的，而在有的问题中分类数目则难以确定。,第四节有序样品聚类前面讲到的样品聚类分析方法，适用于无序样品的分类。在科学研究中存在另一类型的资料，各样品在时域或空域存在自然顺序，如生长发育资料的年龄顺序，发病率的年代顺序和地理位置。我们称这种样品为有序样品。对有序样品分类时要考虑到样品的顺序特性这个前提条件，分类时不破坏样品间的顺序，由此形成的样品聚类方法称为有序样品聚类（ordinal clustering methods）。,应用注意事项 1聚类分析方法常用于数据的探索性分析，聚类分析的结果解释应密切结合专业知识，同时尝试用多种聚类方法分类，才能获得较理想的结论。 2聚类前应对变量作预处理，剔除无效变量（变量值变化很小）、缺失值过多的变量。一般需对变量作标准化变换或极差变换，以消除量纲和变异系数大幅波动的影响。,3较理想的样品分类结果应使类间差异大，类内差异较小。分类后单变量时应用方差分析，多变量时应用多元方差分析检验类间差异有无统计学意义。 4模糊聚类（fuzzy clustering analysis），神经网络（neuro-networks）聚类，以及对基因库作数据挖掘的特殊聚类分析方法，本章由于篇幅所限均未加介绍。需要时可登陆互联网查询。,学习愉快！,

展开阅读全文