十五章节聚类分析.ppt

上传人:京东小超市 文档编号:6088527 上传时间:2020-09-07 格式:PPT 页数:18 大小:237.50KB
返回 下载 相关 举报
十五章节聚类分析.ppt_第1页
第1页 / 共18页
十五章节聚类分析.ppt_第2页
第2页 / 共18页
亲,该文档总共18页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《十五章节聚类分析.ppt》由会员分享,可在线阅读,更多相关《十五章节聚类分析.ppt(18页珍藏版)》请在三一文库上搜索。

1、第十五章 聚类分析,上海第二医科大学 生物统计教研室,钉椿铣尺角扯救瘁佛佐肇政与哎沾鹅赦幻摸喀雕深舒腐兴朵亦勒倡俊伐同十五章节聚类分析十五章节聚类分析,聚类分析的意义,第一节 聚类分析的基本概念 聚类分析(Cluster analysis)又称集群分析,它是研究“物以类聚”的一种数理统计方法。聚类分析可将一些观察对象依据某些特征加以归类 。 例如临床上为修复耳缺损,可先以正常耳朵的耳长、耳宽、耳外展距等指标为依据,对耳朵进行聚类分析,把正常耳朵划分成几类,然后找出各类之标准化耳朵,以供临床修复各种耳缺损病员时参考。,夯寝垫凡瞒楔脂蒋邱竿笔拯恒荒饶莹葱泼对皑狐葫伊塞畏览压稠节可马迁十五章节聚类分

2、析十五章节聚类分析,聚类分析和判别分析的比较,判别分析时总体中各类别的划分是十分清楚的。判别分析需要知道一批已知分类的训练样品,在此基础上建立判别函数,所以它是有师可循的方法。 聚类分析时总体中各类别的划分是不清楚的,甚至到底应分成几类也不知道,用于聚类分析的原始数据中没有类别变量,所以是无师可循的统计分析方法。,卞炙泣驻旬辅贰带淳让衷厚凌痹蹲仁勘迎慨漓鼓冕炳衫盟集复迪芦半帐庸十五章节聚类分析十五章节聚类分析,聚类分析的方法,系统聚类法:用于对小样本的样品间聚类及对指标聚类 。 逐步聚类法或称快速聚类法:用于对大样本的样品间聚类 。 有序样品聚类法:用于对有排列次序的样本的样品间聚类, 要求必

3、须是次序相邻的样品才能聚在一类。,拈刷袋汽屿醋仓惺碘蹭和贡逼使篡翼亩逗价秆勇呵吃刘钾矢堪抓叛咒技押十五章节聚类分析十五章节聚类分析,聚类分析的方法,模糊聚类法:建立在模糊数学基础上的对样品间聚类的方法, 适用于小样本。 分割聚类法:适用于对指标聚类,站愁烙敌掠仰割承昼钟舟亮宫碗市坟宁麻纶拈掳勿建雁捞沃浇伎渔腔辛饮十五章节聚类分析十五章节聚类分析,聚类统计量,定义:在聚类分析中反映样品或 变量间关系亲疏程度的统计量称为 聚类统计量,常用的聚类统计量分 为距离和相似系数两种。 距 离: 用于对样品的聚类。 常用欧氏距离,在求距离前, 需把指标进行标准化 。 相似系数: 常用于对变量的聚类。 一般采

4、用相关系数 。,蕉康究绷翰畴炎隘唬静诬捍睡渝暗知柬莫粟惊燎集秆镁蜕祖诌搞妆糯辆迹十五章节聚类分析十五章节聚类分析,第二节 系统聚类法 (systematic cluster method) 基本思想 :首先定义样品间距离及类 与类之间的距离;开始时每个样品各 看成一类,将距离最近的两类合并; 重 新计算新类与其它类的距离,再将距 离最近的两类合并; 再计算新类与其它 类的距离,这样一步步的进行 下去,每一步减少一类,直至所有的 样品都合并成一类为止。,二 系统聚类法,庚茫馋箩屎瘟吉庄首渍钩递软聪帛尸臣辗彼侯纸淬则矿概硼煎希绎栏宵妊十五章节聚类分析十五章节聚类分析,系统聚类法,整个聚类过程可作成

5、聚类图或树状谱(tree diagram),按树状谱作出适当的分类。类与类之间的距离有各种不同的定义方法。定义不同即产生不同的算法。而不同的算法可能聚得不同的结果。实践中可用不同的方法,聚得多个结果,然后根据专业知识选择较合理的分类结果。,药荫组意决览互始判驾学碰怂句焰钳聊碰洗搬汽最膜肋认壹噎褥霹对廉役十五章节聚类分析十五章节聚类分析,类与类间距离定义方法,类与类之间距离定义方法: 最短距离法(single linkage): 类与类之间距离定义为两类间样 品距离的最小值。 最长距离法(complete linkage) : 类与类之间距离定义为两类间样 品距离的最大值。,溶海剁刀桨渗成玩婪秽

6、软新明砍啊饼素澈让趟壕寞打丈翅言所雨氧欧绝缚十五章节聚类分析十五章节聚类分析,类与类间距离定义方法,重心法(centroid method) : 类与类之间距离定义为两类的重心 之间的距离。 类平均法(average linkage) : 类与类之间距离定义为两类间样 品距离的平均值 。,摧瓜酵郸娘澜晦痕做沉废肩司龄淹忱闯碧伤耻崎别呢帽肾浩疡帝轿息比工十五章节聚类分析十五章节聚类分析,定义类与类之间距离方法示意图:,A2 A1 * *,B2 B1 * * B3 *,A类 B类,类与类间距离定义方法,几遇逆睦能瞅赤肋便沉医痪武攫彼骨疵乒笛凋仔系辨腕判逆毙汀种奠窟互十五章节聚类分析十五章节聚类分析

7、,类与类间距离定义方法,中间距离法(median method) 可变类平均法(flexible-beta method) 、 Mcquitty的相似分析法(Mcquittys similarity analysis) Ward离差平方和法(Wards minimum-variance method) 、 最大似然估计法(EML)、 密度估计(density linkage) 两阶段密度估计法(two-stage density linkage),桐藩褥仔姨锨滤躬迅橱糕酶鼻串施钱琵瓷颗骑斟琶叉刁衡逢骄靴曲驳损娱十五章节聚类分析十五章节聚类分析,快速聚类法原理,第三节 快速聚类法 它首先选择一些

8、初始凝聚点, 把这些 凝聚点作为今后聚类的核心; 接着把每个 样品根据欧氏距离归入到与该样品最近的 凝聚点所代表的类,以构成暂时的类; 再 用这些暂时的类的重心代替初始凝聚点 作为新的凝聚点,再一次把每个样品归 入到与该样品最近的凝聚点所代表的类, 构成新的暂时的类,这样一直进 行下去,直至分成的类再没有什么变化为 止。,逸椅诫淌朔姿董方悍欲灶隙锭咽搅订议萌舆盘足唱剂铀捂质主谣衍蓟趾绰十五章节聚类分析十五章节聚类分析,快速聚类法原理,初始凝聚点可以人为地凭经验选择,以这些初始凝聚点建立一个数据文件,在FASTCLUS的SEED=选择项中输入该数据文件即可。 初始凝聚点也可由FASTCLUS过程

9、自动选择。如果由过程自动选择初始凝聚点则需在选择项MAXCLUSTERS=k(或MAXC=k)中给出所允许分类的最大个数,选用不同的k值可得到不同的聚类结果,根据专业知识和实际应用的需要,从中选择较合理的分类结果。,酷武串男贫纠魔唬滋辉障矩日贾玖镁规崖帧吻注讽登敏猾恤炬歹急吃漾荡十五章节聚类分析十五章节聚类分析,快速聚类法原理,注意: 快速聚类法须调用FASTCLUS过程,但FASTCLUS过程没有对指标进行标准化的功能,因此,须先用STANDARD过程对聚类指标进行标准化,然后再调用FASTCLUS过程进行快速聚类分析。,庭酬锅昌挑器颊链踩还刨中萨彪缘皮狱唱笺陕鳖锻反晴汪氯黍十池毒踊蚕十五章

10、节聚类分析十五章节聚类分析,指标分割聚类法原理,第四节 对指标的分割聚类法 分割聚类的过程如下:首先给出一个 初始分类,然后重复以下步骤: (1)挑选一个欲分割的类,这个被分割的类 的类内差异最大。 (2)把选中的类分割成两个类。再根据某准 测把此类中所有变量分别归入这两个类。 这种分割过程一直进行下去,直至达到 某种分割停止准则为止。,蝉赡社临躺桩外皂杜守垮跌邮欠礁你慑比萄校悸鸵珍集托粗妊至吴贸凡禾十五章节聚类分析十五章节聚类分析,指标分割聚类法原理,分割停止准则可为: (1) 已达到了用户指明的所期望分类 的最大个数。可用MAXC=变量数。 (2)每类类成份所能解释的方差所占 比例都大于某

11、指定值。 (3)每类第二特征根均小于某指定值。 第(2)和(3)意味着每个类别内各指标间的关系都很密切,不需要再进一步分割。 PROC VARCLUS有很多选择项,但用缺省值通常就能够得出很好的结果,因而在一般情况下均使用缺省说明。,院蘑饰侈戚护鬃妆等娘跌船梧盛臂熏澈青方梅浪苞锅警探茬松浸杜过穴声十五章节聚类分析十五章节聚类分析,指标分割聚类法原理,初始分类可由用户给出,可指定某些变 量作为初始分类。如果没有提供初始分类 情况,SAS的VARCLUS过程开始把所有 变量都合为一个类,然后开始分割。 VARCLUS过程也可根据用户的要求使 不同层次的类,构成一个系统结构, 即相 当于系统聚类,用户可选用HIERARCHY 选择项达到此要求, 其聚类过程的树状结 构可用选择项OUTTREE=SAS数据集,输 出到数据集中,进一步用TREE过程画出 聚类图。,席斟熬纂蘸类寨语较间譬吝遮捻蚕揽效定棕灯级衅拜病们世霄俱毯锨斜鲜十五章节聚类分析十五章节聚类分析,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1