多元统计应用第4讲(聚类分析).ppt

上传人:本田雅阁 文档编号:2241344 上传时间:2019-03-09 格式:PPT 页数:44 大小:191.51KB
返回 下载 相关 举报
多元统计应用第4讲(聚类分析).ppt_第1页
第1页 / 共44页
多元统计应用第4讲(聚类分析).ppt_第2页
第2页 / 共44页
多元统计应用第4讲(聚类分析).ppt_第3页
第3页 / 共44页
亲,该文档总共44页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《多元统计应用第4讲(聚类分析).ppt》由会员分享,可在线阅读,更多相关《多元统计应用第4讲(聚类分析).ppt(44页珍藏版)》请在三一文库上搜索。

1、2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 数理统计及其应用 聚类分析 Cluster Analysis 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 第一节 聚类分析方法 第二节 聚类统计量 第三节 无量纲化方法 第四节 Q型系统聚类法 第五节 R型系统聚类法 第六节 快速聚类法 推荐阅读 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 第一节 聚类分析方法 n聚类分析是根据“物以类聚”的道

2、理,对样品或 指标进行分类的一种多元统计分析方法,它们 讨论的对象是大量的样品,要求能合理地按各 自的特性来进行合理的分类,没有任何模式可 供参考或依循,即是在没有先验知识的情况下 进行的。 n基本思想是根据事物本身的特性研究个体分类 的方法;聚类原则是同一类中的个体有较大的 相似性,不同类中的个体差异很大。 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved n基本程序:是根据一批样品的多个观测指标, 具体地找出一些能够度量样品或指标之间相似 程度的统计量,然后利用统计量将样品或指标 进行归类。 n具体进行聚类时,由于目的、要求不

3、同,因而 产生各种不同的聚类方法: n由小类合并到大类的方法 n由大类分解为小类的方法 n静态聚类法、动态聚类法 n按样本聚类(Q)、按指标聚类(R) 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved n在社会经济领域中存在着大量分类问题,如: 对我国31个省市自治区独立核算工业企业经济 效益进行分析,一般不是逐省市自治区去分析 ,而较好地做法是选取能反映企业经济效益的 代表性指标,如百元固定资产实现利税、资金 利税、产值利税率等,根据这些指标对全国各 省市自治区进行分类,然后根据分类结果对企 业经济效益进行综合评价,就易于得出科

4、学的 分析。 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 第二节 聚类统计量 n一、概述 n二、Q型聚类统计量 n三、R型聚类统计量 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 概述 n设有n个样本单位,每个样本测得p项指 标(变量),原始资料阵为: nQ型聚类以距离作为统计量,R型聚类以 相似系数作为统计量。 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved Q型聚类统计量(距离) n把n个

5、样本点看成p维空间的n个点 n1、绝对距离(Block距离) n2、欧氏距离(Euclidean distance) 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved n3、明考斯基距离(Minkowski) n4、兰氏距离 n5、马氏距离 n6、切比雪夫距离(Chebychev) 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved R型聚类统计量 n对两个指标之间的相似程度用相似系数 来刻划,相似系数的绝对值越接近于1, 表示指标间的关系越密切,绝对值越接 近于0,表

6、示指标间的关系越疏远。 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved n1、夹角余弦 n2、相关系数 n3、同号率 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 第三节 无量纲化方法 n所谓无量纲化处理,是将原始数据矩阵 中每个元素按照某种特定的运算把它变 成一个新值,且是数值的变化不依赖于 原始数据中其它数据的新值。 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved n1、极差正规化(规格化变换

7、、阈值法) n2、标准化变换 n3、功效系数法 n4、相对化变换 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved n例:某年我国部分省市经济效益情况 n用以上几种方法对其无量纲化。 指标标实际值实际值 北京天津上海江苏苏广东东 产产品销销售率(%) 资资金利税率(%) 成本利润润率(%) 劳动劳动 生产产率(元/人) 流动资动资 金周转转次数(次 ) 净资产净资产 率(%) 96.01 14.90 9.51 14830 1.68 28.40 95.72 9.21 3.35 10004 1.79 26.48 98.42 13.88

8、 7.55 15545 1.80 25.56 93.43 10.75 3.99 9708 2.21 22.30 95.16 10.25 5.03 14590 1.87 25.01 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 第四节 Q型系统聚类法 n系统聚类法(层次聚类法):在聚类分析的开 始,每个样本自成一类;然后 ,按照某种方法 度量所有样本之间的亲疏程度,并把最相似的 样本首先聚成一小类;接下来,度量剩余的样 本和小类间的亲疏程度,并将当前最接近的样 本或小类再聚成一类;再接下来,再度量剩余 的样本和小类间的亲疏程度,

9、并将当前最接近 的样本或小类再聚成一类;如此反复,直到所 有样本聚成一类为止。 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 步骤: n1、对数据进行变换处理,消除量纲 n2、构造n个类,每个类只包含一个样本计算 n3、n个样本两两间的距离dij n4、合并距离最近的两类为一新类 n5、计算新类与当前各类的距离,重复(4) n6、画聚类图 n7、决定类的个数和类 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 类与类间距离的确定 n一、最短距离法 n二、最长距离

10、法 n三、中间距离法 n四、重心距离法 n五、类平均法 n六、离差平方和 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 最短距离法(Nearest Neighbor) n以当前某个样本与已经形成的小类中的各样本 距离中的最小值作为当前样本与该小类之间的 距离。 省份x1x2x3x4x5x6x7x8 辽辽宁 浙江 河南 甘肃肃 青海 7.90 7.68 9.42 9.16 10.06 39.77 50.37 27.93 27.98 28.64 8.49 11.35 8.20 9.01 10.52 12.94 13.30 8.14

11、 9.32 10.05 19.27 19.25 16.17 15.99 16.18 11.05 14.59 9.42 9.10 8.39 2.04 2.75 1.55 1.82 1.96 13.29 14.87 9.76 11.35 10.81 例1:为了研究辽宁省5省区某年城镇居民生活消费的分 布规律,根据调查资料做类型划分(spssex/ex501) 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved G1=辽宁,G2=浙江,G3=河南,G4=甘肃,G5=青海 =(7.9-7.68)2+(39.77-50.37)2+(8.49-

12、11.35)2+(12.94-13.3)2+ (19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)20.5=11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5 D1=1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0 河南与甘肃的距离最 近,先将二者(3和4 )合为一类G6=G2, G

13、4 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24.06 d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0 D2= 1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0 d71=d(3,4,5)1=mind13,d14,d15=12.80;d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2 D3=7 0 1 12.80 0

14、 2 23.54 11.67 0 河南、甘肃与青海并为 一新类G7=G6, G5=G3,G4,G6 G8=G1,G2 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved d78=mind71,d72=12.80 7 8 D4= 7 0 8 12.8 0 河南3 甘肃4 青海5 辽宁1 浙江2 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 最长距离法(furthest neighbor) n以当前某个样本与已经形成的小类中的 各样本距离中的最大值作为当前样本与 该小类

15、之间的距离。 例2:对例1的数据以最长距离法聚类 。 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5 D1= 1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0 河南与甘肃的距离最近,先将二者(3和4 )合为一类G6=G2,G4 2006-

16、2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved d61=d(3,4)1=maxd13,d14=13.80 d62=d(3,4)2=maxd23,d24=24.63 d65=d(3,4)5=maxd35,d45=3.51 6 1 2 5 6 0 D2=1 13.80 0 2 24.63 11.67 0 5 3.51 12.80 23.54 0 河南、甘肃与青海并为一新类 G7=G6,G5=G3,G4,G6 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved d71=d(3,4,5

17、)1=maxd13,d14,d15=13.80 d72=d(3,4,5)2=maxd23,d24,d25=24.63 7 1 2 D3=7 0 1 13.80 0 2 24.63 11.67 0 d78=maxd71,d72=24.63 7 8 D4= 7 0 8 24.63 0 G8=G1,G2 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 中位数法(Median clustering) n用两位类的中位数间的距离作为两类的 距离 Gt Gl Gm 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 A

18、ll rights reserved 重心法 n用两类的重心间的距离作为两类的距离 Gr Gt 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 组间平均链锁法 (Between-groups linkage) n定义两个小类之间的距离为所有样本对间的 平均距离。 n利用了所有样本对距离的信息。 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 组内平均链锁法 (Within-groups linkage) n对所有样本对的距离求平均值,包括小类 之间的样本对、小类内

19、的样本对 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 离差平方和法 (Wards method word) n使小类内各样本的欧氏距离总平方和增加最小 的两小类合并为一类。 n将q固定时,要选择使S达到极小的分类,一切 可能的分法有: 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved nWard 寻找到一个局部最优解的方法。 n先将n个样本各成一类,然后每次缩小一类, 每缩小一类离差平方和就要增大,选择使离差 平方和S增加最小的两类合并,直至所有样本 归为一类为

20、止。 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved n例3:为了研究某年全国各地区农民家庭收支 的分布规律,根据抽样调查资料进行分类处 理,共抽取28个省、市、自治区的样本,每 个样本有六个指标,分别为食品、衣着、燃 料、住房、生活用品及其它、文化生活服务 支出。原始资料见 spssex/ex512 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 第五节 R型系统聚类法 n一、最小系数法 n二、最大系数法 n三、中间系数法 2006-2007,wenjie, 福

21、建师大福清分校 数学与计算机科学系 All rights reserved n对变量聚类,是一种降维的方法,用于 在变量众多时寻找有代表性的变量,以 便当用少量、有代表性的变量代替大变 量时损失信息很少。 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 第六节 快速聚类 n如果选择了N个数值型变量参与聚类分析,最后要 求聚类数K,那么可以由系统首先选择K个观测量 作为聚类的种子,也称初始类中心、凝聚点,按 照距这几个类中心的距离最小原则把观测量分到 各类中心所在的类中去,形成第一次迭代形成的K 类。根据组成每一类的观测量计算各变

22、量均值, 每一类中的n个均值在N维空间中又形成K个点, 这就是第二次迭代的类中心,按照这种方法依次 迭代下去直到分类比较合理为止。 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 凝聚点的选择 n1、经验选择 n2、对样本人为或随机分类,以每类的重心作 为凝聚点 n3、最小最大距离法。如果欲将n个样本点分为 q类,先选取距离最大的两点xi1,xi2为前两个凝 聚点,然后选取第3个凝聚点xi3,由于其余所 有点与前两个凝聚点都有最短距离,在全部最 短距离中选择最长距离,这个距离的两端一个 是xi1或xi2,而另一个就是我们要选择的

23、xi3. n4、密度法 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved n例4:有15个样品,每个样品有两个经相对化 处理后的指标y1,y2,试用密度法先取凝聚点。 (距离以欧氏距离计算,球半径为0.3)数据 见spssex/ex513 n在SPSS中计算出距离矩阵,归纳出各样本的 密度为: n凝聚点为样本6,12,1,13 样样 本 123456789101112131415 密 度 013335434123022 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved

24、 初始分类 n1、人为地分类 n2、选择凝聚点后,将与其最近的凝聚点归并 n3、选择凝聚点后,每个凝聚点自成一类,将样本依 次归入其距离最近的凝聚点那一类,并立即计算该类 的重心,以代替原来的凝聚点,再计算下一个样本的 归类。 n4、先对样本数据标准化,然后计算统计量 这个数接近几,就归入第几类 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 快速聚类步骤 n1、选择分析变量 n2、指定聚类数目 n3、选择k个样本作为凝聚点 n4、按照距初始类中心最小的原则将各观察量分到聚类 中心所在的类中去,形成第一步迭代的k类 n5、计算每

25、类中所有变量的均值,作为第二次迭代的中 心 n6、重复3、4步,直至指定的迭代次数或达到终止的条 件 n例5:仍以例3的数据资料,进行快速聚类(分为4类) 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved n例5:仍以例3的数据资料,进行快速聚 类(分为4类) 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved SPSS n聚类方法的选择: between-groups linkage:组间连接 within-groups linkage:组内连接 nearest ne

26、ighbor:最近邻法 furthest neighbor:最远邻法 centroid clustering:重心聚类法 median clustering:中位数法 Wards method:离差平方和法 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved n对距离的测度方法选择: Euclidean distance :欧氏距离 squared Euclidean distance:欧氏距离平方 cosine:相似性测度 Pearson correlation:皮尔逊相关 Chebychev:切比雪夫距离 block:绝对距离 Minkowski:明考斯基距离 customized:自定义 n选择统计表: Dendrogram:树形图 Icicle:冰柱图 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 推荐阅读 n数量经济技术经济研究 2003.7 n中国可持续发展问题特征研究暨中等发达国 家可持续发展模式的聚类分析 2006-2007,wenjie, 福建师大福清分校 数学与计算机科学系 All rights reserved 有问题,请提问

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1