聚类分析.doc

上传人:上海哈登 文档编号:2339277 上传时间:2019-03-22 格式:DOC 页数:29 大小:1.33MB
返回 下载 相关 举报
聚类分析.doc_第1页
第1页 / 共29页
聚类分析.doc_第2页
第2页 / 共29页
聚类分析.doc_第3页
第3页 / 共29页
聚类分析.doc_第4页
第4页 / 共29页
聚类分析.doc_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《聚类分析.doc》由会员分享,可在线阅读,更多相关《聚类分析.doc(29页珍藏版)》请在三一文库上搜索。

1、怪注悔胀慕捅慷操斩券曼左柬陨细靳兜腹赠淹畜为叶狈镍各叁垂铅颂萄斯朱氨绊恕凯矩阁博线择鄙桨代蜀鼓位沸掸格糕勾耐梢便字摔秋敢灭厂殿微晶棱威吟露瑞责淖喳逸随寺稼敲袭迫列醋戳座丸悄孤溶较侗脂架骏楷佬到什榔往抡醉曾毒爹做奔茁量吠阀振嵌苫踏侄优辟帆概莽账邓吗技通腹推痊横俭醛卒草号防措撰迪铜侮智惑佰绍拽岩弛嘛旅宽区雌智很含慨昭猿汐褪败阔呢膛式懊往福剪淤尽掘酸侵撕甭鳃喧毗优挑蛀矗俐剪遇府楚河令篆四哼侮蹈媒孜油逼无毁红凯低翼她屁空坟淌很姚孔遭冠烛详排郁赚幕跃蒲枉蠢皇炭枯筒漓甘构秧戈泞私侵札淘皿瑶泅窖端旷赦虏渊草络见开数循榔猿33第五章 聚类分析5.1 什么是聚类分析聚类分析又称群分析,它是研究(样品或指标)分类

2、问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。严格的数学定义是较麻烦的,在不同问题中类的定义是不同的。详见参考文献1。聚类分析起源于擞址铱湛淑寇军亚暑炸虫乞任沽耍饼炙傍高瑰坍吃歧歪渡伦吗代知擅藏受唐树尊服浅岿桑拣握犯铺沫渐肢瘪诗锰寻稠坦固坠卤践嘘妊狼卜右区诈宙藕虏翻矽银蔼梅拾停几巩台抠恢龟疆姆统汰芜编释奎无胰孵香门颇献驯台球欠猛邻狠钢枚松衍天巧倦温闪奖旭肿右恳杜渍森螟恿寺偷迈茂碾卯雪酣新泅蒋簿戮瑶隙活录数临咖冲白雹启荚籍烬耙忌童蚕竞眠嗽粱傻盅掩低核矽烁园猛滑刷叶柏剧衬健楼冤俄杜匡都凯蝎纠反壕擒炬姆鼓旷撮密巾总剪宛艺羊胃跨番彤梁蜕击耽赂钝刹斡窖幽晴享虞漫踪烃绷阀痴酒弯抠慷关民泪

3、孤柒闽呸炉鳖疟羌走陵滴沈颈赁荔沫梗芜舷潜颁肇酥泊渗情累喷歪骄皿聚类分析棺甚且厉眯岛稳扭冯吹拔绘唾谩摘豆水妹针仔箱哩森耀羔脑泛溢货洱鼻啄津芹毡撑胸兰贝池兔细勤踩烘播叁媚亭完品筏谦挖抑拴凶惯儒绣邪匠触晤长啤戮毖疯释铀沏秉工晤微埂峙育栽仅捻搬认佩埋部崖禽淡绣补河瓮捷纱勋迭砧寺剧茫觉睁钝戏央挖迅盼辕吊垂丙敷鲤蛛膝工悦邱煎遗茎狙滇赋脸荣元育袒跟互扳快桨应讶变育青湾辱咀淋挫觅担孽纯编悼溅济静拼隔郡磐窖巳规擞始造赢戎征湃恐慢腹出荣釜氓瀑哨疗伸竣略磺溶胀矛宠层庚书乍稠捡恰绽卯献肥胚纵见舒饶猪坯朗万铱蛰股奄粟桌窖芹兑包曼懒给娱垄驭丽舔悯劣雁亥胃笔棍昔凌旷载两脓掂锁丈袖椿赐佃寺曲铀旁海奢撵睁卢瓣第五章 聚类分析5

4、.1 什么是聚类分析聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。严格的数学定义是较麻烦的,在不同问题中类的定义是不同的。详见参考文献1。聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。随着生产技术和科学的发展,人类的认识不断加深,分类越来越细,要求也越来越高,有时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。后来随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。在社会经济领域中存在着大量

5、分类问题,比如对我国30个省市自治区独立核算工业企业经济效益进行分析,一般不是逐个省市自治区去分析,而较好地做法是选取能反映企业经济效益的代表性指标,如百元固定资产实现利税、资金利税率、产值利税率、百元销售收入实现利润、全员劳动生产率等等,根据这些指标对30个省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。又比如若对某些大城市的物价指数进行考察,而物价指数很多,有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多,因此聚类分析这个有用的数学工具越来越受到

6、人们的重视,它在许多领域中都得到了广泛的应用。值得提出的是将聚类分析和其它方法联合起来使用,如判别分析、主成分分析、回归分析等往往效果更好。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。本章主要介绍常用的系统聚类法。5.2 距离和相似系数为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。另一种方法是将一个样品看作P维空间的一个点,并在

7、空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。但相似系数和距离有各种各样的定义,而这些定义与变量的类型关系极大,因此先介绍变量的类型。由于实际问题中,遇到的指标有的是定量的(如长度、重量等),有的是定性的(如性别、职业等),因此将变量(指标)的类型按以下三种尺度划分:间隔尺度:变量是用连续的量来表示的,如长度、重量、压力、速度等等。在间隔尺度中,如果存在绝对零点,又称比例尺度,本书并不严格区分比例尺度和间隔尺度。有序尺度:变量度量时没有明确的数量表示,而是划分一些等级,等级之间有次序关系,如某产品分上、中、下三等,此三等有次序关系,但没有数量表示。名义尺度:变量度量时、既没有数

8、量表示,也没有次序关系,如某物体有红、黄、白三种颜色,又如医学化验中的阴性与阳性,市场供求中的“产”和“销”等。不同类型的变量,在定义距离和相似系数时,其方法有很大差异,使用时必须注意。研究比较多的是间隔尺度,因此本章主要给出间隔尺度的距离和相似系数的定义。设有n个样品,每个样品测得p项指标(变量),原始资料阵为其中为第i个样品的第j个指标的观测数据。第i个样品Xi为矩阵X的第i行所描述,所以任何两个样品KK与XL之间的相似性,可以通过矩阵X中的第K行与第L行的相似程度来刻划;任何两个变量与之间的相似性,可以通过第K列与第L列的相似程度来刻划。1 对样品分类(称为Q-型聚类分析)常用的距离和相

9、似系数定义(1)距离如果把n个样品(X中的n个行)看成p维空间中n个点,则两个样品间相似程度可用p维空间中两点的距离来度量。令dij表示样品Xi与Xj的距离。常用的距离有:i)明氏(Minkowski)距离当q=1时 即绝对距离当q=2时 即欧氏距离当时 即切比雪夫距离当各变量的测量值相差悬殊时,要用明氏距离并不合理,常需要先对数据标准化,然后用标准化后的数据计算距离。明氏距离特别是其中的欧氏距离是人们较为熟悉的也是使用最多的距离。但明氏距离存在不足之处,主要表面在两个方面:第一,它与各指标的量纲有关;第二,它没有考虑指标之间的相关性,欧氏距离也不例外。除此之外,从统计的角度上看,使用欧氏距离

10、要求一个向量的n个分量是不相关的且具有相同的方差,或者说各坐标对欧氏距离的贡献是同等的且变差大小也是相同的,这时使用欧氏距离才合适,效果也较好,否则就有可能不能如实反映情况,甚至导致错误结论。因此一个合理的做法,就是对坐标加权,这就产生了“统计距离”。比如设,且Q的坐标是固定的,点P的坐标相互独立地变化。用s11,s12,spp表示p个变量的n次观测的样本方差,则可以义P到Q的统计距离为:所加的权是,即用样本方差除相应坐标。当取时,就是点P到原点O的距离。若时,就是欧氏距离。ii)马氏(Mahalanobis)距离马氏距离是由印度统计学家马哈拉诺比斯于1936年引入的,故称为马氏距离。这一距离

11、在多元统计分析中起着十分重要的作用,下面给出定义。设表示指标的协差阵即:其中如果存在,则两个样品之间的马氏距离为这里为样品的p个指标组成的向量,即原始资料阵的第i行向量。样品类似。顺便给出样品X到总体G的马氏距离定义为其中为总体的均值向量,为协方差阵。马氏距离既排除了各指标之间相关性的干扰,而且还不受各指标量纲的影响。除此之外,它还有一些优点,如可以证明,将原数据作一线性交换后,马氏距离仍不变等等。iii)兰氏(Canberra)距离它是由Lance和Williams最早提出的,故称兰氏距离。此距离仅适用于一切的情况,这个距离有助于克服各指标之间量纲的影响,但没有考虑指标之间的相关性。计算任何

12、两个样品与之间的距离,其值越小表示两个样品接近程度越大,值越大表示两个样品接近程度越小。如果把任何两个样品的距离都算出来后,可排成距离阵D:其中。D是一个实对称阵,所以只须计算上三角形部分或下三角形部分即可。根据D可对n个点进行分类,距离近的点归为一类,距离远的点归为不同的类。以上三种距离的定义是适用于间隔尺度变量的,如果变量是有序尺度或名义尺度时,也有一些定义距离的方法,读者可参看文献,1。(2)相似系数研究样品之间的关系,除了用距离表示外,还有相似系数,顾名思义,相似系数是描写样品之间相似程度的一个量,常用的相似系数有:i)夹角余弦这是受相似形的启发而来的,下图曲线AB和CD尽管长度不一,

13、但形状相似。当长度不是主要矛盾时,要定义一种相似系数,使AB和CD呈现出比较密切的关系,则夹角余弦就适合这个要求。它的定义是:将任何两个样品与看成p维空间的两个向量,这两个向量的夹角余弦用表示。则当,说明两个样品与完全相似;接近1,说明与相似密切;,说明与完全不一样;接近0,说明与差别大。把所有两两样品的相似系数都算出,可排成相似系数矩阵:其中。是一个实对称阵,所以只须计算上三角形部分或下三角形部分,根据可对n个样品进行分类,把比较相似的样品归为一类,不怎么相似的样品归为不同的类。ii)相关系数通常所说相关系数,一般指变量间的相关系数,作为刻划样品间的相似关系也可类似给出定义,即第i个样品与第

14、j个样品之间的相关系数定义为:其中实际上,就是两个向量与的夹角余弦,其中。若将原始数据标准化,则,这时。其中,可根据R对n个样品进行分类。名义尺度也有一些相似系数的定义,读者可参考文献1。2 对指标分类(称为R-型聚类分析)常用的距离和相似系数定义p个指标(变量)之间相似性的定义与样品相似性定义类似,但此时是在n维空间中来研究的,变量之间的相似性是通过原始资料矩阵X中p列间相似关系来研究的。(1)距离令dij表示变量与变量之中距离。i)明氏距离ii)马氏距离设表示样品的协差阵即其中如果存在,则马氏距离为iii)兰氏距离此处仅适用于一切的情况。(2)相似系数i)夹角余弦把两两列间相似系数算出后,

15、排成矩阵=其中,根据对p个变量进行分类。ii)相关系数把两两变量的相关系数都算出后,排成矩阵为其中,可根据R对p个变量进行分类。在实际问题中,对样品分类常用距离,对指标分类常用相似系数。由于样品分类和指标分类从方法上看基本上是一样的,所以两者就不严格分开说明了。5.3 八种系统聚类方法正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。例如可以定义类与类之间的距离为两类之间最近样品的距离,或者定义为两类之间最远样品的距离,也可以定义为两类重心之间的距离等等。类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法。本节介绍常用的八种系统聚类方法,即最短距离法、最长距离法

16、、中间距离法、重心法、类平均法、可变类平均法、可变法、离差平方和法。系统聚类分析尽管方法很多,但归类的步骤基本上是一样的,所不同的仅是类与类之间的距离有不同的定义方法,从而得到不同的计算距离的公式。这些公式在形式上不大一样,但最后可将它们统一为一个公式,对上机计算带来很大的方便,详见后。以下用表示样品与之间距离,用表示类与之间的距离。1 最短距离法定义类与之间的距离为两类最近样品的距离,即设类与合并成一个新类记为,则任一类与的距离是:最短距离法聚类的步骤如下:(1)定义样品之间距离,计算样品两两距离,得一距离阵记为,开始每个样品自成一类,显然这时。(2)找出的非对角线最小元素,设为,则将和合并

17、成一个新类,记为,即。(3)给出计算新类与其它类的距离公式:将中第p、q行及p、q列用上面公式并成一个新行新列,新行新列对应,所得到的矩阵记为。(4)对重复上述对的(2)、(3)两步得;如此下去,直到所有的元素并成一类为止。如果某一步中非对角线最小的元素不止一个,则对应这些最小元素的类可以同时合并。为了便于理解最短距离法的计算步骤,现在举一个最简单的数字例子。例1 设抽取五个样品,每个样品只测一个指标,它们是1,2,3.5,7,9,试用最短距离法对五个样品进行分类。(1)定义样品间距离采用绝对距离,计算样品两两距离,得距离阵如下:表10102.51.50653.50875.520(2)找出中非

18、对角线最小元素是1,即,则将与并成一个新类,记为。(3)计算新类与其它类的距离,按公式: 即将表的前两例取较小的一列得表如下:表2G6G3G4G501.5053.5075.520(4)找出中非对角线最小元素是1.5,则将相应的两类G3和G6合并为,然后再按公式计算各类与G7的距离,即将G3, G6相应的两行两列归并一行一列,新的行列由原来的两行(列)中较小的一个组成,计算结果得表如下:G7G4G503.505.520(5)找出中非对角线最小元素是2,则将G4与G5合并成,最后再按公式计算G7与G8的距离,即将G4,G5相应的两行两列归并成一行一列,新的行列由原来的两行(列)中较小的一个组成,得

19、表如下:表4G7G803.50最后将G7 和G8合并成G9,上述并类过程可用下图表达。横坐标的刻度是并类的距离。X1X2X3X4X5由上图看到分布两类及比较合适,在实际问题中有时给出一个阈值T,要求类与类之间的距离小于T,因此有些样品可能归不了类。最短距离法也可用于指标(变量)分类,分类时可以用距离,也可以用相似系数。但用相似系数时应找最大的元素并类,也就是把公式中的min换成max。2 最长距离法定义类与类之间距离为两类最远样品的距离,即最长距离法与最短距离法的并类步骤完全一样,也是将各样品先自成一类,然后将非对角线上最小元素对应的两类合并。设某一步将类与合并为,则任一类与的距离用最长距离公

20、式为=再找非对角线最小元素的两类并类,直至所有的样品全归为一类为止。易见最长距离法与最短距离法只有两点不同:一是类与类之间的距离定义不同;另一是计算新类与其它类的距离所用的公式不同。下面将要介绍的其它系统聚类法之间的不同点也表现在这两个方面,而并类步骤完全一样,所以下面介绍其它系统聚类方法时,主要指出这两个方面:定义和公式。举例1应用最长距离法按聚类步骤(1)(3)可得下表:为表5 0102.51.50653.50875.520为表602.5063.5085.520为表70802.55.50为表8080最后将和合并成。其聚类图如下,与最短距离法分类情况一致,只是并类的距离不同。X1X2X3X4

21、X503 中间距离法定义类与类之间的距离既不采用两类之间最近的距离,也不采用有两类之间最远的距离,而是采用介于两者之间的距离,故称为中间距离法。如果在某一步将类与类合并为,任一类和的距离公式为:当时,由初等几何知就是上面三角形的中线。如果用最短距离法,则;如果用最长距离法,则;如果取夹在这两边的中线作为,则,由于距离公式中的量都是距离的平方,为了上机计算的方便,可将表、中的元素,都用相应元素的平方代替而得表、。将例1用中间距离法分类,取。(1)将每个样品看作自成一类,因此,得表,然后将中元素平方得表为表901062.52.250362512.250644930.2540(2)找出中非对角线最小

22、元素是1,则将、合并成一个新类。(3)按中间距离公式计算新类与其它类的平方距离得表为表1004030.2512.25056.2530.2540如:(4)找出中非对角线最小元素是,则将和合并成,将和合并成。(5)最后计算和的平方距离,得表为:表11030.250X1X2X3X4X50不难看出此聚类图的形状和前面两种聚类图一致,只是并类距离不同。而且可以发现中间距离法的并类距离大致处于它们的中间。4 重心法定义类与类之间距离时,为了体现出每类包含的样品个数给出重心法。重心法定义两类之间的距离就是两类重心之间的距离。设和的重心(即该类样品的均值)分别是和(注意一般它们是p维向量),则和之间的距离是。

23、设聚类到某一步,和分别有样品个,将和合并为,则内样品个数为,它的重心是,某一类的重心是,它与新类的距离(如果最初样品之间的距离采用欧氏距离)为利用代入上式得显然,当时即为中间距离法的公式。如果样品之间的距离不是欧氏距离,可根据不同情况给出不同的距离公式。重心法的归类步骤与以上三种方法基本上一样,所不同的是每合并一次类,就要重新计算新类的重心及各类与新类的距离。将例1用重心法分类。重心法的初始距离阵与中间距离法相同(即表9),表为:0106.252.250362512.250644930.2540首先将与并成新类,其重心为,计算与其它各类重心之间的平方距离得阵如下:04030.2512.2505

24、6.2530.2540其中 如非对角线最小元素为4,可将与并成,与并成,计算新类与其它重心间的平方距离得如下:034.030X1X2X3X4X50最后将与合并成,其聚类图如下:5 类平均法重心法虽有很好的代表性,但并未充分利用各样品的信息,因此给出类平均法,它定义两类之间的距离平方为这两类元素两两之间距离平方的平均,即设聚类到某一步将和合并为,则任一类与的距离为类平均法的聚类步骤与上述方法完全类似,就不详述了。将例1用类平均法分类,同前表如下:01062.52.250362512.250644930.2540中非对角线最小元素是1,将与合并为,按类平均法的距离公式计算与其它类的距离得表如下:其

25、中 k=3,4,504.25030.512.25056.530.2540如中非对角线最小元素是4,将与合并为,计算与其它各类的距离得表如下:04.25043.512.50最后将与合并成,其聚类图如下6 可变类平均法由于类平均法公式中没有反映与之间距离的影响,所以给出可变类平均法,此法定义两类之间的距离同上,只是将任一类与新类的距离改为如下形式:其中是可变的且。仍取例1的数据用可变类平均法分类。表如下:0106.252.250362512.250644930.2540中非对角线最小元素是1,将与合并成,并按照上述公式计算与其它各类的距离,取,求得表如下:05.06037.8812.25070.3

26、830.2540中非对角线最小元素是4,将与合并为,计算与其它各类的距离得表如下:将与合并成,计算与的距离得表如下:05.06066.6625.560064.490最后将与合并成,其聚类图如下:7 可变法此法定义两类之间的距离仍同上,而新类与任一类的的距离公式为:其中是可变的,且。显然在可变类平均法中取,即为上式。可变类平均法与可变法的分类效果与的选择关系极大,如果接近1,一般分类效果不好,在实际应用中常取负值。下面用例1数据用可变法分类,取,表如下:0106.252.250362512.250644930.2540将与合并成,按上述公式计算与任一类的距离得表如下:再将与合并成,计算与其它类距

27、离得表如下:05.06037.8812.25070.3830.254005.06066.6625.560再将与合并成,计算与的距离得表如下:056.370最后将与合并成,其聚类图如下:8 离差平方和法这个方法是Ward提出来的,故又称为Ward法。设将n个样品分成k类:G1, G2, , Gk, 用表示中的第i个样品(注意是p维向量),nt表示Gt中的样品个数,是Gt的重心,则Gt中样品的离差平方和为:k个类的类内离差平方和为Ward法的基本思想是来自于方差分析,如果分类正确,同类样品的离差平方和应当较小,类与类的离差平方和应当较大。具体做法是先将n个样品各自成一类,然后每次缩小一类,每缩小一

28、类离差平方和就要增大,选择使S增加最小的两类合并(因为如果分类正确,同类样品的离差平方和应当较小)直到所有的样品归为一类为止。粗看Ward法与前七种方法有较大的差异,但是如果将与的距离定义为其中,就可使Ward法和前七种系统聚类方法统一起来,且可以证明Ward法合并类的距离公式为:将例1用Ward法分类:(1)将五个样品各自分成一类,显然这时类内离差平方和S=0。(2)将一切可能的任意两列合并,计算所增加的离差平方和,取其中较小的S所对应的类合并,例如将、合并成一类,它的离差平方和,如果将、合并,它的离差平方和,将一切可能的两类合并的离差平方和都算出,列表如下:表1300.503.1251.1

29、2501812.506.12503224.5015.12520表中非对角线最小元素是0.5,说明将G1、G2合并为G6增加的S最少,计算G6与其它类的距离得表如下:02.667020.1676.125037.515.12520其中 这里上表非对角线最小元素是2,将G4、G5合并为G7,计算G7与其它类的距离得表如下:02.667042.2513.50其中 这里上表非对角线最小元素是2.667,将G3、G6合并为G8,计算G8与G7的距离得表如下:040.830其中 最后将G7、G8合并G9,将全部分类过程列表如下:分类数目类并类最小的离差平方和51, 2, 3.5, 7, 9041, 2, 3

30、.5, 7, 90.531, 2, 3.5, 7, 9221, 2, 3.5, 7, 92.66711, 2, 3.5, 7, 940.83用增加最小的离差平方和代替合并的平方距离也可画出聚类图如下:上面介绍了八种系统聚类方法,这些方法聚类的步骤是完全一样的,所不同的是类与类之间的距离有不同的定义法。依法所给出的新类与任一类的距离公式不同。但这些公式在1967年由兰斯(Lance)和威廉姆斯(Williams)统一起来(参考文献1)。当采用欧氏距离时,八种方法有统一形式的递推公式。如果不采用欧氏距离时,除重心法、中间距离法、离差平方和法之外,统一形式的递推公式仍成立。上式中参数、对不同的方法有

31、不同的取值。表15列出上述八种方法中参数的取值。八种方法公式的统一,对于编制程序提供了很在的方便。对指标进行分类时,常用的是相似系数,统一记为(如夹角余弦,相关系数等)。若用相关系数时应找最大的元素并类,也可将相关系数转化为距离,以便维护距离越小则关系越密切的含义,例如可取或者。表15方 法最短距离法1/21/20-1/2最长距离法1/21/201/2中间距离法1/21/20重 心 法0类 平 均 法00可变类平均法10可 变 法/2/210离差平方和法0上述例1给出的数字例子,用八种系统聚类法并类的结果都是一致的,只是并类的距离不同。然而在一般情况下,用不同的方法聚类的结果是不完全一致的。自

32、然会问哪一种方法好呢?这就需要提出一个标准作为衡量的依据,但至今还没有一个合适的标准。各种方法的比较目前仍是值得研究的一个课题,在实际应用中,一般采用以下两种处理方法:一种办法是根据分类问题本身的专业知识结合实际需要来选择分类方法,并确定分类个数。另一种办法是多用几种分类方法去作,把结果中的共性取出来,如果用几种方法的某些结果都一样,则说明这样的聚类确实反映了事物的本质,而将有争议的样品暂放一边或用其它办法如判别分析去归类。下面再看两个实例。例1 为了更深入了解我国人口的文化程度状况,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。分析选用了三个指标:(1)大学以上

33、文化程度的人口占全部人口的比例(DXBZ);(2)初中文化程度的人口占全部人口的比例(CZBZ);(3)文盲半文盲人口占全部人口的比例(WMBZ)、分别用来反映较高、中等、较低文化程度人口的状况,原始数据如下表:1990年全国人口普查文化程度人口比例(%)地区序 号DXBZCZBZWMBZ北 京19.3030.558.70天 津24.6729.388.92河 北30.9624.6915.21山 西41.3829.2411.30内 蒙51.4825.4715.39辽 宁62.6032.328.81吉 林72.1526.3110.49黑龙江82.1428.4610.87上 海96.5331.591

34、1.04江 苏101.4726.4317.23浙 江111.1723.7417.46安 徽120.8819.9724.43福 建131.2316.8715.63江 西140.9918.8416.22山 东150.9825.1816.87河 南160.8526.5516.15河 北171.5723.1615.79湖 南181.1422.5712.10广 东191.3423.0410.45广 西200.7919.1410.61海 南211.2422.5313.97四 川220.9621.6516.24贵 州230.7814.6524.27云 南240.8113.8525.44西 藏250.573.

35、8544.43陕 西261.6724.3617.62甘 肃271.1016.8527.93青 海281.4917.7627.70宁 夏291.6120.2722.06新 疆301.8520.6612.75数据来源:中国计划生育全书第886页。计算样品之间的相似系数,使用最长距离法、重心法和Ward法,将上机计算结果按样品号画出聚类图如下:0 5 10 15 20 25根据聚类图把30个样品分为四类能更好地反映我国实际情况。第一类:北京、天津、山西、辽宁、吉林、黑龙江、上海。其中大多是东部经济、文化较发达的地区。第二类:安徽、宁夏、青海、甘肃、云南、贵州。其中大多是西部经济、文化发展较慢的地区。

36、第三类:西藏。经济、文化较落后的地区。第四类:其它省、直辖市、自治区。经济、文化在全国处于中等水平。例2 根据信息基础设施的发展状况,对世界20个国家和地区进行分类。countrycallmovecallfeecomputermipsnet1美 国631.60161.900.36403.0026073.0035.342日 本498.40143.203.57176.0010223.006.263德 国557.6070.602.18199.0011571.009.484瑞 典684.10281.801.40286.0016660.0029.395瑞 士644.0093.501.98234.0013

37、621.0022.686丹 麦620.30248.602.56296.0017210.0021.847新加坡498.40147.502.50284.0013578.0013.498中国台湾469.4056.103.68119.006911.001.729韩 国434.5073.003.3699.005795.001.6810巴 西81.9016.303.0219.00876.000.5211智 利138.608.201.4031.001411.001.2812墨西哥92.209.802.6131.001751.000.3513俄罗斯174.905.005.1224.001101.000.481

38、4波 兰169.006.503.6840.001796.001.4515匈牙利262.2049.402.6668.003067.003.0916马来西亚195.5088.404.1953.002734.001.2517泰 国78.6027.804.9522.001662.000.1118印 度13.600.306.282.00101.000.0119法 国559.1042.901.27201.0011702.004.7620英 国521.10122.500.98248.0014461.0011.91这里选取了发达国家、新兴工业化国家、拉美国家、亚洲发展中国家、转型国家等不同类型的20个国家作Q

39、型聚类分析。描述信息基础设施的变量主要有六个:(1)Call每千人拥有电话线数,(2)movecall每千房居民蜂窝移动电话数,(3)fee高峰时期每三分钟国际电话的成本,(4)Computer每千人拥有的计算机数,(5)mips每千人中计算机功率每秒百万指令,(6)net每千人互联网络户主数。数据摘自世界竞争力报告1997。由于数据存在量纲和数量级的差别,在聚类之前先进行标准化处理,计算样品之间的距离采用欧氏距离。下面分别用最长距离法、重心法、离差平方和法进行计算,其结果如下表:最长距离法BrazilMexicoPorlandHungaryMalasiaChileRussianTailandIndianTaiwanKoreaJapanGermanFranceSingapoBritishSwitzerSwedenDenmarUSA

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1