第八章聚类分析.ppt_三一文库31doc.com

资源描述

《第八章聚类分析.ppt》由会员分享，可在线阅读，更多相关《第八章聚类分析.ppt（18页珍藏版）》请在三一文库上搜索。

1、,第八章聚类分析,“物以类聚, 人以群分” ，科学研究在揭示对象特点及其相互作用的过程中, 不惜花费时间和精力进行对象分类，以揭示其中相同和不相同的特征。在心理学研究中, 经常遇到的分类包括两种情况：一是对研究样本或个案的分类, 即根据每个个案的一系列观测指标，将那些在这些观测量方面表现相近的个案归为一类, 将那些在这些观测量方面的表现很不相同的个案归为不同类，类似于判别分析；二是对观测量的分类，即将一系列的观测量归类合并为性质明显不同的少数几个方面，类似于因素分析。但是聚类分析不同于因素分析：因素分析是根据所有变量间的相关关系提取公共因子；聚类分析是先将最相似的两个变量聚为一小类，再去

2、与最相似的变量或小类合并，如此分层依次进行；聚类分析也不同于判别分析：判别分析是要先知道各种类，然后判断某个案是否属于某一类。我们这里主要是要介绍聚类分析方法及其SPSS的实现过程。,一、聚类分析的基本原理,聚类分析是一种数值分类方法（即完全是根据数据关系）。要进行聚类分析就要首先建立一个由某些事物属性构成的指标体系，或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧面，所有指标组合起来形成一个完备的指标体系，它们互相配合可以共同刻画事物的特征。所谓完备的指标体系，是说入选的指标是充分的，其它任何新增变量对辨别事物差异无显著性贡献。如果所选指标不完备，则导致分类偏差。比如要对家庭

3、教养方式进行分类，就要有描述家庭教育方式的一系列变量，这些变量能够充分地反映不同家庭对子女的教养方式。简单地说，聚类分析的结果取决于变量的选择和变量值获取的两个方面。变量选择越准确、测量越可靠，得到的分类结果越是能描述事物各类间的本质区别。,聚类分析完全是根据数据情况来进行的。就一个由n个个案、k个变量组成的数据文件来说，当对个案进行聚类分析时，相当于对k 维坐标系中的n 个点进行分组，所依据的是它们的距离；当对变量进行聚类分析时，相当于对n维坐标系中的k个点进行分组，所依据的也是点距。所以距离或相似性程度是聚类分析的基础。点距如何计算呢？拿连续测量的变量来说，可以用欧氏距离平方计算：即

4、各变量差值的平方和。,1. 聚类分析的前期准备工作,聚类分析是以完备的数据文件为基础的，这一数据文件除观测变量比较完备之外，一般还要求各个观测变量的量纲一致，即各变量取值的数量级一致，否则各变量在描述客观事物某方面特征差异性的作用有被夸大或缩小的可能。所以，聚类分析前要检查各变量的量纲是否一致，不一致则需进行转换，如将各变量均作标准化转换就可保证量纲一致。,2. 聚类分析的主要方法,二、Q聚类分析的SPSS过程,第一步：数据文件的准备。Q聚类分析是根据一系列观测变量的测量值对个案进行分类，分类的依据是个案之间的“距离”。聚类之前的数据文件包括：n个个案的k个观测值。此外还需要一个个案的

5、标识变量。,第二步：点击“Analyze”菜单选中“Classify”的“Hierarchical Cluster Analysis”,打开对话框。将参与聚类分析的观测变量置入“Variable(s)”下的方框中，将个案标识变量的变量名置入 “Label Cases By” 下的方框中，同时在 Cluster 之下选择 Cases。然后选中“Statistics”和“Plots”。,第三步：点击“Method”打开聚类分析的距离计算方法设置对话框，以实现对小类间距离、样本间距离计算方法的设置，同时对量纲不一致情况下的变量观测值进行转换： (1) 小类间距离计算：默认方式是类间平均

6、链锁法（Between- Groups linkage) ，这种方法最充分地使用了数据资料； (2) 样本间距离计算：观测变量为连续变量，默认方法：欧氏距离平方；观测变量为顺序或名义变量，默认方法：卡方测量方法；观测变量为二项选择变量, 默认方法：二元欧氏距离平方。 (3) 如果观测变量的量纲不一致，还需设置对不同量纲变量进标准化处理。默认状态是“none”,需要时可以选择“Z-scores”, 这是使用最广泛、最直观的转换方法。在进行量纲转换时，要选择“By cases”表明是属于Q聚类分析中的量纲转换。,第四步：指定图形输出。层次聚类分析的图形结果有两种形式（1）树形图（D

7、endrogram）,它可以展现聚类分析的每一次合并过程，SPSS首先将各类之间的距离重新转换到 025 之间，然后表现在图上。此图可以粗略地表现聚类的过程；（2）冰柱图（Icicle）, 包括纵向冰柱图（Vertical）和横向冰柱图(Horizontal) 。冰柱图用X符号来表示聚类过程 , 其选择包括：全部、部分、无。,第五步：显示凝聚状态表。点击层次聚类分析对话框中的 “statistics”可以打开设置凝聚状态对话框。（1）选中“Agglomeration schedule”，可以输出聚类分析详细过程，即每一阶段完成的是哪些个案或小类间的聚集；（2）选中“Pr

8、oximity matrix”,可以输出各个案的距离矩阵；（3）设置个案归属结果显示状态：选中none，不显示个案归属情况；选中Single solution，则显示聚集成指定的n类时个案归属情况；选中Range of solutions，则显示聚集成n1到n2范围内的各种情况下的个案归属情况。,第六步：设定保存层次聚类分析的结果。点击层次聚类分析对话框中的“save”可以打开设置保存分类结果的对话框。在 “Cluster membership”下边：选中None，不保存聚类结果到数据编辑窗口；选中Single solution，则保存聚集成指定的n类时个案归属结果；选中

9、Range of solutions，则显示聚集成n1到n2范围内的各种情况下的个案归属结果。 OK!,实例分析：根据20名被试在不同色光刺激下选择反应时间的反应模式，对其进行类型划分。实验数据如下表所示：,SPSS过程演示,三、R聚类分析的SPSS过程,R 层次聚类分析对研究对象的观察变量进行分类，它使得具有共同特征的变量聚集在一起，以便选择其中具有代表性的变量，实现用较少变量刻画研究对象的目的。 R聚类分析的过程与Q 聚类分析的过程是一致的，只是在打开“Hierarchical Cluster Analysis” 的对话框中选“Variables”的聚类。在变量间距离的计算方法上选“P

10、earson Correlation” ，其它操作与Q聚类相同。,实例分析：根据学生考试分数对课程进行分类,四、快速聚类分析,快速聚类分析是由研究者指定类别数的大样本资料逐步聚类分析。它先对数据进行初始分类，然后逐步调整，得到最终分类。快速聚类分析一般是对个案来进行的。对于变量分类来说，当变量较少时可以使用层次聚类分析中的R聚类分析；当变量数比较多时则可以使用因素分析。快速聚类分析也是以个案的距离为基础的，与层次聚类分析不同的是：快速聚类分析要指定分类的类别数。快速聚类分析的逻辑程序是：,1.用户指定分类类别数k（无经验时可以进行多次探索性分析）,2.SPSS程序自动确定各类中心点（有经

11、验用户也可以自己定义）,3.计算所有个案数据点到k个类中心点的欧氏距离,4.根据距离最近原则将个案归类，即距离哪个类中心点最近归为哪个类,第一步：数据文件的准备。快速聚类分析的数据文件往往比较大，主要是包括的个案数较多，而且可以包括一个个案的标识变量。当数据文件中数据量纲不一致时，则需要对数据进行标准化转换或其它转换。,第二步：点击 “Analyze” 菜单选中 “Classify” 的 “K-Means Cluster”打开快速聚类分析对话框，将参与聚类分析的观测变量置入“Variable(s)”下的方框中，将个案标识变量的变量名置入 “Label Cases By”下的方框中

12、，指定聚类的类别数，同时在“Method”之下选择默认的“Iterate and Classify”，这样，程序可以自动确定类中心点。,快速聚类分析的主要步骤是：,第三步：点击“Options”打开统计参数显示对话框和缺省值处理方式对话框。在“Statistics”之下有三方面的显示要求： Initial cluster centers: 显示有关初始类中心点的数据； Anova table: 对快速聚类分析产生的类作单因素方差分析，并输出各个变量的方差分析表； Cluster information for each case: 输出个案的分类信息及距所属类中心点的距离。,其它操

13、作以默认方式进行,实例分析：为反映员工心理因素方面的差异性，某研究者调研了一工厂36名员工的6 项心理因素，如下表所示。请根据这一分数对员工进行分类，并回答：员工分成几类比较理想？,SPSS过程演示,练习题,1. 为研究不同公司的运营特点，调查了 15 个公司的组织文化、组织氛围、领导角色和员工发展4个方面的内容。请将这15个公司按照其各自的特点划分成4种类型。数据如下表所示。,SPSS过程演示,2. 请每个同学都参加“人性的哲学修订量表”问卷调查，然后分别对参加调查的同学和问卷项目进行类型划分。,人性的哲学修订量表说明：本问卷由一系列关于态度的陈述组成。每一陈述只是代表人们的一种普遍观点，并没有对错之分。您可能同意某些观点却不同意另一些观点。我们感兴趣的是您同意或不同意的程度如何。仔细阅读每一陈述，然后针对每一陈述打一分数以表明你同意或不同意的程度。这些数值的意义如下： 6完全同意 5部分同意 4略微同意 3略微不同意 2部分不同意 1完全不同意回答这些问题时，往往第一印象最为恰当。阅读每一陈述，决定您是否同意以及程度如何。务请回答每一问题。如您发现这些数值均不能反映你的观点，请选择与你的观点最接近的数值。,问卷项目,

展开阅读全文