因子分析2003版.ppt_三一文库31doc.com

资源描述

《因子分析2003版.ppt》由会员分享，可在线阅读，更多相关《因子分析2003版.ppt（54页珍藏版）》请在三一文库上搜索。

1、因子分析 SPSS操作及其原理,陶鑫 2008-4-23,1,在科学研究中，往往希望尽可能多地收集反映研究对象的多个变量，以期能对问题有比较全面、完整的把握与认识。多变量的大样本虽然能为科学研究提供大量的信息，但是在一定程度上增加了数据采集的工作量，更重要的是在大多数情况下，许多变量之间可能存在相关性，这意味着表面上看来彼此不同的变量并不能从各个侧面反映事物的不同属性，而恰恰是事物同一种属性的不同表现。,2,如何从众多相关的指标中找出少数几个综合性指标来反映原来指标所包含的主要信息，这就需要进行因子分析（Factor Analysis），它是用少数几个因子来描述许多指标或因素之间的联系

2、，即：用较少几个因子反映原始数据的大部分信息的统计方法。,3,在SPSS系统里，实现因子分析的功能是在Data Reduction命令菜单中。,4,统计学原理因子分析的含义,因子分析，又叫因素分析，就是通过寻找众多变量的公共因素来简化变量中存在复杂关系的一种统计方法，它将多个变量综合为少数几个“因子”以再现原始变量与“因子”之间的相关关系。,5,6,寻找基本结构,在多元统计中，经常遇到诸多变量之间存在强相关的问题，它会对分析带来许多困难。通过因子分析，可以找出几个较少的有实际意义的因子，反映出原来数据的基本结构。例如：调查汽车配件的价格中，通过因子分析从20个指标中概括出原材料供应商、配件厂

3、商、新进入者、后市场零部件厂商、整车厂和消费者6个基本指标。从而找出对企业配件价格起决定性作用的几个指标。,7,数据化简,通过因子分析，可以找出少数的几个因子来代替原来的变量做回归分析、聚类分析、判别分析等。,8,数学模型,因子分析可以通过下面的数学模型来表示：,独特因子,公共因素,9,因子分析把每个原始变量分解成两部分：一部分是由所有变量共同具有的少数几个因子所构成的，即所谓公共因素部分；另一部分是每个变量独自具有的因素，即所谓独特因子部分。其中叫做公共因子，它们是在各个变量中共同出现的因子。我们可以把它们看作多维空间分布中互相垂直的个坐标轴。表示影响的独特因子，指原有变量不能被因子

4、变量所解释的部分，相当于回归分析中的残差部分。叫做因子负荷（载荷），它是第个变量在第个主因子上的负荷或叫做第个变量在在第个主因子上的权值，它反映了第个变量在第个主因子上的相对重要性。,10,主成分分析：通过对一组变量的几个线性组合来解释这组变量的方差和协方差结构，以达到数据的压缩和数据的解释的目的。,若有一些指标，取综合指标即它们的线性组合F，当然有很多，我们希望线性组合F包含很多的信息，即var(F)最大，这样得到F记为F1 ，然后再找F2 , F1与 F2无关，以此类推，我们找到了一组综合变量 F1 ,F2, ,Fm，这组变量基本包含了原来变量的所有信息。,主成分分析,11

5、,主成分分析的数学模型,12,主成分分析与因子分析的公式上的区别,因子分析(mp),主成分分析,因子得分,13,因子分析的基本步骤,1.确定因子分析的前提条件因子分析是从众多的原始变量中综合出少数几个具有代表性的因子，这必定有一个前提条件，即原有变量之间具有较强的相关性。如果原有变量之间不存在较强的相关关系，则无法找出其中的公共因子。因此，在因子分析时需要对原有变量做相关分析。通常可采用如下几种方法：,14,（1）计算相关系数矩阵,计算原有变量的简单相关系数矩阵。观察相关系数矩阵，如果相关系数矩阵中的大部分相关系数值小于 0.3，则各个变量之间大多为弱相关，这就不适合做因子分析。如果一个变量

6、与其他变量间相关度很低，则在下一分析步骤中可考虑剔除此变量。,15,（2）进行统计检验,在因子分析过程中提供了几种检验方法来判断变量是否适合做因子分析。主要统计方法有如下两种：,4阶单位阵,1. 巴特利球形检验（Barlett Test of Sphericity）。它是以变量的相关系数矩阵为出发点，零假设：相关系数矩阵是一个单位阵。如果巴特利球形检验的统计计量数值较大，且对应的相伴概率值小于用户给定的显著性水平，则应该拒绝零假设；反之，则不能拒绝零假设，认为相关系数矩阵可能是一个单位阵，不适合做因子分析。,注：单位阵：主对角线上的元素都是1，其余的元素都是零的 n 阶方阵，叫做 n 阶单位矩

7、阵,16,2. KMO(Kaiser-Meyer-Olkin)检验。KMO统计量用于检验变量间的偏相关性是否足够小，是简单相关量和偏相关量的一个相对指数，由下式求得：,KMO0.9 非常适合 0.8KMO0.9 适合 0.7KMO0.8 一般 0.6KMO0.7 不太适合 KMO0.5 不适合,17,简单相关系数：相关系数：表示两要素之间的相关程度的统计指标。对于两个要素x与y，如果它们的样本值分别为 xi与yi（i=1，2，.，n），它们之间的相关系数：,18,偏相关系数,在多要素构成的系统中，当研究某一个要素对另一个要素的影响或相关程度时，把其它要素的影响视为常数，而单独研究两个要素之

8、间的相互关系的密切程度时，称为偏相关。用以度量偏相关程度的统计量，称为偏相关系数。,一级偏相关系数: 假设有三个要素x1、x2、x3,它们之间的偏相关系数共有三个，即r12.3，r13.2，r23.1其计算公式分别如下：,19,r12.3，r13.2，r23.1又称为一级偏相关系数,20,二级偏相关系数: 若有四个要素x1、x2、x3和x4，则有六个偏相关系数，即r12.34，r13.24，r14.23,r23.14，r24.13，r34.12，称为二级偏相关系数，计算公式如下：,21,22,2.提取因子,决定因子提取的方法（即求初始因子）的方法很多，有“主成分分析法”，“主轴因子法”，“极大

9、似然法”，“最小二乘法”，“Alpha因子提取法”和“映象因子提取法”等等。最常用的是“主成分分析法”和“主轴因子法”，其中又以“主成分分析法”的使用最为普遍。,在提取因子的过程中涉及下列名词，现分别说明:,23,（1）特征值特征值是指每个变量在某一公共因子上的因子负荷的平方总和，又叫特征根。在因子分析的公共因子提取中，特征值最大的公共因子会最先被提取，最后提取特征值最小的公共因子。因子分析的目的就是使因子维度简单化，希望以最小的公共因子能对总变异量作最大的解释，因而提取的因素愈少愈好，而提取因子之累积解释的变异量则愈大愈好。,24,每个公共因子对原始数据的解释能力，可以用该因子所解释的总方

10、差来衡量，通常称为该因子的贡献率，它等于和该因子有关的因子负荷的平方和，实际中常用相对指标来表示。相对指标体现公共因子的相对重要性，即每个公共因子所解释的方差占所有变量总方差的比例。,（2）因子的贡献率,25,3.决定旋转方法,旋转法使得因子负荷量更易于解释。在因子提取时通常提取初始因子后，对因子无法作有效的解释。为了更好地解释因子，必须对负荷矩阵进行旋转，旋转目的在于改变每个变量在各因子的负荷量的大小。旋转方法有两种：一种为正交旋转，如“方差极大正交旋转法”，“四次方极大正交旋转法”，“等量方差极大正交旋转法”；另一种为斜交旋转，如“斜交旋转法”，“迫近最大方差斜交旋转法”等。正交旋转时，坐

11、标轴在旋转过程中始终保持垂直，新生成的因子保持不相关性。斜交旋转中坐标轴中的夹角可以是任意度数，新生成的因子之间不能保持不相关性。在使用过程中一般选用正交旋转法（正交旋转可以最大程度的保证新生成的因子之间保持不相关性）。,26,4.因子的命名,因子的命名是因子分析的一个核心问题。旋转后可决定因子个数，并对其进行命名。对于新因子变量的命名要根据新因子变量与原变量的关系，即观察旋转后的因子负荷矩阵中某个新因子变量能够同时解释多少原变量的信息。,27,5.计算因子得分,计算因子得分是因子分析的最后一步。因子变量确定后，便可计算各因子在每个样本上的具体数值，这些数值就是因子的得分，形成的新变量称为因子

12、变量，它和原变量的得分相对应。有了因子得分，在以后的分析中就可以因子变量代替原有变量进行数据建模，或利用因子变量对样本进行分类或评价等研究，进而实现降维和简化的目标。,28,因子分析的对话框介绍,在Factor Analysis对话框中，左边较大的矩形框是源变量框，右边“Variables”框为选入分析的变量框,29,各变量的基本统计量（包括均数，标准差和样本量）,因子分析的初始解（包括原变量的公因子方差，与变量数目相同的因子，各因子的特征值及其所占总方差的百分比和累计百分比）,相关系数矩阵,相关系数矩阵单侧检验的概率值,相关系数矩阵的行列式,KMO和巴特利球型检验,相关系数矩阵的逆矩阵,反映

13、象协方差阵和相关阵,再生相关阵（给出因子分析后的相关阵及其残差，下三角为再生相关阵，上三角为残差，即再生相关系数与原始相关系数之差）,Descriptives 按钮,30,“Analyze”指定提取因子的依据： Correlation matrix: 相关系数矩阵（系统默认，当原有变量存在数量级的差异时，通常选择该选项） Covariance matrix: 协方差矩阵,“Extract”提取标准： Eigenvalus over：以特征值大于某数值为提取标准 Number of factors：自定义提取因子的数量（正整数）,“Display”输出内容： Unrotated factor

14、solution：未旋转的因子负荷阵 Scree plot：碎石图（以特征值大小排列的原始变量序号为横轴，特征值为纵轴的加连线的散点图）,Maximum Iterations for Convergence：最大迭代次数（正整数），系统默认25次,Extraction 按钮,31,Rotation 按钮,“Mothod”因子旋转方法：正交法 None：不旋转（系统默认） Varimax: 最大方差旋转法 Quartimax：四次方最大正交旋转法 Equamax: 平均正交旋转法,“Display”输出内容： Rotated solution：旋转后的因子负荷矩阵 Loading plot(

15、s): 旋转后的因子负荷散点图,斜交法 Direct Oblimin: 最大斜交旋转法，选此项，下方的Delta框被激活，可填入小等于0.8的值，系统默认0，即产生最高相关因子。 Promax: 斜交旋转法，选此项，下方的Kappa框被激活，系统默认4。该法允许因子间相关，远较最大斜交旋转法计算速度快，适于大型数据处理。,-,32,Factor Scores 按钮,“Method”求因子得分方法： Regression: 回归法（系统默认） Bartlett: Bartlett法 Anderson-Rubin: Anderson-Rubin法,Display factor score coef

16、ficient matrix: 输出因子得分系数矩阵,33,Option 按钮,“Missing Values”缺失值处理： Exclude cases listwise: 剔除含有缺失值的所有观察单位（系统默认） Exclude cases pairwise: 剔除各对变量中含有缺失值的观察单位 Replace with mean: 用各变量的均值替代缺失值,“Coefficient Display Format”因子矩阵的输出格式： Sorted by size：按因子系数由大到小排列 Suppress absolute values less than: 只列出大于某一数值的因子系数（系

17、统默认0.1）,34,案例分析,案例,X1: 每万人中等职业教育在校生数 X2: 每万人中等职业教育招生数 X3: 每万人中等职业教育毕业生数 X4: 每万人中等职业教育专任教师数 X5: 本科以上学校教师占专任教师的比例 X6: 高级教师占专任教师的比例 X7: 学校平均在校生人数,X8: 国家财政预算中等职业教育经费占国内生产总值的比例 X9: 生均教育经费,对北京18个区县中等职业教育发展水平的9个指标进行因子分析，然后进行综合评价。数据如有表所示，9个指标分别表示如下含义：,35,操作步骤,定义变量：变量“qx”为字符型变量，表示区县；变量x1，x2,x9均为数值型变量，表示中等教育发

18、展水平的状况。,3. 从左侧的变量列表中选择x1，x2,x9变量进入“Variables”框中。,36,37,38,39,结果分析,上表显示原有变量的相关系数矩阵及其检验。可以看到，大部分的相关系数都较高（大于0.3，单边检验值小于0.05），各变量呈较高的线性关系，能够从中提取公共因子，适合进行因子分析。,大部分的相关系数值大于0.3,大部分的检验值小于0.05,40,巴特利球形检验统计量为131.051，相应的概率Sig为0.000，因此可认为相关系数矩阵与单位阵有显著差异。同时，KMO值为0.762，根据Kaiser给出的KMO度量标准可知原有变量适合作因子分析。,41,右表是因子分析的

19、初始解，显示了所有变量的共同方差数据。“Initial”列是因子分析初始解下的变量共同方差。它表示，对原有9个变量如果采用主成分分析方法提取所有特征值（9个），那么原有变量的所有方差都可被解释，变量的共同方差均为1（原有变量标准化后的方差为1）。“Extraction”列是在按指定提取条件（本例提取3个因子）提取特征值时的共同方差。可以看到，所有变量的共同方差均较高，各个变量的信息丢失都较少。因此本次因子分析提取的总体效果较理想,42,上表中，第一列是因子编号，以后三列组成一组，每组中数据项的含义依次是特征根值，方差贡献率和累计方差贡献率。,第一组数据项描述了因子初始解的情况。可看到，第1个因

20、子的特征值是4.975，解释原有9个变量总方差的 55.275%（4.9759100），累计方差贡献率为55.275%；其余数据含义类似。,第二组数据项描述了因子解的情况。可看到，由于指定提取3个因子，3个因子共解释了原有变量总方差的 84.466%。总体上，3个因子反映了原有变量的大部分信息，因子分析效果较理想。,第三组数据描述了经过旋转后最终因子解的情况。可见，因子旋转后累计方差比没有改变，但重新分配了各个因子解释原有变量的方差，改变了各个因子的方差贡献，使得因子更易于解释。,43,右图中，横坐标为因子数目，纵坐标为特征值。可见，第1个因子的特征值很高，对解释原有变量的贡献最大；第4个以

21、后的因子特征值都较小，对解释原有变量的贡献很小，已经成为可被忽略的“高山脚下的碎石”，因此提取3个因子是适合的。,3个主要因子,44,从表中可以看到，9个变量在第1个因子上的负荷都很高，意味着它们与第1个因子的相关程度高，其余2个因子与9个变量的相关性相对较小。另外还可看到，这3个因子的实际含义比较模糊。,右表显示了因子负荷矩阵是因子分析核心内容,45,从右表可知，用主成分分析法进行方差极大法旋转后，在校生数、招生数、毕业生数、专任教师数和经费比例5个变量在第1个因子上有较高的负荷，第1个因子主要解释这5个变量，其意义代表中等职业教育的相对规模大小，可解释为发展规模；,发展规模,学校规模,办

22、学条件,本科教师比例、高级教师比例和生均教育经费3个变量在第2个因子上有较高的负荷，第2个因子主要解释这3个变量，其意义代表中等职业教育的办学条件（师资、经费），可解释办学条件；,第3个因子主要解释学校平均在校生人数这个原有变量，其意义可解释为中等职业教育的学校规模。,与旋转前相比，旋转后因子含义较为清晰,46,右图是负荷散点图，这里为3个因子的三维因子负荷散点图，以3个因子为坐标，给出各原始变量在该坐标中的负荷散点分布。,47,48,49,上表显示了3个因子的协方差矩阵。3个因子两两之间的相关系数为0，说明经因子分析提取后的3个因子之间没有相关性，实现了因子分析的设计目标，同时也说明是经过了正交旋转法而得。,50,51,52,总结：适合条件：样本量： 1. 样本量与变量数的比例应在5：1以上。 2. 总样本量不得少于100，而且原则上越大越好。公因子数量的确定 1. 主成分累积贡献率 8085%以上 2. 特征值大于1 3. 综合判断 4. 因子分析时更重要的是因子的可解释性,53,谢谢大家！,54,

展开阅读全文