第7章因子分析1.ppt_三一文库31doc.com

资源描述

《第7章因子分析1.ppt》由会员分享，可在线阅读，更多相关《第7章因子分析1.ppt（74页珍藏版）》请在三一文库上搜索。

1、1,第七章因子分析,2,第一节引言,一般认为因子分析是从Charles Spearman在1904年发表的文章对智力测验得分进行统计分析开始，他提出这种方法用来解决智力测验得分的统计方法。目前因子分析在心理学、社会学、医学、经济学等学科中都取得了成功的应用，是多元统计分析中典型方法之一。因子分析(factor analysis)也是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个“抽象”的变量来表示其基本的数据结构。这几个抽象的变量被称作“因子”，能反映原来众多变量的主要信息。原始的变量是可观测的显性变量，而因子一般是不可观测的潜在变

2、量。因子分析的目的，是用几个不可观测的“隐变量”来解释原始变量之间的协方差关系。,3,因子分析就是一种通过显性变量测评潜在变量，通过具体指标测评抽象因子的统计分析方法。在医学研究中有一些现象是难以直接观测的，通常称为不可测现象，它们只能通过其它多个可观测的指标来间接地反映。如脑部疾病患者的意识清醒状态是不可测现象，但可通过患者的语言能力、辩识能力、记忆能力、理解能力、思维的逻辑能力等一系列可观测的指标来反映。这里，由于各个指标都不同程度地反映了意识清醒状态这一不可测现象，因此这些不可测指标这之间呈现一定的相关性。很自然地，人们可以认为这些可观测指标之间的相关性主要是由它们所共同反映的不可测

3、现象支配。,4,先看一个例子：观测5个生理指标X1（收缩压）、X2（舒张压）X3（心跳间隔）、X4（呼吸间隔）、X5（舌下温度）。从生理知识知道，这5个指标是受自主神经的交感神经和副交感神经支配的，而这交感神经和副交感神经又不可直接测。若用F1、F2分别表示交感神经和副交感神经这两个因子，则可设想，可测指标Xi是不可测因子Fj的线性函数，即Fj对各Xi的影响是线性的，再加上其它对这些Xi有影响因子ei，则各Xi与F1、F2的关系可表示为：,5,由于F1、 F2为各Xi的公因子或共性因子（common factor),而ei只与相应的一个Xi有关，故ei称为Xi的特殊因子或个性因子（specif

4、ic factor)，我们感兴趣的是如何从一组观测数据出发，找出起支配作用的较少个数的公因子。,6,这二个公共因子可以表示为：,是不可观测的潜在因子，5个变量共享这二个因子，所以称为公共因子。但是每个变量又有自己的个性，不被包含的部分，称为特殊因子。,7,其他例子,在医学领域，描述疾病的影响因素和诊断的指标很多，过多的指标容易导致分析过程复杂化。一个合适的做法是从这些指标中提取少数几个主要因子，每一个主要因子都能反映相互依赖的疾病指标或诊断指标间共同作用，抓住这些主要因素就可以帮助我们对复杂的疾病危险因素或诊断问题进行深入分析、合理解释和正确评价。再比如，调查青年对于婚姻、家庭的态度。邀

5、请n个青年，每人回答p50的问卷，这些问题可归纳为如下方面：对相貌的重视；对老人的态度；对孩子的观点；等等。每一个方面，就是一个因子。公司老板对48名应聘者进行面试，并给出他们在15个方面所得的分数，这15个方面是：X1简历的制作质量；X2外貌；X3专业能力；X4讨人喜欢；X5自信心；X6精明；X7诚实；X8推销能力；X9经验；X10积极性；X11抱负；X12理解能力；X13潜力；X14交际能力；X15适应性。通过因子分析，这15个方面归结为应聘者的五项能力：1、外露能力；2、讨人喜欢的程度；3、经验；4、专业能力；5、外貌。,8,主成分分析与因子分析有很大不同：主成分分析不能作为一个模型

6、来描述，它仅仅是变量变换，主成分是可观测的原始变量的线性组合；而因子分析需要构造因子模型，公共因子一般不能表示为原始变量的线性组合。两者在表达形式上的区别是：主成分分析:原始变量的线性组合表示新的综合变量，即主成分；因子分析：潜在的假想变量（公共因子）和随机影响变量（特殊因子）的线性组合表示原始变量。从计算方法上来说，主成分分析，可以视为因子分析的一个特例；或者说，因子分析是主成分分析的推广。,主成分分析与因子分析的区别,9,因子模型形式上与线性回归模型很相似，但它们却有着本质的区别： 1、回归分析模型中的自变量是可以被观测得到的真实变量；而因子分析中的因子是一个比较抽象的概念，是不可

7、观测的“隐变量”； 2、两个模型的参数意义不同。,回归分析与因子分析的区别,10,因子分析的内容非常丰富，常用的因子分析类型是R型因子分析和Q型因子分析。R型的因子分析是对变量作因子分析，Q型因子分析是对样品作因子分析。本章侧重讨论R型因子分析。,11,第二节因子分析模型,12,一、因子分析的数学模型,13,无论是R型或Q型因子分析，都用公共因子F代替X，一般要求mp，mn，因此，因子分析与主成分分析一样，也是一种降低变量维数的方法。我们下面将看到，因子分析的求解过程同主成分分析类似，也是从分析协方差阵出发的。因子分析与主成分分析有许多相似之处，但这两种模型又存在明显的不同。主成分分析的

8、数学模型本质上是一种线性变换，是将原始坐标变换到变异程度大的方向上去，相当于从空间上转换观看数据的角度，突出数据变异的方向，归纳重要信息。因子分析从本质上看是从显性变量去“提炼”潜在因子的过程。正因为因子分析是一个提练潜在因子的过程，因子的个数m取多大是要通过一定规则确定的，并且因子的形式也不是唯一确定的。一般说来，作为“自变量”的因子F1，F2，Fm是不可直接观测的。这里我们应该注意几个问题：,14,二、因子模型的性质,15,16,17,18,三、因子载荷阵的统计意义,前面的因子分析模型中出现了一个概念叫因子载荷矩阵，实际上因子载荷矩阵存在明显的统计意义。为了对因子分析过程和计算结果做详细

9、的解释，我们对因子载荷矩阵的统计意义加以说明。,19,20,21,变量共同度的统计意义,22,23,24,第三节因子模型参数的估计,25,一、主成分法,26,例题7.1 对六门考试成绩的因子分析,我们继续使用主成份例题6.3提供的100名学生的六门成绩（数学、物理、化学、语文、历史、英语），采用主成分法，对学生成绩进行因子分析。,27,变量共同度,变量共同度为1 （当m6时）为什么？,28,特征值和各因子的贡献率,该表显示了六个公共因子解释原始变量总方差的情况。第二列为特征值，第三、四列为每个公共因子的贡献率和累计贡献率。可见，使用2个公共因子就够用了。为什么？,29,因子载荷矩阵,3

10、0,这里，第一个因子主要和语文、历史、英语三科有很强的正相关；而与数学、物理、化学三科有很强的负相关。因此可以给第一个因子起名为“偏科因子”。而第二个因子作用比较均衡，可起名为“综合因子”。,31,二、主轴因子法（Principal Axis Factoring）,A矩阵每行元素的平方和，也即变量共同度！,32,（7）主轴因子法小节,33,例题7.2 对六门考试成绩的因子分析,使用主轴因子法，继续对主成份例题6.3提供的100名学生的六门成绩（数学、物理、化学、语文、历史、英语）进行因子分析。,34,35,36,三、极大似然法*,37,例题7.3 对六门考试成绩的因子分析,使用极大似然法，

11、继续对主成份例题6.3提供的100名学生的六门成绩（数学、物理、化学、语文、历史、英语）进行因子分析。,38,取m2：,39,四、其他方法*,40,四、其他方法*,41,各种方法的比较,主成分法实际是在进行因子分析之前先对数据进行一次主成分分析，然后把前几个主成分作为未旋转的公因子。主成分法较为简单，但是得到的特殊因子之间并不相互独立，因此，严格来说，主成分法不完全符合因子模型的假设前提。但是，当共同度较大时，特殊因子所起的作用很小，因而特殊因子之间的相关性所带来的影响就可以忽略。主轴因子法的计算思路类似于主成分法，两者都是从分析矩阵的结构出发，两者的差异在于，主成分法是在所有的p个主成分

12、能解释标准化原始变量所有方差的基础之上进行分析；而主轴因子法，假定m个公共因子只能解释原始变量的部分方差，利用公共因子方差（共同度）来替换相关矩阵主对角线上的元素“1”，构建出约相关阵，从而求得因子解。极大似然法要求公共因子和特殊因子都要服从正态分布,42,各种方法的比较,一般来说，各种求解初始因子解的方法差别不大。当变量个数较多时，各种方法的差别不大；当变量个数不多时，上述方法有一定差异。当样本容量很大时，极大似然法的精度明显提高。如何选择这些方法？（1）因子分析的目的：（2）对变量方差的了解程度如果因子分析的目的是用最少的因子最大程度解释原始数据的方差，或者已知道特殊因子和误

13、差带来的方差很小，则适合用主成分分析法；如果因子分析的主要目的是确定数据的结构但并不了解变量方差的情况，适合用主轴因子法、极大似然法等方法。,43,第四节公因子重要性的分析,44,一、因子旋转,因子分析的目标之一就是要对所提取的抽象公共因子的实际含义进行合理解释。但是，有时直接根据特征根、特征向量求得的因子载荷阵难以看出公共因子的含义。例如，可能有些变量在多个公共因子上都有较大的载荷；或者有些公共因子对许多变量的载荷都较大，说明它对多个变量都有较明显的影响作用。这种因子模型反而不利于突出主要矛盾和矛盾的主要方面，也很难对因子的实际背景进行合理的解释。这时需要通过因子旋转的方法，使每个变量

14、仅在一个公共因子上有较大的载荷，而在其余的公共因子上的载荷比较小，至多达到中等大小。因子旋转后，对于每个公共因子而言（即载荷矩阵A的每一列），它在部分变量上的载荷较大，在其它变量上的载荷较小，使同一列上的载荷尽可能地向靠近1和靠近0两极分离。这时就突出了每个公共因子和其载荷较大的那些变量的联系，矛盾的主要方面显现出来了，该公共因子的含义也就能通过这些载荷较大变量做出合理的说明，这样也显示了该公共因子的主要性质。,45,百米跑成绩跳远成绩铅球成绩跳高成绩 400米跑成绩百米跨栏铁饼成绩撑杆跳远成绩标枪成绩 1500米跑成绩,这十项运动项目分别为：,例题7.4 对奥运会十项全能运

15、动项目得分的因子分析,46,由因子载荷矩阵可以看出，除第一因子在所有的变量在公共因子上有较大的正载荷，可以称为一般运动因子。其他的3个因子不太容易解释。似乎是跑和投掷的能力对比，似乎是长跑耐力和短跑速度的对比。于是考虑旋转因子，得下表,因子载荷矩阵A的初始解,百米跑跳远铅球跳高 400米跑百米跨栏铁饼撑杆跳远标枪 1500米跑,47,旋转后的因子载荷矩阵A*,百米跑跳远铅球跳高 400米跑百米跨栏铁饼撑杆跳远标枪 1500米跑,48,通过旋转，因子有了较为明确的含义。百米跑，跳远和 400米跑，需要爆发力的项目在有较大的载荷，可以称为短跑速度因子；铅球，

16、铁饼和标枪在上有较大的载荷，可以称为爆发性臂力因子；百米跨栏，撑杆跳远，跳远和为跳高在上有较大的载荷，爆发腿力因子；长跑耐力因子。,49,1、因子旋转的标准,由此可见，如果因子载荷矩阵A的元素多数居中，不大不小，则对因子模型的公共因子就不容易作出解释如果A是从相关阵R得来，A中的每一个元素都是原始变量与公共因子的相关系数，都小于等于1 旋转之后的因子载荷矩阵，在每一列上的元素，应尽可能拉开距离，通常，可使元素的绝对值（或元素的平方）按列向0或1两级转化；有时，也可使元素的绝对值（或元素的平方）按列向1或1两极转化也即，因子载荷矩阵每一列元素的取值越分散越好，每列元素的方

17、差越大越好！因子的解释，带有一定的主观性,50,2、因子旋转的方法,51,52,最大方差旋转法,53,54,二、因子得分,55,56,第五节实例分析与计算机实现,57,一、利用SPSS进行因子分析,58,图7.1 建立数据库,59,（一）操作步骤 1. 在SPSS窗口中选择AnalyzeData ReductionFactor，调出因子分析主界面图(7.1)，并将变量X1X9移入Variables框中。,图7.2 因子分析主界面,60,2. 点击Descriptives按钮，展开相应对话框，见图7.2。选择Initial solution复选项。这个选项给出各因子的特征值、各因子特征值占

18、总方差的百分比以及累计百分比。单击Continue按钮，返回主界面。,图7.2 Descriptives子对话框,61,3. 点击Extraction按钮，设置因子提取的选项，见图7.3。在Method下拉列表中选择因子提取的方法，SPSS提供了七种提取方法可供选择，一般选择默认选项，即“主成分法”。在Analyze栏中指定用于提取因子的分析矩阵，分别为相关矩阵和协方差矩阵。在Display栏中指定与因子提取有关的输出项，如未旋转的因子载荷阵和因子的碎石图。在Extract栏中指定因子提取的数目，有两种设置方法：一种是在Eigenvalues over后的框中设置提取的因子对应的特征值的

19、范围，系统默认值为1，即要求提取那些特征值大于1的因子；第二种设置方法是直接在Number of factors后的矩形框中输入要求提取的公因子的数目。这里我们均选择系统默认选项，单击Continue按钮，返回主界面。,62,图7.3 Extraction子对话框,63,4.点击Rotation按钮，设置因子旋转的方法。这里选择Quartimax(四次幂旋转)，并选择Display栏中的Rotated solution复选框，在输出窗口中显示旋转后的因子载荷阵。单击Continue按钮，返回主界面。,图7.4 Rotation子对话框,64,5.点击Scores按钮，设置因子得分的选项。选中

20、Save as variables复选框，将因子得分作为新变量保存在数据文件中。选中Display factor score coefficient matrix复选框，这样在结果输出窗口中会给出因子得分系数矩阵。单击Continue按钮返回主界面。 6. 单击OK按钮，运行因子分析过程。,图7.5 Scores子对话框,65,（二）主要运行结果解释 1. Communalities（给出变量共同度）变量共同度反映每个变量对所提取的所有公共因子的依赖程度，此数值是因子载荷阵中每一行的因子载荷量的平方和，提取的因子个数不同，变量共同度也不同。 2. Total Variance Explai

21、ned（给出各公因子方差贡献表） Initial Eigenvalues给出初始相关矩阵或协差阵矩阵的特征值，用于确定哪些因子应该被提取，共有三项： Total列为各因子对应的特征值，本例中共有四个因子对应的特征值大于1，因此应提取相应的四个公因子；% of Variance列为各因子的方差贡献率；Cumulative %列为各因子的累积方差贡献率，由表7.1可以看出，前四个因子已经可以解释89.651%的方差。 Rotation Sums of Squared Loadings给出提取出的公因子经过旋转后的方差贡献情况。,66,表7.1 特征根与方差贡献率表,67,表7.2 旋转前因子载荷阵,68,69,表7.3 旋转后因子载荷阵,70,71,72,表7.4 因子得分系数矩阵,73,注意：在因子表达式中的各变量为进行标准化变换后的标准变量，均值为0，标准差为1。 7. 由于我们已经在Scores子对话框中选择了Save as variables复选框，因此，因子得分已经作为新的变量保存在数据文件中，变量名分别为fac1_1、fac2_1、fac3_1和fac4_1。此后，我们还可以利用因子得分进行其他的统计分析。,74,本章结束,

展开阅读全文