因子分析在CSI项目中的应用PPT课件.ppt

资源描述

《因子分析在CSI项目中的应用PPT课件.ppt》由会员分享，可在线阅读，更多相关《因子分析在CSI项目中的应用PPT课件.ppt（32页珍藏版）》请在三一文库上搜索。

1、1,因子分析在CSI项目中的应用,制作人：王凤荣时间：2012-03-10,2,目录,3,因子分析的定义,在社会、政治、经济和医学等领域的研究中往往需要对反映事物的多个变量进行大量的观察，收集大量的数据以便进行分析，寻找规律。在大多数情况下，许多变量之间存在一定的相关关系。因此，有可能用较少的综合指标分析存在于各变量中的各类信息，而各综合指标之间彼此是不相关的，代表各类信息的综合指标称为因子。因子分析就是用少数几个因子来描述许多指标或因素之间的联系，以较少几个因子反映原资料的大部分信息的统计学方法。对高维变量空间进行降维处理。,4,（1）因子变量的数量远少于原有的指标变量的数量，对因子变

2、量的分析能够减少分析中的计算工作量。（2）因子变量不是对原有变量的取舍，而是根据原始变量的信息进行重新组构，它能够反映原有变量大部分的信息。（3）因子变量之间不存在线性相关关系，对变量的分析比较方便。（4）因子变量具有命名解释性，即该变量是对某些原始变量信息的综合和反映。,因子分析的特点,5,因子分析有两个核心问题：一是如何构造因子变量；二是如何对因子变量进行命名解释。因子分析有下面4个基本步骤。（1）确定待分析的原有若干变量是否适合于因子分析。（2）构造因子变量。（3）利用旋转使得因子变量更具有可解释性。（4）确定因子权重。,因子分析的4个基本步骤,6,因子分析是从众多的原始变

3、量中构造出少数几个具有代表意义的因子变量，这里面有一个潜在的要求，即原有变量之间要具有比较强的相关性。如果原有变量之间不存在较强的相关关系，那么就无法从中综合出能反映某些变量共同特性的少数公共因子变量来。因此，在因子分析时，需要对原有变量作相关分析。,第一步:确定待分析变量是否适合于因子分析,7,如果相关系数矩阵在进行统计检验中，大部分相关系数都小于0.3，并且未通过统计检验，那么这些变量就不适合于进行因子分析。（1）相关系数 r的取值在-1和+1之间。 r0,正相关；r0.8,相关关系较强；|r|0.05，我们就接受假设，认为此r值的很可能是从此总体中取得的。因此判断两变量间无显著关系；如

4、果取得r值的概率P0.05或P0.01，我们就在=0.05或=0.01水准上拒绝检验假设，认为该r值不是来自=0的总体，而是来自0的另一个总体，因此就判断两变量间有显著关系。 SPSS将自动计算简单相关系数、t检验统计量得观测值和对应的概率P值,方法一:简单相关系数,8,1巴特利特球形检验（Bartlett Test of Sphericity）如果统计量的观测值比较大，且对应的P值小于给定的显著性水平r,则相关系数矩阵原有变量存在相关性，适合因子分析； 2KMO（Kaiser-Meyer-Olkin）检验 KMO统计量的取值范围为01,KMO大于等于0.9，非常适合，0.8适合，0.7一般

5、，0.6不太适合，0.5以下，极不适合。,方法二:KMO和巴特利球形检验,统计值的观测值,对应的概率P,KMO统计量,9,因子分析中有多种确定因子变量的方法，如基于主成分模型的主成分分析法和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。其中基于主成分模型的主成分分析法是使用最多的因子分析方法之一。,第二步：构造因子变量,10,第三步：决定旋转方法,在因子提取时通常提取初始因子后，对因子无法做有效的解释，（因子Fi不能典型代表任何一个原有变量Xi)为了更好的解释因子，可通过因子旋转的方式使一个变量只在尽可能少的因子上有比较高的载荷（Aij)。因子旋转方式有两种：正交旋转和斜交选择。为

6、能继续保持新生成的因子的不相关性，一般选择正旋转。方差最大法、四次方最大法、等量最大法,11,第四步：确定因子权重,每个公共因子对原始数据的解释能力，称为该因子的贡献率，常用该因子所解释的总方差来衡量，它等于和该因子有关的因子负荷的平方和，实际中常用相对指标来表示，相对指标体现公共因子的相对重要性，即每个公共因子所解释的方差占所有变量总方差的比例。,12,目录,13, 实现步骤选择命令：Analyze-Data Reducation-Factor,图1 在菜单中选择“Factor”命令,打开命令窗口,14,图2 “Factor Analysis”对话框, 实现步骤:把参与因子分析的变量选到V

7、ariable框中,选择参与因子分析的样本，把作为条件变量的变量指定到该处，只有满足条件的样本数据才能参与因子分析,选择参与因子分析的变量,15,图3 “Factor Analysis：Descriptives”对话框, 实现步骤:在图2窗口中单击Descriptives（输出结果）按钮打开如下对话框,1.指定输出哪些基本统计量（1）.各个变量的基本描述统计量（均值、标准差、样本量）（2）.初始因子分析结果（因子提取前分析变量的公因子方差）,2.检验变量是否适合因子分析，列举了三种常用方法,确定待分析的原有若干变量是否适合于因子分析,16,图4 “Factor Analysis：Extra

8、ction”对话框, 实现步骤:在图2窗口中单击Extraction 按钮打开如下对话框,因子提取选择项,1.因子提取方法选择项,2.因子提取的依据,Correlation matrix 相关系数矩阵 Covariance matrix 协方差阵,3.输出与因子提取有关的信息,Unratoted factor solution 输出未旋转的因子载荷矩阵 Scree plot 输出因子的碎石图,4.选择如何确定因子数目,Eigenvaluse over 大于该值得特征根 Number of factors 提取因子的数目,17,图5 “Factor Analysis：Rotation”对话框,因

9、子旋转方法的选择, 实现步骤:在图2窗口中单击Rotation按钮打开如下对话框,1.选择因子旋转方法 None 不旋转 Varimax 方差最大法 Quartimax 四次方最大法 Exqumax 等量最大法其他为斜交旋转法,2.指定输出与因子旋转相关的信息 Rotated solution 表示输出旋转后的因子载荷矩阵 Loading plot（s）表示输出旋转后的因子载荷散点图,18,图6 “Factor Analysis：Facfor Scores”对话框,计算因子得分的方法, 实现步骤:在图2窗口中单击Scores按钮打开如下对话框,1.表示将因子得分保存到spss变量中，生成

10、几个因子便产生几个spss变量。在Method中指定计算因子得分的方法 Regression为回归法，系统默认,2.输出因子得分系数矩阵,19,图7 “Factor Analysis：Options”对话框,缺失值的处理方式及因子载荷矩阵的输出方法,2.指定因子载荷矩阵的输出方式 Sorted by size 表示以第一因子得分的降序输出因子载荷矩阵 Suppress absolute values less than 输入一个数值，表示只输出大于该值的因子载荷,20,目录,21,结果1：原有变量的相关系数矩阵,结果2：巴特利特球检验和KMO检验,结果3：因子分析的初始解,结果4：因子解

11、释原有变量方差的情况,结果5：因子碎石图,结果6：因子载荷矩阵,结果7：旋转后的因子载荷矩阵,输出结果列表,按照第二部分的操作命令，得到如上7个结果，下面将分别对7个结果进行解读,22,案例分析：影响网点业务发展的因素,对影响网点业务发展的24个指标进行因子分析，样本来源：243个网点评价,23,考察原有变量是否适合进行因子分析（1）,具体操作如图2和图3：借助于相关系数矩阵、巴特利特球状检验和KMO检验,大部分的相关系数值大于0.3,大部分的检验值小于0.05,（结果1：原有变量的相关系数矩阵）,24,结果2：巴特利特球检验和KMO检验,检验统计值的观察值较大,概率P小于0.05假设检验

12、显著性水平,KMO大于0.8,考察原有变量是否适合进行因子分析（2）,由此得出原有变量适合进行因子分析,25,结果3：因子分析的初始解（一）,按照图4操作，得到因子分析的初始解如右表所示，Initial列表示如果对原有24个变量提取所有特征根，原有变量的所有方差都可被解释，变量的共同方差均为1，第二列表示采用主成分分析法提取因子并选取特征根值大于1的特征根，可以看到大部分的变量有60%左右的信息可被因子解释，网点周边资源变量的信息丢失较为严重（接近60%）因此，本次因子提取的总体效果并不理想，该结果未达到因子分析的目标（降维）重新制定提取特征根的标准，指定提取8个因子（ Number of

13、factors 处输入8），分析结果如下表:,26,结果3：因子分析的初始解（二）,重新制定提取特征根的标准，在图4中指定提取8个因子（ Number of factors 处输入8），分析结果右表:由表可知，此时24个变量的共同方差均较高，各个变量的信息丢失都较少，因此本次因子提取的总体效果较理想。,27,结果4：因子解释原有变量方差的情况,第一列为因子编号，以后三列组成一组，每组中数据项的含义依次是特种根值、方差贡献率、累计方差贡献率,因子旋转后，累计方差比没有改变(76.174),重新分配了各个因子解释原有变量的方差，改变了各因子方差贡献，使得因子更容易理解。（比如：第一个因子旋转前

14、后对总方差的解释度由 42.031变为15.602）,按照图5操作，按照方差最大法旋转,28,结果5：因子碎石图,右图中，横坐标为因子数目，纵坐标为特征值。由图可见，第一个因子的特征值很高，对解释原有变量的贡献最大，第8个以后的因子特征值都较小，对解释原有变量的贡献很小，已经成为可被忽略的碎石，因此提取8个因子是适合的。,29,结果6：因子载荷矩阵,从表中可以看到，变量在第1个因子上的负荷都很高，意味着它们与第1个因子的相关程度高，其余因子与变量的相关性相对较小，另外可以看到，这8个因子的实际含义比较模糊，所以采用了方差最大法对因子载荷矩阵进行旋转，得到结果7，如下页所示：,30,结果7：旋转

15、后的因子载荷矩阵,分别将在每个因子上的载荷较高的变量归为一起。因为输出时使用了以第一因子得分的降序输出因子载荷矩阵，所以前6个变量为第一个因子的变量，依次类推观察第二个因子的所属变量,网点管理机制,客户资源基础,31,确定因子权重,根据8个因子的方差贡献率确定权重，由于8个因子在较大程度反映了原有变量的大部分信息，累计贡献率为76.14%，因此可用因子的方差贡献率作为综合评价的权重，8个因子按各自的方差贡献率加权相加为综合评价得分。,见结果4的输出。一般为方便理解，会把所有因子的累计贡献度转化为1，因此报告中呈现的因子权重需要经过转化，总加和为1.,32,讨论,疑问1：怎么确定提取几个因子是最合适的？目前的解决方式，是通过累计方差贡献率进行判断，一般达到75%以上，可接受；疑问2：如果是指定分组的数据库，怎么处理？比如“7P”，是根据项目设计已经规定了分组，那么因子分析的步骤应该是什么样的？疑问3：如果系统分组不符合项目实际设计情况，怎么调整各变量的所属的因子？调整后各因子的权重怎么计算？,

展开阅读全文