第11章主成分分析与因子.ppt

上传人:本田雅阁 文档编号:3123047 上传时间:2019-07-13 格式:PPT 页数:79 大小:690.52KB
返回 下载 相关 举报
第11章主成分分析与因子.ppt_第1页
第1页 / 共79页
第11章主成分分析与因子.ppt_第2页
第2页 / 共79页
第11章主成分分析与因子.ppt_第3页
第3页 / 共79页
第11章主成分分析与因子.ppt_第4页
第4页 / 共79页
第11章主成分分析与因子.ppt_第5页
第5页 / 共79页
点击查看更多>>
资源描述

《第11章主成分分析与因子.ppt》由会员分享,可在线阅读,更多相关《第11章主成分分析与因子.ppt(79页珍藏版)》请在三一文库上搜索。

1、第11章 主成分分析与因子分析,管理统计学 谢湘生 广东工业大学管理学院,11.1 主成分分析,主成分概念首先由 Karl Pearson在1901年引进,当时只对非随机变量来讨论的。1933年Hotelling将这个概念推广到随机变量。 在多数实际问题评估中,不同指标之间是有一定相关性。由于指标较多及指标间有一定的相关性,势必增加分析问题的复杂性。 主成分分析就是设法将原来指标重新组合成一组新的互不相关的几个综合指标来代替原来指标。同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来的指标的信息。,引例,一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研

2、究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。,在进行主成分分析后,竟以97.4的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入i、总收入变化率i以及时间t因素做相关分析,得到下表:,主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。 在社会经济的研究中,为了全面系统地分析和研究问题,

3、必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。,主成分分析是考察多个数值变量间相关性的一种多元统计方法。对所导出几个主成分(综合指标),要求尽可能多地保留原始变量的信息,且彼此间不相关。它是研究如何通过少数几个主成分来解释多变量的方差协方差结构。,一般地,利用主成分分析得到的主成分与原始变量之间有下列关系:,每一个主成分都是原始变量的线性组合 主成分的数目大大少于原始变量的数目 主成分保留了原始变量绝大多数信息 各主成分之间互不相关,11.1.2 数学描述,随机向量的方差-协方差矩阵,所谓随机向量是指其各分量中至少有一个

4、是随机变量的向量。由于在计量经济分析中不可避免地会涉及随机向量,因此下面简单介绍随机向量的特征。,设,是随机向量。则它的期望值为,X的方差(方差协方差矩阵)为,由于通过这一表达式计算得到的矩阵不仅包括方差也包括协方差,所以常称它为方差协方差矩阵,记为Var-Cov(X)(在不引起混淆的情况下也称为方差矩阵或协方差矩阵,记为Var(X) 或Cov(X).,样本描述,调查n个个体(样本)在这k (k n)个指标下的数值(或者用这k个指标来评价n个对象),就可得到数据矩阵Xkn:,对样本也可计算相应的协方差矩阵为,其中,是Cov(Xi, Xj)=E(Xi E(Xi)(Xj E(Xj)的极大似然估计量

5、,也可使用矩估计量,只需将上面的表达式中的系数由1/n换成1/(n 1)即可。,例如 对于二维数据,由极大似然法估计的协方差矩阵为,而由矩估计得到的协方差矩阵就是将上面矩阵中将系数换成1/2后的矩阵1。,协方差矩阵的意义在于它刻画了变量之间的相关性,主成分分析的目标就是求原来变量的线性组合Yi:,写成矩阵形式就是,或,而且使得 满足,Y的协方差矩阵Cov(Y)为对角矩阵,即诸Yi互不相关。,Y的方差尽可能大(即,对n个对象的分辨率尽可能强,或者说信息损失尽可能少)。比如使trCov(Y)=trCov(X),就没有“辨识能力”方面的损失。,然后,从Y1, Y2, , Yk中选出对方差贡献最大的部

6、分指标作为主成分。,11.1.3 几何解释示例,为了方便,我们在二维空间中讨论主成分的几何意义。 设有n个样品,每个样品有两个观测变量Xl和X2,在由变量Xl和X2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。,由图可以看出这n个样本点无论是沿着Xl 轴方向或X2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量Xl 的方差和X2 的方差定量地表示。显然,如果只考虑Xl和X2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。,如果我们将Xl 轴和X2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Yl和Y2。Yl和Y2是两个新变量。,平移、旋转坐标轴,旋转变换的目

7、的是为了使得n个样品点在Yl轴方向上的离 散程度最大,即Yl的方差最大。变量Yl代表了原始数据的绝大 部分信息,在研究某经济或管理问题时,即使不考虑变量Y2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Yl轴上,对数据中包含的信息起到了浓缩作用。,主成分分析的几何解释,平移、旋转坐标轴,主成分分析的几何解释,平移、旋转坐标轴,主成分分析的几何解释,平移、旋转坐标轴,Yl,Y2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在Yl轴上,而Y2轴上的方差很小。Yl和Y2称为原始

8、变量X1和X2的综合变量。Y简化了系统结构,抓住了主要矛盾。,为什么要根据方差确定主成分?,情形II下总分的方差为0,显然不能反映三个学生各科成绩各有所长的实际情形,而红色标记的变量对应的方差最大,可反映原始数据的大部分信息,11.1.4 有关矩阵知识的回顾,一、两个线性代数的结论,其中 是A的特征根。,1、若A是k阶实对称阵,则一定可以找到正交阵U,使,2、若上述矩阵A的各特征根所对应的单位特征向量为,则实对称阵 属于不同特征根所对应的特征向量构成的矩阵是正交的,即有,令,即,11.1.5 主成分的计算结论,(一) 第一主成分,设X的协方差阵为,由于x为非负定的对称阵,则有利用线性代数的知识

9、可得,必存在正交阵U,使得,或,其中1, 2, k为x的特征根,不妨假设1 2 k 。而U恰好是由特征根相对应的单位特征向量所组成的正交阵。,下面我们来看,是否由U的第一列元素为组合系数所构成的原始变量的线性组合是否有最大的方差。,设有k维单位向量,即,当且仅当a1 =u1时,即 时, 有最大的方差1。因为 。 如果第一主成分的信息不够,则需要寻找第二主成分。,(二) 第二主成分,在约束条件 下,寻找第二主成分,取,因为 所以约束条件 满足。,而,对k维单位向量 ,若 且 则有,所以如果取线性变换:,则 的方差就可达到第二大。,第一主成分,第二主成分,第 k 主成分,依此类推,写为矩阵形式:,

10、是协方差矩阵Cov(X)的单位特征根构成的矩阵,主成分的性质,一、均值,二、方差为所有特征根之和,说明主成分分析把k个随机变量的总方差分解成为k个不相关的随机变量的方差之和。 协方差矩阵的对角线上的元素之和等于特征根之和。,其中,精度分析,1)贡献率:第i个主成分的方差在全部方差中所占比重 ,称为它的贡献率。贡献率说明该主成分反映了原来k个指标多大的信息,有多大的综合能力 。,2)累积贡献率:前s个主成分共有多大的综合能力,用这s个主成分的方差和在全部方差中所占比重 来描述,称为累积贡献率。,我们进行主成分分析的目的之一是希望用尽可能少的主成分Y1,Y2,Ys(sk)代替原来的k个指标。到底应

11、该选择多少个主成分,在实际工作中,采用的主成分个数s的多少取决于它们是否能够反映原来变量85%以上的信息量,即当累积贡献率85%时, 主成分的个数就足够了。一些常见的问题中主成分为2到3个。,11.1.6 一个简单的等价算法,1. 数据的标准化,对样本数据矩阵Xkn中的数据Xij进行标准化处理:,处理后的数据构成的矩阵记为x,2. 两个重要结论,x的协方差矩阵Cov(x)的特征根和单位特征向量与原来数据X的协方差矩阵Cov(X)的特征根和单位特征向量相同.,由X的原来数据所求得的相关系数矩阵Rk k = 标准化后的协方差矩阵Cov(x),3. 主成分的简化算法,(1)由X的原始数据求出相关系数

12、矩阵Rk k;,(2)求R的特征根1, 2, k(从大到小排列)及一组相互正交的单位特征向量b1,b2,bk;,(3)取1, 2, q,使得累积贡献率满足,则 即为所求。,对于步骤(3),也可以按如下方式进行:,取所有特征根大于1的特征向量(设有s个)来计算主成分,即,注:这种方法计算得到的主成分个数,可能与(3)中不同,因而有可能累积贡献率达不到85%以上。,例 在企业经济效益的评价中,涉及的指标往往很多.为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据矩阵出发求主成分.在对我国部分省,市,自治区独立核算的工业企业的经济效益评价中,涉及到9项指标,x1100元固定资产原值实现

13、产值,X2100元固定资产原值实现利税,X3100元资金实现利税,X4100元工业总产值实现利税,X5100元销售收入实现利税,X6每吨标准煤实现工业产值,X7每千瓦时电力实现工业产值,X8全员劳动生产率,X9100元流动资金实现产值(数据见ex1102),Y1=0.928*x1+0.977*x2+0.935*x3+0.232*x4+0.460*x5 +0.934*x6+0.894*x7+0.959*x8+0.904*x9/(6.363)1/2 Y2=-0.329*x1+0.150*x2+0.310*x3+0.873*x4+0.568*x5 -0.210*x6-0.288*x7-0.01679

14、*x8-0.174*x9/(1.470)1/2,注: SPSS实际上计算的并非主成分的系数b, 而是因子分析的因子系数a, 两者之间的关系是 具体请见后面的因子分析.,11.2 因子分析,11.2.1 概述,因子分析(factor analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为(公共)因子。 例如,在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商

15、场的24个方面的优劣。,但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格等少数几个潜在的因子(例如三个),对商店进行综合评价。而原来变量可用这三个公共因子可以表示为:,公共因子 是不可观测的潜在因子。24个变量共享这三个因子,但是每个变量又有自己的个性,不被公共因子包含的部分 ,称为特殊因子。,因子分析的主要作用:,(1)寻求基本结构 在多元统计分析中我们经常遇到诸多变量之间存在强相关的问题。这会对分析带来许多麻烦。例如回归分析中的多重共线性问题。通过因子分析,我们可以找出几个较少的有实际意义的因子,反

16、映出原来数据的基本结构。,(2)数据化简 通过因子分析可以用所找出的少数几个因子代替原来的变量做回归分析、聚类分析、判别分析等。,注: 因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义; 主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。 主成分分析:原始变量的线性组合表示新的综合变量,即主成分; 因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。,11.2.2 数学描述与主要特征,由于数据的标准化不改变原来变量之间的相关关系,而又常常能使问题简化,因此以下的讨论都建立在已标准化的数据之上。,因子分析

17、最初由英国心理学家C. Spearman提出。他提出的问题是:学生的k门功课的成绩xi是由一个起公共作用的智力因子f与起特殊作用的因子ei所决定的。,后来,美国心理学家L. Thurstone认为智力因子多于一个,于是模型成为,因此,我们现在面临的数据矩阵Xkn (k n)是,所面临的因子分析的(样本观察值的)数学模型是,其中m k。,fj是公共因子(Common Factors), 它们之间是两两正交的(Orthogonal).,ei是特殊因子(Unique Factors), 只对相应的xi起作用的因子,它们都已经标准化,aij是公共因子的负载(Factor Loadings), 是第i个

18、变量在第j个因子上的负载,相当于多元回归中的标准化回归系数(注意我们假设fj也是标准化了的)。,矩阵,称为公共因子的负载矩阵。,除了假设公共因子之间互不相关(两两正交)外,进一步还假设特殊因子也互不相关,并且公共因子与特殊因子之间也互不相关。,基于这样的假设,可以证明,(1)aij也是xi与fj之间的简单相关系数。事实上,由于xi与fj都是标准化了的(其方差都为1),所以,它们之间的简单相关系数为,(2)xi与xj的简单相关系数rij,是两个变量的公共因子对应系数的乘积之和。,(3)xi的方差为:,其中,(即负载矩阵第i行元素的平方和)称为公因子方差(Communality),又称为公共度或公

19、共方差,代表了xi的方差中由公共因子决定的部分。若 则表明xi的公共因子(f1, f2, , fm)解释了xi的96%的方差(注意xi的方差等于1)。实际上,(4)fj因子的贡献(Contribution, 记为Vj ), 是该因子在模型中的所有负载的平方和(负载矩阵第j列元素的平方和):,由于xi已标准化,所以k个变量的总方差为k,Vj / k表示第j个公共因子的贡献在所有方差中占的比例。,11.2.3 因子模型与主成分模型的区别,因子模型,主成分模型,之间的区别:公共因子在因子模型等号的右边,而主成分在主成分模型等号的左边。此外在因子模型中除了公共因子外还存在特殊因子,因此公共因子只能解释

20、原来变量的部分方差,而主成分能解释原来变量的所有方差。,11.2.4 对应于样本模型的总体模型,样本模型,可以简单地用矩阵表达如下:,式中,x=(x1, x2, , xk)T, f=(f1, f2, , fm)T, e=(e1, e2, , ek)T,是因子负载矩阵。,如果用大写字母表示相应的随机变量(相应样本值的总体变量),则总体模型可以表示为:,其矩阵表示为:,其中,A是确定型矩阵,X, F都是标准化了的随机向量,且F1, F2, , Fm互不相关,所以E(X)=0, E(F)=0, Cov(F, F)=Cov(F)=Imm, 随机变量1, 2, , k与F相互独立,且E()=0,11.2

21、.2小节的结论就是基于上述假设得到的。,11.2.5 变量x1, x2, , xk之间的相关性检验,因子分析的前提是变量X1, X2, , Xk之间的相关性,如果X1, X2, , Xk之间正交,则它们之间就不会存在公共因子,因此作因子分析就失去意义了。所以在进行因子分析之前,必须先检验X1, X2, , Xk之间的相关性。只有在相关性较高时,才适合做因子分析。有时这样的检验也称为适当性检验。,检验之间的相关性是否高到适合进行因子分析的常用方法有如下两种。,(1)KMO样本测度(Kaiser-Meyer-Olkin Measure of Sampling Adequacy)。它是所有变量X1,

22、 X2, , Xk的简单相关系数的平方和与这些变量之间的偏相关系数的平方和之差。,相关系数实际上反映的是公共因子起的作用。由于偏相关系数是在控制了其他变量对两变量影响的条件下,计算出来的净相关系数,如果变量之间确实存在较强的相互重叠传递影响,即如果变量中确实能够提取出公共因子,那么控制了这此影响后的偏相关系数必然比较小。,因此KMO越接近1,越适合于公共因子分析。KMO过小,则不适合作因子分析。,(2)巴特莱特球体相关检验(Bartlett test of sphericity)。这个统计量(在一定条件下服从2分布)从整个相关系数矩阵来考虑问题,其零假设H0是相关系数矩阵为单位矩阵,可以按常规

23、的假设检验的方法判断相关系数矩阵是否显著地异于单位矩阵。,没有针对KMO测度的显著性检验。数据是否适合做因子分析一般采用如下主观判断。,注:此外还有经验方法,如果相关系数矩阵中大部分相关系数都小于0.3且未通过显著性检验,那么这些变量就不适合做因子分析。,11.2.6 公共因子负载的求法,1. 公共因子负载的求法,(1)若已知,求负载矩阵A的方法,在求公共因子F时,为了使X=(X1, X2, , Xk)T的方差不受损失,所以要考察X的协方差矩阵(由于X1, X2, , Xk的相关性,所以考察协方差矩阵)。,可以证明:,由于已知,所以 已知,记,现在的任务是由已知的R*(X)来求(km阶)矩阵A

24、。,从求第一个公共因子f1的负载向量a1开始。,我们的目标是要使第一个公共因子f1的方差贡献,尽可能大,同时必须满足 ,所以目标函数和约束条件是:,可以证明:若b1是对应于R*(X)的最大特征值1的任意一个模长为1的特征向量,则 就是满足上述数学规划问题的一个解。,现在求a2。,记 ,可以证明,若2是R1*的最大特征根,b2是与之对应的任意一个模长为1的特征向量,则 就是所求。,同理可求出a3, , am。,(2)若未知,求负载矩阵A的方法(事实上通常都未知),现未知,先用X的相关系数矩阵R(X)代替上面的R*(X)。然后像上面一样求出R(X)的最大特征根1以及对应的模长为1的特征向量b1,

25、。若,接近对角矩阵,则说明剩下的主要是特殊因子的影响了,计算停止。,否则,再求次大特征根2对应的单位特征向量b2,并令 。若,接近对角矩阵,则说明剩下的主要是特殊因子的影响了,计算停止。,否则,继续这一过程,直到出现上述停止的信号,或者直到计算到am为止。,注意:这一算法只是近似算法。,上面出现的向量aj与bj的关系是 ,用其分量表示就是,(3)为了使问题简化,仅选解释作用比较大的部分公共因子。,确定因子个数的方法。,仅取特征值大于1所对应的长度为1的特征向量,来计算公共因子的负载。,碎石准则(Scree Test Criterion):把特征值从大到小,绘在坐标图上(横坐标是特征值从大到小的

26、编号,纵坐标是特征根的值),把特征根减小速度变缓的特征根都去掉。然后用剩下的特征根对应的单位特征向量来计算公共因子负载。,上述求公共因子的方法称为主成分法。,(4)其他求公共因子的模型方法,主轴因子法(Principal Axis Factoring) 最小二乘法(Least Squares) 极大似然法(Maximum Likelihood) 因子提取法(Alpha Factoring) 映像分析法(Image Factoring),(5)负载矩阵的Akm不唯一性。,设Akm是一个已经得到的负载矩阵。对于任意的正交矩阵Tmm ,有T T=T-1。由于Akm是负载矩阵,因此AAT=R*(X)。

27、但是(AT)(AT)T=ATTTAT=AAT=R*(X)。,这表明AT也是负载矩阵。也就是说负载矩阵是不唯一的。,2. 旋转并解释因子,负载矩阵Akm不是唯一的,对任意已经得到的一个负载矩阵Akm,都可以通过右乘一个正交矩阵T得到一个新的负载矩阵AT。但右乘一个正交矩阵,相当于作一次坐标旋转变换。,实际上,按照前面的方法得到的负载矩阵Akm所对应的公共因子往往综合性太强,以致难以看出因子的实际意义,因此需要通过旋转坐标轴,使负载尽可能向1、0的方向靠近。从而降低因子的综合性,使其实际意义凸现出来。,坐标轴的旋转,有两种基本方式:正交旋转(保持因子之间的正交性)与斜交旋转(旋转后因子之间不再保持

28、正交)。,(1)正交旋转,正交旋转的主要方法有以下三种:,四次方最大法(Quartimax):使每个变量只有一个因子有较高的负载,其余因子负载尽可能小。,方差最大法(Varimax):使每个因子上的负载尽可能向1的方向,或0的方向靠近。,等量最大法(Quimax):把上两种方法结合起来的方法。,其中方差最大法是最常用的方法。,(2)斜交旋转,斜交旋转的因子的实际意义更容易理解。极端情况是回到原来的变量。斜交旋转的缺点是,求出的两两正交的公共因子,旋转后,正交性又丧失了。,对公共因子实际意义的解释,在旋转完成后,按照负载绝对值的大小,对公共因子的实际含义进行解释。解释的方式,统计学并不提供标准的

29、模式,因具体问题而异。但一般而言,对公共因子的合理解释建立在对实际问题的深刻理解与把握的基础之上,是实践性很强的艺术。,因子意义的解释是十分主观的,在许多研究的资料中,因子分析模型都用少数可阐述因子提供了合理解释。实际上,绝大多数因子分析并没有产生如此明确的结果。此外不幸的是,评价因子分析质量的法则尚未很好量化,质量问题在很大程度上要依赖实践经验及对所研究问题的理解。,11.2.7 示例,例 某公司请12名顾客对5类肉食偏好打分,结果如下表,(1)求出相关系数矩阵如下表,2.252,1.405,0.534,0.489,0.321,(2)求出5个特征值为:,(3)求出负载矩阵,其中前两个因子对应

30、的特征值大于1, 因此取前两个因子. 它们的累积贡献率为73.129%(SPSS计算的结果见上表).,(4)用最大方差法旋转,得到含义明确的负载矩阵,于是有,从表中数据看,第一个公共因子f1(从绝对值角度看)对牛肉、羊肉、猪肉(都属于大家畜)的影响大, f1应当是消费者对大家畜肉类的某些特征的共同反映。例如可解释为制作方便、食用方便等因素。第二个公共因子f2对鸡肉、鱼肉影响大,可以解释为营养虽好,但制作不便,或食用相对较麻烦。,11.2.8 因子值的求法,1. 因子值的概念与用途,在应用因子分析时,求出经过旋转后的因子负载矩阵,并解释公共因子的含义,常常并不是目的。而目的往往是利用得到的公共因

31、子作进一步的分析。例如利用公共因子进行回归分析、作聚类分析、进行评价等等。因此需要计算因子值(得分, score)。如果原始变量有n个样本观察值,则利用原始变量的样本观察值应该也能得到每个公共因子的n个值。,2. 因子值(因子得分)的求法,设第j个公共因子的因子值fj,可以由原始变量x1, x2, , xk的样本观察值计算出来(必须注意,无论是原始变量还是公共因子,都是经过了标准化的)。则,其中j是待定的系数矩阵,而且不能依靠fj来估计。,在表达式 fj = xj 两端左乘 xT, 得xTfj = xTxj , 即,上式左端的第i个分量可以写成(注意fj与xi是经过了标准化的,因此均值为零,标

32、准差为1):,即恰好是两个向量fj与xi的相关系数,也就是第i个变量在第j个公共因子的负载aij。因此上述矩阵表达式的左端恰好是负载矩阵的第j列aj =(a1j, a2j, , akj)T。同理可说明右端的矩阵xTx恰好是x的相关系数矩阵R。因此矩阵表达式xTfj = xTxj就是,aj = Rj,于是j = R-1aj, 从而,fj = x R-1aj,注:这种确定因子值的方法在SPSS中称为回归方法,但它实际上与第10章中讨论的回归分析无关。除此以外,确定因子值还有其他方法。,11.3 用SPSS进行因子分析,见 “ 用SPSS进行因子分析” 及操作演示,因子分析的步骤,选取原始变量,计算相关矩阵,适当性检验,提取因子并计算负载矩阵,因子旋转,解释因子意义,用其他方法分析,计算因子得分,基于因子分析的其他分析,N,Y,进一步应用,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1