主成分分析法[高教书苑].ppt

上传人:scccc 文档编号:11892462 上传时间:2021-10-17 格式:PPT 页数:74 大小:1.53MB
返回 下载 相关 举报
主成分分析法[高教书苑].ppt_第1页
第1页 / 共74页
主成分分析法[高教书苑].ppt_第2页
第2页 / 共74页
主成分分析法[高教书苑].ppt_第3页
第3页 / 共74页
主成分分析法[高教书苑].ppt_第4页
第4页 / 共74页
主成分分析法[高教书苑].ppt_第5页
第5页 / 共74页
点击查看更多>>
资源描述

《主成分分析法[高教书苑].ppt》由会员分享,可在线阅读,更多相关《主成分分析法[高教书苑].ppt(74页珍藏版)》请在三一文库上搜索。

1、第5节 主成分分析 (Principal Components Analysis,PCA),第三章 地理学中的经典统计分析方法,1,高级教育,主要内容,主成分分析概述 主成分分析的基本原理 主成分分析的计算步骤 主成分分析方法应用实例 主成分分析的SPSS实现过程 主成分分析的应用及需要注意的问题 附:主成分分析与因子分析的区别,2,高级教育,一、主成分分析概述,3,高级教育,假定你是一个公司的财务经理,掌握了公司的所有数据,这包括众多的变量,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。 如果让你向上级或有

2、关方面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?,引子,4,高级教育,当然不能。汇报什么? 发现在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。 需要把这种有很多变量的数据进行高度概括,用少数几个指标简单明了地把情况说清楚。,5,高级教育,主成分分析( Principal Components Analysis )和因子分析(Factor Analysis)就是把变量维数降低以便于描述、理解和分析的方法。 主成分分析也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量化为少数几个综合变量(综合指标) ,而这几个综合变量可以

3、反映原来多个变量的大部分信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。 这些综合变量就叫因子或主成分,它是不可观测的,即它不是具体的变量(这与聚类分析不同),只是几个指标的综合。 在引入主成分分析之前,先看下面的例子。,什么是主成分分析法?,6,高级教育,成绩数据,53个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。,7,高级教育,从本例可能提出的问题,能不能把这个数据表中的6个变量用一两个综合变量来表示呢? 这一两个综合变量包含有多少原来的信息呢? 能不能利用找到的综合变量来对学生排序呢?,8,高级教育,事实上,以上的三个问题在地理学研究中,也会经常遇到。它所涉

4、及的问题可以推广到对企业、对学校、对区域进行分析、评价、排序和分类等。 比如对n个区域进行综合评价,可选的描述区域特征的指标很多,而这些指标往往存在一定的相关性(既不完全独立,又不完全相关),这就给研究带来很大不便。若选指标太多,会增加分析问题的难度与复杂性,选指标太少,有可能会漏掉对区域影响较大的指标,影响结果的可靠性。,9,高级教育,这就需要我们在相关分析的基础上,采用主成分分析法找到几个新的相互独立的综合指标,达到既减少指标数量、又能区分区域间差异的目的。,10,高级教育,二、主成分分析的基本原理,11,高级教育,(一)主成分分析的几何解释,例中数据点是六维的;即每个观测值是6维空间中的

5、一个点。希望把6维空间用低维空间表示。 先假定只有二维,即只有两个变量,语文成绩(x1)和数学成绩(x2),分别由横坐标和纵坐标所代表; 每个学生都是二维坐标系中的一个点。,12,高级教育,空间的点,如果这些数据形成一个椭圆形状的点阵(这在二维正态的假定下是可能的)该椭圆有一个长轴和一个短轴。在短轴方向上数据变化很少; 在极端的情况,短轴如退化成一点,长轴的方向可以完全解释这些点的变化,由二维到一维的降维就自然完成了。,13,高级教育,假定语文成绩 (X1) 和数学成绩 (X2) 的相关系数= 0.6 。 设 X1 和 X2 分别为标准化后的分数,右图为其散点图。,14,高级教育,那么随机向量

6、,的方差协方差矩阵为,可以看出,在变量标准化的情况下的方差协方差矩阵与其相关矩阵相等。,由求矩阵特征值和特征向量的方法:令,可以求出:,15,高级教育,对应的特征向量分别为:,显然,这两个特征向量是相互正交的单位向量。而且它们与原来的坐标轴 X1 和 X2 的夹角都分别等于45 。如果将坐标轴 X1 和 X2 旋转45 ,那么点在新坐标系中的坐标(Y1,Y2)与原坐标(X1,X2)有如下的关系:,Y1和Y2均是X1 和 X2 的线性组合,系数代表什么?,16,高级教育,在新坐标系中,可以发现:虽然散点图的形状没有改变,但新的随机变量 Y1 和 Y2 已经不再相关。而且大部分点沿 Y1 轴散开,

7、在 Y1 轴方向的变异较大(即 Y1的方差较大) ,相对来说,在 Y2轴方向的变异较小(即 Y2 的方差较小) 。,17,高级教育,事实上,随机变量 Y1和 Y2的方差分别为:,可以看出,最大变动方向是由特征向量所决定的,而特征值则刻画了对应的方差。这只是我们举的一个例子,对于一般情况,数学上也能证明。,18,高级教育,在上面的例子中 Y1 和 Y2 就是原变量 X1和 X2的第一主成分和第二主成分。实际上第一主成分 Y1 就基本上反映了 X1 和X2 的主要信息,因为图中的各点在新坐标系中的 Y1 坐标基本上就代表了这些点的分布情况,因此可以选 Y1 为一个新的综合变量。当然如果再选 Y2也

8、作为综合变量,那么 Y1 和 Y2 则反映了 X1 和 X2的全部信息。,19,高级教育,从几何上看,找主成分的问题就是找出p维空间中椭球体的主轴问题,就是要在x1xp的相关矩阵中m个较大特征值所对应的特征向量。 究竟提取几个主成分或因子,一般有两种方法: 特征值1 累计贡献率0.8 那么如何提取主成分呢?,(二)主成分分析的基本思想,20,高级教育,假定有n个地理样本,每个样本共有p个变量,构成一个np阶的地理数据矩阵,(3.5.1),综合指标如何选取呢?这些综合指标要想尽可能多地反映原指标的信息,综合指标的表达式中要含有原指标,那么我们通常是取原指标的线性组合,适当调整它们的系数,使综合指

9、标间相互独立且代表性好。,21,高级教育,定义:记x1,x2,xP为原变量指标,z1,z2,zm(mp)为新变量指标,(3.5.2),可以看出,新指标对原指标有多个线性组合,新指标对哪个原指标反映的多,哪个少,取决于它的系数。系数lij的确定原则: zi与zk(ik;i,k=1,2,m; j= 1,2,p )相互无关;,22,高级教育, z1是x1,x2,xP的一切线性组合中方差最大者(最能解释它们之间的变化),z2是与z1不相关的x1,x2,xP的所有线性组合中方差最大者; zm是与z1,z2,zm1都不相关的x1,x2,xP, 的所有线性组合中方差最大者。 则新变量指标z1,z2,zm分别

10、称为原变量指标x1,x2,xP的第1,第2,第m主成分。,23,高级教育,从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2 , p)在诸主成分zi(i=1,2,m)上的荷载 lij( i=1,2,m; j=1,2 ,p)。 从数学上可以证明,它们分别是相关矩阵(也就是x1,x2,xP 的相关系数矩阵)m个较大的特征值所对应的特征向量。,24,高级教育,三、主成分分析的计算步骤,25,高级教育,(一)计算相关系数矩阵 rij(i,j=1,2,p)为原变量xi与xj标准化后的相关系数, rij=rji,其计算公式为,(3.5.3),(3.5.4),26,高级教育,(二)计算特

11、征值与特征向量 1、解特征方程,求出特征值,并使其按大小顺序排列 ;,2、分别求出对应于特征值 的特征向量 ,要求 =1,即,其中表示向量 的第j个分量,也就是说 为单位向量。,27,高级教育,3、计算主成分贡献率及累计贡献率 贡献率,累计贡献率,一般取累计贡献率达85%95%的特征值 所对应的第1、第2、第m(mp)个主成分。,28,高级教育,4、计算主成分载荷 在主成分之间不相关时,主成分载荷就是主成分zi与变量xj之间的相关系数(在数学上可以证明) 5、各主成分的得分 得到各主成分的载荷以后,可以按照(3.5.2)计算各主成分的得分,(3.5.5),29,高级教育,(3.5.6),每个地

12、区的综合评价值为:对各个主成分进行加权求和。权重为每个主成分方差的贡献率。,30,高级教育,四、 主成分分析方法应用实例,31,高级教育,(一)下面,我们根据表3.5.1给出的数据,对某农业生态经济系统做主成分分析。,表3.5.1 某农业生态经济系统各区域单元的有关数据,32,高级教育,33,高级教育,步骤如下: (1)将表3.5.1中的数据作标准差标准化处理,然后将它们代入公式(3.5.4)计算相关系数矩阵(表3.5.2)。,表3.5.2相关系数矩阵,34,高级教育,(2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(表3.5.3)。由表3.5.3可知,第1,第2,第3主成分

13、的累计贡献率已高达86.596%(大于85%),故只需要求出第1、第2、第3主成分z1,z2,z3即可。,35,高级教育,表3.5.3特征值及主成分贡献率,=4.661/8.9988,36,高级教育,(3)对于特征值 分别 =4.661 0、=2.089 0、=1.0430,分别求出其特征向量e1,e2,e3,再用公式(3.5.5)计算各变量x1,x2,x9在主成分z1,z2,z3上的载荷(表3.5.4)。,37,高级教育,表3.5.4 主成分载荷,上述计算过程,可以借助于SPSS或Matlab软件系统实现。,38,高级教育,(1)从表3.5.4可以看出,第1主成分z1与x1,x5,x6,x7

14、,x9呈现出较强的正相关,与x3呈现出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第1主成分z1是生态经济结构的代表。 (2)第2主成分z2与x2,x4,x5呈现出较强的正相关,与x1呈现出较强的负相关,其中,除了x1为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以认为第2主成分z2代表了人均资源量。,分析:主成分载荷是主成分与变量之间的相关系数。,39,高级教育,显然,用3个主成分z1、z2、z3代替原来9个变量(x1,x2,x9)描述农业生态经济系统,可以使问题更进一步简化、明了。,(3)第3主成分z3与x8呈现出的正相关程度最高,其次是x6,而

15、与x7呈负相关,因此可以认为第3主成分在一定程度上代表了农业经济结构。 (4)另外,表3.5.4中最后一列(占方差的百分数),在一定程度上反映了3个主成分z1、z2、z3包含原变量(x1,x2,x9)的信息量多少。,40,高级教育,接着还可以计算每个主成分的得分,组成一个新的数据集,作为进一步应用系统聚类分析方法进行区划、分类的新的出发点。 也可以用来综合评价。 进行区域差异分析,41,高级教育,五、主成分分析的SPSS实现过程,42,高级教育,以书上例子为例,将数据存为.sav文件, 选AnalyzeData ReductionFactor进入主对话框; 把x1x9选入Variables,然

16、后点击Descriptive 击Extraction, 在Method选择一个方法(如果是主成分分析,则选Principal Components), 下面的选项可以随意,比如要画碎石图就选Scree plot,另外在Extract选项可以按照特征值的大小选主成分(或因子),也可以选定因子的数目; 之后回到主对话框(用Continue)。 然后点击Rotation,再在该对话框中的Method选择一个旋转方法(如果是不作旋转就选None,我们选Varimax,方差最大正交旋转法), 在Display选Rotated solution(以输出和旋转有关的结果)和Loading plot(以输出载

17、荷图);之后回到主对话框(用Continue)。 如果要计算因子得分就要点击Scores,再选择Save as variables(因子得分就会作为变量存在数据中的附加列上)和计算因子得分的方法(比如Regression);之后回到主对话框(用Continue)。这时点OK即可。,43,高级教育,44,高级教育,45,高级教育,46,高级教育,47,高级教育,48,高级教育,49,高级教育,结果解释,KMO值大于0.5,Bartletts Test的Sig. 大于0.05表明可用因子分析,50,高级教育,结果解释,说明提取的几个因子包含每个原变量的程度,公因子方差,51,高级教育,结果解释,这

18、里的Initial Eigenvalues就是特征值(数据相关阵的特征值)。头三个成分特征值累积占了总方差的86.596%。后面的特征值的贡献越来越少。,52,高级教育,特征值的贡献还可以从SPSS的所谓碎石图看出,53,高级教育,怎么解释这三个主成分。前面说过主成分是原始九个变量的线性组合。是怎么样的组合呢?SPSS可以输出下面的表。,这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分写成九个原先变量的线性组合,系数(比例)为0.739, 0.123, -0.964, 0.042, 0.813, 0.819,0.933,0.197,0.964。,54,高级教育,如用x

19、1x9分别表示原先的九个变量,而用y1,y2,y3, 表示新的主成分,那么,原先九个变量x1,x2,x3,x4,x5,x6与第一和第二第三主成分y1,y2,y3的关系为: y1=0.739x1+0.123x2-0.964x3+0.042x4+ 0.813x5+0.819x6+0.933x7+0.197x8+0.964x9 这些系数称为主成分载荷(loading),它表示主成分和相应的原先变量的相关系数。 相关系数(绝对值)越大,主成分对该变量的代表性也越大。可以看得出,第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。,55,高级教育,X1=0.773y1-0.

20、483y2+0.044y3,56,高级教育,计算因子得分,可以根据前面的因子得分公式(因子得分系数和原始变量的标准化值的乘积之和),算出每个样本的第一个因子、第二个因子和第三个主成分的大小,即算出每个样本的因子得分f1, f2和f3。 人们可以根据这三套因子得分对样本分别排序。当然得到因子得分只是SPSS软件的一个选项(可将因子得分存为新变量、显示因子得分系数矩阵),57,高级教育,58,高级教育,六、主成分分析的应用,59,高级教育,根据主成分分析的定义及性质,我们已大体上能看出主成分分析的一些应用。概括起来说,主成分分析主要有以下几方面的应用。 1主成分分析能降低所研究的数据空间的维数。即

21、用研究m维的Y空间代替p维的X空间(mp),而低维的Y空间代替 高维的x空间所损失的信息很少。即使只有一个主成分Yl(即 m1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。,60,高级教育,2有时可通过因子负荷aij的结构,弄清X变量间的某些关系。 3. 多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个

22、主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布状况,由图形可直观地看出各样品在主分量中的地位。,61,高级教育,4由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。 5用主成分分析筛选回归变量。回归变量的选择有着重要的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合,用主成分分析筛选变量,可以用较少的计算量来选择变量,获得选择最佳变量子集合的效果。,62,高级教育,附、主成分分析与因子分析的区别,63,高级教育,因子分析,主成分分析从原理上是寻找椭球的所有主轴。原先有几个变量

23、,就有几个主成分。 而因子分析是事先确定要找几个成分,这里叫因子(factor)(比如两个),那就找两个。 这使得在数学模型上,因子分析和主成分分析有不少区别。而且因子分析的计算也复杂得多。根据因子分析模型的特点,它还多一道工序:因子旋转(factor rotation);这个步骤可以使结果更好。,64,高级教育,对于计算机,因子分析并不费事。 从输出的结果来看,因子分析也有因子载荷(factor loading)的概念,代表了因子和原先变量的相关系数。但是在因子分析公式中的因子载荷位置和主成分分析不同。 因子分析也给出了二维图;其解释和主成分分析的载荷图类似。,65,高级教育,主成分分析与因

24、子分析的公式上的区别,主成分分析,因子分析(mp),因子得分,主成分载荷,旋转之后的 因子载荷,因子得分 系数中的值,66,高级教育,对于学生成绩的数据,SPSS因子分析输出为,67,高级教育,这个表说明六个变量和因子的关系。为简单记,我们用x1, x2, x3, x4, x5, x6来表示math(数学), phys(物理),chem(化学),literat(语文),history(历史),english(英语)等变量。这样因子f1和f2与这些原变量之间的关系是(注意,和主成分分析不同,这里把成分(因子)写在方程的右边,把原变量写在左边;但相应的系数还是主成分和各个变量的线性相关系数,也称为

25、因子载荷):,68,高级教育,69,高级教育,这里,第一个因子主要和语文、历史、英语三科有很强的正相关;而第二个因子主要和数学、物理、化学三科有很强的正相关。 因此可以给第一个因子起名为“文科因子”,而给第二个因子起名为“理科因子”。 从这个例子可以看出,因子分析的结果比主成分分析解释性更强。,70,高级教育,这些系数所形成的散点图(在SPSS中也称载荷图)为,可以直观看出每个因子代表了一类学科,71,高级教育,计算因子得分,可以根据输出,算出每个学生的第一个因子和第二个因子的大小,即算出每个学生的因子得分f1和f2。,72,高级教育,该输出说明第一和第二主因子为(习惯上用字母f来表示因子)可

26、以按照如下公式计算,该函数称为因子得分(factor score)。,人们可以根据这两套因子得分对学生分别按照文科和理科排序。当然得到因子得分只是SPSS软件的一个选项。,73,高级教育,因子分析和主成分分析的一些注意事项,可以看出,因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。 另外,如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果就越好。 在得到分析的结果时,并不一定会都得到如我们例子那样清楚的结果。这与问题的性质,选取的原始变量以及数据的质量等都有关系 在用因子得分进行排序时要特别小心,特别是对于敏感问题。由于原始变量不同,因子的选取不同,排序可以很不一样。,74,高级教育,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1