主分量分析[高教书苑].ppt

上传人:scccc 文档编号:11892459 上传时间:2021-10-17 格式:PPT 页数:52 大小:1.27MB
返回 下载 相关 举报
主分量分析[高教书苑].ppt_第1页
第1页 / 共52页
主分量分析[高教书苑].ppt_第2页
第2页 / 共52页
主分量分析[高教书苑].ppt_第3页
第3页 / 共52页
主分量分析[高教书苑].ppt_第4页
第4页 / 共52页
主分量分析[高教书苑].ppt_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《主分量分析[高教书苑].ppt》由会员分享,可在线阅读,更多相关《主分量分析[高教书苑].ppt(52页珍藏版)》请在三一文库上搜索。

1、主分量分析与核主分量分析,第一节 主分量分析 第二节 核主分量分析,1,高级教育,第一节 主分量分析,概 述 主分量分析的基本原理 主分量分析的计算步骤 主分量分析主要的作用 主分量分析方法应用实例,2,高级教育,许多系统是多要素的复杂系统,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。 因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?,一、概述,3,高级教育,事实上,这种想法是可以实现的,主分量分析方法就是综合处理这

2、种问题的一种强有力的工具。 主分量分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。 从数学角度来看,这是一种降维处理技术。,4,高级教育,在实际问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理

3、想工具。,5,高级教育,主成分概念首先由 Karl Parson在1901年首先提出,当时只是对非随机变量来讨论的。1933年Hotelling将这个概念推广到随机变量,作了进一步发展。把从混合信号中求出主分量(能量最大的成份)的方法称为主分量分析(PCA),而次分量(Minor Components, MCs)与主分量(Principal Components, PCs)相对,它是混合信号中能量最小的成分,被认为是不重要的或是噪声有关的信号,把确定次分量的方法称为次分量分析(MCA)。,6,高级教育,主分量分析又称主成分分析,也有称 经验正交函数分解或特征向量分析。 分析对象:以网格点为空间

4、点(多个变量)随时间变化的样本 。 主分量分析与回归分析、差别分析不同,它是一种分析方法而不是一种预报方法 。 我们希望可以通过某种线性组合的方法使某个变量或者某些变量的解释方差变得比较大,这些具有较大解释方差的变量就称为主分量。,7,高级教育,主成分分析是一种经典的统计方法,它对多元统计观测数据的协方差结构进行分析,以期求出能简约地表达这些数据依赖关系的主成分,也是一种特征提取的方法。一般来说,主成分分析的实施效果与评价指标间的相关程度高低成正比。评价指标间相关程度越高,主成分分析的效果就越好。PCA可以用于减少特征空间维数、确定变量的线性组合、选择最有用的变量、变量辨识、识别目标或是异常值

5、分组等。主分量子空间提供了从高维数据到低维数据在均方误差意义下的数据压缩,它能最大程度地减少方差。,8,高级教育,在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定

6、。,9,高级教育,PCA主要用于数据降维,对于一组样本的特征组成的多维向量,多维向量里的某些元素本身没有区分性,比如某个元素在所有的样本中都为1,或者与1差距不大,那么这个元素本身就没有区分性,用它做特征来区分,贡献会非常小。所以我们的目的是找那些变化大的元素,即方差大的那些维,而去除掉那些变化不大的维,从而使特征留下的都是最能代表此元素的“精品”,而且计算量也变小了。 对于一个k维的特征来说,相当于它的每一维特征与其他维都是正交的(相当于在多维坐标系中,坐标轴都是垂直的),那么我们可以变化这些维的坐标系,从而使这个特征在某些维上方差大,而在某些维上方差很小。,10,高级教育,例如,一个45度

7、倾斜的椭圆,在第一坐标系,如果按照x,y坐标来投影,这些点的x和y的属性很难用于区分他们,因为他们在x,y轴上坐标变化的方差都差不多,我们无法根据这个点的某个x属性来判断这个点是哪个,而如果将坐标轴旋转,以椭圆长轴为x轴,则椭圆在长轴上的分布比较长,方差大,而在短轴上的分布短,方差小,所以可以考虑只保留这些点的长轴属性,来区分椭圆上的点,这样,区分性比x,y轴的方法要好! 所以我们的做法就是求得一个k维特征的投影矩阵,这个投影矩阵可以将特征从高维降到低维。投影矩阵也可以叫做变换矩阵。新的低维特征必须每个维都正交,特征向量都是正交的。通过求样本矩阵的协方差矩阵,然后求出协方差矩阵的特征向量,这些

8、特征向量就可以构成这个投影矩阵了。特征向量的选择取决于协方差矩阵的特征值的大小。,11,高级教育,举一个例子: 对于一个训练集,100个样本,特征是10维,那么它可以建立一个100*10的矩阵,作为样本。求这个样本的协方差矩阵,得到一个10*10的协方差矩阵,然后求出这个协方差矩阵的特征值和特征向量,应该有10个特征值和特征向量,我们根据特征值的大小,取前四个特征值所对应的特征向量,构成一个10*4的矩阵,这个矩阵就是我们要求的特征矩阵,100*10的样本矩阵乘以这个10*4的特征矩阵,就得到了一个100*4的新的降维之后的样本矩阵,每个样本的维数下降了。,12,高级教育,二、主分量分析的基本

9、原理,假定有n个样本,每个样本共有p个变量,构成一个np阶的数据矩阵,(1.2.1),13,高级教育,当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。,14,高级教育,定义:记x1,x2,x P为原变量指标,z1,z2,z m(mp)为新变量指标,(1.2.2),系数lij的确定原则: z i与zj(ij;i,j=1,2,m)相互无关;,15,高级教育, z1是x1,x2,xP的一切线性组合中方差最大者,z2是与z1不相

10、关的x1,x2,xP的所有线性组合中方差最大者; zm是与z1,z2,zm1都不相关的x1,x2,xP, 的所有线性组合中方差最大者。 则新变量指标z1,z2,zm分别称为原变量指标x1,x2,xP的第1,第2,第m主成分。,16,高级教育,从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2 , p)在诸主成分zi(i=1,2,m)上的荷载 lij( i=1,2,m; j=1,2 ,p)。 从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。,17,高级教育,三、主分量分析的计算步骤,(一)计算相关系数矩阵 rij(i,j=1,2,p)为原变量xi与xj的

11、相关系数, rij=rji,其计算公式为,(1.3.1),(1.3.2),18,高级教育,(二)计算特征值与特征向量 解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列 ;, 分别求出对应于特征值的特征向量 ,要求 =1,即,其中表示向量 的第j个分量。,19,高级教育, 计算主成分贡献率及累计贡献率 贡献率,累计贡献率,一般取累计贡献率达85%95%的特征值 所对应的第1、第2、第m(mp)个主成分。,20,高级教育, 计算主成分载荷 主成分计算概括以下几点:,(1.3.3),(1.5.4),21,高级教育,三、主分量分析主要作用,1主成分分析能降低所研究的数据空间的维

12、数。即用研究m维的Y空间代替p维的X空间(mp),而低维的Y空间代替 高维的x空间所损失的信息很少。即:使只有一个主成分Y1(即 m1)时,这个Y1仍是使用全部X变量(p个)得到的。例如要计算Y1的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。2有时可通过因子负荷aij的结论,弄清X变量间的某些关系。,22,高级教育,3、多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前

13、两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。,23,高级教育,4由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。5用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。,24,高级教育,四、 主分量分析方法应用实例,下面,我们根据表

14、3.5.1给出的数据,对某农业生态经济系统做主成分分析。,表3.5.1 某农业生态经济系统各区域单元的有关数据,25,高级教育,26,高级教育,步骤如下: (1)将表3.5.1中的数据作标准差标准化处理,然后将它们代入公式(3.5.4)计算相关系数矩阵(表3.5.2)。,表3.5.2相关系数矩阵,27,高级教育,(2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(表3.5.3)。由表3.5.3可知,第1,第2,第3主成分的累计贡献率已高达86.596%(大于85%),故只需要求出第1、第2、第3主成分z1,z2,z3即可。,28,高级教育,表3.5.3特征值及主成分贡献率,29

15、,高级教育,(3)对于特征值=4.661 0,=2.089 0,=1.0430分别求出其特征向量e1,e2,e3,再用公式(3.5.5)计算各变量x1,x2,x9在主成分z1,z2,z3上的载荷(表3.5.4)。,30,高级教育,表3.5.4 主成分载荷,上述计算过程,可以借助于SPSS或Matlab软件系统实现。,31,高级教育,(1)第1主成分z1与x1,x5,x6,x7,x9呈现出较强的正相关,与x3呈现出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第1主成分z1是生态经济结构的代表。 (2)第2主成分z2与x2,x4,x5呈现出较强的正相关,与x1呈现出较强的负

16、相关,其中,除了x1为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以认为第2主成分z2代表了人均资源量。,分析:,32,高级教育,显然,用3个主成分z1、z2、z3代替原来9个变量(x1,x2,x9)描述农业生态经济系统,可以使问题更进一步简化、明了。,(3)第3主成分z3与x8呈现出的正相关程度最高,其次是x6,而与x7呈负相关,因此可以认为第3主成分在一定程度上代表了农业经济结构。 (4)另外,表3.5.4中最后一列(占方差的百分数),在一定程度上反映了3个主成分z1、z2、z3包含原变量(x1,x2,x9)的信息量多少。,33,高级教育,第二节 核主成分分析,概述 核

17、主成分的算法 核主成分的特性 计算的复杂性,34,高级教育,一、概述,主分量分析法已经有许多成功的应用,但它的前提是只对服从高斯分布的数据特征提取效果较好,这就大大限制了它的应用范围。因为,如果数据呈任意分布,那么不论在原数据空间中如何做正交变换,都不可能找到一组最优的特征方向,找到的所谓“主分量”也就不能表达数据的特征结构了,而后续工作建立在这样的“主分量”表示的新特征向量的基础上,效果可想而知。 PCA 对数据分布有这样的苛刻要求,主要由于它是一个线性方法,对于提取数据的非线性结构无能为力。显然,不论在原空间中对 PCA 方法如何做改进,都不可能摆脱这个前提的限制,从本质上将其变为一个非线

18、性算法。,35,高级教育,核主成分分析是对主成分分析的一种改进,主成分分析要求处理的数据服从高斯分布,因此其应用受到大大的限制。 针对之一局限性,核主成分分析首先利用非线性变换,将数据映射到特征空间,使其近似服从高斯分布,然后在特征空间利用主成分分析,所以,核主成分分析能够处理较多类型的数据。,36,高级教育,基于核函数的非线性主成分分析方法,简称为核主成分分析(KPCA),于1998年由Scholkopf首次提出。主要应用于模式识别、信号处理等。如果选用适当的映射函数,输入空间线性不可分问题在特征空间将转化为线性可分问题。这种非线性映射函数被称之为核函数。将核函数与一般的主成分分析有机融合而

19、形成的基于核的主成分分析,不仅具有优秀的主成分提取性能尤其适合于处理非线性问题,其应用前景更为广泛。,37,高级教育,基于核的主分量分析法 (KPCA)是对主分量分析法的非线性推广,这一过程涉及许多重要的思想和技巧,深入理解这些理论和核技巧是进行核技巧工作的基础。核主成分是在高维特征空间F中做通常的线性主成分分析。特征空间是输入空间非线性变换得到的。在主向量上的连续投影的等高线在输入空间变为非线性的,在输入空间画不出特征向量的原象。对核主成分来说,其关键在于不必自特征空间对经过映射后的数据直接进行计算。所有的计算将通过空间中的核函数来实现。,38,高级教育,二、核主成分的算法,计算基于核的主成

20、分,又称为核主成分,步骤如下: (1)计算矩阵 , (2)通过将K进行对角化变换,并通过使 来归一化特征向量相对应的系数 。 (3)提取一个测试点x的主成分(按照相应的核K),根据下式计算特征向量的映射。,39,高级教育,常用的核函数,:,40,高级教育,三、核主成分的特性,核主成分,实际上就是在特征空间做普通的主成分。因此,所有有关主成分 的数学的和统计的特性都适用于核主成分。只是在特征空间是对一组输入空间的数据经过正交()变换后是数据(i),i=1,M,进行操作。在特征空间F中,主成分是具有以下特征的正交变换。,41,高级教育,(假定特征向量是按特征值的大小降序排列): 各主成分之间不相关

21、。 前q(q1,M)个主成分,也就是在特征向量上的投影,比其它任何正交方向上的投影所提供的方差贡献率要多。 观测数据的前q个主成分的均方误差最小。 前q个主成分包含了输入空间最大的信息。(这一结论是在高斯性的假设之下,并依赖于数据及所选择的特殊的核得到的),42,高级教育,一个256维输入空间的5次的多项式核可以生成一个十亿维的特征空间。核主成分可以对这么高维的特征空间进行计算。有两个原因:首先,不需要在整个特征空间F中寻找特征向量,而是在观测值 在特征空间F中所生成的映射所张成的子空间中进行。其次,当我们使用核函数时,不需要明确地计算特征空间中向量之间的点积运算。(事实上,即使向量在低纬度的子空间这一点也不可行。)因而与PCA相比计算量的增加不会太大,对于特别复杂的问题甚至可以不用计算全部特征值,只需用特别的算法计算最大的一个或两个特征值即可。,四、计算的复杂性,43,高级教育,44,高级教育,核主成分分析在Matlab软件中的实现步骤:输入数据S,投影后数据维数k;计算核矩阵;将核矩阵中心化;计算核矩阵的特征值和特征向量;将特征向量规范化;数据重建;输出变换后的数据集。,45,高级教育,46,高级教育,47,高级教育,48,高级教育,49,高级教育,50,高级教育,51,高级教育,52,高级教育,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1