高维数据的低维表示综述.doc

资源描述

《高维数据的低维表示综述.doc》由会员分享，可在线阅读，更多相关《高维数据的低维表示综述.doc（42页珍藏版）》请在三一文库上搜索。

1、-高维数据的低维表示综述一、研究背景在科学研究中，我们经常要对数据进行处理。而这些数据通常都位于维数较高的空间，例如，当我们处理200个256*256的图片序列时，通常我们将图片拉成一个向量，这样，我们得到了65536*200的数据，如果直接对这些数据进行处理，会有以下问题：首先，会出现所谓的“位数灾难”问题，巨大的计算量将使我们无法忍受；其次，这些数据通常没有反映出数据的本质特征，如果直接对他们进行处理，不会得到理想的结果。所以，通常我们需要首先对数据进行降维，然后对降维后的数据进行处理。降维的基本原理是把数据样本从高维输入空间通过线性或非线性映射投影到一个低维空间，从而找出隐藏在高维

2、观测数据中有意义的低维结构。（8）之所以能对高维数据进行降维，是因为数据的原始表示常常包含大量冗余：有些变量的变化比测量引入的噪声还要小，因此可以看作是无关的有些变量和其他的变量有很强的相关性(例如是其他变量的线性组合或是其他函数依赖关系)，可以找到一组新的不相关的变量。（3）从几何的观点来看，降维可以看成是挖掘嵌入在高维数据中的低维线性或非线性流形。这种嵌入保留了原始数据的几何特性，即在高维空间中靠近的点在嵌入空间中也相互靠近。（12）数据降维是以牺牲一部分信息为代价的，把高维数据通过投影映射到低维空间中，势必会造成一些原始信息的损失。所以在对高维数据实施降维的过程中如何在最优的保

3、持原始数据的本质的前提下，实现高维数据的低维表示，是研究的重点。（8）二、降维问题 1定义定义1.1降维问题的模型为(X,F)，其中D维数据空间集合X?xl?l?1（一般为RD的一个子集），映射F F:X?Yx?y?F(x), N Y是d空间集合（一般是Rd，d?D）的一个子集，我们称F是数据集X（到Y）的降维。若F为X的线性函数，则称F为线性降维；否则，称为非线性降维。定义1.2 称映射F?1 F?1:Y?Xy?xF?1(y) 为嵌入映射。（8） 2分类针对降维问题的目的和待处理数据集合表象维数的多少，对其进行初步的、粗略的分类如下：硬降维问题：数据维数从几千到几万甚至几十万的变

4、化，此时需要对数据集进行“严厉”的降维，以至于达到便于处理的大小，如图像识别、分类问题以及语音识别问题等。软降维问题：此时数据集合的维数不是太高，降维的需求不是非常的迫切。如社会科学、心理学以及多元统计分析领域皆属于此类。可视化问题：此时数据集合的绝对维数不是很高，但为了便于利用人们的直观洞察力，即为了可视化，我们将其降到2或3维。虽然我们可以可视化更高维数的数据，但是它们通常难于理解，不能产生数据空间的合理形态。若我们还考虑时间变量的话可以对降维问题进行更加进一步的分类，静态降维问题和动态降维问题。后者对于时间序列来讲是有用的，如视频序列、连续语音信号等的处理。（4） 3方法介绍如何

5、将高维数据表示在低维空间中，并由此发现其内在结构是高维信息处理研究的关键问题之一。实际处理中，由于线性方法具有简单性、易解释性、可延展性等优点，使得线性降维在高维数据处理中是一个主要研究方向。已有的线性维数约简方法，主要包括主成分分析(Principal Component Analysis，PCA)16、独立成分分析(Independent Component Analysis，ICA)、线性判别分析inear discriminant analysis(LDA) 17、Fisher 判别分析(Fisher Discriminant Analysis，FDA)、主曲线(Principal

6、 Curves)、投影寻踪(Projection Pursuit, PP)、多维尺度方法(Multidimensional Scaling，MDS)等。这些方法实际是在不同优化准则之下，寻求最佳线性模型，这也是线性维数约简方法的共性。（10）通过消除数据建模过程中的全局线性假设，Sammon提出了一种非线性映射，即Sammon映射(SM)，该算法能够保持输入样本之间的相关距离；Hastie提出了principal curves(PC)，其定义为通过概率分布或数据中间的光滑曲线；Kohonen基于自组织神经网络提出了self-organizing map(SOM)用来保存数据空间的拓扑属性；S

7、cholkopf等应用Mercer核将PCA扩展为Kernel PCA(KPCA)，该算法在高维空间中计算主分量，而该高维空间由输入空间经某种非线性映射得到。Mika等采用相同的思想来非线性扩展LDA，从而提出了kernel LDA（KLDA）；然而，基于核的方法其难点在于如何选择一个合适的核函数，一个好的核函数可以使数据在特征空间上线性可分或者近似线性可分，但并不是所选核函数对于每一种数据都适用。核函数的选择反映了人们对问题的先验知识，在实际的应用中往往是经验地选择某种核函数，比如径向基函数 (Radial Basis Function，RBF)。同时，在使用核函数时不必知道具体的特征空间

8、，使得核函数方法缺乏物理直观性，这也是核函数方法的一个缺点。（10）最近兴起的流形学习算法也是用来维数约减的非线性方法，并且依靠它们在探测嵌入在高维空间中低维流形的能力和灵活性而被广泛应用。具有代表性的流形学习算法包括等距映射 (Isometric Mapping，Isomap)、局部线性嵌入方法(Locally Linear Embedding，LLE)、Laplacian 特征映射(Laplacian Eigenmap，LE)、局部切空间排列方法( Local Tangent Space Alignment，LTSA)、Hessian等距映射(Hessian eigenmaps，HLL

9、E)和最大方差展开(maximum variance unfolding，MVU)。其中，LLE运用线性系数，来表达局部几何，该系数能够重建一个给定的样本点利用其近邻点，然后寻找一个低维空间，在该空间中这些线性系数仍然可以用来重建相应的点；ISOMAP作为MDS的变种，能够保存点对之间的全局的测地线距离；LE通过对一个描述了点对之间邻域关系的无向图的操作，来保持数据之间的近邻关系。HLLE先通过估计邻域上的Hessian而构建一矩阵，然后在此矩阵上运用特征值分解而得到最终的低维坐标。LTSA运用局部切信息作为局部几何的表达，然后将这些切信息在全局中排列从而得到最终的全局坐标。MVU不是一个绝

10、对的局部方法而是一个介于局部和全局之间的方法，因为MVU不仅保存近邻点之间的几何关系而且在它的目标函数中考虑了全局点对之间的距离。除了基于谱分析的流形学习的算法，基于概率参数模型，Rowels提出了global coordination(GC)；Teh和Roweis开发了locally linear coordination(LLC)；Brand提出了manifold charting(Charting)。这些方法也属于流形学习的重要范畴。然而，这些非线性的算法却不能够为样本提供一个外在的映射，也就是说，它们很难被应用于识别问题。但是，一些基于谱分析的算法由于其具有特殊的特征分解机制而能够较

11、为容易的扩展为线性算法，其线性化可以通过在解决优化的过程中施加线性逼近来实现。Locality preserving projection(LPP)作为LE的线性化是其中最早提出的算法。后来提出的还包括neighborhood preserving embedding(NPE)，LLE的线性化扩展，和orthogonal neighborhood preserving projections(ONPP)，LLE的正交线性化扩展。这种线性化扩展使流形学习的思想更能够应用到现实世界中。图1.1给出了以上所提提及的降维算法的分类图。在谱方法的线性化扩展中，LPP可以被看作为基于图结构的最具代表性的

12、算法，在接下来的几年中，又不断地有这种基于图的算法被提出，从而进一步完善了这种基于图的框架。Cai等对LPP算法分别对监督设置和非监督设置两种情况作了系统的分析，并且将LDA用这种基于图的框架重新公式化。Yan等提出了一种一般性的框架即“图嵌入”，来统一各种各样的降维算法。基于此种框架，一种新的线性算法，marginal fisher analysis（MFA）将开发出来。MFA不同于LPP其只用一个图来描述数据的几何结构，该算法采用了两个图，其中一个为固有图（intrinsic graph），它用来刻画数据的类内紧凑性；而另一个图为惩罚图（penalty graph），用来描述数据类间的分离

13、性。因此，MFA比LPP更具有判别性。Chen等同时提出的local discriminant embedding（LDE）算法在本质上与MFA的思想是相同的。（5）非线性降维方法与线性降维方法相比的一个显著特点是，分析中的局部性(数据集合经常满足的一个简单假设)。原因在于对数据集合的内蕴结构而言，有下列特性：由泰勒定理，任何可微函数在一点的充分小的邻域之内满足线性性。形象的来讲，相当于认为曲面流形可由大小不一的局部线性块拼接而成；数据流形经常是由许多可分割的子流形所组成；数据流形的本征维数沿着流形不断的发生变化，只有局部性才能抓住其根本特性。（4）三、常见降维方法（一）线性 1

14、. 主成分分析(Principal Component Aanlysis PCA) 1 PCA将方差的大小作为衡量信息量多少的标准，认为方差越大提供的信息越多，反之提供的信息就越少。它是在损失很少的信息的前提下把多个指标转化为几个综合指标的一种多元统计方法。它具有概念简单，计算方便以及最优线性重构误差等优良的特性。 PCA是一种全局算法，它可以较好地揭示具有线性结构的高维数据集的全局分布。然而对于嵌入在高维空间中具有非线性流形结构的数据，PCA很难学习出隐含在数据集中的低维流形结构。 PCA假设数据之间的关系是线性的。它在保存原始高维数据协方差结构的基础上计算低维表达，也就是最大化总体方差。

15、它的目标函数可以写为： UPCA=argmax?i?m UPCA Ni?12 UPCAN2 TTT?argmax?UPCA(i?m)?argmaxtr(UPCASTUPCA)s.tUPCAUPCA?IdUPCAi?1 其中，m? N1NT?i，m?1N?i，且ST为总体离散矩阵： TST=?(xi?)(xi?)。对转换矩阵做尺度约束UPCAUPCA=Id，其中Id为d?d单 i=1 位矩阵。则目标函数可以写为： TTargmaxtr(UPCASTUPCA)，s.tUPCAUPCA?Id UPCA 上式问题可以转化为ST的标准的特征值问题：PCA的最优转换矩阵为ST的d个最大的特征值所对应的d个

16、m维特征向量。 2.线性判别法(Linear Discriminant Analysis LDA) 2 其基本思想是投影，首先找出特征向量，把这些数据投影到一个低维的方向，使得投影后不同的组之间尽可能的分开，而同一组内的的样本比较靠拢，然后在新空间中对样本进行分类。通过最小化类内离散矩阵SW的秩而最大化类间离散矩阵SB的秩，来寻找一个子空间来区分不同的类别。SW和SB分别定义如下： SW=?(j(i)?(i)(j(i)?(i)T i=1j?1 CCNi SB?Ni(i)?)(i)?)T i?1 其中，Ni是第i个类中样本的个数；j(i)是第i个样本中第j个样本。(i)为第i个类的质心；用来表

17、示所有样本的质心，C为样本的类别数。LDA则有以下的优化准则： Ttr(ULDASBULDA)Targmax s.tULDAULDA?Id Ttr(ULDASWULDA) 上述的优化可以转化为求解一个广义的特征分解问题： SB?SW? 且最优的解为d个特征向量其对应于d个最大的非零特征值。 3.投影寻踪(Projection Pursuit PP) 3 基本思想主要来源人们对低维空间几何图形的直观理解，它包含俩个方面的含义：其一是投影(Projection)，把高维空间中数据投影到低维空间；其二是寻踪(Pursuit)，利用低维空间投影数据的几何分布形念，发现人们感兴趣的数据内在特征和相应的投

18、影方向，同时排除与数据结构和特征无关的或关系比较小的变量干扰。 4. 多维尺度分析(Multidimensional Scalar ，MDS) 4 主要思想是：根据数据点间的欧氏距离，构造关系矩阵，为了尽可能地保持每对观测数据点之间的欧氏距离，只需对此关系矩阵进行特征分解，从而获得每个数据在低维空间中的低维坐标。算法步骤： 1计算观测空间中任意两点欧式距离，构造n阶平方欧式距离矩阵A 12将矩阵A进行双中心化计算，即计算B?HAH。 2 若设n?n阶矩阵H=I?eeT/n（常称之为中心化矩阵），将矩阵H左乘和右乘A的两边（常称之为双中心化）。 3计算低维坐标Y。即将B奇异值分解，设B的最大的

19、d个特征值?=diag(?1，?d)，对应特征向量U?v1, （二）非线性 vd，则d 维坐标为Y?T。流形学习旨在发现高维数据集分布的内在规律性，其基本思想是：高维观测空间中的点由少数独立变量的共同作用在观测空间张成一个流形，如果能有效地展开观测空间卷曲的流形或发现内在的主要变量，就可以对该数据集进行降维。现在形式化地概括流形学习这一维数约简过程：假设数据是均匀采样于一个高维欧氏空间中的低维流形，流形学习就是从高维采样数据中恢复低维流形结构，即找到高维空间中的低维流形，并求出相应的嵌入映射，以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质，找到产生数据的内在规律。用

20、数学语言可以这样描述，令Y?Rd且f:Y?RD是一个光滑的嵌套，D?d，流形学习的目标是基于RD上的一个给定被观测数据集合?xi?去恢复Y和f，在Y中隐藏的数据?yi?被随机地产生，然后被f映射到观测空间，使得（12） ?xi?f(yi)?。 1.局部线性嵌入方法 LLE (Locally Linear Embedding) 5 LLE在保存原始高维数据邻域线性结构的基础上计算低维表达。（5）是一种局部方法，它试图保持数据的局部几何特征，就本质上来说，它是将流形上的近邻点映射到低维空间的近邻。（9）图2 非线性降维实例 B是从 A中提取的样本点（三维），通过非线性降维算法 LLE将数据映射

21、到二维空间中（C），从C图中的颜色可以看出通过 LLE算法处理后的数据能很好的保持原有数据的邻域特性(引用文献6) 主要思想：对一组具有嵌套(流形)的数据集，在嵌套空问与内在低维空间局部邻域问的关系应该不变，即在嵌套空间中每个采样点可以用它的近邻点线性表示，在低维空间中保持每个邻域中的权值不变，重构原数据点，使重构误差最小。 (8) LLE的实现过程步骤：LLE方法可以归结为三步： (1) 寻找每个样本点的k个近邻点；把相对于所求样本点距离最近的k个样本点规定为所求样本点的k个邻近点。k是一个预先给定值。距离的计算既可采用欧式距离也可采用Dijkstra距离。Dijkstra距离是一种测

22、地距离，它能够保持样本点之间的曲面特性。 (2)由每个样本点的近邻点计算出该样本点的局部重建权值矩阵；这里定义一个成本函数，如下式，来测量重建误差： ?(w)?xi?jwijxj i解得wij?kGijk?1/?lmGlm，?12 xj?N?wij?1,xj?N时wij?0 其中Gi jk?(xi?j)(xi?k)，?j和?k是xi的近邻点；为了使重建误差最小化，权重wij服从一种重要的对称性，即对所有特定数据点来说，它们和它们邻居点之间经过旋转、重排、转换等变换后，它们之间的对称性是不变的。由此可见重建权重能够描述每个邻居本质的几何特性。因此可以认为原始数据空间内的局部几何特征同在流形

23、局部块上的几何特征是完全等效的。（3）由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值。映射条件满足如下成本函数： ?(Y)?Yi?jwijYj i2 要使低维重构误差最小，计算得出，Y等价于求M的特征向量，其中M?(I?W)T(I?W)在处理过程中，将M的特征值从小到大排列，第一个特征值几乎接近于零，那么舍去第一个特征值。通常取第2到m+l之间的特征值所对应的特征向量作为输出结果。优点：LLE算法可以学习任意维的局部线性的低维流形，就是用局部性用局部的的线性来逼近全局的非线性，保持局部的几何结构不变，通过相互重叠的局部邻域来提供整体的信息，从而保持整体的几何性质。LLE既有

24、非线性的特点又具有线性方法的优点。（8）同时由重构成本函数最小化得到的最优权值遵循对称特性，每个点的近邻权值在平移、旋转、伸缩变换下是保持不变的LLE算法有解析的全局最优解，不需迭代，低维嵌入的计算归结为稀疏矩阵特征值的计算，这样计算复杂度相对较小。缺点：LLE算法要求所学习的流形只能是不闭合的且在局部是线性的，还要求样本在流形上是稠密采样的。另外，该算法的参数选择不确定，对样本中的噪音很敏感。（12）此外，(1)对于一个新样本点。没有显式的方法把该点嵌入到低维空间中，这在检索应用中不适用。(2)新空间的维数没有显式准则进行确定，只有通过经验的方法。(3)LLE没有利用数据点的类信息。在分类

25、问题中，对于有类标号的样本数据，LLE无能为力。 SLLE算法7 Dick和Robert提出一种针对有监督的 LLE算法，即Supervised linear locally embedding (SLLE)传统的LLE算法在第一步时是根据样本点间的欧氏距离来寻找k个近邻点，而SLLE在处理这一步时增加了样本点的类别信息，SLLE算法的其余步骤同LLE算法是一致的。 SLLE算法在计算点与点之间的距离时有两种方法。 SLLE1：第一种方法是采用下式来修正点与点之间的距离公式如下所示 D?D?max(D)? 其中：D?是计算后的距离D是最初采用的距离；max(D)是表示类与类之间的最大距离；?取

26、0或者1，当两点属于同类时，?取为0，否则取1；?是控制点集之间的距离参数，?0,1，是一个经验参数。当?取为零时，此时的SLLE和 LLE 算法相同。这个方法引入了一个参数?，它是一种经验参数，对实验的结果有很大的影响，下面介绍一种非参数的方法。 SLLE2：求解点与点之间的距离，目的在于是寻找样本点的近邻点。SLLE2的方法在寻找近邻点时，不是在全局样本中寻找近邻点，而是在每个点所在类的样本中寻找近邻点，也就是说，在类内中寻找样本点的近邻点。这个方法固然没有采用参数的方法，但是如果某一类的样本个数小于k，那么这种方法必将失败，则每个类的样本个数在相当多的情况下可以采用这种方法。 RLLE

27、算法8 当在做聚类分析且采用LLE算法对数据进行降维时，如果数据中存在着许多离异点的情况，那么降维后的结果将会发生变异，通常是第一维或者是第二维的数据发生跳跃式的变化，或者分布在某几条直线上，这将会给聚类带来很大的麻烦，其实当离异点超过LLE算法中的k值时，这种现象将会发生。 A.Hadid和M.Pietik?inen提出一种 Robust Locally Linear Embedding (RLLE)方法。它是针对存在有离异点的情况下，对样本的一种无监督的非线性降维方法。邻域保持嵌入算法NPE算法9 NPE从本质上说是局部线性嵌入(local linear embedding，LLE)的线

28、性逼近。给定数据集X，采用与LLE相同的方法构建数据集上的近邻图。NPE针对LLE算法的out-of-sample问题提出的，该算法通过最小化局部相似离散度寻找投影方向，有效的保持了数据间的相似几何结构，取得了不错效果，已被广泛地应用到文档分析、机器学习和模拟识别等领域。NPE假定每个局部近邻都是线性的。算法步骤： 1近邻选择，构造邻接图G 2计算近邻重建权W 3计算投影向量： a求低维坐标对应近邻重建的目标函数最小化，即 nk?Min?yi?Wijyij?Yi?1j?1?tYYT?I?S.:2 b代入线性变换y?Tx,得 2nk?T?Min?xT i?Wijxij? ?i?1j?1?t?T

29、XXT?I?S.: TT?Min?XMX?c ? TTt?XX?I?S.: 其中M?(I?W)T(I?W) d求解下列广义特征方程的d个最小特征值对应的特征向量作为d个投影向量： XMXT?=?XXT? 故由上述特征方程的d个最小特征值?1,?2,?d对应特征向量?1,?2,，构成保持近邻重建特性的线性变换矩阵。 ,?d 缺点：NPE在保持数据空间的局部相似信息时，不能较有效地保持差异信息，特别是高维非线性数据间的差异信息。如在人脸识别应用中，人脸图像的识别容易受光照、表情等非理想条件变化的影响，这些非理想情况会使得同一个人的不同图像之间的差异大于不同人图像之间的差异，从而导致识别错误。 NP

30、E算法通过式xi?yi?ATxi实现了数据到新空间的线性变换。显然，这种线性变换实现的数据变换是一种显式形式，这样就解决了LLE算法没有显式映射函数的问题。 LLE算法是非监督的学习方法，没有充分利用类别信息，为了提高算法的识别能力，于是有了LLE的正交线性化扩展，orthogonal neighborhood preserving projections(ONPP)10 11。张长水等人12在LLE的基础上提出一种从低维嵌入空间向高维空间映射的方法，并在多姿态人脸图像的重构实验中得到有效的验证，进一步完善了非线性降维方法。 2. 等距映射法 ISOMAP (Isometric Map)

31、 13 ISOMAP认为当数据集具有嵌入流形结构时，可以根据保距映射来获得观测空间数据集在低维结构的对应描述。基本思想：ISOMAP通过测地线距离来描述各点之间的相互关系，在全局意义下，通过寻找各点在图意义下的最短路径来获得点与点之间的距离，然后利用经典的MDS算法得到低维的嵌入坐标。因此ISOMAP可认为是MDS算法的变种。（5）图3 ISOMAP算法示意图使用前提条件：高维数据所在的低维流形与欧氏空间的一个子集是整体等距的；与数据所在的流形等距的欧氏空问的子集是一个凸集。主要步骤： (1)构造局部邻域。首先对数据集X?x1,x2,xn?，计算任意两个样本向量将每一个点与所有的点进

32、行比较，当两点之间的距xi和xj的欧式距离dx(xi,xj)，离小于固定的半径?（或i是j的K-邻域）时，我们就认为它们是相邻的，将其连接起来，该边的长度dx(xi,xj),则得到邻域图G。 (2)计算最短距离。在图G中，设任意两个样本向量xi和xj之间的最短距离为dG(xi,xj)。若xi和xj之间存在连线，dG(xi,xj)的初始值为dx(xi,xj)，否则令dG(xi,xj)?。对所有的k=1,2,n dG(xi,xj)?mindG(xi,xj),dG(xi,xk)?dG(xk,xj) 这样得到矩阵DG?dG(xi,xj)，它是图G中所有点对的最短路径组成的。 (3)构造d维嵌入。用M

33、DS方法构造一个保持本征几何结构的d维嵌入到空间Y。 H*(DG)2*H?(DG)? 2 H是与DG同阶的单位矩阵，对?(DG)进行特征分解，取最大的前d个特征值?1,?2,?d和对应的特征向量V1,V2,Vd，令Vpi为第p个特征向量的第i个成 i分，则对应的数据低维表示为yi?1/2 pVp。优点：适用于学习内部平坦的低维流形，ISOMAP结合了线性算法(如PCA和MDS)的主要特征计算的有效性、全局的优化性和渐进收敛性等。这种用测地距离来代替传统的欧氏距离的方法，可更有效的在低维空间来表达高维空间的数据，减少降维后损失的数据信息。缺点：不适于学习有较大内在曲率的流形。在噪声干扰下，

34、Isomap用于可视化会有不稳定现象，取较大的邻域会产生短路现象，即低维流形中不同邻域部分的点投影后出现明显的混杂现象。选取较小的邻域，虽然能够保证整体结构的稳定，但低维投影结果会产生大量“空洞”，或使最短路径算法重构的图不连通。降维维数的确定通常是在本质维数未知的情况下进行的，经多次实验绘制残差曲线观察得到。Isomap算法计算图上2点间的最短距离可采用Dijkstra算法，但执行起来仍然比较慢。（12） (l)当与高维流形等距的欧氏空间的子集不是凸型时，即当高维空间存在“空洞”时，要计算高维观测空间上任意样本点之间的距离很有可能发生弯曲异常，如果这样就会影响低维嵌入结果的表示。 (2)等距

35、特征映射算法在数据拓扑空间有可能是不稳定的。因为如果选择的邻域过小，就会导致邻域图不连通，如果选择的邻域太大，又可能导致短路。 (3)使用Isomap算法恢复非线性流形的几何结构的时候，所需的计算时间比较多，这主要是花在计算样本点之间的最短路径上。由于已有的流形学习算法对噪音和算法参数都比较敏感，詹德川、周志华14针对Isomap算法，提出了一种新方法，通过引入集成学习技术，扩大了可以产生有效可视化结果的输入参数范围，并且降低了对噪音的敏感性。另外，赵连伟 15等人完善了Isomap的理论基础，给出了连续流形与其低维参数空间等距映射的存在性证明，并区分了嵌入空间维数、高维数据的固有维数与流

36、形维数这些容易混淆的概念，证明如果高维数据空间存在环状流形，流形维数则要小于嵌入空间维数他们还给出一种有效的环状流形发现算法，以得到正确的低维参数空间。特别地，周志华等16提出了一种方法，可以从放大因子和延伸方向两方面显示出观测空间的高维数据与降维后的低维数据之间的联系，并实验比较了2种著名流形学习算法(Isomap和LLE)的性能。文献17中，作者提出了一种基于Isomap的监督算法Weightedlso。在分类问题中，理想情况下属于同一类的样本在测量空间中应离得近一些，反之，不同类的样本则离得远一些。因此，作者在基本Isomap算法的第一步，计算各样本点间的欧氏距离时引进了一个常量参数，

37、用来重新度量同一类样本间的距离，使它们离得更近。 Weightedlso算法虽然在一定程度上克服了流形学习方法分类效果较差的缺点，但在引入常量参数重新度量同类样本的距离时，由于噪声的影响，破坏了样本间的本质结构，使其可视化应用效果下降。在分类问题中，权值w在很大程度上影响着分类的结果，如何选取w值得进一步研究。由于Weightedlso的不足，Xin Geng,De Chuan Zhan等18提出了另一种基于Isomap的监督算法SIsomap。该方法同样是修改了Isomap算法的第一步，用已知的样本所属类别信息重新定义了样本间的距离。 3局部切空间排列算法 LTSA (local tang

38、ent space alignment)19 LTSA是一种基于切空间的流形学习方法，它通过逼近每一样本点的切空间来构建低维流形的局部几何，然后利用局部切空间排列求出整体低维嵌入坐标。主要思想：找出每个数据点的近邻点，用邻域中低维切空间的坐标近似表示局部的非线性几何特征，再通过变换矩阵将各数据点邻域切空间的局部坐标映射到一个同一的全局坐标上，从而实现高维数据降维，即从n维数据中得到一个全局的d维坐标。(8) 算法步骤：第一步：构造邻域。对于每个数据点xi，找出它的包括它自身在内的k个邻域点，构成矩阵Xi?xi1,xik。第二步：局部线性投影。对于每个样本点的邻域Xi，计算中心化矩阵并

39、将这d个左奇异向量组成Xi(I?eeT/k)的最大d个奇异值对应的左奇异向量，矩阵Qi。 1由Xi(I?eeT/k)?U?V计算得出左奇异向量U，取出U的前d列构成矩阵Q（iQi即为xi点的切空间的近似）； 2计算各个邻域点在该切空间Qi的投影： ?i?QiTXi(I?eeT/k)?1(i),?k(i) ?( ji)?QiT(xi?i) j 第三步：局部坐标系统的排列。对每个邻域的局部切空间坐标?i?(?1(i),?2(i),?k(i)(i?1,2,N)，构造转换矩阵Li?i?Rd?d。通过最小化?T(I?eeiT/k)?Li?i2的求解，最后化解可通过计算一个矩阵从第2小到第d+1小的特征

40、值所对应的特征向量。其中?i?是?的广义Moor-Penrose逆。优缺点：LTSA能够有效地学习体现数据集低维流形结构的整体嵌入坐标，但它也存在两方面的不足：一方面算法中用于特征值分解的矩阵的阶数等于样本数，样本集较大时将无法处理；另一方面算法不能有效处理新来的样本点。（12）对此，提出了一些相应的改进算法。但LTSA也面临着同HLLE类似的一些问题：LTSA所反映的局部结构是它的局部d维坐标系统，因此，由于噪声等因素的影响，当数据集的局部低维特征不明显或者不是d维的时候，它的局部邻域到局部切空间的投影距离往往并不小。此时，构造的重建误差也不会小，这样LTSA可能就无法得到理想的嵌入结果

41、。此外，LTSA对样本点的密度和曲率的变化的影响比较敏感，样本点的密度和曲率的变化使得样本点到流形局部切空间的投影产生偏差，而LTSA构造排列矩阵的模型并没有将这种偏差计入考虑范围。这使得对于样本点密度和曲率变化较大的流形，LTSA的嵌入结果可能会出现扭曲现象。线性局部切空问排列(LLTSA) 针对LTSA算法不能为新的测试样本提供一个明确的从高维到低维的映射，也就是所谓的“Out of Sample”问题。提出了一个新的线性算法，线性局部切空问排列(LLTSA)20。该算法运用切信息作为数据的局部表达，然后将这些局部信息在可以用线性跌射得到的低维空间中排列。它先将每一个样本点邻域的切空间表

42、示为流形的局部几何，再经线性映射实现样本数据从高维空间降维到低维空间，最终将整体嵌入坐标的求解问题转化为矩阵的广义特征值的求解问题。算法步骤： 1近邻选择，构造邻接图G 2计算局部切坐标? 3计算投影向量： a求低维坐标对应近邻重建的目标函数最小化，即 2?iHk?Li?i?Min?Li,Ti ?i?tYYT?I?S.: Hk是k阶中心化矩阵且Hk?I?eeT/k。 b代入线性变换Yi?T(XiH)，且由H2?H得 2?T?(XiHk)?Li?i?Min?Li,Ti ?i?t?TXXT?I?S.: ?TXHBHXT?Minc ? TTt?XHX?I?S.: 其中B?SWWTST,近邻选择矩阵

43、S?S1,Si,Sn使得YSi?Yi，并且W?diag(W1,W2,Wn),且Wi?Hk(I?i?i?)。 d求解下列广义特征方程的d个最小特征值对应的特征向量作为d个投影向量： XHBHXT?=?XHXT? 故由上述特征方程的d个最小特征值?1,?2,?d对应特征向量?1,?2,?d，构成保持近邻重建特性的线性变换矩阵。数据样本的类别信息对于入脸识别是非常重要的资源，但是LLTSA算法是非监督的学习方法，没有充分利用类别信息。为了提高算法的识别能力，需要对LLTSA算法的目标函数进行修改，以增加有关判别信息的限定，使原来无监督的学习方法发展为有监督的学习方法。而且为了提高数据的重建能力，

44、算法应将解出的人脸子空间正交化，可称这种流形学习算法为正交判别的线性局部切空间排列(orthogonal discriminant linear local tangent space alignment，ODLLTSA)。21 由于用于特征值分解的矩阵的阶数等于样本点数，因此，当样本点集较大时将无法处理，此外，该方法不能有效处理新来的样本点。一种基于划分的局部切空间排列方法（partitional local tangent space alignment ,PLTSA）22被提出以改善这些缺点，它建立在主成分分析算法和LTSA方法的基础上，解决了主成分分析算法不能求出整体低维坐标和 LTS

45、A 中大规模矩阵的特征值分解问题，能够有效处理新来的样本点。 PLTSA是一种非监督的流形学习方法，不能充分利用数据的类别信息，而在人脸识别中数据样本的类别信息是非常重要的资源。为了提高算法的识别能力，需要对PLTSA算法进行改进，以增加判别信息的限定，使无监督的学习方法发展为有监督的学习方法。因此提出了一种基于划分的有监督局部切空间排列法（partitional supervised local tangent space alignment PSLTSA）23。 4.拉普拉斯特征映射法 LE (Laplacian Eigenmap) 24 LE方法将微分流形、谱图论的知识应用于降维之中，使人们对降维过程的认识产生了又一个新的飞跃，拓展了实际中降维方法的应用。基本思想是：在高维空间中距离相隔很近的点投影到低维空间中像也应该相距很近，最终求解归结到求拉普拉斯算子的广义特征值问题。（8）实际上是使用有权图的 Laplace矩阵来逼近 RD 空间中的 Laplace Beltrami 算子，以期达到最优投影的降维算法算法步骤：第一步，构造近邻图G。在数据集X中

展开阅读全文