一种基于多尺度语义分析的图像识别方法.doc

资源描述

《一种基于多尺度语义分析的图像识别方法.doc》由会员分享，可在线阅读，更多相关《一种基于多尺度语义分析的图像识别方法.doc（8页珍藏版）》请在三一文库上搜索。

1、一种基于多尺度语义分析的图像识别方法 (1.西南科技大学计算机科学与技术学院，四川绵阳 621010； 2.西南交通大学 CAD工程中心, 成都 610031）提出一种基于多尺度语义分析的图像识别方法，首先在多尺度空间中提取语义，然后使用支持向量机对语义进行分类，以达到识别的目的。实验表明，该算法识别准确率高，并能适应存在方向变化、变形等复杂的识别环境。 ?丶?词：图像识别；语义分析；多尺度；支持向量机 Image recognition based on multi-scale semantic analysis CHEN Li-wei 1,2, LI Chun-yan1 (1.C

2、ollege of Computer Science & Technology, Southwest University of Science & Technology, Mianyang Sichuan 621010, China; 2.CAD Engineering Center, Southwest Jiaotong University, Chengdu 610031, China) Abstract:This paperproposoed a novel method of image recognition based on multi-scale semantic ananly

3、sis, and extracted the new method the semantic features at first and dividing with SVM. Experimental results show that the algorithm has a high accuracy. The complicated conditions with rotations and slight distortions on also be adapted. Key words：image recognition; semantic analysis; multi-scale;

4、SVM ? 由于图像变形、冗余信息和噪声的影响，图像识别很难通过数据匹配或相关性分析完成，目前绝大多数图像识别技术均基于特征提取进行。图像特征能体现事物的某些方面的特性，如纹理特征体现了图像的颜色分布、轮廓特征体现图像的外形特点，但图像的许多语义如事物的种类、动物的姿势等信息，却很难用简单的特征表示。因此，要达到更佳的图像识别效果，必须进行图像语义分析。数字图像的单一像素仅代表一个颜色值，要获取图像的语义必须分析像素间的关系。而由于噪声的存在与数字化的不精确，像素间关系也是一种松散的关系，一般的数学方法无法表达这种关系，粗集和模糊集理论虽然能在一定程度上表达，却没有提供有效的分析方法。为方便

5、语义分析，首先应寻求合适的图像表达方法。图像的语义主要由两方面表现，即边缘轮廓的变化和区域内部像素值的分布。对区域内部像素值分布，Witkin1提出使用尺度空间滤波（scale-space filtering）进行描述，即使用高斯函数对图像进行卷积： I(x,y,t)=I0(x,y)*G(x,y,t) 通过取不同的尺度t，就可以得到图像在不同范围的分布趋势。Perona等人2使用各向异性扩散方程(anisotropic diffusion equation) It=div(c(x,y,t)T)(1) 的解替代空间滤波中的高斯函数，并通过c(x,y,t)=exp-I将图像的平滑区域与边缘轮廓相

6、联系，使多尺度分析方法得到进一步发展。多尺度分析可以将图像分解到不同的尺度空间中，方便进行语义分析，但由于尺度范围可以任意多，如何组织和利用不同层次的语义却比较困难。支持向量机(SVM)是Vapnik等人3提出的机器学习方法，由于其学习能力优越，并能有效解决维数灾难的问题，在模式识别中得到广泛应用。图像在不同尺度空间获得的语义特征可以提供不同层次的图像识别依据，这些依据可能相互独立甚至冲突，这正是SVM擅长解决的问题。图像识别时可以首先应用多尺度分析获得图像的语义特征，然后再使用SVM进行分类决策。实验表明，这种有效的图像识别方法可以适应不同类别的语义识别，其识别率都比已知各种方法高。 1

7、基于多尺度的语义分析语义是一个复杂的概念，但图像语义的本质只能体现在颜色(I)、位置(p)和位置关系(r)三个方面，因此可以将语义(S)抽象地表示为 S=f(I,p,r) 而图像(G)是多个语义的复合体，为将问题简化，本文将语义限定为确定的，即f总是确定的函数（非模糊关系），再令各语义两两正交， fifj=，且有 G=Si=fi(I,p,r)(2) 另一方面，图像又是由像素矩阵组成： G=Ip(3) 结合式(2)(3)可以得到：Si=fiIp（i），于是有Ip=fi(p)-1。其中f-1i表示语义的反面，代入式(1)可知： It(x,y,t)=f-1t(x,y,t)=div(c(x,y,t)

8、I)(4) 式（4）说明在多尺度图像中语义不会产生混淆，再由语义间的正交关系即可以提取出尺度图像中的语义。由于在尺度较大时，图像变化趋于平滑，在产生多尺度图像时总是根据尺度进行萃取，这不仅加快了语义的提取速度，而且使语义在不同尺度下体现得更为充分。 2 基于SVM的图像识别 SVM是一种基于机器学习的模式识别技术。由于图像的模式识别问题是非线性可分的，采用解决非线性可分问题的SVM方法。非线性SVM首先采用一个非线性变换将输入映射到一个特征空间z，令非线性映射为RmRm1，设(j)m1j=1为输入空间Rm到输出空间Rm1的一组非线性交换，则该映射可由式(X)=1(X),2(X), ?吉?m1(

9、X)T表示。根据Hilbert原理，只要一种运算满足Mercer条件，则可找到一个核函数K(Xi,Xj)使得K(Xi,Xj)=T(Xi)(Xj)。应用高斯核函数K(x,y)=exp(x-y)2/22)，则决策函数为4 f(x)=sgn(mi=1idiK(xi+x)+b) 其中i可从求解下列问题得到 maxQ()=mi=1i-mi,j=1ijdidjK(xi,xj) i=1idi=0,0iC;i=1,2,C为常数可见，对非线性可分的情况，将数据映射到更高维的特征空间，由于使用了核函数，不仅无须知道非线性映射的形式，也没有随着特征空间维数的增加而产生维数灾难，该最优超平面最大化了间距，并具有好的

10、泛化性能。 3 图像语义库的建立 SVM是一种基于机器学习的分类算法，在应用它进行识别必须先提供充分的样本对机器进行训练。为提高识别的效率，通常事先建立样本特征库。图像语义特征很多，并且在不同尺度下表现不同，令识别事物种类为m，语义数量为n,选择尺度数量为S，则一个样本需要保存的语义记录为mns。可见,随着样本和尺度的增加，语义数量呈成数量级增长，对语义的选择和尺度的精简非常有必要。不同样本、不同语义在不同尺度下的表现各不相同，为使分类结构化风险最小，采用三者均衡的策略建立样本特征库，具体策略如下 max(i,j,k)=|S(i1,j1,k1)-S(i2,j2,k2)|/ijk(5) 即使样本

11、库的可分辨率达到最大，对同一样本只选取其分辨力高的语义，对同一语义只选取其相对值较大的尺度表现。 4 实验结果为验证上述算法的有效性，本文选择在AT&T剑桥实验室(AT&T Laboratories Cambridge)的ORL人脸库(http:/www.cl.cam.ac.uk/Research/DTG/att-archive/facedatabase.html)对算法进行测试。该标准人脸库由40个人的400幅灰度图像构成。图像格式为PGM,分辨率是92112。实验中，为方便处理，首先将全部图像转换为BMP格式。实验所采用的语义特征主要包括纹理、轮廓、PCA特征脸(eigface)、眼眉距

12、离、口鼻距离、瞳孔距离、鼻长、脸形等，初始尺度集为k|k=4N,1N10，具体比较的特征和尺度由根据式（5）设计的特征选择器决定。在实验中，首先对每组头像通过多尺度图像建立特征库，然后对非样本图像进行识别。实验所得多尺度图像如图1所示。从图1可以明显地看出，在多尺度图像中，尺度越大，主要轮廓越突出，而尺度越小，则图像细节保留得越多。对比算法包括姜文瀚等人5提出的小波变换(WT)+最近邻凸包分类器(NNCH)的方法、PCA特征脸(eigface)+最小距离分类器、小波变换(WT)+最小距离分类器和小波变换(WT)+最近邻分类器(NN)。实验的部分结果如表1所示。表1 人脸识别实验结果训练

13、样本eigface+?钚【嗬?WT+?钚【嗬?eigface+?罱?邻域WT+NNCH本文算法 1,2,3,4,584.0082.5094.0093.5096.50 2,3,4,5,688.0084.5095.5097.0098.00 3,4,5,6,791.0087.5096.0095.5097.00 4,5,6,7,889.5087.5094.5096.0097.50 5,6,7,8,988.0087.5094.5096.5098.50 6,7,8,9,1089.0087.0092.5094.0097.50 7,8,9,10,191.0089.0096.0098.5098.00 8,9,1

14、0,1,294.5092.0097.5098.5098.50 9,10,1,2,390.0086.0095.5098.0099.05 10,1,2,3,487.5089.5094.5096.0099.10 平均结果89.2587.3095.0596.3597.95 实验分析：从表1的实验结果可见，本文算法所提出的方法具有良好的识别能力。即使在更为复杂和苛刻的条件下，识别率仍明显高于其他各方法。 5 结束语本文多尺度图像中提取图像语义作为特征矢量，应用SVM方法图像目标进行识别，识别结果表明该方法具有很好的识别效果，是一种有效的图像目标识别方法。虽然文中只实验了人脸识别，但本算法可以适用于任意已知事物的图像识别问题。

展开阅读全文