一种基于情感视觉单词的图像分类算法.doc

资源描述

《一种基于情感视觉单词的图像分类算法.doc》由会员分享，可在线阅读，更多相关《一种基于情感视觉单词的图像分类算法.doc（8页珍藏版）》请在三一文库上搜索。

1、一种基于情感视觉单词的图像分类算法#吕微微，宋泽海，冯松鹤*（北京交通大学计算机与信息技术学院，北京 100044）510152025摘要：提出了一种基于 bag of emotional words 模型的图像情感分类算法。该算法基于视觉心理学的研究成果，采用显著区域加权的方式建立图像的情感视觉单词表示, 实现图像情感语义的分类。首先，提取图像集的彩色描述子 CSIFT 特征，随后搭建情感视觉单词（检测显著区域、加权、Emotional words 向量的建立），最后将该情感视觉单词出现的加权频率作为图像的情感表示，采用多类别分类器 SVM 完成情感分类任务。仿真实验结果表明，该算法比以往的

2、图像情感分类方法分类效果明显提高，为今后继续研究图像的情感分类奠定了基础。关键词：图像情感分类；bag of emotional words；显著区域；加权；CSIFT中图分类号：TP391A novel emotional words based images classificationalgorithmLv Weiwei, Song Zehai, Feng Songhe(Institute of Computer & Information Technology, Beijing Jiaotong University, Beijing 100044)Abstract: We propo

3、se a novel emotional words based images classification algorithm. Based onthe research on visual psychology, the proposed model applies the salient regions weightedmethod to create emotional semantic words and achieve the classification of image emotionalsemantics. The color descriptor CSIFT is firs

4、t extracted, after which we create emotional visualwords through salient regions detection, weight choosing and vector creation of the emotionalwords. Finally, the weighted frequency of those emotional visual words is used to present theemotion of the image, and we use multi-classifier SVM to do the

5、 classification. The simulationresults show that the model is more effective than the previous methods, laying a new foundationfor future research on image emotional classification.Keywords: image emotional classification; bag of emotional words; salient regions; Weight;CSIFT300 引言随着互联网图像的海量增长及计算机技术

6、的飞速发展，图像的有效组织和检索手段逐渐引起人们的重视。目前基于内容的图像检索系统主要关注于图像低层视觉特征的处理，对人的爱好、情感等因素考虑较少，忽略了情感的影响和作用。然而，在实际应用中很多图像不35仅携带大量的表象信息，还蕴含着丰富的情感信息。如何有效的表达和描述人观察图像后所引起的情感感觉并加以量化，从而实现基于情感语义的图像分类，是一个崭新且具有挑战性的前沿课题。Yoshida1并将它们组成的矢量作为图像颜色特征，用线性映射(linear mapping)策略完成图像的情感识别；清华大学的 Li Shuo2应用 David Lowe3提出的尺度不变特征变换(ScaleInvarian

7、t40Feature Transform, SIFT) SIFT 描述子作为图像的特征，完成图像的情感识别；Wang 等人4分别提取图像的亮度、颜色温度、饱和度和对比度作为物理特性，然后采用回归支持向量机学习情感类别；Chen 等人5基于 HSV 颜色空间的 non-uniform 量化直方图利用 Bayesian 分基金项目：国家自然科学基金项目（61100142）作者简介：吕微微，（1985-），女，硕士研究生，多媒体信息处理。 E-mail: china_通信联系人：宋泽海，（1956-），男，高级技工，多媒体信息处理。E-mail: -1-等学者将图像分为多个子块，计算每个图像子块的平

8、均颜色强度，类器算法识别情感类别。这些算法虽然在一定程度上能够弥合底层视觉特征和高层语义之间的语义鸿沟，但是分类效果却并不理想。原因在于图像的情感语义是通过人的感知获得的，4550556065因此忽略视觉和心理学效应，单纯地通过统计的方式获取情感语义显然是不合适的。在物体视觉传达的各种因素中，人们往往首先注意到物体的颜色，然后是是形状、纹理或其他特性。这使人们普遍认识到，颜色具有召唤情感的力量，色彩可以说是最具有情感号召力的特征，并且根据视觉心理学的研究成果，人在观察图像时往往会被其中个别显著物体所吸引，人们对图像的理解往往也基于这些显著物体。可见图像中显著物体对人的情感的影响要远远大于其它区

9、域，其更能反映一幅图像的情感。基于上述发现，本论文提出一种基于情感视觉单词的分类算法（bag of emotional words， BOEW）如图 1 所示，首先采用密度采样提取图像集的 CSIFT(Colored scale invariant feature transform)6特征，该特征是一种基于彩色图像的 SIFT方法，先计算彩色不变量再用 SIFT 方法计算特征点，克服了 SIFT 特征忽略颜色信息的缺点。其次，检测图像的显著区域，确定不同区域对图像反映情感的“贡献”率（权值）。然后用 K-Means8聚类产生情感视觉单词词典，并使用一种全新的自顶向下的加权方式，对情感视觉单词

10、进行加权，完成图像的矢量表示，最后采用多分类 SVM 完成图像的情感分类。该算法结合视觉心理学的研究成果，更符合人们对图像情感的认识过程。图1 基于情感单词的图像情感分类算法流程图Fig.1 Image emotional classification algorithm flow based emotional words1 情感视觉单词生成图像中含有大量的信息，不同的颜色、形状和纹理等特征会使人产生不同的心理反应，如高兴、激动、伤心等。因此选择与情感紧密相关的特征来描述图像是提高分类准确率的前提，本论文采用包含颜色和形状信息的 CSIFT 作为描述图像的特征。1.1 CSIFT 彩色描述子

11、颜色不变量 KubelkaMunk 理论7描述了物体的光谱辐射特性，其模型表达为：E(, x) = e(, x)1 f (x)2 R(, x)+ e(, x) f (x)（1）式中表示波长， x 为二维矢量，表示观测位置， e( , x) 表示光谱强度， f ( x) 表示 x-2-70的 Fresnel 反射系数， R (, x) 表示材料反射率， E(, x) 为观测处的反射谱。多数情况下，e(, x) 在各波长上保持不变而与位置有关，将 e(, x) 写成 i(x) 的形式，则（1）式变为：E (, x) = i( , x) R (, x)对分别求一阶、二阶导数，然后相除得：（2）7

12、5H =EE E / R ( , x) / =H 为颜色不变量，表征物体的反射特性，它同视点、表面朝向、光强大小、方向、反射系数均无关。在符合人眼视觉系统和 CIE-1964-XYZ 标准的条件下，通过 RGB 到 XYZ 和XYZ 到高斯颜色模型的两次线性变换，可得到 RGB 的高斯颜色模型 (E, E , E ) ： E 0.06 0.63 0.27 R E 0.34 0.60 0.17 B （4）808590所以彩色图像的颜色不变量 H 表示函数可由（3）式和（4）式导出。CSIFT 算法和传统的 SIFT 算法接下来的基本步骤都相同，包括：尺度空间极值检测、关键点筛选、关键点定向和特征

13、点描述。其区别在于：尺度空间检测过程中，CSIFT 算法用图像的颜色不变量 H ( x, y) 代替 SIFT 算法中的 I ( x, y) 图像函数，因此并没有改变 SIFT 描述原子的结构方式，而是用各自区域内颜色模型分量的均值来形成特征向量，建立了对颜色变化和几何变化都具有鲁棒性的描述符，弥补了 SIFT 算法丢失色彩信息的缺陷。为了合理地表示图像情感，本论文采用稠密化采样，对图像进行均匀分块，图像块大小为 88 像素，间隔为 4 像素。相较于稀疏采样,使用稠密采样更能充分显示图像所要表达的情感信息，提高情感分类的正确率。1.2 K-Means 聚类K-Means 算法是典型的基于距离的

14、聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大，该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。利用 K-Means 算法将训练集提取的 CSIFT 特征 X = x1, x2 , , xn进行聚类，根据 CSIFT描述子集中元素的个数，选取聚类中心数目，其中聚类中心为：95Cr =1 nrn聚类的目标函数是：c nri )r =1 j =1式中，i = 1, 2, nr ，nr 为属于第 r 类的样本个数，X i( r ) 表示样本 X i 属于 r 类；r = 1, 2, , c ，c = 600 为聚类中心数, n 为样本数，

15、最终得到一个有 600 个聚类中心（情感视觉单词词典）。-3-= 2 2 2 2 （3）E / R (, x) / E = 0.30 0.04 0.35 G =i 1 X i( r )value = min | X (j i |2 C1001.3 加权情感视觉向量的生成1.3.1显著区域的提取人对图像的感知和理解是主观的。图像情感语义研究的目的是希望计算机能够描述和表达人观察图像所引起的情感反应，使用带有主观感情色彩的语义表述图像。目前的算法大部分侧重于考虑图像的全局信息，忽略了图像的目标和背景所携带的信息量不同。对于一幅图105110像来说，不是所有的区域都可以使人们产生感觉，人的感受可能更

16、多地取决于图像的某些区域，图像中最能引起用户兴趣，最能表现图像内容的区域即显著性区域或感兴趣区域(Regions of Interest 简称 ROI)，如能提取出这些区域并基于显著区域对图像描述，则既利用了图像的局部重要特征，又消除了次要信息的干扰，将会大大提高图像处理和分析的效率和准确度。论文采用 Itti10模型，根据人类视网膜成像理论，采用高斯金字塔对图像的各个特征采用多尺度、多通道滤波器进行非均匀采样。首先对输入图像 I ( x, y) 用高斯金字塔G( x, y, ) 进行非均匀采样，定义如下：R( x, y, ) = I ( x, y) G( x, y, )G( x, y, )

17、=122exp(x 2 + y 22 2)其中，是尺度因子，即高斯金字塔 G( x, y. ) 的带宽。其次对金字塔的亮度、红色、115 o斯差分 DOG 计算图像 I ( x, y) 的特征显著度，公式如下：DOG(x, y) =1 x2 + y2 1 x2 + y22 2 2 2)其中， c 是中心 c 的尺度因子， s 是周边 s 的尺度因子。然后将各尺度层上的特征变换为同一尺度多个级别的特征。计算中央周边差，归一化得到三个特征的关注图。最终融合120125所有特征的关注图生成显著图。如图 2 所示，为了用情感视觉单词和显著区域获得图像的表示，论文提出了自顶向下的显著区域加权算法，通

18、过检测情感视觉单词的显著度，对相应的情感单词进行加权累加。图中的蓝色直方图表示图像情感单词加权累加结果，红色部分表示未加权的图像直方图表示。该算法的情感视觉单词采用基本的 bag of words 方法获得，然后通过对图像的视觉单词块所对应的区域显著性的检测，确定情感视觉单词的权值，从而局部影响图像特征的表示。计算图像加权视觉向量的公式为：其中Hist(wm ) =Mk =1M Nk =1 m =1m | I k ) (wk )m | I k ) (wk )（5）p(wm | I k ) n(I i , wm )Q( I k | I , wm )k（6）130其中 wm 为视觉词典中的单词，

19、I k 为图像的第 k 个视觉单词块， M 为图像 I 的视觉单词块总数，N 为视觉单词词典的大小，式 6 中各项的定义可参考 bag of words 模型。 (wk )-4- 绿色、蓝色、黄色、方向： = 0 ,45 ,90 ,135o 提取视觉特征。利用中心 c 和周边 s 的高exp() exp(2c 2c 2c 2c p(w p(w为图像视觉单词 wk 的权值，如果 wk 在显著区域内，则增大 (wk ) 的值，否则减小。最终得到图像的加权矢量表示。通过这种自顶向下的加权得到的图像的矢量表示更符合人们对图像情感认知的过程。135140145150图 2 基于 bag of emoti

20、onal words 模型的加权Fig.2 Weight based bag of emotional words2 多分类 SVM论文采用多分类器 SVM 分类器，它利用一定的策略对二值分类法进行扩展应用，该结构的思想是，对于 N 类的训练样本，需要训练 N 1个支持向量机。第 1 个支持向量机 SVMi以第一类样本为正样本，将第 2,3,L , N 类训练样本作为负的训练样本来训练，第 i 个支持向量机 SVMi 以第 i 类样本为正的训练样本，将第 i + 1, i + 2, , N 类训练样本作为负的训练样本训练，直到第 N 1个支持向量机 SVM N 1 以第 N 1类样本作为正样本

21、，以第 N 类样本为负样本训练。在决策时，首先将 SVM1 作为二又树的根节点，将属于第一类的测试样本决策出来，不属于第一类的测试样本通过 SVM2 进行分类，如此直到 SVM N 1 将第 N 1类和 N 类样本决策出来。3 实验及分析为了验证论文所述情感分类算法的有效性，并同其它相关方法进行客观比较，论文采用由美国 NIMH 研究院的情绪与注意研究中心提供的国际情绪图片系统(International AffectivePicture System，IAPS)作为实验基准集，如图 2 所示。IAPS 图像库是该研究中心历时数年编制而成的一套经过量化评定的情绪刺激图片系统，它涉及到的图像内容

22、相当广泛，包括获胜、娱乐旅游、可爱动物、美丽风光、鬼怪、自然灾害、亲情等等。该图像集中的图像均为彩色图像且平均尺寸大小均为1024 768 像素,其中 396 幅图像子集被 Mikels 等人11手工划分为：-5-155160165170175amusement(Am)，anger(A)，awe(Aw),sadness(S)，excitement(E)，contentment(C)，fear(F)和disgust(D)8 类情感类别。这 8 类情感类别组成的图像子集目前已经成为图像情感分类领域中最常用的基准测试集。图 3 IAPS 图像集Fig.3 IAPS image database3.1

23、情感分类性能分析论文采用了工作中最常用的混淆矩阵来衡量，为分类性能的评价指标，评价图像情感分类算法的性能，BOEW 模型的情感分类算法的平均性能为 58.9%，图 4 的混淆矩阵给出了该方法在情感语义概念上的分类准确率，其中 X 轴表示图像预测的图像情感类别， Y 轴表示真实的图像情感类别。主对角线给出了每一类正确分类样本所占的比例，非主对角线上的数据则表示未被正确分类的样本所占的比例。由图 4 可知，disgust 和 excitement 情感类别取得了最高的分类正确率，而 angst 类别的情感分类性能最差。分析可知，disgust 和 excitement均属于高唤醒度的情感类别，由

24、于图像唤醒人们的情感强度越高，其所需的视觉单词越容易表示。图 4 基于 bag of emotional words 模型的图像情感分类性能混淆矩阵Fig.4 Image Emotional Classification based bag of emotional words model performance confusion matrix这一点已经被艺术图像领域中的相关研究所论证，如 action 情感只有当图像中同时出现冷暖度对比和色调对比时才可以激起；相反地，只要图像出现了亮度对比时一般就可以唤起人们的“relax”情感12。高唤醒度的情感类别，情感类内的图像差异性较小，因此较易捕

25、获情-6-感视觉单词13180185190力的情感视觉单词以提高低唤醒度情感图像的分类性能打下基础。3.2 相关方法的比较与分析为了证明所提算法的有效性，论文实现了以前的一些相关算法，并通过在 IAPS 数据集上的实验来进行比较分析。这里涉及到的相关工作主要有两个：基于“词包模型”的情感分类算法2和基于 brain activity 数据的情感分类算法14。这两种图像情感分类算法都是采用 SVM作为分类器。具体的性能比较结果如表 1 所示。从表中容易得出，Li Shuo 的基于“词包模型”的情感分类算法表现最差，BOEW 算法其正确率明显高于 Li Shuo 的算法，这说明不考虑图像的颜色特征

26、以及人们对图像情感的认识过程，单纯通过统计的方式实现图像情感分类的方法是不合适的。基于 brain activity 数据的情感分类性能明显优于其他两种方法的性能。然而brain activity 数据需要通过特定的仪器才能采集到，它是以探测到的生理学、心理学信号，借助情感模型的映射关系，判断人们当前的情感体验状态，而本算法所使用的数据是计算机从图像上获取的视觉特征，是由客观对象的物理特征分析，借助情感特征模型的映射关系，预测该对象可能引起的人类情感体验，因此本算法虽然在性能上较 brain activity 算法14略有逊色，但是 BOEW 算法适应性更广。195表 1实验结果对比Tab.

27、1 Comparison of experiment resultalgorithmZhang14Li Shuo2WemodelBrain activityBag of wordsBOEWNumber288Correct76%55.4%58.9%综上所述，论文对在基于 bag of emotional words 加权模型的图像情感分类算法中所涉及的几个子问题进行了实验比较与分析，有力的验证了 BOEW 算法在图像情感分类任务中所200205210215起到的重要作用，并为今后在图像情感分类领域中的研究工作提出了有价值的指导与启发。4 总结图像情感分类的研究涉及心理学、美学等诸多领域，符合计算

28、机以人为本、个性化发展方向，是一个崭新且具有很大挑战性的研究方向。目前，基于情感语义的图像分类还处于探索和起步阶段。本文主要研究如何设计一种模拟人类感知图像情感过程的映射函数，以视觉心理学的相关研究为理论基础，通过 bag of emotional words 模型，生成符合人类情感感知规则的情感视觉加权向量，并以此完成图像的情感分类任务。相较于以往的只是用图像形状特征2或简单利用机器学习的方法4,5,本算法成功加入了图像颜色信息，即彩色描述子 CSIFT特征，并且对图像的显著区域情感单词进行了自顶向下的加权处理。该模型更符合人类对图像的认知过程，实验结果表明其分类准确率明显提高，为图像情感分

29、类开辟了一个新的思路。单一的特征描述，通常只捕获单方面的情感视觉信息，因此可以在以后的工作中通过多特征融合，进一步提高图像情感分类的精准度。参考文献 (References)1 Yoshida K, Kato T, Yanaru T. Image Retrieval System Using Impression WordsJ.IEEE InternationalConference System, Man and Cybernetics,1998:2780-27842 Li Shuo, Zhang Jin Yu, Tan Chun Hua. Discovering Latent Semant

30、ic Factors for Emotional PictureCategorizationJ.17th IEEE International Conference on Image Processing,2010:1065-1068-7-从而获取图像的情感主题。这一发现将为后续的工作中致力于寻找更有判别3 Lowe D. Distinctive image features from scale-invariant keypointsJ.the 7th International Journal on220225230235240Computer Vision,2004:91-1104 Wa

31、ng W N, Yu Y L, Jiang S M. Image retrieval by emotional semantics: a study of emotional space andfeature extractionA.IEEE International Conference on SMC06C.Taipei:IEEE,2006:3534-3539SMC06,2006:3534-35395 Chen C H, Weng M F, Jeng S K, Chuang Y Y. Emotion based music visualization using photosA.Int.

32、Conf.on Multimedia Modeling.KyotoC.Kyoto.Japan:IEEE.2008,49(03):358-3686 Geusebroek J M,Boogaard R，Smeulders A W M,et a1Color invarianceJIEEE Transactions on PatternAnalysis and Machine Intelligence,2001,23(12)：1338-13507 Fei-fei Li, Perona P. A Bayesian hierarchical model for learning natural scene

33、 categoriesA.IEEE Int. Conf. onCVPR05C.Los Alamitos: IEEE Computer Society ,2005.524-5318 Cawie R, Savvidou, E. Emotion Recognition in Human-Computer InteractionJIEEE signal processingMagazine,2001,18(1)：32-809 Van de Sande K E A, Gevers T, Snoek, C G M. Evaluating Color Descriptors for Object and S

34、ceneRecognitionJ.IEEE Transactions on Pattern Analysis and Machine Intelligence，2010,32(9): 1582 - 159610 Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysisJ. IEEE Transon Pattern Analysis and Machine Intelligence,1998, 20(11): 1254-125911 Mikels J A, Fredr

35、ickson B L, Larkin G R, Lindberg C M, Maglio S J, Reuter-Lorenz P A.mikels2005negativenorms.txt. Psychonomic Society Web Archive 2005-1-25. http:/psychonomic.org/archive/12 Colombo C, Bimbo A, Pala P. Semantics in visual information retrievalJ. IEEE Trans. on Multimedia,1999,6(3):38-5313 Liu shuoyan Xu de Songhe Feng. Emotion Categorization using affective-pLSAJ.OpticalEngineering,2010,49(12):5-814 Zhang Q, Lee M. Emotion recognition in natural scene images based on brain activity and gistJ. IEEE Int.Joint Conf. on Computational IntelligenceC.Hong Kong,2008.3050-3057-8-

展开阅读全文