毕业设计（论文）-快速的人脸特征识别定位设计.doc

资源描述

《毕业设计（论文）-快速的人脸特征识别定位设计.doc》由会员分享，可在线阅读，更多相关《毕业设计（论文）-快速的人脸特征识别定位设计.doc（33页珍藏版）》请在三一文库上搜索。

1、第一章概述第一章概述随着多媒体技术的发展,人脸图像在各种领域中具有越来越重要的作用,如人机交互系统、视频监测系统、人脸图像数据库管理系统、人脸检测与识别系统等。在各种人脸图像的应用系统中,人脸特征定位是重要组成部分之一。例如在安全监控应用中，银行部门的监控和安保部门的监控，需要对人的各项特征进行有针对性的监视。对于监控对象的身高，衣着等特征，可以在较模糊图像中获得，但是对人脸部分特征，却必须要清晰的图像才能获得1。如果可以对人脸进行针对性的监视，就可以使得应用安全监控的部门获得更多的安全保证。而人脸自动定位是这一监控方法的第一步，它的性能如何直接决定了监控的效果。简单的说，所谓的人脸定位，

2、就是在静态图像或动态图像中标出人脸所在的位置，把人脸选取出来2。而人脸的识别就是把选取出来得人脸与数据库中已有的人脸进行比较，找出匹配的档案来。有的文献也把人脸的定位和识别统称为人脸识别，定位和识别则是两个主要的步骤。完整的人脸识别系统涉及到决定静态图像或动态图像中无人脸、计数、定位，然后根据数据库识别出个人，可能的话还要识别表情，以及根据脸的图像做出描述；或者反过来根据描述挑选匹配的人脸图像3。而说道快速的人脸特征定位，就不得不提及人脸检测技术。人脸检测是人脸特征定位的前提，在整个过程中起着不可忽视的作用。人脸检测问题最初作为自动人脸识别系统的定位环节被提出，近年来由于其在安全访问控制、视觉

3、监测、基于内容的检索和新一代人机界面等领域的应用价值，开始作为一个独立的课题受到研究者的普遍重视。下面我将对人脸检测的相关知识做一下简单的介绍。1. 1 人脸检测的基本概念人脸检测是指在输入图像中确定所有人脸（如果存在）的位置、大小和姿态的过程。人脸检测系统输入的是可能包含人脸的图像，输出的是图像中是否存在人脸和人脸数目、位置、尺度等信息的参数化描述。人脸检测任务的完成涉及从复杂的背景中分割、抽取、验证人脸区域和可能用到的人脸特征（如眼睛、唇色等）。成功的人脸检测系统应能处理实际存在的光线、人脸方向和距照相机远近变化等各种情况。1. 2 人脸检测问题的分类和挑战性1. 2.1 人脸检测问题的分

4、类人脸检测问题可以从不同角度来进行分类。从人脸姿态的角度，可以分为正面人脸检测、多姿态人脸检测（包括侧面，俯仰、旋转等）；从人脸个数的角度，可以分为单人人脸检测、未知人脸个数的检测。从图像背景复杂程度的角度10，分为简单背景人脸检测（指无背景或背景的特征被严格约束，在该条件下只利用人脸的轮廓、颜色、运动等少量特征，就能进行准确检测）、复杂背景人脸检测（指背景的类型和特征不受约束，某些区域可能色彩、纹理等特征与人脸相似，必须利用较多的人脸特征才能做到准确检测）；从图片是否包含色彩信息的角度，可以分为彩色图片人脸检测和灰度图片人脸检测；从图片是否动态的角度，可以分为静止图像中的人脸检测、视频图像序

5、列中人脸的检测与跟踪。1. 2.2 人脸检测问题的挑战性人脸是一类具有相当复杂细节变化的自然结构目标，受以下因素的影响，实际中的人脸检测极具挑战性11：人脸本质上是三维的非刚性可变的物体，人脸由于姿态、外貌、表情、肤色等不同，具有模式的可变性；一般意义下的人脸上，可能存在眼镜、胡须等附属物；三维体的人脸的影像不可避免地受到由光照产生的阴影的影响；图像的质量不一，由于成像的条件和手段不同，图像可能受噪声的干扰，前景目标模糊不清，比如人脸与背景区别不大造成人脸分割的困难，人脸被某些物体遮挡造成人脸特征的提取困难，光源色温不同造成的肤色分割困难等。因此，如果能够找到解决这些问题的方法，成功的构造出人

6、脸检测系统，将为解决其它类似的复杂模式的检测问题提供重要的启示。1. 3 人脸检测算法视频序列的人脸检测还涉及到人脸跟踪的问题，因此，本文主要讨论静止图像的人脸检测。经过了几十年的研究发展，人脸检测算法形成以下几类主要的方法13。1. 3.1 基于统计的方法1）基于事例学习的方法：将人脸检测看作区分人脸样本和非人脸样本这两类模式的分类问题，通过对人脸样本集和非人脸样本集进行训练得到人脸分类器，然后利用学习出来的分类器对图像中区域进行检测，代表性的方法有基于神经网络的方法，基于支持向量机的方法。2)基于子空间的方法：将主分量分析应用到人脸检测中，对人脸训练样本集进行主分量分析得到特征脸子空间，将

7、图像区域投影到特征脸子空间，并计算到特征脸子空间的距离，以此作为标准检测人脸。3)基于隐马尔可夫模型的方法：把人脸模式看作参数化的随机过程，把人面部的额头、眼睛、鼻子、嘴巴和下巴等器官所在部位看作随机过程的状态，通过对符合人脸各器官分布的状态的随机过程的检测来实现对人脸检测15。1. 3.2 基于模板匹配的方法1)预定模板匹配法：根据人脸的先验知识确定出人脸轮廓模板以及各个器官特征的子模板，先通过计算图像中区域和人脸轮廓模板的相关值来检测出人脸候选区域，然后利用器官特征子模板验证上一步检测出的人脸候选区域是否包含人脸，这种方法的缺点在于不能有效处理尺度、姿态和形状的变化。2)变形模板法：其主要

8、思想是定义一个可变形的参数模板和一个能量函数来描述特征，通过一个非线性最优化方法求得能使能量函数最小的参数模板，此模板即被认为是所求特征的描述。这种方法充分考虑到人脸是变形体的特点，稳定可靠，而且与姿态和光照无关，但仍然存在能量函数的系数难以适应一般情况和计算量巨大的问题。1. 3.3 基于知识匹配的方法1) 轮廓规则。人脸的轮廓可近似地被看成一个椭圆,则人脸检测可以通过检测椭圆来完成。科学家把人脸抽象为三段轮廓线:头顶轮廓线、左侧脸轮和右侧脸轮。对任意一幅图像,首先进行边缘检测,并对细化后的边缘提取曲线特征,然后计算各曲线组合成人脸的评估函数检测人脸。2) 器官分布规则。虽然人脸因人而异,但

9、都遵循一些普遍适用的规则,即五官分布的几何规则。检测图像中是否有人脸,即是否存在满足这些规则的图像块。这种方法一般是先对人脸的器官或器官的组合建立模板,如双眼模板、双眼与下巴模板,然后检测图像中几个器官可能分布的位置,对这些位置点分别组合,用器官分布的集合关系准则对其进行筛选,从而找到可能存在的人脸16。3) 肤色、纹理规则。人脸肤色聚类在颜色空间中一个较小的区域,因此可利用肤色模型有效地检测出图像中的人脸。Lee等设计出由肤色模型来表征人脸颜色,利用感光模型进行复杂背景下人脸及器官的检测与分割。Dale利用空间灰度共生矩阵纹理信息作为特征进行低分辨率的人脸检测。Saber等则将颜色、形状结合

10、在一起进行人脸检测。与其它检测方法相比,利用这些方法检测出的人脸区域可能不够准确,但如果在整个系统实现中作为人脸检测的粗定位环节,它具有直观、实现简单、快速等特点,可以为后面进一步进行精确定位创造良好的条件,以达到最优的系统性能。并且用色度表示人脸特征还有一个最突出的特点,就是具有姿态不变性。4) 对称性规则。人脸具有一定的轴对称性,各器官也具有一定的对称性。Zabrodsky13提出连续对称性检测方法,检测一个圆形区域的对称性,从而确定是否为人脸。Riesfield14提出广义对称变换方法检测局部对称性强的点来进行人脸器官定位。5) 运动规则。若输入图像为动态图像序列,则可以利用与人脸或人脸

11、的器官相对于背景的运动来检测人脸,比如利用眨眼或说话的方法实现人脸与背景的分离。在运动目标的检测中,帧相减是最简单的检测运动人脸的方法。但是当目标受遮挡或背景光照变化以及有多个运动目标时,这种方法会失效。这时可考虑用光流或基于光流场的不连续性等方法,此类方法的瓶颈在于光流的可靠计算。Marqus17使用连接算子和分割投影分别实现基于动态图像序列的人脸分割和跟踪,并在实验中对MPEG24 和MPEG27 格式的图像序列测试,取得比较满意的结果。由于图像序列的计算远比静止图像的计算复杂和耗时,基于动态图像序列的人脸识别方法是随着计算机的高速发展和视频监控等应用的需要在近几年才逐渐成为一个研究热点。

12、1. 4 人脸检测技术的发展人脸检测问题来源于20 世纪60、70 年代的人脸识别的研究，但早期的人脸识别研究主要针对有较强约束的人脸图像（如无背景图像），并往往假设人脸位置很容易获得，因此人脸检测问题并没有受到重视。近年来，由于人脸作为人体的代表性特征，具有直观自然的特点，以人脸信息为内容的人机交互方式受到了广泛的重视12。从对目前人脸检测算法的回顾可看出，人脸检测算法大多是基于灰度图像的，而现实中灰度图像只能有限描述信息，已经不能适应很多场合的需要，因此对彩色图像的人脸检测研究将是今后的一个重点。另外，在复杂背景图像中的人脸检测大多针对正面端正的人脸。多姿态的人脸检测（特别是侧面人脸检测）

13、还存在很大困难，这方面的研究也将是一个重点。总之，由于人脸检测问题的复杂性，实现通用的人脸检测方法还不实际，因此解决特定约束条件下或某种应用背景下的人脸检测问题将是该领域研究的主要课题18。人脸检测技术的研究涉及到人脸信息研究的各个方面，如人脸识别，人脸跟踪，姿态估计，性别识别和表情识别等，这些研究在出入安全检查、视频监视、智能人机接口、基于内容的图像检索和视频编码中都有广泛的应用价值。1. 5 人脸特征定位简介1. 5.1 人脸特征定位的概念在模式识别领域中, 与人脸相关的技术, 如人脸识别、检测、跟踪、特征定位等, 因其难度大、应用面广, 一直是近年来的研究热点。脸部特征定位作为其中的一

14、个重要部分, 也正受到越来越多的重视。脸部特征定位, 即在图像或图像序列的给定区域内搜索部分或所有人脸特征(如眼、鼻、嘴、耳等) 的位置、关键点或轮廓线。这3 种信息都有十分广泛的应用, 例如, 脸部特征的位置信息既可以在人脸检测中用于定位人脸、验证人脸检测的结果以及精确指明人脸位置, 也可在人脸识别中用于人脸对齐, 或作为识别的依据之一, 在姿态识别中, 它更是识别的重要依据之一; 关键点信息可用于头部(Talking Head) 图像的压缩和重构、脸部动画等领域, 轮廓线信息则可用于图像的分割等。1. 5.2 人脸特征定位的基本方法评价一个算法的首要标准是其定位准确率, 即被正确定位的

15、特征数与待定位的特征总数之比; 其次, 算法应该有较强的鲁棒性, 能够最大限度地适应人脸的各种变化, 以提高算法的鲁棒性, 这些变化包括: 各种肤色和种族的差异, 各个方向上的转动, 尺寸、表情和光照条件上的变化, 遮挡, 某些特征如胡须、眉毛、眼镜等的出现或缺失等; 此外, 算法的计算量大小也是一个重要的评价标准, 它影响到算法的可应用范围。人脸特征定位是近年来图像处理领域的热点问题之一，很多学者已经提出各种各样的定位算法，主要有常用的三类方法5：第一类方法是基于整体人脸的灰度模板匹配的方法，这种方法运算量太大，且受亮度变化影响太大。第二类方法是人工神经网络方法，通过大量样本的训练，最后对

16、图像各区域进行判决。该方法在理论上十分可行，但是训练样本的选择和网络收敛均非易事。第三类方法是肤色检测的方法，这种方法利用了数字图像的彩色信息，大大提高了检测的速度，基本能做到实时检测并且不受人脸旋转或人侧转的影响，但由于肤色空间和其他颜色空间的交叉性，已有的方法只能限制在简单的背景，在复杂的背景图像中误检率非常高。而近年来, 也有些国内外学者们根据定位所依据的基本信息的类型,将现有的脸部特征定位方法分为基于先验规则、基于几何形状信息、基于色彩信息、基于外观信息和基于关联信息等5 大类 4。1) 基于先验规则先验规则是关于脸部特征一般特点的经验描述。人脸图像有一些明显的基本特征, 如脸部区

17、域通常包括双眼、鼻和嘴等脸部特征, 其亮度一般低于周边区域; 双眼大致对称, 鼻、嘴分布在对称轴上等。为了利用这些基本特征进行脸部特征定位, 一般要先对输入图像作变换, 使所要使用的特征得到强化, 而后根据规则从图中筛选出候选点或区域。此类方法的难点在于, 如何将人们的直观印象精确地表述为可应用的代码化规则, 以及如何处理规则的精确性与普适性之间的矛盾。2) 基于几何形状信息几何形状信息, 即目标对象的几何形状特征, 具有很好的直观性, 易于理解和应用, 因而很早就在模式识别领域得到广泛的使用。基于几何形状信息类方法的一般思路是：根据脸部特征的形状特点构造一个带可变参数的几何模型, 并设

18、定一个相应的评价函数以量度被检测区域与模型的匹配度, 搜索时,不断调整参数使能量函数最小化, 使模型逐渐收敛于待定位的脸部特征。3) 基于色彩信息色彩信息类方法的基本思想是用统计方法对目标对象的色彩建模, 在搜索中根据被测点的色彩与模型的匹配度, 筛选出待测特征的可能位置。色彩信息在人脸检测中有广泛的应用, 而在脸部特征定位方面的应用则相对较少, 这是因为, 肤色在色彩空间中具有聚合性, 而脸部特征的色彩信息较为复杂, 如眼与嘴, 以及眼睛的瞳孔与眼白的色彩有显著区别,这给统一建模造成了一定的难度。4) 基于外观信息与几何信息类方法和色彩信息类方法不同的是, 外观信息类方法不再面向像素级判断

19、, 而是将一定区域(窗口) 内的图像整体视作一个随机变量, 并映射为高维空间中的一个点。这样,同一类型的脸部特征就可以描述为高维空间中的一个点集, 可以用统计方法对其分布规律建模, 在搜索中, 通过计算待测区域与模型的匹配度即可判定其是否包含目标脸部特征。这类方法对图像质量、环境条件和目标对象状态等方面的变化有较好的适应能力, 近年来引起研究者们的广泛关注。5) 基于关联信息上述方法大多从局部着眼, 试图依据像素本身(色彩信息类方法) 或邻近像素之间的相互关系(几何、外观类方法) 来做出判断, 但局部信息的区分度有限, 在不受限制的条件下往往存在着大量的相似点, 这就增大了后期处理的难度。

20、为了解决这个问题, 研究者们引入了关联信息, 试图利用脸部特征之间存在着的较稳定的相对位置关系来缩小候选点范围。与前面提到的先验知识不同的是, 这些方法所使用的关联信息都是通过统计学习得到的。表1.1 从运算量、准确率与鲁棒性(包括图象质量需求和姿态表情光照等影响) 3 个方面对各类方法的性能作了粗略的比较。表1.1脸部特征定位方法分类算法分类运算量准确率鲁棒性图像质量需求姿态表情光照等影响先验规则镶嵌图大较低高大几何投影小二值化定位小广义对称大较高几何信息Snakes大高高大可变形模板ASM较大较高色彩信息小低较高小外观信息神经网络大高低较小PCASVM关联信息概率网络较大高较低小DLA

21、较小GWN而上述无论哪种人脸定位算法都具有运算量太大或者误检率太高的确定，这点并不符合图像领域应用的实际应用情况。由于在实际应用中，各帧图像之间具有很强的时域连续性，完全可以在准确定位人脸后利用跟踪算法在后续序列中找到人脸，因此该应用对漏检率的要求并不严格，但对误检率却要求比较高。根据上述情况，清华大学研究生阮鹏等人提出了一种将肤色检测和特征部位几何分布模板匹配相结合的方法，该方法在检测速度上大大高于上述提到的神经网络和模板匹配方法，误检率远低于肤色检测的方法，为在监控系统中应用提供了可能。整个系统总体由3个部分组成，第一部分首先利用肤色检测的方法在图像中圈定一个大致的人脸的可能区域，这一模块

22、大大缩小了后续部分的搜索范围，降低了系统的运算量。第二部分在肤色检测圈定的区域中找出可能的特征部位点（主要包括双眼，双眉，鼻基线和嘴），这一模块将全区域的模板搜索转变成了若干个点中的搜索匹配，进一步降低了运算量。第三部分在第二步的结果中利用人脸特征部位几何分布知识搜索人脸特征部位，准确定位人脸。图1.1 系统总体结构图1.2 部分人脸定位结果该方法的处理速度，正确率等参数指标以及和其他方法的比较如表2所示：表1.2 实验结果比较系统耗时漏检率误检率图像大小运行机器上述方法 50-100ms 47% 5.3% 176144 Pentium III 800 神经网络 1-3min

23、 7.1% 41% 640480 Pentium 133 模板匹配 3-5s 29%128128 TMS320C40 聚类（Sung） 18.1%8.4% 640480 TMS320C40 由此可见，在结合了图像应用领域应用的实际情况，保证了尽量低的误检率的前提下，此方法实现了很快的人脸定位速度，非常适用在实际中使用，也可以进一步降低漏检率。- 25 -第二章设计方案第二章设计方案2. 1 引言在社会的发展中,各个方面对快速有效的自动身份验证的要求日益迫切。利用人脸特征进行身份验证是最自然直接的手段。人脸识别系统与其他人体生物特征识别系统相比,更加直接、友好,使用者无任何心理障碍。并且通过

24、人脸的表情/姿态分析,还能获得其他识别系统难以获得的一些信息,具有十分广泛的应用前景。门禁系统的身份证识别、视频监控中的目标识别、可视电话、电视会议等,都与人脸的识别密不可分。经研究后发现,眼睛的灰度值在人脸所有的五官中是最高的,且具有一定的面积。而且两眼间距受光照或表情变化的影响最小,所以常被用于几何特征或图像尺寸的归一化标准。常用的人眼定位方法中,大多都是基于人脸检测,例如模板匹配和hough 变换,利用阈值自动将人眼与人脸其它部分和背景分离,但是这些算法对人脸图像的要求比较高9。我们针对人脸各器官的几何结构特征,结合眼睛灰度信息提出了一种新的眼睛定位算法:通过对灰度图像进行垂直和水平灰度

25、投影后,能够对人脸初步定位,然后用一个相当于瞳孔大小的方形框去搜索整张脸,当落在这个框内的黑色像素的个数达到最大时,这个框的位置就是眼睛的位置。通过实验,这种算法定位准确且定位时间短。本次毕业设计的研究方向是在传统的图像识别的基础上加以改进，来更为深入地对人脸图像学进行探索与研究。而研究内容则是在复杂背景中快速地对人脸进行识别并进行人脸的特征中的眼睛定位。2. 2 快速的人脸特征定位的应用快速的人脸特征定位近年来一直是计算机学科研究的热门课题之一,为实现人脸识别重要的前提条件。影响准确识别的因素较多,如成像的角度、图像的清晰度、图像曝光不足或不均等,所以准确地识别首先取决于准确的定位。而眼睛是

26、人脸的关键性特征部位,不仅具有一定的面积，且灰度值相对集中，因此大多数方法都采用首先进行眼睛定位,然后再实现脸部的识别。但是眼球在眼眶中的位置是多样性的,所获取的图像中眼眶部分又极易受到各种因素的影响,同时,眼睑灰影对眼球的定位也有很强的干扰性,这些问题无疑都增加了眼睛定位的难度，也在应用与实践上提出了挑战。2. 2.1 人脸图像的相关要求为能够准确定位人眼和提高人脸识别效率，有必要对人脸图像的拍摄加以合理约束和限制，拍摄的照片中只含一张正面人脸19。拍摄时：光照可以是自然光，也可以是室内日光灯或白炽灯灯光；背景可以较复杂以便适于在各种较复杂场所的拍摄；人脸在照片中应完整，并且所占面积适中，不

27、过大也不过小。（如在160120像素的图像中人脸所占面积约在20%-40%之间）；允许人脸在15o以内的姿态变化(指人脸在图像平面内向两侧的倾斜角度和人脸在图像深度方向上的旋转角度);眼睛最好凝视摄像镜头,脸部光照较均匀,在图像中双眼部位应较清晰,且不与其它暗部(如鬓发、眉毛)相连；可以戴非黑边框的眼镜，镜片透明，应尽量避免镜片的反光，否则会严重影响眼睛部位的清晰度。满足以上条件拍摄的人脸图像称为准正面人脸图像。我们所使用的图像摄入设备是通过USB接口与计算机连接的CMOS摄像头（又称为电子网眼）。摄入的每幅图像大小设置为160120 像素，摄入图像可以是每像素24bit的RGB真彩色图像,也

28、可以是每像素8bit(256灰度级)的灰度图像,人脸在图像中双眼中心距应保持在20-50像素之间。2. 3 人眼位置的判定前提人眼位置的判定是根据眼睛在二值化人脸图像中的几何位置确定的，主要有以下准则19：1）双眼中心距应在某个范围内。假设图像尺寸为160120，考虑到人脸在图像中大小的变化，双眼中心距变化大约在20-50个像素距离范围内。2）双眼的下方一定距离内不能有其它黑块。双眼的下方一定距离内没有其它器官。因此，在二值化图像中不能有其它黑块，这一特点也是区分眉毛与眼睛的重要判据。3）双眼的中心位置上下相差不超过一定距离。由于人脸在图像中可能向两侧倾斜，双眼的中心位置常常不在水平线上。作

29、为判据，允许人脸在一定程度上向两侧倾斜，双眼的中心位置在垂直方向相差不超过一定距离（如15个像素距离）。4）眼睛黑块所包含的像素数应在某个范围内。二值化图像中眼块所包含的像素数应在某个范围内（5-50个像素），太大黑块不太可能是眼块。5）眼睛黑块的外接矩形应是一宽大于高的矩形或接近于正方形。由于眼睛的结构特点，二值化图像中眼块的外接矩形应是宽大于高的矩形或接近于正方形。眼块的几何中心位于圆形的眼睛虹膜（含瞳孔）位置，高远大于宽的外接矩形对应的黑块不可能是眼块。6）与图像四边接壤或非常接近的块不是眼睛黑块。由于拍摄人脸图像时$要求人脸在照片中应完整，且较靠近图像中心。因此，在二值化图像中与图像四

30、边接壤或非常接近的黑块不是眼块。2. 4 预处理人脸识别系统一般包含人脸检测和定位、眼睛定位、人脸归一化、特征提取、进行识别等主要环节。在进行特征提取和识别前,预处理非常重要。随着头部的倾斜、转动、俯仰,都会对人脸造成影响,给后续的识别带来麻烦,因此必须对人脸方位进行调整,使其规范化,对人脸图片的拍摄距离进行归一化等处理。人脸由眼睛、鼻子、嘴巴、下巴等器官构成,正因为这些器官的形状、大小和结构的各种差异才使得世界上每个人脸千差万别,因此对这些器官的形状和结构关系的几何描述, 可作为人脸定位的重要特征6。 2. 4.1 灰度归一因为处理的图像为单人正面的灰度图像8。如果采集到的图像是真彩色图像,

31、需要先转换为8位灰度图像。但由于光照的影响,有些图像会偏暗或偏亮。针对这种情况,要先进行灰度归一,即对图像进行光照补偿等处理,把它从一个较窄的灰度区域拉伸到整个灰度区域5 。这样,能够一定程度地克服光照变化的影响而提高识别率。设整幅图像的最小灰度为Lmin ,最大灰度为Lmax。为了使图像灰度区域扩展到整个灰度区域0255,设某个点的灰度为L ,则变换后的灰度为: (2.1)2. 4.2 人脸检测和定位在人脸正面图像识别过程中,不管是利用人脸的全局特征还是局部特征,都是采用图像的几何特征还是图像的代数特征,人脸方位的变化对识别的结果都有显著的影响。利用图像的灰度投影曲线来检测人脸6 , 见图3

32、。图中,各像素灰率区域为0255。 (a)原始图像 (b)原始图像垂直灰度投影曲线 (c)原始图像水平灰度投影曲线 (d)检测后的图像图2.1 人脸检测和定位这种方法快速、简单、准确。首先利用图像的垂直灰度投影曲线(见图2.1( b) ,根据凸峰宽度确定人脸的左右边界,然后利用人脸区域的水平灰度投影曲线(见图2.1(c)确定头顶及下巴形成的边界。但是,这种方法很容易受脖子和衣领的影响。灰度投影函数为: (2.2)2. 5 眼睛定位在人脸方位调整中对眼睛的准确定位是必不可少的步骤,因为人眼瞳孔的间距受光照或表情变化的影响最小,比较稳定,双眼中心连线的方向随人像的偏转而偏转,可以作为图像旋转的依据

33、。在图像的归一化过程中,难点在于人眼的定位。若以两眼之间的距离对抽取的各个特征值进行归一化,则这些特征值具有平移、旋转和尺度上的不变性6。因此,在确定人脸之后,需要再进行人眼的识别。人眼识别方法有很多,例如边缘特征分析法、Hough 变换法、对称变换法和变形模板法等。而我们将应用基于人脸几何结构的方法来解决问题。2. 5.1 提取局部脸设检测定位后的图像大小为4L4W ,则取中间2L 2W 大小的局部脸的图像作为新的研究对象。一般对儿童而言,眼睛处于头高一半的位置,随着年龄的增长,眼睛到下巴的距离在整个头高中所占的比例有所增加,但一般不会超过头高的3/4。所以,这样既能绝大部分地去掉头发和脖子

34、的影响,又能减少搜索区域的面积,提高效率。人和人也有所不同,有瘦长、宽扁等各种脸形,而且考虑到脖子和衣领也可能使局部脸的图像受到影响,眼睛的位置可能偏上或偏下,所以我们把眼睛搜索区域的下界定在局部脸的图像高度的三分之一位置还是合理的7 。2. 5.2 确定阈值由于光照的影响,人脸有黑有白,因此与眼睛的对比度也有大有小。为了最大程度上减少光照的影响,先计算出局部脸的平均灰度M。眼睛一般都是比皮肤黑很多,再用M 减去一个适当的灰度值X (设黑为0,白为255)就可以得到眼睛灰度的大致范围0E ( E =M - X ) 。（3）2. 5.3 搜索做完上述准备工作后,就可以在眼睛搜索区域中用a a

35、的方形框开始搜索了。在方形框中,对所有灰度值小于E 的点进行计数,当计数值大于一定的阈值(例如0. 8 a a)时(即黑的点较多时) ,记录下这个框所在的位置,因为它很有可能就是眼睛的位置。由于在取局部脸图像时定位是很粗略的,所以可能还有一些发迹残留着,这就使记录下来的数据可能不只两个。因此,对这些数据还要加以处理。再来分析一下图像,发迹的位置一般都偏上,而眼睛的位置偏中间。那么,取局部脸的中心,计算数据与中心点的距离,距离最小的数据(Xl , Yl )就代表了其中的一只眼睛。把这只眼睛的灰度去除(变为255) ,用同样的方法可以找到另一只眼睛(Xr , Yr ) ,如图4 (a)所示。根据这

36、两只眼睛的位置把整幅图像进行旋转,尽量放在一个水平线上。2. 5.4 精确定位这种方法可以大致找到眼睛位置。为了精确定位,把眼睛位置的x、y坐标值分别向两边扩大一定范围,得到一个眼睛区域。对这个区域进行去噪、增强处理,然后用canny算子算出它的边缘轮廓图像,如图2.2(b)所示。随后,对图2.2( b)图像做水平、垂直灰度投影曲线。对水平投影曲线(见图2.2(c) ,求得它的两个最小值,若Yl 在两最小值之间,则最小值之间的距离就是眼睛的高度。对垂直投影曲线(见图2.2(d) ,也是如此。这样,两只眼睛就都已经做到了精确定位。图2.2(c)横坐标和图2.2(d)纵坐标分别为图2.2(b)水

37、平方向和垂直方向白色点个数的累加值。 (a)找到一只眼睛的局部脸的图像 (b) 眼睛区域(c) 水平灰度投影曲线(d) 垂直灰度投影曲线图2.2 眼睛定位第三章理论分析第三章理论分析3. 1 数字图像及数字图像处理每天我们都是在报纸、杂志、书籍、电视、各种小册子等大量的图像信息包围中度过的。这些图像包括文字、照片、图表、插图等，它使我们感到安适和生活情趣。视觉是人类从大自然获取信息的最主要的来源。据统计在人类获取的信息当中，视觉信息约占60，听觉信息约占20，其它的如味觉信息，触觉信息等加起来约占20。由此可见视觉信息对人们的重要性。而图像正是人类获取视觉信息的主要途径。图像是用各种观

38、测系统以不同形式和手段观测客观世界而获得的,可以直接或者间接作用于人眼并进而产生视知觉的实体。为了能严格地用数学来研究图像，我们对数字图像做如下理论假设20：图像是一个二元连续函数。函数的定义域设为D, 表示二维空间中某个点的坐标，表示点的灰度值，值域为V。数字图像是对函数的离散表示。在空间域D上进行抽样:用有限个像素(Pixel)来表示定义域D, 每一个像素表示对应区域的平均灰度值);在值域空间V进行量化：用有限个值代表V。由于机器设备等的原因这些像素值都是有误差的或者是带有随机噪声的。图3.1 数字图像及其矩阵表示如图3.1，我们得到的是一个矩阵,矩阵中每一个元代表一个像素,像

39、素的取值代表这个像素的灰度值。因此在图像的离散模型中我们也常用M表示图像,使用m(i,j)代表图像的第(i,j)元。所谓数字图像处理就是利用计算机对图像信息进行加工以满足人的视觉心理或者应用需求的行为。利用计算机进行图像处理有两目的:一是产生更适合人。观察和识别的图像,而是希望计算机能自动识别和处理图像。无论为了那一种目的，图像处理中关键的一步就是对含有大量各式各样景物信息的图像进行分解，分解的最终结果是图像被分解成一些具有某种特征的最小成分:称为图像的基元。相对于整幅图像来说,这种基元更容易被快速处理。图像的特征指图像场中可用做标志的属性。他可以分为图像的统计特征和图像的视觉特征。图像

40、的统计特征指的是一些人为定义的特征,通过变换才能得到,如图像的直方图、距、频谱等等;图像的视觉特征指的是人的视觉可以直接感受到的自然特征,如区域的亮度,纹理或轮廓等。利用这两类特征把图像分解为一系列有意义的目标或区域的过程称为图像的分割。 3. 2 人脸的垂直灰度投影曲线3. 1.1脸左右边界的确定我们利用垂直灰度投影来确定人脸左右边界.垂直灰度投影图的纵坐标为图像一列上所有象素点的灰度值之和，横坐标为列号，它反映了图像在水平方向上灰度的变化.设图大小为MN，各点象素值为I(x,y), 则垂直灰度投影函数为: (3.1)脸的平均灰度值明显不同于背景中的其它物体，而人脸内部灰度值的分布除眼眉处有

41、变化外，但对脸平均灰度值影响不大，其余部分则比较均匀。因此投影曲线必会在脸所在区域处显得比较平坦，而在脸与背景的交界处则会有突变，即分界处的那一点会有一个大的梯度值。这样整个曲线看起来会有一个大的凹槽或凸起，可以据此找到脸的大致边界。即在这条曲线上找到一个具有最大梯度值（为正值）的点和一个具有最小的梯度值（为负值）的点，它们所在的列即可作为脸的左右边界，图3.2中大致呈正态分布(白线)是经低通滤波的垂直灰度投影曲线，两竖线即为脸的左右边界。这样做一般会把人耳，甚至人脸的一部分框在脸部区域外，但决不会把眼睛框在外面，因此不但不会影响脸部特征的初定位，反而有利于净化信息。以后各步的处理皆局限在此区

42、域内。脸内部物（例如发型的影响）和背景物在投影曲线上可能产生意外的尖峰，它的大梯度会干扰脸定位，所以必须预先对投影曲线进行低通滤波。.这里要求脸是图中最大的物体，因此垂直灰度投影曲线上所有这种凸起（或凹槽），以对应于脸的那一部分最宽，在频域上对应更低的频段。这样我们就可以把低通滤波器的门限定得很低，以保证滤去属于高频段的尖峰。图3.2人脸垂直灰度投影曲线3.3 边缘及边缘检测 3. 3.1 边缘及边缘检测的关系边缘检测是图像处理中的重要内容。边缘是图像的最基本特征。所谓边缘,是指周围像素灰度有阶跃变化或屋顶变化的那些像素的集合。Poggio21等在中说:“边缘或许对应着图像中物体(的边界)或许

43、并没有对应着图像中物体(的边界),但是边缘具有十分令人满意的性质,它能大大地减少所要处理的信息但是又保留了图像中物体的形状信息。”并定义边缘检测为“主要是(图像的)灰度变化的度量、检测和定位”。边缘与图像中物体的边界有关但又是不同的。边缘反映的是图像灰度的不连续性22。图3.3 边缘的类型各种不同的边缘有不同的特征。 Nalwa和Binford23认为图像中的边缘可以由许多的短直线段(他称之为edgel,我们下面称之为边缘元)来逼近,每一个边缘元都由一个位置和一个角度确定。边缘元对应着图像上灰度曲面阶数的不连续性。如果灰度曲面在一个点的N阶导数是一个Delta函数,那么我们就定义灰度曲面在

44、这个点是N阶不连续的。那么线性边缘是0阶不连续的,阶梯形边缘的一阶不连续的,而屋顶形边缘是2阶不连续的。在大部分情况下,我们都是把图像的边缘全部看作是阶梯形边缘,然后求得检测这种边缘的各种最优滤波器，然后用在实践中。边缘在边界检测、图像分割、模式识别、机器视觉等中有很重要的作用。边缘是边界检测的重要基础，也是外形检测的基础24。边缘广泛存在于物体与背景之间、物体与物体之间,基元与基元之间，因此它也是图像分割所依赖的重要特征。边缘检测对于物体的识别也是很重要的。主要有以下几个理由:首先,人眼通过追踪未知物体的轮廓(轮廓是由一段段的边缘片段组成的)而扫视一个未知的物体。第二,经验告诉我们:

45、如果我们能成功地得到图像的边缘,那么图像分析就会大大简化,图像识别就会容易得多。第三,很多图像并没有具体的物体,对这些图像的理解取决于它们的纹理性质,而提取这些纹理性质与边缘检测有极其密切的关系25。计算机视觉处理可以看作是为了实现某一任务从包含有大量的不相关的变量中抽取不变量，总之就是简化信息。这就意味着要扔掉一些不必要的信息而尽可能利用物体的不变性质。而边缘就是最重要的不变性质:光线的变化显著地影响了一个区域的外观,但是不会改变它的边缘。更重要的是人的视觉系统也是对边缘很敏感的。 3. 3.2 边缘检测的方法边缘检测的方法主要有以下几种：第一种检测梯度的最大值。由于边缘发生在图像灰度值

46、变化比较大的地方,对应连续情形就是说是函数梯度较大的地方，所以研究比较好的求导算子就成为一种思路。Roberts算子、Prewitt算子和Sobel算子等就是比较简单而常用的例子。还有一种比较直观的方法就是利用当前像素邻域中的一些像素值拟合一个曲面,然后求这个连续曲面在当前像素处梯度。从统计角度来说,我们可以通过回归分析得到一个曲面,然后也可以做类似的处理。第二种是检测二阶导数的零交叉点。这是因为缘处的梯度取得最大值(正的或者负的),也就是灰度图像的拐点是边缘。从分析学上我们知道,拐点处函数的二阶导数是0。第三种，统计型方法。比如说利用假设检验来检测边缘，D.H.Marimont26利用对

47、二阶零交叉点的统计分析得到了图像中各个像素是边缘的概率，并进而得到边缘检测的方案。第四种，小波多尺度边缘检测。九十年代,随着小波分析的迅速发展，小波开始用于边缘检测。作为研究非平稳信号的利器,小波在边缘检测方面具有得天独厚的优势，Mallat在这一方面做了不少工作。 3. 4 Canny边缘检测算法 3. 4.1 双阀值技术 Canny提出一种对噪声的估计的实用的方法。假设边缘信号的响应是比较少的而且是比较大的值而噪声的响应是很多的但是值相对较小，那么阀值就可以通过滤波后的图像的统计累积直方图得到(实践数据表明取阀值为这个累积直方图的0.8点处的响应值比较好。但是，仅仅有这一个阀值是不够的。由于噪声的影

展开阅读全文