第12章图象理解理论和系统.ppt

资源描述

《第12章图象理解理论和系统.ppt》由会员分享，可在线阅读，更多相关《第12章图象理解理论和系统.ppt（48页珍藏版）》请在三一文库上搜索。

1、章毓晋 (TH-EE-IE),第12章图象理解理论和系统,12.1 从感知到理解 12.2 图象理解理论框架 12.3 图象理解系统模型 12.4 具体系统分析 12.5 典型系统比较 12.6 讨论和展望,章毓晋 (TH-EE-IE),12.1 从感知到理解,1. 感知理解的研究方法 (1) 分析方法分析方法从分析视觉刺激开始得到了对大脑结构研究结果的支持已发现存在完成基本功能的特殊细胞，例如感知边缘、线条、运动方向等的细胞建立在不变假设上。对一个给定的视网膜投影模式，可以认为有无穷个可能的场景会导致该模式的产生。不变假设认为，在这么多个可能的场景中，观察者总会选择一个且只选择一

2、个,章毓晋 (TH-EE-IE),12.1 从感知到理解,1. 感知理解的研究方法 (2) 综合方法试图在感观刺激中找出所观察世界的等价物认为视网膜上的光学图象（包括图象随时间的变化）应该包含感知空间目标所需要的全部信息其基于思路是复杂和密集的视网膜刺激可帮助进入视觉世界的不变量，即其最基本和本质的特性,章毓晋 (TH-EE-IE),12.1 从感知到理解,2. 图象理解系统完成视觉感知理解的系统是图象理解系统视觉信息从广义上说包括：由人类视觉系统感知的信息由人类发明的各种视觉装置所获取的信息以及由这些信息推导出的其它表示形式从上述这些信息中抽象出来的高级表达和行为规

3、划以及与这些信息密切相关的知识和处理这些信息所需的经验,章毓晋 (TH-EE-IE),12.1 从感知到理解,2. 图象理解系统采集、表达、处理、分析和理解上述信息基本问题是模式问题（表达）基本问题是组织问题（管理）理论还不完善，仅初步的理论框架马尔（Marr）提出的视觉计算理论对人类视觉系统了解不充分信号处理问题人工智能问题,章毓晋 (TH-EE-IE),12.2 图象理解理论框架,12.2.1 马尔视觉计算理论 12.2.2 对马尔理论框架的改进 12.2.3 关于马尔重建理论的讨论 12.2.4 新理论框架的研究,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理

4、论,马尔1982年出版了视觉一书 Marr D. 1982. Vision A Computational Investigation into the Human Representation and Processing of Visual Information. W.H. Freeman 一个理解视觉信息处理的框架要先理解视觉目的再去理解其中细节,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,1. 视觉是一个复杂的信息加工过程视觉是一个远比人所想象更为复杂的信息加工任务和过程，而且其难度常不为人们所正视为理解视觉这个复杂的过程，要解决两个问题视觉信息的表达问题：

5、某些信息是突出的和明确的，另一些信息则是隐藏的和模糊的视觉信息的加工问题：对信息处理、分析、理解，将不同表达形式转换，逐步抽象,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,2. 视觉信息加工的三个要素计算理论；算法实现；硬件实现计算理论可计算性问题：一个任务要用计算机完成，它应该是可以被计算的一般对于某个特定的问题，如果存在一个程序，对于给定的输入，这个程序都能在有限步内给出输出，这个问题就是可计算的,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,2. 视觉信息加工的三个要素计算理论视觉问题是否可用现代计算机计算？对计算机给定输入，能否得到

6、人类视觉可获得的类似结果两方面的研究内容：计算的是什么以及为什么要计算它们；提出一定的约束条件，它们可唯一地确定最终得到的运算结果,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,2. 视觉信息加工的三个要素算法实现需要给加工所操作的实体选择一种合适的表达选择加工的输入和输出表达确定完成表达转换的算法一般情况下可以有许多可选的表达算法的确定常取决于所选的表达给定一种表达，可有多种完成任务的算法,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,2. 视觉信息加工的三个要素硬件实现有了表达和算法在物理上如何实现算法也是必不可少的算法的确定常依赖

7、于物理上实现算法硬件的特点同一个算法也可由不同的技术途径实现,章毓晋 (TH-EE-IE),2. 视觉信息加工的三个要素视觉信息加工三要素的含义,12.2.1 马尔视觉计算理论,章毓晋 (TH-EE-IE),2. 视觉信息加工的三个要素它们之间有一定的逻辑因果联系，但并无绝对的依赖关系实际上看成两个层次更恰当一旦有了计算理论，表达和算法与硬件实现是互相影响的,12.2.1 马尔视觉计算理论,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,3. 视觉信息的三级内部表达 (1) 基素表达（primal sketch）一种2-D表达，它是图象特征的集合，描述了物体上属性发生

8、变化的轮廓部分只用基素表达不能保证得到对场景的唯一解释,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,3. 视觉信息的三级内部表达 (2) 2.5-D表达（2-D sketch）将物体可见面正交投影分解成单元表面用法线代表单元表面的取向将各法线画出，叠加于物体轮廓内可见面上,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,3. 视觉信息的三级内部表达 (2) 2.5-D表达（2-D sketch）本征图，表示了物体表面面元的朝向可将2.5-D图转化成（相对）深度图既表达了一部分物体轮廓的信息（这与基素表达类似）表达了以观察者为中心、可观察到的物

9、体表面的取向信息与人所理解的3-D物体一致（可见物体轮廓以内目标的3-D信息，如边界、深度，反射特性等）,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,3. 视觉信息的三级内部表达 (2) 2.5-D表达（2-D sketch）将2.5-D图转化成（相对）深度图给定z(x, y)对x和y的偏导p和q，理论上讲可通过在平面上沿任意曲线的积分来恢复z(x, y) 为最小化误差可选择z(x, y)满足,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,3. 视觉信息的三级内部表达 (3) 3-D表达（3-D representation）以物体为中心（即也包括了物

10、体不可见部分）的表达形式在以物体为中心的坐标系中描述3-D物体的形状及其空间组织空间占有数组，单元分解，几何模型广义圆柱体表达方法,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,3. 视觉信息的三级内部表达从计算机或信息加工的角度来说，视觉可计算性问题可分成几个步骤，步骤之间是某种表达形式，而每个步骤都是把前后两种表达形式联系起来的计算/加工方法,章毓晋 (TH-EE-IE),3. 视觉信息的三级内部表达,12.2.1 马尔视觉计算理论,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,4. 视觉信息处理按照功能模块的形式组织把视觉信息的系统看成由一组

11、相对独立功能模块所组成的思想，不仅有计算方面进化论和认识论的论据支持，而且某些功能模块已经能用实验的方法分离出来人通过使用多种线索或从它们的结合来获得各种本征视觉信息。这启示计算机视觉系统应该包括许多模块，每个模块获取某一特定的视觉线索，结合不同的模块来最终完成视觉任务,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,5. 计算理论形式化表示必须考虑约束条件在图象采集获取过程中，原始场景中的信息会发生各种变化 (1) 当3-D的场景被投影为2-D图象时，丢失了物体深度和不可见部分的信息 (2) 图象是从特定视角获取的，同一物体的不同视角图象会不同，另外由于物体遮挡也会丢失

12、信息 (3) 成象投影使得照明、物体几何形状和表面反射特性、摄象机特性、光源与物体和摄象机之间的空间关系等都被综合成单一的图象灰度值，很难区分 (4) 在成象过程中不可避免地会引入噪声和畸变,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,5. 计算理论形式化表示必须考虑约束条件适定的问题：如果它的解是：存在的；唯一的；连续地依赖于初始数据原始场景中信息发生变化的原因，使得将视觉处理问题作为光学成象过程逆问题的求解方法不适定，成了病态问题利用约束条件可改变病态问题通过给计算问题加上约束条件可使它含义明确从而能够获解,章毓晋 (TH-EE-IE),12.2.2 对

13、马尔理论框架的改进,四个有关整体框架的问题： (1) 框架中输入是被动的 (2) 框架中加工目的不变，总是恢复场景中物体的位置和形状等 (3) 框架未足够重视高层知识的指导作用 (4) 整个框架中信息加工过程基本自下而上，单向流动，没有反馈,章毓晋 (TH-EE-IE),12.2.2 对马尔理论框架的改进,四个方面的相应改进： (1) 增加了图象获取模块 (2) 根据视觉目的进行决策 (3) 利用高层知识可解决低层信息不足的问题 (4) 增加了反馈控制流向,章毓晋 (TH-EE-IE),12.2.3 关于马尔重建理论的讨论,1. 重建理论的问题不同视觉任务/工作的共同的概念核心被假定为表

14、达，共同的处理目标是根据视觉刺激恢复场景并结合进表达中如果视觉系统能恢复场景的特性，人能进一步从各种线索中提取出从内部构建视觉世界的表达视觉被看作一个由刺激开始，顺序的获取和积累的重建过程,章毓晋 (TH-EE-IE),12.2.3 关于马尔重建理论的讨论,1. 重建理论的问题视觉过程不仅仅是一个单通路的处理过程随着高层视觉信息的心理学研究成果和对高层视觉区域的解剖和功能组织的知识的增加根据重建的表达有一系列问题： (1) 在所有可能对场景进行解释的方法中，包含重建的方法兜的圈子最大，因为重建并不对解释有直接贡献,章毓晋 (TH-EE-IE),12.2.3 关于马尔重建理论的讨论,1

15、. 重建理论的问题根据重建的表达有一系列问题（续） (2) 仅靠从原始图象中进行重建来实现表达在实际中也很难实现 (3) 概念上的问题具有一个普遍统一的表达是否值得? 最好的表达应该是最适合工作的表达对给定计算问题选择正确表达,章毓晋 (TH-EE-IE),12.2.3 关于马尔重建理论的讨论,2. 不需重建的表达 “精神表达语义”（semantics of mental representations）用自然的和可预测的方式来进行表达特征检测器构成了视觉世界中的某种特征存在性的表达对整个目标和场景的表达可以随后根据这些基元（如果基元足够多）来构建,章毓晋 (TH-EE-IE),

16、12.2.4 新理论框架的研究,1. 基于知识的理论框架 (1) 利用对感知组织的处理过程，从图象特征中提取相对于观察方向在大范围内保持不变的分组和结构 (2) 借助图象特征构建模型，在这个过程中利用概率排队的方法减小搜索空间 (3) 通过求解未知的观察点和模型参数寻找空间对应关系，使得3-D模型的投影直接与图象特征相匹配,章毓晋 (TH-EE-IE),12.2.4 新理论框架的研究,2. 主动视觉理论框架 (1) 选择注意机制 (2) 注视控制,章毓晋 (TH-EE-IE),12.3 图象理解系统模型,12.3.1 系统模型结构 12.3.2 多层次串行结构 12.3.3 以知识库为中心的辐

17、射结构 12.3.4 以知识库为根的树结构 12.3.5 多模块交叉配合结构,章毓晋 (TH-EE-IE),12.3.1 系统模型结构,系统性能将主要取决于两方面的因素： (1) 在总体上是如何组织的，由哪些模块组成，模块间如何联系 (2) 每个模块内采用了何种技术，如何对信息进行加工典型系统模型松散的知识库模型,章毓晋 (TH-EE-IE),12.3.2 多层次串行结构,多层次串行结构将视觉信息加工过程看作一个信息处理过程，具有确定的输入和输出，因而将视觉信息系统组织成一系列分处于不同层次的模块并以串行方式结合起来，每个模块（在其它模块的协同配合下）按顺序执行一些特定的工作，从而逐步完成

18、预定的视觉任务可包括由底向上（bottom up）的处理（比较通用但不一定总有效）和由顶向下（top down）的处理（在约束充分时效率会比较高）,章毓晋 (TH-EE-IE),12.3.3 以知识库为中心的辐射结构,可以看作是一种类比于人类视觉系统的结构。它的特点是以知识为中心，系统整体不分层，信号在各个模块及知识库中多次进行交换处理在组成上，人类视觉系统与计算机视觉信息系统有很大不同 2010年计算机会达到与人脑大约相同的处理器个数P.301,章毓晋 (TH-EE-IE),12.3.4 以知识库为根的树结构,以知识库为根的树结构主要是一种模块分类方式，它根据对知识的不同表达类型

19、进行组织 (1) 广义图象：场景中有关图象类实体的集合 (2) 分割图象：通过将广义图象中的元素聚合成与场景中有意义物体相关联的集合而得到 (3) 几何结构：它是描述图象和客观世界的模型 (4) 关系结构：它给出图象和结构的符号描述,章毓晋 (TH-EE-IE),12.3.5 多模块交叉配合结构,视觉信息系统应使得主观的观察用户能从客观的场景获得不同类别和层次的信息以通过系统认识世界。多模块交叉配合结构将整个系统分成多个模块，各有确定的输入和输出，且互相配合交叉，比较灵活从总体上看，尤其是在低层和中层处理阶段，采用了多层次串行结构，从客观场景获取的视觉信息经过一系列加工过程到达观察用户。但

20、在部分地方，特别是高层加工阶段，系统又基本围绕知识模型进行组织,章毓晋 (TH-EE-IE),12.3.5 多模块交叉配合结构,章毓晋 (TH-EE-IE),12.4 具体系统分析,12.4.1 VISIONS 系统 12.4.2 ACRONYM 系统 12.4.3 KB Vision 系统,章毓晋 (TH-EE-IE),12.4.1 VISIONS 系统,一个基于图象中区域的二维图象信息系统在一定先验知识的指导下，对图象中的区域并从而对场景中的物体以正确解释 (1) 数据驱动 (2) 知识驱动 (1) 输入到模型 (2) 模型到输入,章毓晋 (TH-EE-IE),12.4.2 ACRON

21、YM 系统,与领域无关并基于模型的三维图象信息系统 1. 建模（模型化）：合成的广义圆柱体 2. 预测：自动预测具有不变性质的图象特征 3. 描述：与模型无关的图象特征图 4. 解释：根据预测图与特征图的匹配解释场景,章毓晋 (TH-EE-IE),12.4.3 KB Vision 系统,基于知识的图象理解环境三层模型结构：低层图象矩阵中层符号描述高层场景解释,章毓晋 (TH-EE-IE),12.5 典型系统比较,五方面：建模（系统对目标模型化）、特征（系统提取以描述物体的景物特征）、匹配（系统如何匹配景物描述和模型描述）、主要优点和缺点 1. Nevatia和Binford系统 2.

22、 Bhanu系统 3. 3DPO系统（three-dimensional part orientation system） 4. Fan系统,章毓晋 (TH-EE-IE),12.6 讨论和展望,1. 多信息融合（突破信息获取方式的局限性） 2. 初级视觉（光学成象逆问题） 3. 主动视觉（观察者运动，改变病态结构问题） 4. 结合人类视觉系统（可比拟） 5. 信息流动模式（局部到全局，全局到局部）,章毓晋 (TH-EE-IE),12.6 讨论和展望,6. 视频计算和理解（引入时间信息） 7. 算法和系统的评价（效率和性能非常重要） 8. 并行计算结构（视觉具有内在并行性） 9. 引进新的数学工具（应先考虑问题本身） 10. 通用图象信息系统（能否实现？）,章毓晋 (TH-EE-IE),通信地址：北京清华大学电子工程系邮政编码：100084 办公地址：清华大学东主楼，9区307室办公电话：(010)62781430 传真号码：(010)62770317 电子邮件：个人主页：实验室网：,联系信息,

展开阅读全文