第12章图象理解理论和系统.ppt

上传人:本田雅阁 文档编号:3124507 上传时间:2019-07-13 格式:PPT 页数:48 大小:396.02KB
返回 下载 相关 举报
第12章图象理解理论和系统.ppt_第1页
第1页 / 共48页
第12章图象理解理论和系统.ppt_第2页
第2页 / 共48页
第12章图象理解理论和系统.ppt_第3页
第3页 / 共48页
第12章图象理解理论和系统.ppt_第4页
第4页 / 共48页
第12章图象理解理论和系统.ppt_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《第12章图象理解理论和系统.ppt》由会员分享,可在线阅读,更多相关《第12章图象理解理论和系统.ppt(48页珍藏版)》请在三一文库上搜索。

1、章毓晋 (TH-EE-IE),第12章 图象理解理论和系统,12.1 从感知到理解 12.2 图象理解理论框架 12.3 图象理解系统模型 12.4 具体系统分析 12.5 典型系统比较 12.6 讨论和展望,章毓晋 (TH-EE-IE),12.1 从感知到理解,1. 感知理解的研究方法 (1) 分析方法 分析方法从分析视觉刺激开始 得到了对大脑结构研究结果的支持 已发现存在完成基本功能的特殊细胞,例如 感知边缘、线条、运动方向等的细胞 建立在不变假设上。对一个给定的视网膜投影模式,可以认为有无穷个可能的场景会导致该模式的产生。不变假设认为,在这么多个可能的场景中,观察者总会选择一个且只选择一

2、个,章毓晋 (TH-EE-IE),12.1 从感知到理解,1. 感知理解的研究方法 (2) 综合方法 试图在感观刺激中找出所观察世界的等价物 认为视网膜上的光学图象(包括图象随时间 的变化)应该包含感知空间目标所需要的全 部信息 其基于思路是复杂和密集的视网膜刺激可帮 助进入视觉世界的不变量,即其最基本和本 质的特性,章毓晋 (TH-EE-IE),12.1 从感知到理解,2. 图象理解系统 完成视觉感知理解的系统是图象理解系统 视觉信息从广义上说包括: 由人类视觉系统感知的信息 由人类发明的各种视觉装置所获取的信息 以及由这些信息推导出的其它表示形式 从上述这些信息中抽象出来的高级表达和行为规

3、划以及与这些信息密切相关的知识和处理这些信息所需的经验,章毓晋 (TH-EE-IE),12.1 从感知到理解,2. 图象理解系统 采集、表达、处理、分析和理解上述信息 基本问题是模式问题(表达) 基本问题是组织问题(管理) 理论还不完善,仅初步的理论框架 马尔(Marr)提出的视觉计算理论 对人类视觉系统了解不充分 信号处理问题 人工智能问题,章毓晋 (TH-EE-IE),12.2 图象理解理论框架,12.2.1 马尔视觉计算理论 12.2.2 对马尔理论框架的改进 12.2.3 关于马尔重建理论的讨论 12.2.4 新理论框架的研究,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理

4、论,马尔1982年出版了视觉一书 Marr D. 1982. Vision A Computational Investigation into the Human Representation and Processing of Visual Information. W.H. Freeman 一个理解视觉信息处理的框架 要先理解视觉目的再去理解其中细节,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,1. 视觉是一个复杂的信息加工过程 视觉是一个远比人所想象更为复杂的信息加工任务和过程,而且其难度常不为人们所正视 为理解视觉这个复杂的过程,要解决两个问题 视觉信息的表达问题:

5、某些信息是突出的和明确的,另一些信息则是隐藏的和模糊的 视觉信息的加工问题:对信息处理、分析、理解,将不同表达形式转换,逐步抽象,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,2. 视觉信息加工的三个要素 计算理论; 算法实现; 硬件实现 计算理论 可计算性问题:一个任务要用计算机完成,它应该是可以被计算的 一般对于某个特定的问题,如果存在一个程序,对于给定的输入,这个程序都能在有限步内给出输出,这个问题就是可计算的,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,2. 视觉信息加工的三个要素 计算理论 视觉问题是否可用现代计算机计算? 对计算机给定输入,能否得到

6、人类视觉可获得的类似结果 两方面的研究内容: 计算的是什么以及为什么要计算它们; 提出一定的约束条件,它们可唯一地确定最终得到的运算结果,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,2. 视觉信息加工的三个要素 算法实现 需要给加工所操作的实体选择一种合适的表达 选择加工的输入和输出表达 确定完成表达转换的算法 一般情况下可以有许多可选的表达 算法的确定常取决于所选的表达 给定一种表达,可有多种完成任务的算法,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,2. 视觉信息加工的三个要素 硬件实现 有了表达和算法在物理上如何实现算法也是必不可少的 算法的确定常依赖

7、于物理上实现算法硬件的特点 同一个算法也可由不同的技术途径实现,章毓晋 (TH-EE-IE),2. 视觉信息加工的三个要素 视觉信息加工三要素的含义,12.2.1 马尔视觉计算理论,章毓晋 (TH-EE-IE),2. 视觉信息加工的三个要素 它们之间有一定的逻辑因果联系,但并无绝对的依赖关系 实际上看成两个层次更恰当 一旦有了计算理论,表达和算法与硬件实现是互相影响的,12.2.1 马尔视觉计算理论,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,3. 视觉信息的三级内部表达 (1) 基素表达(primal sketch) 一种2-D表达,它是图象特征的集合,描述了物体上属性发生

8、变化的轮廓部分 只用基素表达不能保证得到对场景的唯一解释,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,3. 视觉信息的三级内部表达 (2) 2.5-D表达(2-D sketch) 将物体可见面正交 投影分解成单元表面 用法线代表单元表 面的取向 将各法线画出,叠加 于物体轮廓内可见面上,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,3. 视觉信息的三级内部表达 (2) 2.5-D表达(2-D sketch) 本征图,表示了物体表面面元的朝向 可将2.5-D图转化成(相对)深度图 既表达了一部分物体轮廓的信息(这与基素表达类似)表达了以观察者为中心、可观察到的物

9、体表面的取向信息 与人所理解的3-D物体一致(可见物体轮廓以内目标的3-D信息,如边界、深度,反射特性等),章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,3. 视觉信息的三级内部表达 (2) 2.5-D表达(2-D sketch) 将2.5-D图转化成(相对)深度图 给定z(x, y)对x和y的偏导p和q,理论上讲可通过在平面上沿任意曲线的积分来恢复z(x, y) 为最小化误差可选择z(x, y)满足,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,3. 视觉信息的三级内部表达 (3) 3-D表达(3-D representation) 以物体为中心(即也包括了物

10、体不可见部分)的表达形式 在以物体为中心的坐标系中描述3-D物体的形状及其空间组织 空间占有数组, 单元分解, 几何模型 广义圆柱体表达方法,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,3. 视觉信息的三级内部表达 从计算机或信息加工的角度来说,视觉可计算性问题可分成几个步骤,步骤之间是某种表达形式,而每个步骤都是把前后两种表达形式联系起来的计算/加工方法,章毓晋 (TH-EE-IE),3. 视觉信息的三级内部表达,12.2.1 马尔视觉计算理论,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,4. 视觉信息处理按照功能模块的形式组织 把视觉信息的系统看成由一组

11、相对独立功能模块所组成的思想,不仅有计算方面进化论和认识论的论据支持,而且某些功能模块已经能用实验的方法分离出来 人通过使用多种线索或从它们的结合来获得各种本征视觉信息。这启示计算机视觉系统应该包括许多模块,每个模块获取某一特定的视觉线索,结合不同的模块来最终完成视觉任务,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,5. 计算理论形式化表示必须考虑约束条件 在图象采集获取过程中,原始场景中的信息会发生各种变化 (1) 当3-D的场景被投影为2-D图象时,丢失了物体深度和 不可见部分的信息 (2) 图象是从特定视角获取的,同一物体的不同视角图象 会不同,另外由于物体遮挡也会丢失

12、信息 (3) 成象投影使得照明、物体几何形状和表面反射特性、 摄象机特性、光源与物体和摄象机之间的空间关系 等都被综合成单一的图象灰度值,很难区分 (4) 在成象过程中不可避免地会引入噪声和畸变,章毓晋 (TH-EE-IE),12.2.1 马尔视觉计算理论,5. 计算理论形式化表示必须考虑约束条件 适定的问题:如果它的解是: 存在的; 唯一的; 连续地依赖于初始数据 原始场景中信息发生变化的原因,使得将视觉处理问题作为光学成象过程逆问题的求解方法不适定,成了病态问题 利用约束条件可改变病态问题 通过给计算问题加上约束条件可使它含义明确从而能够获解,章毓晋 (TH-EE-IE),12.2.2 对

13、马尔理论框架的改进,四个有关整体框架的问题: (1) 框架中输入是被动的 (2) 框架中加工目的不变,总是恢复场景中物体 的位置和形状等 (3) 框架未足够重视高层知识的指导作用 (4) 整个框架中信息加工过程基本自下而上,单 向流动,没有反馈,章毓晋 (TH-EE-IE),12.2.2 对马尔理论框架的改进,四个方面的相应改进: (1) 增加了图象获取模块 (2) 根据视觉目的进行决策 (3) 利用高层知识可解决低层信息不足的问题 (4) 增加了反馈控制流向,章毓晋 (TH-EE-IE),12.2.3 关于马尔重建理论的讨论,1. 重建理论的问题 不同视觉任务/工作的共同的概念核心被假定为表

14、达,共同的处理目标是根据视觉刺激恢复场景并结合进表达中 如果视觉系统能恢复场景的特性,人能进一步从各种线索中提取出从内部构建视觉世界的表达 视觉被看作一个由刺激开始,顺序的获取和积累的重建过程,章毓晋 (TH-EE-IE),12.2.3 关于马尔重建理论的讨论,1. 重建理论的问题 视觉过程不仅仅是一个单通路的处理过程 随着高层视觉信息的心理学研究成果和对高层视觉区域的解剖和功能组织的知识的增加 根据重建的表达有一系列问题: (1) 在所有可能对场景进行解释的方法中,包含重建的方法兜的圈子最大,因为重建并不对解释有直接贡献,章毓晋 (TH-EE-IE),12.2.3 关于马尔重建理论的讨论,1

15、. 重建理论的问题 根据重建的表达有一系列问题(续) (2) 仅靠从原始图象中进行重建来实现表达在 实际中也很难实现 (3) 概念上的问题 具有一个普遍统一的表达是否值得? 最好的表达应该是最适合工作的表达 对给定计算问题选择正确表达,章毓晋 (TH-EE-IE),12.2.3 关于马尔重建理论的讨论,2. 不需重建的表达 “精神表达语义”(semantics of mental representations) 用自然的和可预测的方式来进行表达 特征检测器构成了视觉世界中的某种特征存在性的表达 对整个目标和场景的表达可以随后根据这些基元(如果基元足够多)来构建,章毓晋 (TH-EE-IE),

16、12.2.4 新理论框架的研究,1. 基于知识的理论框架 (1) 利用对感知组织的处理过程,从图象特征中提取相对于观察方向在大范围内保持不变的分组和结构 (2) 借助图象特征构建模型,在这个过程中利用概率排队的方法减小搜索空间 (3) 通过求解未知的观察点和模型参数寻找空间对应关系,使得3-D模型的投影直接与图象特征相匹配,章毓晋 (TH-EE-IE),12.2.4 新理论框架的研究,2. 主动视觉理论框架 (1) 选择注意机制 (2) 注视控制,章毓晋 (TH-EE-IE),12.3 图象理解系统模型,12.3.1 系统模型结构 12.3.2 多层次串行结构 12.3.3 以知识库为中心的辐

17、射结构 12.3.4 以知识库为根的树结构 12.3.5 多模块交叉配合结构,章毓晋 (TH-EE-IE),12.3.1 系统模型结构,系统性能将主要取决于两方面的因素: (1) 在总体上是如何组织的,由哪些模块组成,模块间如何联系 (2) 每个模块内采用了何种技术,如何对信息进行加工 典型系统模型 松散的知识库模型,章毓晋 (TH-EE-IE),12.3.2 多层次串行结构,多层次串行结构将视觉信息加工过程看作一个信息处理过程,具有确定的输入和输出,因而将视觉信息系统组织成一系列分处于不同层次的模块并以串行方式结合起来,每个模块(在其它模块的协同配合下)按顺序执行一些特定的工作,从而逐步完成

18、预定的视觉任务 可包括由底向上(bottom up)的处理(比较通用但不一定总有效)和由顶向下(top down)的处理(在约束充分时效率会比较高),章毓晋 (TH-EE-IE),12.3.3 以知识库为中心的辐射结构,可以看作是一种类比于人类视觉系统的结构。它的特点是以知识为中心,系统整体不分层,信号在各个模块及知识库中多次进行交换处理 在组成上,人类视觉系统与计算机视觉信息系统有很大不同 2010年计算 机会达到与 人脑大约相 同的处理器 个数P.301,章毓晋 (TH-EE-IE),12.3.4 以知识库为根的树结构,以知识库为根的树结构主要是一种模块分类方式,它根据对知识的不同表达类型

19、进行组织 (1) 广义图象:场景中有关图象类实体的集合 (2) 分割图象:通过将广义图象中的元素聚合成 与场景中有意义物体相关联的集合而得到 (3) 几何结构:它是描述图象和客观世界的模型 (4) 关系结构:它给出图象和结构的符号描述,章毓晋 (TH-EE-IE),12.3.5 多模块交叉配合结构,视觉信息系统应使得主观的观察用户能从客观的场景获得不同类别和层次的信息以通过系统认识世界。多模块交叉配合结构将整个系统分成多个模块,各有确定的输入和输出,且互相配合交叉,比较灵活 从总体上看,尤其是在低层和中层处理阶段,采用了多层次串行结构,从客观场景获取的视觉信息经过一系列加工过程到达观察用户。但

20、在部分地方,特别是高层加工阶段,系统又基本围绕知识模型进行组织,章毓晋 (TH-EE-IE),12.3.5 多模块交叉配合结构,章毓晋 (TH-EE-IE),12.4 具体系统分析,12.4.1 VISIONS 系统 12.4.2 ACRONYM 系统 12.4.3 KB Vision 系统,章毓晋 (TH-EE-IE),12.4.1 VISIONS 系统,一个基于图象中区域的二维图象信息系统 在一定先验知识的指导下,对图象中的区域 并从而对场景中的物体以正确解释 (1) 数据驱动 (2) 知识驱动 (1) 输入到模型 (2) 模型到输入,章毓晋 (TH-EE-IE),12.4.2 ACRON

21、YM 系统,与领域无关并基于模型的三维图象信息系统 1. 建模(模型化):合成的广义圆柱体 2. 预测:自动预测具有不变性质的图象特征 3. 描述 :与模型无关的图象特征图 4. 解释:根据预测图与特征图的匹配解释场景,章毓晋 (TH-EE-IE),12.4.3 KB Vision 系统,基于知识的图象理解环境 三层模型结构: 低层图象矩阵 中层符号描述 高层场景解释,章毓晋 (TH-EE-IE),12.5 典型系统比较,五方面:建模(系统对目标模型化)、特征(系统提取以描述物体的景物特征)、匹配(系统如何匹配景物描述和模型描述)、主要优点和缺点 1. Nevatia和Binford系统 2.

22、 Bhanu系统 3. 3DPO系统(three-dimensional part orientation system) 4. Fan系统,章毓晋 (TH-EE-IE),12.6 讨论和展望,1. 多信息融合(突破信息获取方式的局限性 ) 2. 初级视觉(光学成象逆问题 ) 3. 主动视觉(观察者运动,改变病态结构问题) 4. 结合人类视觉系统(可比拟) 5. 信息流动模式(局部到全局,全局到局部),章毓晋 (TH-EE-IE),12.6 讨论和展望,6. 视频计算和理解(引入时间信息) 7. 算法和系统的评价(效率和性能非常重要) 8. 并行计算结构(视觉具有内在并行性) 9. 引进新的数学工具(应先考虑问题本身) 10. 通用图象信息系统(能否实现?),章毓晋 (TH-EE-IE),通信地址:北京清华大学电子工程系 邮政编码:100084 办公地址:清华大学东主楼,9区307室 办公电话:(010)62781430 传真号码:(010)62770317 电子邮件: 个人主页: 实验室网:,联 系 信 息,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1