实感交互:人工智能下的人机交互技术.pdf

上传人:紫竹语嫣 文档编号:5518685 上传时间:2020-05-28 格式:PDF 页数:327 大小:29.76MB
返回 下载 相关 举报
实感交互:人工智能下的人机交互技术.pdf_第1页
第1页 / 共327页
实感交互:人工智能下的人机交互技术.pdf_第2页
第2页 / 共327页
实感交互:人工智能下的人机交互技术.pdf_第3页
第3页 / 共327页
实感交互:人工智能下的人机交互技术.pdf_第4页
第4页 / 共327页
实感交互:人工智能下的人机交互技术.pdf_第5页
第5页 / 共327页
点击查看更多>>
资源描述

《实感交互:人工智能下的人机交互技术.pdf》由会员分享,可在线阅读,更多相关《实感交互:人工智能下的人机交互技术.pdf(327页珍藏版)》请在三一文库上搜索。

1、 实感交互: 人工智能下 的人机交互技术 美 阿钦蒂亚K. 鲍米克 (Achintya K. Bhowmik) 主编 温秀颖 董冀卿 胡 冰 译 王亚楠 审校 机 械 工 业 出 版 社 过往的科幻现已成真, 在人工智能时代我们与计算机、 手机和娱乐设 备的交互正在经历革命性的变化, 基于触摸、 手势、 语音和视觉的自然人 机交互正在逐渐替代使用键盘、 鼠标和游戏手柄等的交互。 显示设备也从 单纯的显示设备转变为提供更具吸引力和沉浸式体验的双向交互设备。 本 书将深入讲解基于触摸、 手势、 语音和视觉等自然人机交互领域的技术、 应用和未来趋势。 本书适合从事人机交互领域工作的研究、 设计、 开

2、发人员, 相关专业师 生, 以及人工智能时代下对人机交互未来发展趋势有浓厚兴趣的人士阅读。 Copyright 2015 by John Wiley & Sons, Ltd All Rights Reserved. This translation published under license. Authorized translation from the English language edition, entitled Interactive Displays: Nat- ural Human - Interface Technologies, ISBN: 978 - 1 - 118

3、 - 63137 - 9, by Achintya K. Bhowmik, Published by John Wiley & Sons, No part of this book may be reproduced in any form without the written permission of the original copyrights holder. 本书中文简体字版由 Wiley 授权机械工业出版社出版, 未经出版者书 面允许, 本书的任何部分不得以任何方式复制或抄袭。 版权所有, 翻印必究。 北京市版权局著作权合同登记 图字: 01 -2015 -1416 号。 图书在

4、版编目 (CIP) 数据 实感交互: 人工智能下的人机交互技术/ (美) 阿钦蒂亚K.鲍米克 (Achintya K. Bhowmik) 主编; 温秀颖, 董冀卿, 胡冰译. 北京 : 机械 工业出版社, 2018. 3 书名原文: Interactive Displays: Natural Human - Interface Technologies ISBN 978-7-111-59782-7 . 实 . 阿温董胡 . 人 - 机系统 - 系统 设计 . TP11 中国版本图书馆 CIP 数据核字 (2018) 第 087425 号 机械工业出版社(北京市百万庄大街 22 号 邮政编码 1

5、00037) 策划编辑: 林 桢 责任编辑: 闾洪庆 责任校对: 陈 越 责任印制: 孙 炜 北京中兴印刷有限公司印刷 2018 年 6 月第 1 版第 1 次印刷 184mm 240mm20. 25 印张472 千字 标准书号: ISBN 978-7-111-59782-7 定价: 99. 00 元 凡购本书, 如有缺页、 倒页、 脱页, 由本社发行部调换 电话服务 服务咨询热线: 010-88361066 读者购书热线: 010-68326294 010-88379203 封面无防伪标均为盗版 网络服务 机 工 官 网: www. cmpbook. com 机 工 官 博: weibo.

6、com/ cmp1952 金书网: www. golden-book. com 教育服务网: www. cmpedu. com 人类对机器的交互式使用可以追溯到数千年以前。 世界上第一台自动贩卖机可能是古希腊 工程师 Philo 在公元前220 年发明的。 只需投入一枚硬币, 它就会把称量好的肥皂传送到盥洗 台上。 这是一台带有擒纵机构的机械装置。 这台颇为先进的机器无疑代表了当时最前沿的科 技, 但要说它对社会行为的发展产生了显著影响, 这是值得商榷的。 在往后的 2200 多年里, 我们发现自己已经处于明显不同的境地。 仅仅 50 年前, 第一台电容触摸屏问世了; 30 年后这 项技术发展

7、成熟, 已经广泛应用在笔记本电脑、 销售点终端这样的高端设备以及掌上消费品市 场; 又一个10 年过去了, 如今的触控设备, 至少是手持装置已经开始无处不在。 这有力地推动了本书的出版。 本书由一组不同领域的高级技术专家联合撰写, 涵盖了包 括触摸、 声音和视觉等主要交互形式。 前两类互动形式将分两章分别讨论, 视觉部分将在后 五章阐释, 主要关注已经问世或亟待问世的视觉科技特性。 随后两章将介绍用来开发多模态 交互显示的多种方法。 本书结尾探讨如何呈现最为真实的 3D 立体图像。 由于当前显示系统 仅能保留高强度数据, 而想要获得近似于人眼直接观察到的自然效果, 就得通过保留已丢失 的相位信

8、息来实现了。 自此, 读者会得出结论: 本书全面回顾了当前新兴科技的发展。 其实不尽然, 因为我更 想指出的是智能交互技术对社会带来的影响。 虽然这些影响主要是积极的, 但是也可能存在 某些消极方面。 这些都是公众关注的重要问题, 因而值得辩论。 积极的方面包括使用便捷; 能够通过电脑或手机系统进行直观推理和预测; 用简单的声音指令就能对复杂的结果进行讨 论和管理; 为身体不便的用户带来便利, 并使其充分体验当前的各种产品, 等等。 然而消极 的影响是, 比起现在, 通信系统会更广泛地侵入用户的生活。 通话中的手机不仅早已被怀疑 用来追踪定位, 其未来系统还会更深入探测我们的行为模式。 原则上

9、, 依靠计量生物数据来 辨别身份的安全系统应当比目前的芯片和个人识别码技术更值得信赖, 然而一旦前者的安全 系统受损, 可能泄露的安全数据将比后者要多得多。 未来人机交互体验的丰富程度, 除非当前用户亲身使用, 否则他们是难以想象的。 过往 的科幻现已成真。 在技术创造的诸多可能性被供应商和用户采纳之前, 有些问题必须讨论和 解决。 本书为此提供了多方面的素材和依据。 对参与该主题的科学技术工作者和开发交互产 品的参与者来说, 这将是一本重要的书; 对于有兴趣了解或需要了解交互技术会如何影响未 来社会与人际行为的广大读者来说, 本书也不容错过。 Anthony Lowe 于英国 Braishf

10、ield 什么是 “人机交互显示” 呢? 我们将其定义为不仅能够在屏幕上显示可视信息, 还能 感知和理解人类行为、 接收用户直接输入的显示器。 能够 “感觉” 到手指触摸的触摸屏已 经十分普遍, 尤其是那些装配在移动设备和一体化计算机上的。 现在, 新增的类人传感与理 解识别技术正在推进新型交互式显示器及系统的开发, 使其能够在所处的 3D 空间中 “看” “听” 且 “领会” 我们的行为。 我们运用多感官和多模态界面模式来理解周围的客观物理世界, 并与人们在日常生活中交 流。 这些都是通过无缝拼接包括触摸、 声音、 姿势、 面部表情和凝视在内的多种交互模式实现 的。 我们如果想通过人机交互来

11、获取社交交互的丰富内涵, 就必须为这些设备装上能够感知与领 悟用户的输入与活动的技术。 因此, 增加多种自然用户界面能够使人类互动的体验更为真实。 我们与计算机交互的方式经历了最近几十年的变革, 依靠鼠标和键盘作为输入工具的图 形用户界面已取代传统的基于文本输入的命令式界面。 而眼下, 随着自然用户界面 (通过 触摸、 姿势、 语音等模式的人机交互) 的兴起, 我们正目睹着下一场技术革命的开始。 实 施人机界面模式的最终目标就是为用户呈现自然、 直观、 身临其境般的交互体验。 虽然当前 的技术局限使得设计师和工程师不得不有所妥协, 致使部分目标仅能在完成某个特殊产品时 实现, 但是为了实现最终

12、目标, 我们在近几年来不断取得重大进展。 本书聚焦自然用户界面, 对快速兴起的人机交互式显示领域内的技术、 应用以及发展趋 势进行了深度解读。 第 1 章主要介绍人类感知和理解过程的基本要素, 回顾了以触摸、 声音 和视觉感应推理为基础的自然界面技术, 以及通过该技术实现的人机交互过程; 随后各章深 入每种输入与交互模态的细节, 在实现多感官和多模态交互的目标过程中, 对技术的基本原 理及其在多种用户界面模式中的结合与应用展开细致的探讨; 最后一章总结了基本要求和技 术发展现状, 展望了未来有望实现的 “真实的” 3D 交互界面及其带来的真实的、 沉浸式的 交互体验。 我向编辑 Anthony

13、 Lowe 致谢, 是他发现了著书探讨交互式显示的必要性。 我感谢对本 书做出贡献的企业界和学术界专家, 感谢 Wiley 出版社的员工对本书的支持。 最后, 谨以此 书献给 Shida、 Rohan 和 Ava, 没有你们的鼓励和支持我无法开展并完成这个项目。 Achintya K. Bhowmik 于美国加利福尼亚州 原书序 原书前言 第 1 章 交互式显示的感知、 理解与自然 人机界面1 1. 1 引言1 1. 2 人类感知和理解3 1. 3 人机界面技术7 1. 3. 1 过往的输入装置7 1. 3. 2 触控式交互技术9 1. 3. 3 声控交互10 1. 3. 4 视控交互12 1

14、. 3. 5 多模态交互15 1. 4 “真实” 3D 交互显示探索17 1. 5 结语19 参考文献19 第 2 章 触觉感知22 2. 1 引言22 2. 2 触控技术简介23 2. 2. 1 触摸屏24 2. 2. 2 按大小和应用对触控技术进行 分类25 2. 2. 3 按材质和结构分类的触控技术27 2. 2. 4 按检测物理量分类的触控技术27 2. 2. 5 按感知能力分类的触控技术28 2. 2. 6 触控技术的未来29 2. 3 触控技术的历史29 2. 4 电容式触控技术32 2. 4. 1 投射电容式触控技术 (编号1)32 2. 4. 2 表面电容式触控技术 (编号2)

15、39 2. 5 电阻式触控技术43 2. 5. 1 模拟电阻式触控技术 (编号3)43 2. 5. 2 数字多点电阻式触控技术 (编号4)48 2. 5. 3 模拟多点电阻式触控技术 (编号 5)49 2. 6 声波触控技术51 2. 6. 1 表面声波触控技术 (编号 6)51 2. 6. 2 声学脉冲识别触控技术 (编号7)53 2. 6. 3 色散信号技术触控技术 (编号 8)56 2. 7 光学触控技术57 2. 7. 1 传统红外线触控技术 (编号9)57 2. 7. 2 多点触控红外技术 (编号 10)61 2. 7. 3 摄像光学触控技术 (编号 11)63 2. 7. 4 玻璃

16、光学触控技术 (平面散射 检测) (编号 12)68 2. 7. 5 视觉光学触控技术 (编号 13)69 2. 8 嵌入式触控技术72 2. 8. 1 外嵌互电容式 (编号 14)74 2. 8. 2 混合互电容式 (编号 15)74 2. 8. 3 内嵌互电容式 (编号 16)76 2. 8. 4 内嵌式光感 (编号 17)77 2. 9 其他触控技术79 2. 9. 1 压力感测 (编号 18)79 2. 9. 2 组合触控技术81 2. 10 结语82 2. 11 附录82 参考文献83 第 3 章 用户界面中的声控式交互 技术88 实感交互: 人工智能下的人机交互技术 3. 1 引言

17、88 3. 2 语音识别91 3. 2. 1 语言的本质91 3. 2. 2 声学模型和前端模式92 3. 2. 3 使语音对齐隐马尔科夫模型 (HMM) 的过程93 3. 2. 4 语言模型93 3. 2. 5 探索: 以每秒 1000 个单词完成填字 游戏95 3. 2. 6 训练声学和语言模型96 3. 2. 7 为特定说话人识别系统调整发声和 语音模型96 3. 2. 8 “标准” 系统外的其他系统97 3. 2. 9 性能98 3. 3 语音识别的深度神经网络98 3. 4 硬件优化100 3. 4. 1 低电量唤醒运算101 3. 4. 2 特定运算的硬件优化101 3. 5 稳健

18、语音识别的信号强化技术102 3. 5. 1 稳健语音识别102 3. 5. 2 单通道噪声抑制102 3. 5. 3 多通道噪声抑制104 3. 5. 4 噪声消除104 3. 5. 5 回音消除104 3. 5. 6 波束形成105 3. 6 声音生物计量106 3. 6. 1 引言106 3. 6. 2 声音生物计量面临的挑战106 3. 6. 3 声音生物计量的新研究领域107 3. 7 语音合成107 3. 8 自然语言理解110 3. 8. 1 混合主导对话111 3. 8. 2 预设和填值技术的局限113 3. 9 多轮对话管理116 3. 10 规划和推理119 3. 10.

19、1 技术挑战119 3. 10. 2 语义分析和语篇表达120 3. 10. 3 语用学121 3. 10. 4 对话管理协作122 3. 10. 5 规划和再规划122 3. 10. 6 知识呈现与推理123 3. 10. 7 监控123 3. 10. 8 推荐阅读文献124 3. 11 问题解答124 3. 11. 1 问题分析125 3. 11. 2 寻找相关信息125 3. 11. 3 解答与依据126 3. 11. 4 呈现答案126 3. 12 分布式语音交互架构126 3. 12. 1 分布式用户界面127 3. 12. 2 分布的语音及语言技术128 3. 13 结语129 参

20、考文献130 第 4 章 视觉传感与肢体动作交互 技术136 4. 1 引言136 4. 2 图像技术: 2D 和 3D137 4. 3 姿势交互140 4. 4 结语146 参考文献147 第 5 章 实时 3D 传感与结构光技术149 5. 1 引言149 5. 2 结构化图案汇编150 5. 2. 1 2D 伪随机汇编151 5. 2. 2 二进制结构化汇编152 5. 2. 3 多进制汇编153 5. 2. 4 连续正弦相位汇编154 5. 3 结构光系统校准157 5. 4 数字条纹投射 (DFP) 技术下的 3D 传感 示例160 5. 5 实时 3D 传感技术162 5. 5.

21、1 数字光处理 (DLP) 技术的 原理162 5. 5. 2 实时 3D 数据采集164 5. 5. 3 实时 3D 数据处理与可视化165 5. 5. 4 实时 3D 传感实例166 5. 6 人机交互应用的实时 3D 传感166 5. 6. 1 实时 3D 面部表情捕捉及其人机交互 的意义167 5. 6. 2 实时 3D 身体部分姿势捕捉及其人机 目 录 交互的意义167 5. 6. 3 人机交互意义的总结168 5. 7 最新发展169 5. 7. 1 实时 3D 传感与自然 2D 彩色纹理 捕捉169 5. 7. 2 超高速 3D 传感171 5. 8 结语173 参考文献173

22、第 6 章 实时立体 3D 成像技术178 6. 1 引言178 6. 2 背景179 6. 3 立体匹配算法的结构181 6. 3. 1 匹配成本计算182 6. 3. 2 匹配成本聚合183 6. 4 特征分类184 6. 4. 1 深度估计密度184 6. 4. 2 优化策略185 6. 5 实施平台的分类186 6. 5. 1 仅用 CPU 的方法187 6. 5. 2 GPU 提速的方法187 6. 5. 3 硬件执行 (FPGA, ASIC)188 6. 6 结语190 参考文献190 第 7 章 飞行时间法 3D 成像技术194 7. 1 引言194 7. 2 飞行时间法 3D

23、传感194 7. 3 脉冲飞行时间法196 7. 4 持续飞行时间法196 7. 5 计算方法197 7. 6 精度199 7. 7 局限性与改进200 7. 7. 1 时差测距的挑战200 7. 7. 2 理论局限200 7. 7. 3 距离混叠201 7. 7. 4 多径与散射202 7. 7. 5 功率分配与优化202 7. 8 飞行时间法摄像组件203 7. 9 标准值203 7. 9. 1 光的功率范围203 7. 9. 2 背景光205 7. 10 技术发展最新水平206 7. 11 结语207 参考文献207 第 8 章 凝视跟踪208 8. 1 引言和研究动机208 8. 2

24、眼睛210 8. 3 眼动仪212 8. 3. 1 眼动仪的种类212 8. 3. 2 角膜反射法214 8. 4 反对和障碍216 8. 4. 1 人为方面216 8. 4. 2 室外应用217 8. 4. 3 校准217 8. 4. 4 精度217 8. 4. 5 点石成金 (Midas Touch) 问题218 8. 5 凝视交互研究218 8. 6 凝视指向219 8. 6. 1 解决点石成金问题219 8. 6. 2 精度问题的对策220 8. 6. 3 鼠标指向和凝视指向对比221 8. 6. 4 鼠标和凝视协调222 8. 6. 5 凝视指向反馈224 8. 7 凝视姿势224

25、8. 7. 1 凝视姿势的概念224 8. 7. 2 姿势检测算法225 8. 7. 3 执行凝视姿势的人类能力226 8. 7. 4 凝视姿势字母表226 8. 7. 5 姿势从自然眼动中分离227 8. 7. 6 凝视姿势的应用228 8. 8 作为情境的凝视229 8. 8. 1 活动识别229 8. 8. 2 阅读检测231 8. 8. 3 注意力检测232 8. 8. 4 应用凝视情境233 8. 9 展望233 参考文献234 第 9 章 感知用户界面的多模态输入237 9. 1 引言237 9. 2 多模态交互类型237 9. 3 多模态界面238 实感交互: 人工智能下的人机交

26、互技术 9. 3. 1 触控输入238 9. 3. 2 3D 姿势245 9. 3. 3 眼动跟踪和凝视249 9. 3. 4 面部表情250 9. 3. 5 脑机接口251 9. 4 多模态集成策略252 9. 4. 1 框架式集成253 9. 4. 2 合并式集成254 9. 4. 3 程序性集成254 9. 4. 4 符号/ 统计集成254 9. 5 多模态交互的可用性问题255 9. 6 结语256 参考文献257 第 10 章 生物计量学中的多模态交互: 技术与可用性挑战262 10. 1 引言262 10. 1. 1 身份确认动机262 10. 1. 2 生物计量学263 10.

27、1. 3 多模态生物计量学的应用 特征263 10. 1. 4 2D 和 3D 人脸识别264 10. 1. 5 多模态案例研究266 10. 1. 6 适应于盲人对象267 10. 1. 7 本章结构268 10. 2 对移动生物计量平台的应用剖析268 10. 2. 1 面部分析268 10. 2. 2 语音分析271 10. 2. 3 模型适应272 10. 2. 4 数据融合273 10. 2. 5 移动平台实施274 10. 2. 6 MoBio 数据库和协议275 10. 3 案例研究: 为视觉缺陷者进行可用性 研究276 10. 3. 1 头部姿势变化对性能的影响276 10.

28、3. 2 用户交互模块: 头部姿势质量 评估278 10. 3. 3 用户 - 交互模块: 音频反馈 机制280 10. 3. 4 视觉缺陷者的可用性测试282 10. 4 讨论与结语284 参考文献285 第 11 章 迈向 “真实的” 3D 交互 显示器287 11. 1 引言287 11. 2 生物视觉的起源289 11. 3 光场成像294 11. 4 迈向 “真实的” 3D 视觉显示300 11. 5 与 3D 显示屏上的视觉内容交互308 11. 6 结语310 参考文献311 附录 缩略语313 Achintya K. Bhowmik 美国英特尔集团 1. 1 引言 如今, 可视

29、化显示设备已成为丰富多彩的电子产品中不可或缺的一部分。 作为人与电 脑、 通信系统和娱乐系统交互的主要界面, 其应用已经融入居家、 工作或出行等生活的方方 面面。 无论是腕上的手表, 还是随身装在口袋或钱包里的手机, 抑或是用来网上冲浪、 获取 多媒体信息的平板电脑, 再或者是工作的笔记本电脑或台式电脑, 还有客厅中心的巨屏电 视、 商务会议使用的演示投影仪, 可视化显示器都是这些设备面向我们用户的 “颜面”。 这类显示器频繁应用于各种特定的公共场所, 比如机场自助登机手续办理终端, 零售店 自助付款机、 大型购物商场的广告牌以及博物馆的公共展示 用途不计其数。 近十年来, 巨大的应用潜力和市

30、场需求促进了全球可视化显示技术的研发。 从移动显示到巨屏显示, 多 样化的产品层出不穷1 -5。 只要扫一眼可视化显示设备的市场规模, 我们就能很快领会它给生活带来的影响。 来自 显示产业分析公司 IHS 的报告说明, 近五年来, 销往世界各地的平面显示设备总额高达 170 亿美元6, 年度出货量超过 50%的增速也说明了这一技术的快速普及率。 总体来说, 一台电子设备主要完成三项基本功能: 接受用户指示, 按照指示及所获信息 执行某些处理功能, 呈现输出或向用户报告处理结果。 比如, 当作者在笔记本电脑上进行本 章的写作时, 他首先用键盘和鼠标输入信息, 然后微处理器就会执行文字处理软件,

31、将敲击 键盘和点击鼠标发出的命令转换成目标文本和格式, 最后, 电脑的液晶显示屏就会以可视化 的输出实时显示文字。 由此可见, 设备里的显示子系统已经在向用户呈现信息方面发挥了至 关重要的作用。 除了某些特例之外, 大多数近期生产的电子产品都配备了显示屏幕, 唯一的 目的就是为了显示视觉信息。 然而近几年来, 人机互动和用户界面范式一直在经历着快速的演变和创新。 我们与电脑 2 实感交互: 人工智能下的人机交互技术 交流的方式经过几十年的变革已经大不相同。 在文本型的老式命令输入界面被淘汰以后, 取 而代之的是依靠鼠标和键盘输入的图形用户界面。 随着更多自然用户界面的出现, 下一场变 革的帷幕

32、正在我们的眼前拉开。 未来, 人机交流不但可以通过触摸、 肢体动作、 声音、 表情 和视线来实现, 甚至还可以通过我们的思想! 我们正在不断研发高级传感器、 系统、 运算规则以及应用程序, 以实现更为生动自然的 互动体验。 在这个过程中, 运算装置除了能够把握交流意图之外, 还能理解用户的表达与情 感。 这些兴起的界面技术和接踵而至的新型应用产品为显示技术乃至整个电子消费产业创造 了振奋人心的机遇。 随着自然用户界面的不断整合, 显示设备也从以往视觉内容的单向显示 转变成了可以接收用户输入的双向互动, 这就推动了交互应用程序的开发和沉浸式体验的实 现。 触摸屏和触控优化界面以及各类应用产品的激

33、增又把这场变革蔓延到了移动显示设备, 自然界面技术由于其交互性的强化而不断延展, 必然会重新定义整个显示技术和显示系统的 维度。 本书全面解析了促使高度交互显示与显示系统兴起的自然人机界面技术与应用。 那么什 么是 “人机交互式显示” 呢? 我们将其定义为不仅可以在屏幕上显示可视信息, 还可以感 知和理解人类行为并接收用户的直接输入。 一旦装配上类似自然人的感知和理解技术, 一个 “真实” 的人机交互式显示器就能 “感受” 并探测到我们的触摸, “听到” 并回应我们的声 音, “看到” 并辨识出我们的面貌和表情, “理解” 并阐释通过移动手指或其他身体部位发 出的肢体指令, 甚至能够根据语境推

34、理出我们的意图。 虽然这些目标看起来非常远大, 但是正如图 1. 1 所示, 依靠简单直观的自然人机界面, 多种形态因素和应用系统加之自然用户交互技术已经对市场带来了巨大的影响。 本书的讨论 也在不断揭示这种影响, 我们在自然感知、 推理技术、 系统整合和应用发展方面取得的重大 进步将为人机交互的全面创新打下坚实的基础。 图 1. 1 各种形态的交互显示器与应用系统已经占据了大片市场, 如前面例子所述。 除了传统意义上对用户显示视觉信息之外, 许多系统内的显示器在直接人机界面设备中 发挥着新的作用 图 1. 2 描述了交互显示系统的通用功能模块及其流程。 用户和显示系统的互动是受各个 界面发出

35、的指令支配的, 也就是在开始和结束部分显示的输入和输出模块。 输入模块由一组 第 1 章 交互式显示的感知、 理解与自然人机界面 3 图 1. 2 交互显示系统的功能框图。 输入模块与 输出模块指挥用户与显示器的互动, 而信号处理与运 算法则促进了这些互动的开展 传感器组成, 能够把用户输入的物理刺激转 换成电子信号。 而输出模块则以物理刺激的 形式, 让用户感知并理解系统反向回应用户 的行为。 中间的模块处理必要的信号并执行 运算功能以促进交流。 本章首先综述了人类感知和理解的基本 原则, 特别关注了我们在与物理世界的日常 互动中部署的机制和流程。 以此为基础, 我 们随后概述了运用自然界面

36、技术 (包括触 摸、 声音、 视觉感知和互动) 的人机互动过 程, 并简要梳理了史上最为成功的界面技 术。 接下来, 我们将深入到每类输入与互动 的模态细节, 对技术原理及其在自然人机界 面模式的应用, 以及综合互动技术在实现直 观的多感观、 多模态互动方面的作用进行深 入的探讨。 本书最后一章总结了基本要求和 技术发展现状, 展望了未来有望实现的 “真 实” 的 3D 交互式显示及其带来的真实的、 沉浸式的互动体验。 1. 2 人类感知和理解 本书伊始就提出实施人机交互界面方案的最终目标是让用户获得自然、 本真和沉浸式的 互动体验。 虽然目前技术的局限性让设计师和工程师不得不做出妥协, 仅能

37、实现某些特定产 品的部分目标, 但是我们一直在实现总体目标的方向上取得进步。 这里需要进一步阐明一下。 所谓 “自然”, 意思在于运用我们的自然机能与机器实现交 流和互动。 我们运用多感官、 多模态的界面方案来理解周围环境和相互交流, 将包括声音、 表情、 凝视、 手势和肢体语言、 触觉、 嗅觉和味觉等在内的多模态互动无缝衔接。 如此, 创 建自然界面就能使真实的生活体验融入人机互动之中。 所谓 “本真”, 意指该界面依靠我们多年养成的社交习惯而设计, 仅要求用户使用最少 的 (理想是不需要任何) 学习成本就能与机器进行交流。 所谓 “沉浸式”, 是一种真实世界与虚拟世界边界模糊化的体验, 其

38、中电脑或机器成为 我们身体与大脑的延续, 帮助我们完成任务。 这是个很高的要求, 需要几十年的持续研发才 能接近这些目标。 我们努力了解生动逼真的人机界面和交互方案, 就能使我们以史为镜, 了 解人类 毕竟我们是 “人机互动” 这个词组的第一个字! 我们人类已经进化成了高等交际物种, 受助于一个精干的大脑和一系列复杂的感知器 官, 包括丰富的视觉感知系统、 听觉能力、 接触敏感的皮肤和触觉感知, 还要算上经过鼻腔 4 实感交互: 人工智能下的人机交互技术 和舌头传感的气味和味道的化学感知。 超过一半的人类大脑致力于处理感知信号, 让我们能 够认识太空、 生命和周围的物体, 也让我们在自然、 本

39、真的感知情境中彼此互动。 让我们深入探讨一下我们的感知传感和推理过程, 即眼睛和视觉感知过程, 耳朵和听觉 感知过程, 皮肤和触觉感知过程。 仅仅专注于这三种感知模态的一个原因是我们与物理世界 交互的实质过程主要运用到这些机制, 而且我们也将看到, 这些机制的功能能够依靠高新技 术在电子设备中加以模仿, 以便设计和制造高级互动显示器和系统。 在人机交互中实现嗅觉 和味觉机能当然最好, 不过还得等技术进一步发展。 让我们从神经生理学角度探讨自然人机界面与交互显示系统, 如图 1. 1 所示。 这个交互 过程可以分解为三个主要过程: 感知, 理解和辨识, 以及行为。 从人的视角看, 感知过程包 括

40、: 搜集显示器视觉产出 通过光波介入人眼; 说话人听觉产出 以声波形式介入人 耳; 感觉屏幕的表面 通过用指尖碰触。 这些感知传感器将物理刺激通过传导过程转换成 神经信号, 后被传递到大脑皮层, 也就是我们能够理解到 “看”“听” 和 “触” 的发生, 随后辨识与思考相继启动。 根据感知和辨识过程的结果, 我们将指令我们的身体行为。 比如, 我们把视线聚焦到显 示器上想关注的元素上, 指引手指触摸并启动屏幕上的具体内容, 调整我们对声音产出的听 觉注意力, 摆出一个合适的面部表情, 甚至用我们的手指和手来做一个动作。 我们首先综述一下视觉感知过程。 我们仅关注与随后讨论密切相关的操作交互显示器

41、的 内容, 并把其他更为详细介绍人类感知7,8的读物介绍给有兴趣的读者。 人眼是人类进化的 奇迹, 特别体现在其构造上的极端复杂性, 功能的有效性及其在连接感知世界与大脑枕叶视 觉皮层方面所发挥的核心作用。 如图 1. 3 所示, 人眼和相机的某些核心结构十分相似, 都是 图 1. 3 左: 人眼解剖图。 右: 人的视觉系统使用双目成像方式。 左视野是由双目的右侧感知到 的, 并映射到视觉皮层内的主要接收区域的右半部, 右视野则经由另一条路线。 观测物与双眼的距离 是由双目视差察觉的, 其他的视觉线索还包括动态视差、 视差映射和焦距等 第 1 章 交互式显示的感知、 理解与自然人机界面 5 通

42、过透镜系统把外景光源聚焦在眼部后方的视网膜上成像; 视网膜周围含有称为感光器的感 光细胞。 眼部有两种类型的感光体, 即有色觉的视锥细胞和无色觉的视杆细胞, 后者能把光 转换为神经信号。 这台相机的分辨率以及和处理器通信的带宽如何呢? 视网膜包含大量的感光器 大约 每只眼睛有 800 万个视锥细胞和 12000 万个视杆细胞 然而视觉体系却能够巧妙地发出景 物在空间和时间上变化的信号, 而不是由感光器探测到的绝对光强, 以保持眼睛和大脑的通 信带宽降到实际水平上。 当我们把目光投向一个物体且图像形成于视轴周围的一个相对较小的区域时, 中心视觉 的视敏度是最高的。 这是因为视锥感光器最集中地分布于视网膜内的一个小区域 中央 凹, 这些感光器映射到视觉皮层内的一个比视网膜其他部分要大的区域。 另一个相机的重要 特质是光敏的动态范围, 人眼的视觉跨径可达 10 个数量

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/环境 > 建筑资料


经营许可证编号:宁ICP备18001539号-1