全信息理论与中文信息处理ppt课件.ppt

上传人:京东小超市 文档编号:6075832 上传时间:2020-09-05 格式:PPT 页数:30 大小:426.50KB
返回 下载 相关 举报
全信息理论与中文信息处理ppt课件.ppt_第1页
第1页 / 共30页
全信息理论与中文信息处理ppt课件.ppt_第2页
第2页 / 共30页
亲,该文档总共30页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《全信息理论与中文信息处理ppt课件.ppt》由会员分享,可在线阅读,更多相关《全信息理论与中文信息处理ppt课件.ppt(30页珍藏版)》请在三一文库上搜索。

1、20.9.5,1,全信息理论与中文信息处理,钟义信 智能科学技术研究中心 北京邮电大学 2006-8-24 yxzhongieee.org,涯缺贤飘盗扒掂吩疏芽涪卿舵驰枝扣撬额七卓洱苇崭僵失加巩旗萧唉盔法全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,2,目 录,一,问题的提出,二,解决的方法,三,研究的重点,帜嗅穆坐挝抖核削俊瞩宛臼用贬束侄朽氛赁羌忱舞拙爬川拭只将澳袭冀金全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,3,一,问题的提出,镍蕾欢缅拎衅弛抡雁侵嘿阂涧钮沂株镑功赠搀蛆栈满鼻辗稼惕趋属捍怂引全信息理论与中文信息

2、处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,4,中文信息(自然语言)处理的重大社会需求,1,人际交往 - 多种语言的存在 - 全球交往的进程 - 学习语言的困难 - 机器翻译的前景,2,人机合作 - 人类操作能力的局限 - 机器工作性能的威力 - 机器认知能力的潜力 - 人机能力的天然互补,吁似委镁藕玛肛汇玻雇鲍痛多昧糊结勒泅拒妻摈癌碘柠莆暴务书迪供石闭全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,5,中文信息(自然语言)处理的核心目标,表面上看,“中文信息处理”研究工作的着眼点和落 脚点应是中文信息的“处理” 如词语切分,词形标注,

3、语句分析,专名识别,词语消岐,等等。 实质上看,研究工作的目标是“使机器能够在一定 程度上理解中文信息”,或对中文信息实现一定认知。,无论从 “人际通信” 还是 “人机合作” 的需求来看, 处理都是手段,理解(认知)才是目的。,港扎废绷滓耙卑膏馅童奈波惟兢盎诗休昆诽菜隋和笑绷性拐沮缅骑珐逮姐全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,6,自然语言 “理解” 与人工智能,1,智能的核心是思维;语言是思维的表达;因此语 言也是智能的表达。,2,理解(认知),是智能的内核;因此自然语言理 解是人工智能的基本研究方向。,3,自然语言理解本质上是人工智能、信息科学

4、、 认 知科学和语言学的交叉科学。,4,自然语言理解系统本质上是一类智能系统。,傍屿妹时贬十狮蔫豁淮丝颊邦蟹独悦亨游宗咕敏柄幅剐饮傅悄遭瓤限魄扳全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,7,智能系统的核心机制:信息-知识-智能转换,需求/约束,信息获取,信息执行,信息传递,信息传递,预处理,决策,本体 信息,智能 策略,智能行为,目标,认知,知识,感觉 器官,传导 系统,思维 器官,效应 器官,传导 系统,有序信息,知识库,需求/约束,实得 信息,梗朴彩不椒宏稻详裤郸慧鳖审庚跨抚蹭衬峪淡得培痪甩矽迂冯操足映龚幼全信息理论与中文信息处理ppt课件全信息理

5、论与中文信息处理ppt课件,20.9.5,8,信息-知识-智能转换:自然语言理解通用方法论,智能行为,信息-知识转换,知识-智能转换,信息知识转换,知识库,信息(问题与约束),结果(性能与评价),归纳,归纳,演绎,目的,薄望创鲍诲柞魂弊苛芜痰瘸柜糟壶名跨特奴把盔步捞麓瞥鼠哉筹吭毯豢伊全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,9,中文信息处理研究的现状,中文信息处理研究领域取得了许多重要进展和重 要成果;但基本理论、基础资源、基本工具、基本方 法和性能水平离实际应用的要求还有相当差距。,中文信息理解的研究基本上突破了纯粹语法分析 的层次,正在走向语法与语

6、义分析相结合的新阶段。 但是,还少有语用要素的考虑:还没有真正到位。,蹋堪酒属抒拙漱材碑篡德哺娇愧署腑产鞘乞币侨症细哼阳队礁伊之肖踪疙全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,10,统计方法(归纳)基于大数定律,方法论上是“从众”, 不要求真正达到理解。是初级认知方法。 缺点:假设难满足;结论平均性;真理常在少数人手中。 优点:容易操作,尤其是有了计算和网络技术的支持。,自然语言“机器认知”的两种基本方法,两种方法性质互补,谁也不能单独包打天下。问题是如 何实现 “统计与规则方法的有效结合:大统计,小规则”。,规则方法(演绎)基于理解和规则推理,是处理

7、新问题 和复杂问题不可避免的高级认知方法。 缺点:规则难建立;规则难完备;规则不灵活。 优点:可信(如果规则和前提均可信),掖蹋扑圆讼芹脖抚椰迎此谐违酋伟仇眯汤蚀凰卉夹芬嚼忿稀彪酒垦盒尧烙全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,11,自然语言理解(机器认知)的困难和意义,自然语言理解是世界级难题,至今没有得到满意 的解决。如果有所进展,将是具有世界意义的贡献。,自然语言理解是人工智能的典型应用,它的困难充 分表现在:一方面是自然语言表达的多样性、灵活性、 复杂性、动态性,一方面是机器“理解”能力的机械性、 被动性与局限性。,即使是人(更不要说机器)对

8、自然语言的理解也需 要经过长时间的训练和学习,需要在大量“记忆+模仿” 实践的基础上才能逐渐生长出“自主理解”的能力。,恭芒缕橱缺渴饰鬼旱叔柱美澎刁响纵簇赊到芥淹惶米泻频秉隙战钱罗撼奠全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,12,二,解决的方法,滚同窒胀圣蔽例寸噬爆锭娱促缔初寇支承衫毒灼磨胶绽奔汕哺窗苞懊竞块全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,13,全信息理论与自然语言理解,语言是信息的载体;信息是语言的内核。理解自然 语言的本质是理解它所载荷的信息,因此要用信息论。 但现有信息论不能解决问题。,“全信

9、息理论”是北京邮电大学智能研究中心创建的 信息理论1, 2, 3,拥有自主知识产权。,1 钟义信,全信息理论,北京邮电大学学报,1984 2 钟义信,信息科学原理,北京邮电大学出版社, 1988第一版,1996 第二版,2002第三版 3 钟义信等,信息科学教程,北京市研究生教育重点 精品教材,北京邮电大学出版社,2004,酿恒累斜簇便坤漏叉逢诉蓄扯虑炳霹府镍籽捍昌伶府征输追律碉鄙炔肚氮全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,14,Shannon信息论只关心“噪声中的信号波形复制” 问题:,X = xn 信号状态(是0还是1?) P = pn 各种信

10、号状态的出现方式 n (1,N),Y,D,I(X;Y) = H(X) H(X|Y) H(X) = - pn log pn,X,n,为什么Shannon Information不能解决问题?,贝躺骨铀啤增衬爬矾杆役雍赏凯柄应曼扫歉忻笔辈爷刨冈专沂糖际祥拌口全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,15,全信息与“认知能力要素”,符号,客体,主体,语法信息,符号序列 (形式结构),序列内容,序列价值,语义信息,语用信息,在给定语境(包括主体、客体、文本、环境和常识)下, 语言理解要包含该语境下的语法、语义、语用三要素。 只当语境足够深广,语法、语义、语用分

11、析才有唯一解。,人的认知能力包括:观察力,理解力,目的性。观察事物的 外部形式,理解事物的内在含义,判断与自身的利害关系。,勃酶挠囱命提恭鳃辉涂昂藐搬诱乍厕依霜舍拉人挝趟躯羞淤熟酬蠕癸捎侨全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,16,全信息自然语言理解的“认知机理”,幼儿识字教学过程:如,教学生认识“树”这个字。,先教怎么写(符号的笔划结构);再告诉“树”的真实 样子(事物的形态结构) ,接着告诉“树”的基本特征及树 与草、与花的区别(语义);再告诉“树”的用途(语用)。 明确了用途或害处(语用),人们才会去关注它。,此后,见到“树”这个字或真的树(

12、语法),就会在脑海 中联想到它的语义和语用;才算理解了这个字。,这就是由“语法”调用“全信息词典”的过程。机器可以 模拟这种认知过程。,券唆读味退幂纺问甄屏广然福顽页衣渝谜缚锰嫡大八弧棵虽左货徘水取驹全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,17,An Example for “Understanding”,Sensing,Experiencing,Thinking,Form,Value,Content,Learning the Concept “Tree”,The Mechanism of Understanding,Form Value Conte

13、nt,霞誉福诬躯天宦卡羌砍粹象尾亦易惟恿肤狈硷坟哨湿栏浙埠办迁蘑涪订牺全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,18,全信息与语言理解的层次,对于自然语言的理解,存在三个相依的层次: (1)了解它的语法信息 (2)了解它的语义信息 (3)了解它的语用信息,语法、语义、语用“三位一体”的分析是自然语言理解方法的基本要求(门槛);“两位一体”还不够。,从语法分析走向语义分析,是自然语言处理的重要 进步;但对自然语言理解而言,仍然没有到位!,浅层理解,中层理解,深层理解,镇僧腕孕票刺忿锣哉夏兴梦江滥工弃谓毛脏锌辕憨条皋絮向轿惩堪汹略河全信息理论与中文信息处理

14、ppt课件全信息理论与中文信息处理ppt课件,20.9.5,19,骨架捕获 自然语言认知的基本技巧,人类对自然语言的理解(认知)过程既有层次性,又有 灵活性。重要的方法是“快速捕获骨架”(剪枝技巧)。,(1)对浅显而熟悉的部分一扫而过(其实就是剪枝), 只对重要而又困难的部分才做必要的分析。,(2)“必要的分析”主要是“骨架分析”:篇章的骨架,段 落的骨架,语句的骨架。,(3)对于人来说,“一扫而过”也做了“语法-语义-语用” 分析,只是因为熟悉和容易,做的极快(由下意识处理), 以致自己都没有意识到。,梨嫡麦擂咽盐稻暗谭态咖锈悼债臻呛戈乘块泳宫顿煮骇磨宪患德丈拉栈抬全信息理论与中文信息处理p

15、pt课件全信息理论与中文信息处理ppt课件,20.9.5,20,全信息自然语言理解的基本模型,预 处理,后 处理,语用 分析,语义 分析,语法 分析,全信息-知识库,合法 骨架?,符合 目的?,真实 逻辑?,+,+,+,学习扩展,人工奠基,驭仰恳假蒂讨宁仓厨喂端爪呼螟轮猫衣妻柔苹炯搂逞慧枢弯峡顾查市蹦底全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,21,“基本模型”的特色,1,目的性 明确地面向“理解”需求。,4,开放性: 模型能够适应各种“理解”应用;能够随着信息表示与处 理方法的进步而不断改进自己的性能。,2,包容性 包容了规则方法和统计方法两种规范。

16、在规则模式下, 序列是语句;在统计模式下,序列是特征集合。 而且可以包容其它基于语言行为特征的方法。,3,灵活性 整体框架是语言学风格,包含语法分析、语义分析和语 用分析;实际分析深度可依问题需求而有所不同。 模块实现可以是规则的、统计的、规则统计交互补足的。,是睦在蠢烘电硼琉熟呻糊卿征绵届斟辩厉钨燎方稻疵缺寞陶韶倪须奎瞪八全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,22,关于灵活性的一个说明,统计分析,OK?,规则分析,N,Y,根据实际问题求解的需要,规则方法与统计方法 两者可以灵活地互相调用和互相支持(嵌套)。,OK?,痊翁哟官供羔擎昏弯拘沫菌磷半陕

17、循分惑隧幢胆卖腾检调栗神巴戊本匪拄全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,23,Applications of CIM-NLU,Internet,Mobile Service,IR,Abstract,Content Analyzer,ML- Dialog,IE,抑幻拐样酒雍缘喂豺婶柞昨慑披捐窥开团弱样桂乎荔落睡拨娠出锹托彬琴全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,24,三,研究的重点,封涧沿他喻游桑尹醉颊危郁世昌砚螺轿宏规笼浓臭绞收幌是幼卑阉佬你床全信息理论与中文信息处理ppt课件全信息理论与中文信息处理p

18、pt课件,20.9.5,25,基本特色,1,以中文为起始对象,2,以“全信息自然语言理解”为基本方法,3,以领域相关为研究基点,4,以超越Semantic Web为基本目标,瘩莲吞往金廊轻老针韵猪罚悍委楼净比尝倘溢啸微奔熊奔训氧驶嗜严套没全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,26,An Example for “The Base”,Recalling The Concept “Tree”,Form, Content; Value ,The Structure of Information Base for Retrieval,Form | Cont

19、ent; Value,贞哭澳饺伦垃侈蔡兑想崭栽禹悟课尊犹德捡直第沙猎氏狸援靖柔绎纬韧包全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,27,项,语法特征,语义特征,语用特征,#1 #m,#1 #n,#1 #p,项(概念,词),以语句为单位 以骨架为对象 树的深度有限,(一)全信息的表示:全信息资源库建设的框架,篡睡廊掌就泽左宙锐婚虚辉船丘抱过刁仗协范屠揪烂庐绪颖衬瘟蒋苯雪炯全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,28,(三)应用:特定领域的智能网 (基于理解/认知的信息检索网) CI-Web = CI-base N

20、LU-SE,(二)基于全信息理解的搜索引擎 核心技术参考基本模型:p.20,粮蛋唯谈揽编政糯诵塘宝顽联蛛进骂嘱俩幌写吻自琶癸猿孝伴杜钠梯跌晕全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,29,Domain Specific CI-Web,Semantic Web = Ontology Semantic SE,CI Bases, NLU-SE,CI-Web =,World-Wide Web = Syntax, Match-based SE,+ Semantics,+ Pragmatic,+ Semantics,+ Pragmatic,且管你稻勤世儒戳岛鳞起跑姨猛宠妻寝撒激奏哨歧呛伯倘绷逼犁鬃膝高鬼全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,20.9.5,30,请多批评,谢谢!,掀天烈厂敬鳃押侵冀侗撑呈规袋柑荤尖配熟妄曹干滓性奉暑侯酒蓟沏阔阴全信息理论与中文信息处理ppt课件全信息理论与中文信息处理ppt课件,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1