从基于规则的两类语句的自然语言处理看词库和规则之间的张力ppt课件.ppt

上传人:本田雅阁 文档编号:2298435 上传时间:2019-03-18 格式:PPT 页数:42 大小:313.01KB
返回 下载 相关 举报
从基于规则的两类语句的自然语言处理看词库和规则之间的张力ppt课件.ppt_第1页
第1页 / 共42页
从基于规则的两类语句的自然语言处理看词库和规则之间的张力ppt课件.ppt_第2页
第2页 / 共42页
从基于规则的两类语句的自然语言处理看词库和规则之间的张力ppt课件.ppt_第3页
第3页 / 共42页
亲,该文档总共42页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《从基于规则的两类语句的自然语言处理看词库和规则之间的张力ppt课件.ppt》由会员分享,可在线阅读,更多相关《从基于规则的两类语句的自然语言处理看词库和规则之间的张力ppt课件.ppt(42页珍藏版)》请在三一文库上搜索。

1、2019/3/18,从基于规则的两类语句的自然语言处理看词库和规则之间的张力,上海外国语大学语言研究院 金立鑫,2019/3/18,1,引子:自然语言处理的两大思路,基于概念网络或语料库的(经验主义的,Claude Shannon,Schank): 宾州大学树库(UPenn Treebank )最初版本(PTB-1)标注词类和句法骨架树信息;扩充版本(PTB-2)增加了语义标记信息和命题库(PropBank),最近在PTB-2 上标注完整的谓词-论元(Predicate-Argument )关系标记,从句法向语义过渡。(周强,2003),2019/3/18,基于规则的(或理性主义的),Chom

2、sky,Herbert Simon Logic Theorist证明了数学原理一书第二章52个定理中的38个定理。 自动机原理 输入词串,从左到右扫描,扫描到词节点时查询词典获得特征信息,同时进行规则匹配,根据规则进行合并操作或上升操作,匹配成功则生成并输出句法树。(王鹏 等,2003),2019/3/18,2,词库和规则之间的张力在哪儿?,两种思路都离不开“词库”或“知识库” 如何确定知识库中的“基本单位”? 基本单位的“属性”描写的下限在哪儿? 串联和并联该如何互补或有机结合? 规则要求词库中必须具备哪些属性? 下面从以“同步组块”为基础理论设计的一个基于规则的处理方法和处理效率上看词库和

3、规则(或并联与串联)的间的互动(互补)关系,2019/3/18,假设:以“词典词”为基本单位:,上海,外国,大学,的,张,老师,昨天,在,上海,书,买,了,一,本,语法,书,1,2,1,1,2,1,2,3,4,5,4,4,5,5,5,51,语,2,买了 上海外国语大学的张老师 昨天 在上海书城 一本语法书,5,城,2019/3/18,下面的问题在语言学中并没有得到细致描写:,哪些名词性单位能与“语”组合? 哪些名词性单位能与“大学”组合? 哪些名词性单位能与“老师”组合? 哪些名词性单位能与“城”组合? 哪些名词性单位能与“书”组合? 如果不是“语法书”,而是: 一背包书:“一背包”不是词典词

4、 一桌子书:哪些名词可以直接与“一”组合? 一床书,一地书,一沙发书,一冰箱书 *一花盆书,*一鞋子书,*一瓶书,*一黑板书,2019/3/18,把它们直接收入“词库”做整体描述,实际上是对“规则”研究不足的弥补 老师:规则或许能处理,而且效率高,开销小,否则如果用词库处理开销太大 大学? 城? 语? 到底哪些用“规则”处理效率更高开销更小,哪些直接收入词库效率更高开销更小?,2019/3/18,类后缀,规则控制? 迷,吧,鬼,秀,手,头,门,坛,界,苑,,2019/3/18,词库与规则互补,根据语法规则:“旧朋友” “修理衣服” 是合格的,但不合词库规则 根据词库规则:“病态人” “很激动老

5、朋友” 是合格的,但不合语法 一头雾水:用规则处理过程可能相当复杂,词库处理或许更简单 自然习得单位还是理论单位?(固化程度较高的,或词汇化、语法化程度较高的单位不适合规则处理),2019/3/18,例子一:,你听我跟你说,那天小雨走了之后 事情是这样的,那天小雨走了之后 你听我跟你说,事情是这样的,那天小雨走了之后 照理说,小雨走了之后/*这次会议很有意思 照我看来,这次会议很有意思 *俗话说,小雨走了/这次会议很有意思 *常言道,小雨走了/这次会议很有意思,2019/3/18,例子二:,不瞒你说,那天小雨走了之后 实不相瞒,那天小雨走了之后 说真的,那天小雨走了之后 说句心里话,那天小雨走

6、了之后 说句不客气的话 说正经的 理论上、名义上、一定程度上、原则上,2019/3/18,实际上这些固定的插说语都是自然习得单位,它们可以依据不同的表义功能或语篇功能进行不同抽象程度的描写或定义。收入词库或许效率更高。例如: (以下为上海师范大学潘晓军的博士论文固化插说成分的关联化与情态化中列举到的语料和分类),2019/3/18,固定插说语菜单,评注性插说语 (传信类:表信息来源,表信息可靠,表信息阐述;情态类:表客观情态,表主观情态) 关联性插说语 (并列类:并同,对比,时序);(主从类:总结,条件,进退,转折或因果) 以上均可在词库中描写而不必用规则推导,2019/3/18,直接来源:

7、据我看,据我所知,恕我直言,听我说(你听我说,你听我跟你说),我觉得,我看,我认为,我说,我想,我要说的是,要我看,要我说,依我看,依我说,以我之见,照我看,照我说,找我来看,在我看来 间接来源: 按说,按理,按理说,常言道,传说,话说,据称,据说,据闻,据悉,老话说得好,且说,却说,俗话说,一般说,相传,有道是,照理,照理说,照说,照看来,2019/3/18,言真: 不瞒你说,老实说,凭良心说,实不相瞒,实话说,说老实话,说良心话,说实在的,说心里话,说真的,坦白说,坦率地说 言实: 公平地说,客观地说,实际上,实质上,事实上,说句公道话,2019/3/18,补充:补充说几句/几点/一下,附

8、带说一句/一下,顺便说一句 列举:比方说,比如说,就来说,局来说,拿来说,比如说,以为例 换言:等于说,换句话说,换言之,或者说,就是说,事情是这样的,也就是说 方式:长话短说,广义地说,简单地说,具体说来,确切地说,说句不客气的话,说来话长,说正经的,嫌疑地说,相对说,严格来说 范围:表面上,从一定程度上来说,大体上,大致上,基本上,理论上,名义上,原则上,在一定程度上,2019/3/18,客观情态 一定:不用说,果不其然,毫无疑问,很显然,毋庸置疑,显而易见 大概:据此,据此看来,据此可见,据此可知,那么说,如此说来(看来,想来),由此,由此观之,由此看来,由此看见,照这样说来,这么说(这

9、么,这样),这样一来 可能:充其量,看起来,看上去,看样子,少说,2019/3/18,主观情态 评价:不幸的是,更重要的是,令人感到吃惊/高兴/惊奇/欣慰的是,说来,说来也巧(怪/可笑/有意思),幸运的是,有讽刺意味的是,值得注意的是,不知怎么的,不知怎么回事,说什么好呢,怎么说呢,不是我说你,看我,你看你,你呀你,你也真是的 建议:不妨说,最好是,好不好,是不是,对不对,你也不想想 能力:可以说,应当说,应该说,2019/3/18,并列类 并同:除此之外,此外,无独有偶,相应地,与此相应 对比:比较而言,反过来看,相比而言,相比之下,相形之下,与此相比,与此相反,与此相仿,与此相似,与此相同

10、,与此相左 时序:刹那间,猝然间,顷刻间,突然间,忽然间,紧跟/接着,猛然间,偶然间,悄然间,2019/3/18,主从类 总结:简而言之,要言之,一句话,一言以蔽之,总的来看,总的来说,总的说,总起来说,总体而言 条件:不论/不管/无论如何。不论/无论/不管怎么说,不然/否则的话,尽管/即便/即使如此,要不然的话,要不是,这样/那样的话,再怎么说 进退:甭说,别说,不必说,不要说,诚然如此,更有甚者,尤为重要的是,话又说回来,话虽如此,进一步说,理是这个理,话是这么说,推而广之,退一步说 折转和因果:其实不然,虽然说,是因为,所以说,之所以,2019/3/18,所有这些固话插说短语都可以作为整

11、体生成输出,甚至直接对应于外语中的某些功能相同或相近的插说成分(汉外插说成分单位之间的功能异同或表义异同还需要对比研究和描述) 但是,这些插说成分或多或少都有不同程度上的变异,并没有完全固话到类似“成语”的程度,这些变异在词库中需要处理。,2019/3/18,“构式”意义的描述:规则还是词库?介于二者之间?(变项是开放的,常项是稳定的) 不要太X 被X(神经病、代表、墙、就业、和谐、自愿、增长、慈善,自杀、死亡、失踪、出世、发达、辞职、捐款、小康、学习、省钱、小三、合法、幸福、涨工资、中产、结婚、爱心、高雅) VP的心都有了(VP表示消极意义的?) 也就一NP 刘丹青(2009),2019/3

12、/18,3,只有标注是不够的,如果一个系统只能“标注”或“分析”一个现成的现实世界中的句子,而无法判断一个句子是否合格或无法生成一个句子,该系统不能说是令人满意的。 自动翻译需要生成(再大规模的语料库恐怕都不可能在两种语言的“句子”之间进行严格匹配) 机器人的自动应答系统需要生成,2019/3/18,1a我知道克林顿 1b我认识克林顿 1c我了解克林顿 2a我知道上海的甜爱路 2b我认识上海的甜爱路 2c我了解上海的甜爱路,1a我知道这件事情 1b*我认识这件事情 1c我了解这件事情 2a我知道这个道理 2b*我认识这个道理 2c我了解这个道理,有些描写是绕不过去的,语法规则无法处理1b和2b

13、,2019/3/18,我知道上海的甜爱路,我认识甜爱路 我知道上海的甜爱路,但我不认识甜爱路 我知道上海的甜爱路,我了解甜爱路 / 但我不了解甜爱路 我认识上海的甜爱路,我知道甜爱路 我认识上海的甜爱路,但*我不知道甜爱路 我认识上海的甜爱路,我了解甜爱路 / 但我不了解甜爱路 我了解上海的甜爱路,我知道甜爱路 我了解上海的甜爱路 ,*但我不知道甜爱路 我了解上海的甜爱路,我认识甜爱路/*但我不认识甜爱路,词库需要对三者的差别做出描述,否则无法解释,2019/3/18,“了解”“认识”“知道” (邵菁,2009) 同义词或近义词的语义差别也应该在词库中得到描写 詹卫东:颗粒度更细的语言知识,2

14、019/3/18,陆续 vs 不断 1.最近,不断传来好消息。(?陆续) 最近,陆续传来三个好消息。(*不断) 2.他们公司今年不断推出新产品。(?陆续) 他们公司今年陆续推出了三四种新产品。(*不断) 3.我不断听到一些他在国外的情况。 我陆续听到一些他在国外的情况。,2019/3/18,4.考察的人不断到达上海。 考察的人陆续/陆陆续续到达上海。 5.演出还没结束就不断有观众离开剧场。 演出结束后,观众们陆续/陆陆续续离开剧场。(*不断) 6.他的汉语水平不断提高。(*陆续) 一放寒假同学们都陆续/陆陆续续回家了。 (*不断),2019/3/18,不断:连续不间断。陆续:表示有先有后,时断

15、时续。用“不断”时,强调“多”,“陆续”没有这个意思。 用“陆续”的句子中,如果宾语是普通名词,一般需要用表示数量的词语。用“不断”的句子不需要。 “陆续”能重叠,“不断”不能重叠。 (邵菁,2010),2019/3/18,注意 vs 小心,1. 同学们朗读课文的时候要注意发音和声调。 (*小心) 吃这种鱼的时候要小心鱼刺。(?注意) 2. 工作越忙你越是要注意身体。(?小心) 小心睡过头。(*注意) 3. 上下山时大家一定要注意安全。 (*小心) 上下山时大家一定要小心(摔倒)。(*注意),2019/3/18,4. 路上人多车多,开车一定要注意。 路上人多车多,开车一定要小心。 5. 她做事

16、一向很注意,生怕给人留下不好的印象。 她做事一向很小心,生怕出差错。 6. 妈妈一时没注意,小孩就把牛奶打翻了。 (*小心) 我一不小心摔了一跤。(?注意),2019/3/18,“小心”后的“对象”是不好的结果或危险的事情,“注意”的对象不是。 “注意”是把意志集中在某一方面,“小心”是留神、谨慎。 (邵菁,2010),2019/3/18,1)Colorless furiously green sleep ideas. 规则和词库都可以排除以上非句 2)Colorless green ideas sleep furiously. 似乎词库单独也可以排除以上非句 3)She is a block

17、 of ice / 扭断句法的脖子 (词库和规则如何运作?),4,修辞句理解中的规则和词库,2019/3/18,She is a block of ice. 她是一块冰 我们可以认为,说话人形式上表达的是S is P,但实际上要表达的却是S is R。现在所谓问题是,听话人为什么不会理解为S is P,而一定理解为S is R,他是如何将P和R联系起来的?,2019/3/18,(1)系统假设说话人遵循了会话合作原则; (2)根据低层次的语法或逻辑规则,该结构无解; (3)系统相信(1),因此必须寻求低层次以外的语法或逻辑规则的解释; (4)方法: I,提取S和P(上位概念)的语义特征; II,

18、寻求S和P语义特征之间的相似匹配 III,将S与P相似匹配中的语义特征 (R) 赋予给P IV,S is P获得解释:S is R,2019/3/18,问题没那么简单,“你的微笑,编织了每一个奇妙。” “编织了奇妙”? (1)同样有理由相信说话人遵循了会话合作原则 (2)查“编织”的“句法选择限制规则”: HUMAN _NP, -ABSTRACT, +Result (3)“微笑”为-HUMAN,与规则不符 (4)根据(1)和(2)将HUMAN临时赋予“微笑” (5)查V后NP“奇妙”的句法特征为:ABSTRACT,与规则不符 (6)根据(1)和(2)将-ABSTRACT临时赋予“奇妙”,201

19、9/3/18,(7)查V后NP的句法特征为:V+NP,Result (8)根据(1)和(2)将Result临时赋予“奇妙” (9)根据(4) (6)和(8),得: 你的微笑(拟人)编织了每一个奇妙(拟物+结果),2019/3/18,问题远不止这么简单,扭断语法的脖子!(某文学家) “什么时候雨的温柔又来摇醒那沉睡的伤口。”(十字路口) “我把梦撕了一页,不懂明天该怎么写。”(撕夜),2019/3/18,扭断语法的脖子! (1)有理由相信说话人遵循了会话合作原则 (2)查“语法”和“脖子”的特征,无任何交集 (3)回溯,查“V断”,得: VR动词 查VR动词句法结构特征,得:VR+Patient

20、(受事) (4)赋予“X的脖子”为VR的Patient特征 (5)得:扭断=VR,X的脖子=Patient (6)查词库:扭断(VR) X的脖子 (Patient) =杀死X (7)“扭断X的脖子”=杀死X,将X代入,得(核心意义): 杀死语法 (不要语法),2019/3/18,问题: 以上理解过程如何通过规则和词库实现? 词库中需要添加哪些属性项目以保证这类句子的理解?,2019/3/18,5,小结,追求规则似乎是语言学家不可抑制的冲动,但很多情况是:面对词汇化程度较高或有一定语法化程度的相对固定的单位,用规则来推导,其复杂度可能难以承受 一味扩张词库容量,也会带来极其繁琐的几乎是无穷尽的描写 临时的句法组合和句法修辞的理解规则需要开发,词汇化程度较高的组合和句法构式或许需要同时作规则和词库的开发。,2019/3/18,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1