基于词义的汉语排歧方法研究.pdf

上传人:小小飞 文档编号:3581548 上传时间:2019-09-13 格式:PDF 页数:77 大小:1.84MB
返回 下载 相关 举报
基于词义的汉语排歧方法研究.pdf_第1页
第1页 / 共77页
基于词义的汉语排歧方法研究.pdf_第2页
第2页 / 共77页
基于词义的汉语排歧方法研究.pdf_第3页
第3页 / 共77页
基于词义的汉语排歧方法研究.pdf_第4页
第4页 / 共77页
基于词义的汉语排歧方法研究.pdf_第5页
第5页 / 共77页
点击查看更多>>
资源描述

《基于词义的汉语排歧方法研究.pdf》由会员分享,可在线阅读,更多相关《基于词义的汉语排歧方法研究.pdf(77页珍藏版)》请在三一文库上搜索。

1、南京理工大学 硕士学位论文 基于词义的汉语排歧方法研究 姓名:刘亚清 申请学位级别:硕士 专业:情报学 指导教师:陈次白 20040701 硕士论文 基于词义的汉语排歧方 击研究 摘要 一词多义是普遍存在的语言现象,但在具体的上下文中一个词语就只有一个 确定的意思,如何在具体的语言环境中确定多义词的词义是词义排歧所要研究的 内容。本文主要针对汉语词义排歧的问题做了相关的探讨。首先给出了词义排歧 研究的目的及其意义,接着根据排歧时所使用的不同的知识源介绍了目前比较常 用的几种词义排歧方法,并对其中一些典型的方法做了较为详细的讲解;然后借 助句法分析树,运用“中心词关联法”来提取表征多义词词义能力

2、较强的特征词; 在此基础上,通过计算多义词每个词义与特征词之间不同义原的相关系数,提出 了一种基于义原同现频率的词义排歧方法。最后,根据本文所讨论的主要内容提 出了一种汉语词义排歧系统的开发思路,并对其中一些模块进行了代码实现。 关键词:词义排歧,特征词,句法分析树,中心词关联法,义原 堡圭丝奎 堇三塑墨塑望堕塑些互鲨! ! 塾 A b s t r a c t I ti sau n i v e r s a lp h e n o m e n ai nt h el a n g u a g et h a taw o r dp o s s e s s e sm a n ys e n s e s , b

3、 u tw h e naw o r di si nt h ec o n t e x ti to n l yp o s s e s s e sac e r t a i ns e n s eI ti st h ep r i m a r y s t u d i e dc o n t e n ti nt h ef i e l do fw o r ds e B s ed i s a m b i g u a t i o nh o w t oc o n f i r mt h es e n s eo f aw o r di nt h ec o n t e x t W o r ds e n s ed i s a

4、 m b i g u a t i o no fc h i n e s ew i l lb ed i s c u s s e di nt h i s t h e s i sT h ea u t h o ri n t r o d u c e st h ea i ma n dm e a n i n go fw o r ds e n s ed i s a m b i g u a t i o no f c h i n e s ef i r s t l yI n s u c c e s s i o n ,T h e a u t h o rn a r r a t e ss e v e r a lm e t

5、h o d so fw o r ds e n s e d i s a m b i g u a t i o n a n d e x p l a i n s t h et h e o r i e so fs o m e t y p i c a l m e t h o d sa t l e n g t hA f t e r w a r d s 。A tt h eb a s eo f p a r s i n gt r e e ,t h ea u t h o rU S e Sa s s o c i a t i n gh e a d w o r d m e t h o dt od i s t i l lt

6、 h ec h a r a c t e rw o r d st h ea b i l i t yo fw h i c hi ss t r o n gi ne x p r e s s i n gt h e s e n s e so f a m b i g u o u sw o r d ;A f t e r w a r d s ,t h ea u t h o rb r i n gf o r w a r d sak i n do fm e t h o do f w o r ds e n s ed i s a m b i g u a t i o nw h i c hi sb a s e do nt h

7、 es i m u l t a n e o u sa r i s e nf r e q u e n c yo f p r i m i t i v eb yc a l c u l a t i n gt h er e l a t e dm o d u l u s e so fp r i m i t i v eb e t w e e nt h es e n s e so f a m b i g u o u sw o r da n dc h a r a c t e rw o r d s A tl a s t ,t h ea u t h o rp u tf o r w a r d st h ei d e

8、 ao f e m p o l d e r i n g a s y s t e mo f w o r ds e n s ed i s a m b i g u a t i o na c c o r d i n g t h ep r i m a r yc o n t e n to f t h et h e s i sa n ds o m e c o d i n ge x p e r i m e n t so f h s c o r em o d u l e sa r ec o n d u c t e d K e y w o r d s :w o r d s e n s e d i s a m b

9、i g u a t i o n ,c h a r a c t e rw o r d s ,p a r s i n gt r e e ,a s s o c i a t i n g h e a d w o r d m e t h o d ,p r i m i t i v e y 6 2 5 2 8 2 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在 本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发 表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学 历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均 已在论文中作了明确的说明。 研究生签名:垫l 垩亟

10、2 一,乒年t n 厂日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅 或上网公布本学位论文的全部或部分内容,可以向有关部门或机构送 交并授权其保存、借阅或上网公布本学位论文的全部或部分内容。对 于保密论文,按保密的有关规定和程序处理。 研究生签名:垫f 垩透知一笋年月细 1 绪论 1 1 词义排歧研究的背景、意义 在自然语畜中,无论是汉语或者是英语,词是能够独立运用的最小符号,人 们对句子的理解往往基于对组成句子的词的理解。如何让计算机能够理解人类的 语言以及在理解的基础上进行人机交流是自然语言处理领域所要研究的问题。所 谓自然语言处理就是利用计算机技术研究

11、和处理语言的一门学科,即把计算机作 为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提 供可供人与计算机之间能共同使用的语言描写“1 。作为自然语言处理的一个方 面,中文信息处理研究的科目包括:词的切分和频率统计、汉语语义的研究、汉 字识别、汉外外汉机器翻译等二十多个科目“。本文研究的则是汉语词义排歧这 一子课题。 1 1 1 词义排歧的定义 在自然语言中,一个词汇往往存在多个词义,称为词的多义性。在英语中, 例如:“o l d ”有“年老的”和“陈旧的”两个义项。在汉语中,“材料”有 “可以直接造成成品的东西,如建筑用的砖瓦、纺织用的棉纱等”;“可供 写作或参考的事实或文

12、字材料”;“比喻适合做某种工作的人”三个义项。虽 然多义词具有多个词义,但每个多义词在具体的语言环境中往往只有一个确定的 词义。例如:“铁是金属材料。”,在这个句子中,“材料”的词义应该是“可 以直接造成成品的东西,如建筑用的砖瓦、纺织用的棉纱等”。 词义排歧就是指在特定的上下文环境中确定多义词的词义】,也就是说使计 算机能够在特定的语言环境下判断出多义词的词义。 1 1 2 词义排歧的的理论前提 如前所述,词是理解句子的基本单位。但是由于中文文本是按句连写的, 词与词之间没有任何分隔符,因此词义排歧的第一个理论前提就是对句子进行分 诃处理a 例如:“小明正在看电视。”,经过词语切分后,该语句

13、就划分为“小 明) 正在 看j 电视1 ”。 分词后的句子还要经过词性标注,词性标注是进行词义排歧的第二个理论 前提。词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标 注的过程。词性标注的主要意义在此不多叙述,之所以把词性标注称为第二个 理论前提是因为经过词性标注后可以排除那些由于词性不同而具有不同词义的 词语,这些词不是本文所讨论的内容。 1 1 - 3 调义排歧研究的现状 国外研究的现状:最早人们使用手工编制的规则作为词义排歧的知识源对多 义词进行排歧。由于手工编写规则费时费力,存在严重的知识获取的“瓶颈”问 题,因此,进入2 0 世纪8 0 年代以后,人们借助各类词典作为

14、知识源对多义词进 行排歧。L e s k 等人使用词典中的释义文本作为知识源来判断多义词在特定上下 文中的词义j 。G a l e 等人利用双语对照词典来帮助多义词排歧。R i v e s t 提出决 策表的有指导词义排歧方法1 。Y a r o w s k y 提出自举的无指导的词义排歧方法“ 。 近些年来,随着计算机存储容量和运算速度的不断提高,通过使用各种机用资源 和大规模语料库,计算机能够自动获取各种动态的搭配知识及其统计数据,加之 语料库在选材入库上比较容易,并具有覆盖范围广和词汇量大等优点,基于语料 库统计的词义排歧方法越来越受到人们的欢迎。G a l e 与C h u r c h

15、 ”等人利用双语 语料库对多义词进行排歧。进入2 0 0 0 年,词义排歧的研究叉达到了一个新的阶 段。cd eL O U P Y “8 1 等人利用句法分析树进行词义排歧,E A G I R R E 等人综合运 用有指导和无指导的排歧方法对多义词进行排歧,S E O N G - B A EP A R K 等人利 用决策树进行词义排歧另外J E R E M YE L L M A N “、J O H NC A R R O L L 。j - 。等人 也各自提出一些词义排歧的方法并且取得了一定的效果。 国内研究的现状:汉语词义排歧研究起步较晚,从2 0 世纪9 0 年代以后才开 始,研究方法主要是利

16、用语义词典提供的信息。较早涉及词义排歧研究工作的是 清华大学计算机系的黄昌宁、童翔,它们利用同义词词林中的语义分类,对 汉语合成词中的单字进行语义标注”。此后,L A M 结合现代汉语词典中的 释义信息和同义词词林的语义分类对实词多义词进行词义排歧,。哈尔滨工 业大学的刘小虎从机器翻译的角度对词义排歧方法做了详细的介绍。清华大学 计算机系的李涓子等利用现代汉语辞海中提供的搭配实例提出一种自组织的 词义排歧方法”,鲁松提出一种利用向量空间模型的无指导词义排歧方法“,清 华大学的郑杰等人开发出一种根据单词与语境之间的关系以消除单词语义歧义 的模型“。另外,董振东“1 1 先生、北京大学的王惠“、詹

17、卫东“”教授等也对词义 排歧工作做出了大量的贡献。山西大学计算机系、厦门大学计算机系也分别对汉 语词语的义项标注、英汉机器翻译等领域中的词义排歧方珐进行了大量的研究。 总的说来,到目前为止,不管是基于规则的方法,还是基于词典资源或者大 规模语料库的方法;不管是有指导的词义排歧方法还是无指导的词义排歧方法以 及自组织的词义排歧方法“,无论哪种方法都没有很好地解决词义排歧问题。其 中一个很重要的原因就是应用上述方法对多义词排歧时所使用的上下文中的特 征词存在着严重的“信息噪音”,不能很好地过滤这些“信息噪音”是导致排歧 质量不高的一个非常重要的因素。 1 1 4 词义排歧研究的意义 自然语言处理领

18、域中的许多子课题之间的联系非常紧密。词义排歧作为自然 语言处理领域的一个组成部分,它扮演着承上启下的角色,是大多数自然语言处 理任务中的一个必不可少的中间层次,在自然语言处理领域中起着重要作用。词 义排歧不是自然语言处理的最终结果,而是自然语言处理中不可缺少的一个环 节,其应用至少包括如下领域”: 机器翻译:机器翻译作为词义排歧一个重要的应用领域,其为源语言文本找 到目标语言的对等文本。而词汇的歧义可以说是机器翻译的最大障碍,词义排歧 质量的高低直接决定着机器翻译的质量。例如:“b a n k ”在汉语中对应着两个目 标词“银行”和“河岸”,计算机在对“b a n k ”进行翻译时,必须能够根

19、据该词 的上下文环境确定该词属于哪一个汉语义项,这样才能得到正确的翻译结果。 信息检索:通过检索关键词查找信息时,人们只需要得到与该词汇某一个词 义相关的信息,这样可以提高信息的检准率。人们在通过互联网检索信息时,经 常会得到一些毫不相关的大量的垃圾信息。通过词义排歧就可以缩小用户的检索 范围,提高信息检索的效率。例如:在通过单词“b a n k ”查找财经类资料时,词 义排歧模块应使检索系统检索出词义为“银行”的信息,而舍弃词义为“河岸” 的文本。 主题内容分析和文本处理:如文本分类、信息抽取、自动文摘和辅助写作等。 只有对文本中的多义词排歧,明确单词所表示的概念,才能正确分析文本及句子 的

20、概念和主题”“。 语音处理和文语转换:这类任务往往同时涉及语音和文字的处理,语音识别 中同音字的识别和语音合成中语音的校正都离不开词义排歧“。 另外,当词义排歧被引入语法分析或句法分析中,将在一定程度上有效遏制 语法或句法的歧义现象,缩小分析的范围,从而改善分析性能。 1 2 论文的组织 本文主要研究能够有效表征多义词词义的特征词的提取以及相应的词义排 硕士论文基于词义的汉语排歧方法研究 歧方法,全文可分为七部分: 第一部分是绪论,概括性的介绍了词义排歧的定义、研究现状、研究意义及 其进行词义排歧的理论前提等,突出了词义排歧在自然语言处理领域中的地位及 其重要性。 第二部分对目前词义排歧的研究

21、方法进行了综述。首先介绍了词义排歧的发 展历程,然后给出了词义排歧的模型;在此基础上,详细介绍了基于B a y e s 判别 的方法、基于词典释义的方法、基于义类词典方法等方法的原理、应用及其评价。 为了能够更好的理解特征词的提取原理,文章在第三部分主要了介绍了句法 分析树的建立过程。首先说明了引入句法分析树的目的,接着介绍了对一条汉语 甸子进行句法分析时所用到的分解规则表,最后详细介绍了生成句法分析树的过 程并给出了相应的算法描述。 第四部分首先对以前各种排歧方法傲了个简单的总结,指出这些方法的不足 在于表征多义词词义的特征词没有得到有效的抽取;然后在句法分析树的基础 上,运用“中心词关联法

22、”来对表征多义词词义的特征词从源句中进行有效的抽 取,并给出相应的算法描述。 第五部分首先从本文需要的角度出发,概括性的介绍了董振东先生的知 网,然后利用义原同现频率矩阵,通过计算待排歧词与特征词的相关系数来实 现对多义词的排歧。 基于上述理论,论文的第六部分给出了一个汉语多义词词义排歧系统的模 型,并对模型中各个模块的实现思想作了简单的介绍。最后以C 语言作为开发 工具,以W i n d o w s 2 0 0 0 作为开发平台,实现了一个模拟的汉语词义排歧系统。 最后一部分是结束语,首先对论文的工作作了总结,然后对下一步工作提出 了进一步的设想。 4 硕士论文 基于词义的汉语排歧方 击研究

23、 2 词义排歧方法综述 2 1 词义排歧方法的发展历程 词义排歧一直在自然语言处理领域中占有重要的地垃,但由于种种原因其发 展的速度的远远落后于自动分词、词性排歧等其它研究课题。随着计算机性能的 逐步提高,尤其是存储容量和运算速度的飞速提高,人们对词义排歧的研究达到 了一个新的高度,出现了许多新的排歧方法和理论。总的说来,词义排歧方法经 历了基于规则的词义排歧方法、基于词典的排歧方法、基于语料库的排歧方法。 其中,基于规则的排歧方法和基于词典的排歧方法可归纳为基于理性的排歧方 法;基于语料库的排歧方法又可称为基于经验主义的排歧方法,即统计方法。 2 2 词义排歧方法综述 在论述排歧方法之前,有

24、必要来认识词义排歧模型的组成。通常一个词义排 歧模型由以下四个部分组成“: ( 1 ) 排歧时所使用的知识源:这一部分主要是给词义排歧方法提供必要的 知识信息,它是任何种词义排歧方法的基石,其种类包括编制的规则、词典、 语料库等。 ( 2 ) 词义排歧方法:这一部分是指进行词义排歧时所采用的排歧策略。 ( 3 ) 词义排歧的决策模型:判定多义词在具体上下文中词义的方法称为词 义排歧的决策模型根据排歧时所使用的上下文的特征词的个数,可分为单特征 决策模型和多特征决策模型”。 ( 4 ) 排歧效果评价:通过一定的指标来对排歧的质量进行评估。常用的评 价指标有“召回率”和“正确率”“。召回率反映了一

25、种排歧方法对多义词的适 用范围,正确率则反映了排歧方法对多义词排歧的正确程度。 上述四个部分中,词义排歧方法与词义排歧的决策模型是词义排歧模型的核 心。下面从词义排歧所使用的不同知识源来对词义排歧方法进行阐述。 2 2 1 基于手工编制规则的词义排歧方法 最早进行词义排歧所凭借的知识源是由一些专家学者根据自己已有的知识 来编写排歧规则a 排歧时,依据这些编制好的排歧规则,将满足规则限制的词义 标注给多义词a 基于手工编制规则的词义排歧方法的特点是这些由专家编制的规 硕士论文基于词义的汉语排歧方 击研究 则是针对词义排歧而准备的,因此它和词义排歧的方法具有很好的“连接性”。 例如:啥尔滨工业大学

26、的李生教授就曾在英汉机器翻译系统中采用这种排歧策略 f 。 但是这种方法的缺点也是显而易见的:由于排歧规则是由人工编写的,每个 专家对语言的认知程度不可能完全相同,因此这样编制的规则不可避免的存在主 观性和不一致佳;加之编写排歧规则的每个专家不可能完全穷尽实际用到的所有 排歧规则,因此在实际排歧过程中不可避免的存在知识获取的“瓶颈”问题。基 于手工编制规则的词义排歧方法并没有得到进一步发展。 2 2 2 基于词典的词义排歧方法 为了克服手工编写排歧规则的种种缺点,含有丰富语言知识信息的词典资源 成为另一个重要的排歧知识源。 2 2 2 1 利用词典中的释义文本进行排歧H “ ( 1 ) 引言

27、利用这种方法排歧的理论假设是词典中的所有词条的每一个义项释义中的 词与被释义词之间在意义上存在密切的搭配关系。如词条“材料”在现代汉语 辞海中的解释为: 材料: 可以直接造成成品的东西,如建筑用的砖瓦、纺织用的棉纱等。 可供写作或参考的事实或文字材料。 比喻适合做某种工作的人。 在词义的释义文本中,释义词“造成”、“成品”、“建筑”、哳等瓦”、 “纺织”及“棉纱”与被释词之间存在一定的搭配关系;它的词义与释义词 “写作”、“参考”、“事实”及“文字”和“资料”有意义关系;而词义与 释义词“做”,“工作”和“人”存在意义联系。由此看出不同词义有不同的释 义词,可以将这些不同的释义词做为排歧时使用

28、的知识源。 ( 2 ) 基于词典释义的排歧原理 第一步:假设一个多义词S 有m 个义项s ,只,s 。 第二步:其中,义项s 在词典中对应一个释义D ,释义D ,由组组成该释 义的词口,口:,D i 。、组成。 第三步多义词在具体的上下文中出现时,前后的一些词为w ,w 。M ,称为 待排歧词的特征词。 硕士论文 基于词义的汉语排歧方 击研究 第四步:特征词W ,在词典中的释义词记为W 。W 。w 。 第五步:计算多义词每个义项释义词集合同所有特征词释义词语组成的集合 相同词的数量,将相同词的数量最大者所代表的词义标注给多义词,即求 pn ( w 1 1u w l 2 u t A W “ 1

29、) ) u u ( W J lt A W ,3uu w ,( 们) 的最大值。 ( 3 ) 基于词典释义的排歧方法评价 相对于手工编制规则的排歧方法,基于词典释义的排歧方法充分利用了词典 中对多义词各个义项的描述,在一定程度上解决了数据稀疏的问题。但实际出现 的特征词并不完全反映在多义词词义的释义文本中,因此,排歧的效果受到了一 定的影响。 2 2 2 2 利用义类词典进行排歧趴 ( 1 ) 引言 义类词典主要是从词与词之间的聚合角度形成的词典资源。它体现了词与词 之间的同义关系、反义关系以及其他一些关系。倒如同义词词林I I S 中体现的 是一种树状结构,由董振东教授开发的知网是一种空间网状

30、结构。 ( 2 ) 基于义类词典的排歧思想 基于义类词典的排歧方法的前提假设是一个多义词的不同义项在一部义类 词典中属于不同的义类。这样,确定了多义词的义类,也就确定了多义词的义项。 其排歧过程如下: 第一步:收集义类词典中每个义类中所有的词,然后针对一定的训练语料, 收集包含这些词的上下文; 第二步:统计这些上下文,计算l 。g ( 丛型当攀) ,其中,。为特征词, p ( w I R C a t ) 表示W 出现在R C a t 类中的概率,p ( w ) 表示w 出现在训练语料中的总 概率,将公式所得的结果记为该词所在R C a t 类中的权重。 第三步:当对多义词进行排歧时,提取该多义

31、词周围一定数量的词,然后根 据上述结果得到这些词在每个义类中的权重,接着以每个义类为单位分别计算这 些词的权重和,权重和最大代表的义类就是多义词所属的义类。 ( 3 ) 排歧方法评价 基于义类词典的排歧方法对于不同的义项对应着不同义类的多义词排歧效 果较好,但是对于那些义项属于同一义类的多义词,这种排歧方法就无能为力了。 总的说来,使用词典资源作为排歧所用知识源的优点在于计算机可以从词典 中自动获取识别一个多义词的各个义项的信息,节省了人工标注,但问题是这些 7 硕士论文 基于词义的汉语排歧方 击研究 词典含有的知识并不完备,存在这严重的数据稀疏问题。 2 2 3 基于语料库的词义捧歧方法 基

32、于语料库的词义排歧方法同基于词典的词义排歧方法的主要区别在于基 于语料库的词义排歧方法所利用的知识源是从实际语料中得到的,使用这样的知 识源最大的好处就在于减少了人工的干预,使排歧的结果更加客观准确。另外, 由于实际语料中含有词的信息数量远远多于词典中记录的词的信息的数量,因此 在一定程度上缓解了词义排歧数据稀巯的问题。清华大学的李涓子将排歧时用到 的语料库分为三类:带词义标记的语料库、双语语料库、不带词义标记的语料库。 可以肯定的说,基于语料库的词义排歧方法代表着词义排歧方法研究的趋势。 2 2 3 1 基于语料库的有指导的词义排歧方法 ( 1 ) 引言 按照词义排歧的智能程度,词义排歧方法

33、可分为有指导词义排歧方法和无指 导词义排歧方法】。B a y e s i a n 词义排歧方法”是一种典型的基于语料库的有指导 词义排歧方法排歧的中心思想是首先对选定的语料进行标注,然后采用数学统 计的方法得到判定规则来指导词义排歧。 ( 2 ) 排歧原理 第一步:对选定的语料进行词义标注i 第二步:训练多义词所在的上下文与多义词当前词义之间的依赖程度;训练 方法如下:记S 为多义词w 的第j 个义项,w ,为词汇表中的词汇;c o u n t ( s ,) 为 词义是S ,的W 在语料中出现的次数,c 锻n ( w ) 为w 在语料中出现的次数,如果w 出现在置所在的上下文,则c o u n

34、 t ( w ,S ) = 1 ,否则C O U n I ( W ,墨) :o 。计算 p ( w ,1 s ) 2 掣,p ( s 。) = 兰黑,得到词义知识源。 第三步:记c 为w 所在的上下文,G 为c 中的词语,p ( sf c ) 2 璺紫, 由于P ( c ) 对最终结果不产生影响,因此记p = p ( C l S ) p ( 置) ; p ( C I S ,) = 兀P ( GI 墨) ,其中p ( C 。j S ) 可以根据第二步得到的知识源求得。在排 歧时,分别计算多义词每一个词义P ,将结果最大者所代表的义项作为多义词的 当前义项。 硕士论文基于词义的衩语排歧方 击研究

35、( 3 ) 排歧方法评价 B a v e s i a n 词义排歧方法从实际存在的语料中提取词语信息作为排歧自9 _ 知识 源,运用概率数学方法作为统计手段,取得了不错的排歧效果;但单纯的B a y e s i a n 词义排歧方j 去没有考虑上下文中词语之间的关系,基于此,哈尔滨工业大学的卢 志茂提出了基于依存分析的B a y e s i a n 排歧方法”,排歧效果得到了进一步的提 高。除了B a y e s i a n 排歧方法外,还有基于对数模型的词义自动排歧1 ”、最大熵 的有指导学习模型”等一些基于语料库的有指导词义排歧方法。 2 2 3 2 基于语料库的无指导的词义排歧方法 (

36、1 ) 引言 有指导的词义排歧方法,通过带词义标记的语料库能够学到多义词较准确的 上下文知识,用这些知识排歧可以获得较高的排歧正确率。但是标注语料需要大 量的人工劳动,并且由于标注语料规模的限制,存在严重的数据稀疏问题。因此, 无指导的词义排歧方法成为另一种较为有效的词义排歧方法。 ( 2 ) 基于结构语义空间的无指导词义排歧原理” c ( w ,w ,) 第步:计算P ( c j ,W ,) = 苎_ _ ,( 其中4 为类c 。中所有单义词组成的 集合,c ( w ,w ,) 表示词1 4 ,同爿,中的词的同现次数,c ( w ,) 为词w ,在语料库中出现 的总次数) ,得到单义词所属的

37、义类与周围词的同现频率矩阵,从而也就得到了 每一个义类的义类向量。 第二步:找出待排歧词所在的上下文的词语,通过特征选择和特征加权得到 此时多义词的向量表示。 第三步:利用公式s t m i l a r i t y ( V ( W ) ,矿( C ) ) = c o s ( V ( W ) ,V ( C ,) ) 计算多义词义 项所属义类c :的义类向量与多义词向量之间的语义相似度,其中,矿( 矽) 为多义 词w 的多义词向量,矿( e ) 为W 所属语义类的义类向量。 第四步:计算盟譬、s i r m Z a r i O , ( V ( W ) ,V ( C ,) ) ( y l ( w )

38、 为多义词W 的义项个数) , c E W 【w 】 确定多义词的词义。 ( 3 ) 方法评价 用基于结构语义空间的词义排歧方法可以免去人工标注语料和手工编制知 识库的繁重劳动,不足之处在于排歧效果与多义词本身的语法特点有关,名词多 义词的排歧效果要好于动词和形容词。另外Y a r o w s k y 提出的“层次决策表一蹦 排歧方法,S c h u t z e 提出的自动无指导的词义辨识方法m 都取得了一定的排歧效 硕士论文 基于词义的汉语排歧方 击研究 果。 2 2 4 词义排歧的决策模型 在得到词义排歧所用的知识源后,就可以运用相应的排歧方法对多义词排 歧。纵观上述的排歧方法,不论基于哪

39、种知识源的排歧方法其中一个很重要的缺 陷就是没有考虑待排歧词所在上下文中特征词的选择问题。下面笔者首先给出词 义排歧决策模型的定义。 判定多义词在具体上下文中词义的方法称为词义排歧的决策模型,根据排歧 时所使用的上下文特征词的个数,可分为单特征的决策模型和多特征的决策模型 ”1 。单特征的决策模型是指在确定多义词上下文中的词义时,若在上下文中有多 个可用特征词,此时不将各个特征词的表征程度相加或相乘,而只用其中表征程 度最大的确定当前多义词的词义。多特征的决策模型指在确定多义词词义时,同 时考虑在多义词上下文中出现的所有特征词,将各个特征词的特征值相加或相乘 l 。1 。 不论是单特征的决策模

40、型还是多特征的决策模型,都是从多义词所在的上 下文提取信息,上下文是提供识别多义词词义的唯一途径,换句话说,所有词义 排歧的工作都依赖于多义词上下文所提供的用于词义排歧的特征词。在提取上下 文的信息时,一般来说有三类上下文可供选择:句子、段落和主题。句子上下文 一般是指在多义词所在的句子中,以多义词为中心,向前向后提取一定长度窗口 的词作为排歧时使用的特征词。类似地,段落上下文选择的范围一般扩展到该多 义词所在的整个段落。话题上下文则将选择的范围以话题为单位进行区分。显然, 基于句子的特征词提取实现起来相对容易,但是会将些句子以外的表征能力较 强的特征词排除在外;而基于主题的特征词提取则能弥补

41、这个缺点,但由于目前 句法分析还未达到人工智能的水平,因此在选择主题时困难比较大。 总的来说,目前所采用的方法仍然是基于句子的特征词提取方法,但一个不 可忽略的问题就是如何在句子里提取真正能反映多义词词义的特征词。从目前来 看,提取特征词的方法一般有两种:词袋的方法和提取关系信息的方法。其中, 词袋的方法就是提取多义词周围一定窗口范围内的词,组成一个集合。提取关系 信息的方法的前提是任何组成句子的词之间并不是孤立存在的,他们之间会存在 这样和那样的关系提取关系信息的方法就是要将与多义词关系紧密的那些词提 取出来,而将一些无关紧要的词剔除。 硕士论文 基于词义的汉语排歧方 击研究 2 3 本章小

42、结 本章首先介绍了词义排歧的历史,然后给出了词义排歧模型的组成。根据词 义排歧使用的不同知识源,详细介绍了基于人工规则、基于词典、基于语料库的 词义排歧方法的原理。最后,对目前排歧方法存在的共同问题,论述了选择词义 排歧决策模型的重要性。 堡圭笙奎 茎王塑墨塑堡塑竖些立鲨! ! 型 3 句法分析树 词袋方法通过提取多义词周围一定长度窗口范围内的词作为排歧时使用的 特征词,其优点在于:由于句子已经经过切词处理,那么只需要规定上下文窗口 的长度,然后从目标词周围提取规定窗口长度的词作为特征词。显然这种方法省 时省力,因而是目前用的比较多的方法。但其缺点也是很明显的:由于在提取特 征词时,是按照机械

43、的方法并没有考虑词与词之间的联系,势必就会造成:一些 表征多义词词义能力很强的词由于人为限定了窗口的长度而被“拒之门外”,而 一些表征能力很弱的词则被收录进来,引入了“信息噪音”。例如:“党制定了 非常正确的路线”,其中“路线”是歧义词,按照词袋法( 假设窗口长度为4 ) , “党”、“制定”、“非常”、“正确”应为提取出来的特征词,但事实上“非 常”是修饰“正确”的,和“路线”没有直接的联系,这样将“非常”作为特征 词,势必会影响排歧的效果。 提取关系信息的方法是指上下文中的信息按与目标词的关系进行有针对性 的提取。这种方法的优点在很大程度上提高了特征词的“可靠性”,摒弃了词袋 方法的不足,

44、但若要真正实现有效信息的提取,则要借助于句法分析树。本文借 助句法分析树来尝试对表征多义词词义能力较强的特征词进行提取。 3 1 句法分析器 计算机自然语言处理的研究领域中很重要的一条原则就是:利用认知依据来 建立一种适合计算机处理的模型。让计算机能够利用语法来分析句子是自然语言 处理的一个重要阶段。人类使用语法来分析甸子时可划分为两个层次”“:首先是 识别一个句子是否合乎语法。相应的,通常把能完戚该任务的计算机程序称为句 子识别器。其次是分析句子的内部结构,确定句子的语法成分,包括句法关系、 短语搭配关系、选择性限制关系等,为进一步的句子分析和理解提供足够的基础, 把能完成这任务的计算机程序

45、称为句法分析器 3 2 上下文无关文法分析 句法分析包括基于规则的句法分析方法和基于统计的句法分析方法:”,。其 中,基于规则的句法分析方法以语言学理论为基础,根据语言学家对语言现象的 认识,制定相应的规则来实现对句子结构的分析。 计算机要理解、翻译自然语言,就要对理解和翻译的语言建立套规则,也 就是句法,并且提供一种适合计算机处理的句法描述形式”“。自然语言是由无限 多的句子构成的,计算机能够存储的只能是构威无限多句子的有限的诃租有限的 语法规则。计算机所能处理自然语言句法规则的是严格的形式化规则,这些规则 必须经过严格的数学定义。用来描述这些规则的语法被称作计算语言学语法。一 般的基于规则

46、的自然语言句法分析系统都必须建立在某个形式的语法基础上。其 中短语结构语法( P S G ) 是自然语言句法分析中常用的语法理论,根据其生成能 力的不同划分戚4 类:( 1 ) 无约柬短语结构文法,即P S G ,也称0 型文法;( 2 ) 上下文有关文法( C o n t e x t - - S e n s i t i v eG r a m m a r ,简称:C S G ) ,也称1 型文法; ( 3 ) 上下文无关文法( C o n t e x t - - F r e e G r a m m a r ,简称C F G ) ,也称2 型文法;( 4 ) 正则文法( R e g u l a

47、rG r a m m a r ) ,也称3 型文法。其中,上下文无关文法( C F G ) 被广泛地应用于自然语言的句法分析”。 规则A x ( 其中,A 是非终结符号,x V ,V 为规则库) 不依赖于A 出现 在什么上下文环境中,称为上下文无关文法”“。其中,不可以再分解的符号称为 终结符号,如N V A D J 等,还可以再次分解地符号称为非终结符号,如N P , V P 。 上下文无关文法是利用分解规则进行句法分析的。例如:s N PV P ,就是 条分解规则,它是将句子s 分解为个名词短语和一个动词短语。 3 3 句法分析树船4 在人类语言中,无论是英语或者汉语、日语或其它自然语言,

48、无论是语音还 是文本,它们的表现形式有一个共同点:都是以“流”的形式出现,也就是说, 自然语言的一个特点在于:它们出现的形式是线性的,顺序的。而男一方面,我 们在理解自然语言的时候,并不是按顺序的形式或者线性的形式来理解,我们总 是在昕完一句话甚至一段话后才能明白句子所要表达的意思,否则就会导致不能 了解甸子所要表达的意思或者误解句子的意思。鉴于目前电脑的水平还未达到人 工智能的程度,因此句子表瑚形式的线性与理解句子的非线性的矛盾导致计算机 在对句子作旬法分析时必须将句子直观线性的结构转化为能体现句子语法结构 的数据结构a 例如,以文本形式出现的句子:“小明帮助比较贫困的同学。”从 这个例子可

49、以直观地看出,无论以字为单位,或者以词为单位,汉语符号都是从 左到右地顺序出现。这种线性形式的符号串不能体现任何关于句子的结构信息, 也就是说无法知道句子是根据哪些语法规则构成的。根据人们对自然语言的理解 可以知道:人们对一个句子内容的理解是基于对句子结构的划分,也就是说,对 句子结构正确的划分是理解句子的基础。类似地,计算机在理解句子时,也是借 助一种能够描述句子语法结构的方法来表示句子的结构。句法分析树的作用就是 硕士论文 基于词义的汉语排歧方 击研究 要体现句子结构的层次性。 句法分析过程也就是生成句法分析树的过程。分解规则表是句法分析所利用 的主要知识源,也是句法分析的理论基础。 3 3 1 分解规则表 分解规则是指将一个短语根据其语言特点分解为等价的短语或词语组合所 凭借的语法规则,其作用就是为句法分析提供知识源。汉语常见的短语类型。 有动词短语( V P ) 、名词短语( N P ) 、形容词短语( A P ) 等几种类型。其中,每 一种短语类型都有各自的

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育


经营许可证编号:宁ICP备18001539号-1