中文同义词自动抽取研究.ppt

上传人:本田雅阁 文档编号:3392650 上传时间:2019-08-21 格式:PPT 页数:27 大小:2.55MB
返回 下载 相关 举报
中文同义词自动抽取研究.ppt_第1页
第1页 / 共27页
中文同义词自动抽取研究.ppt_第2页
第2页 / 共27页
中文同义词自动抽取研究.ppt_第3页
第3页 / 共27页
中文同义词自动抽取研究.ppt_第4页
第4页 / 共27页
中文同义词自动抽取研究.ppt_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《中文同义词自动抽取研究.ppt》由会员分享,可在线阅读,更多相关《中文同义词自动抽取研究.ppt(27页珍藏版)》请在三一文库上搜索。

1、中文同义词自动抽取研究,南京师范大学计算机学院 自然语言处理小组 曹冉 孙玉霞 狄颖 指导老师: 曲维光 周俊生,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,同义词词林(扩展版),在同义词词林(扩展版)中,编码末尾为 = 的词语集合表示的是同一个语义。 因此,目标词的同义词即为包含目标词的编码末尾为 = 的词语集合。,目标

2、词 “规则”对应的同义词集合:,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,中文概念词典 CCD,CCD中使用Synset字段来描述概念。 但是在Synset中的词语并不完全是同义词,而是某种意义上的相关词。 一个词语也可能出现在多个Synset中 。,如目标词“爱好”:,基于中文概念词典,本文提出基于典型同义词的过滤方法。 基本思想: 在包含目标词的Synset中统计出典型同义词。 使用典型同义词按照一定规则在Synset中过滤出同义词。,典型同义词统计方法,典型同义词统计方法

3、,基于典型同义词的过滤算法,最终“爱好”的同义词为 嗜好,喜好,业余爱好, 偏好,偏爱,偏袒, 喜欢 。,基于语义词典-实验结果,基于同义词词林获取到5277个目标词的同义词,平均每个词语对应13个同义词。 基于CCD获取到5727个目标词的同义词,平均每个对应6个同义词。 基于字典的方法获取到的同义词的目标词大多是普通名词、动词、形容词。,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,基于模式匹配方法-基本思想,在互联网上抓取目标词的百度百科词条 在百科词条概述中,利用人工提取的

4、“目标词+模式词+候选同义词”模式取得高质量同义词。 利用高质量同义词在百科全文中获取限定语料,自动提取出上下文环境模式。 利用目标词和上下文环境模式提取同义词。,基于模式匹配的方法,人工模式提取 基于770个词条百科,手动进行模式提取,这里的模式是指同义词提示词。,基于模式匹配的方法,自动模式获取 基于百科全文获取包含同义词词对的句子。在获得的句子集合上,提取左右词语列表、左三元组列表,并根据获得的列表进行同义词穷尽自动抽取。如下表所示:,基于模式匹配的方法-规则过滤,由于网络资源存在不规范性,需要对获取到的同义词进行筛选。 筛选方法: 首先对获取到的同义词进行分词, 然后使用如下规则进行筛

5、选: 规则1 若候选同义词是一个完整的分词结果,同义词有效。 规则2 若候选同义词分词结果中包含 共和国,市,州,镇,县,郡,帝国 中任一后缀,同义词有效。 规则3 若候选同义词分词结果是两个字数词性一致的词语,同义词有效。 规则4 若候选同义词分词结果包含目标词语,同义词无效。 上述四个规则,优先度依次递减。,基于模式匹配的方法-实验结果,对于给定的9455个目标词,其中有8268个词语能够获取到对应的词条百科。 基于词条概述能够获取到同义词的有815个目标词。,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的

6、方法 同义词传递性扩充的方法,基于并列结构的方法-基本思想,并列结构包含的两个词语一般有共同的形态,语义相似或相关,中间使用 “和,或,逗号,顿号”等并列连词进行连接。 假设并列结构包含的两个词语中一个是目标词,则另一个可以作为该目标词的候选同义词。 采用基于词素和知网的方法进行过滤,提高同义词抽取的正确性。,“责任感”与“责任心” “责任感”与“事业心”则不是。相同数为0。 文档 - 文件 - 档案 - 案例,基于并列结构的方法,基于并列结构的方法,基于并列结构的方法-实验结果,对于给定的9455个目标词,其中有2026个能够通过并列结构的方法获取到对应的同义词。,目录,基于语义词典的方法 基于同义词词林(扩展版) 基于中文概念词典CCD 基于网络资源的方法 基于模式匹配的方法 基于并列结构的方法 同义词传递性扩充的方法,同义词传递性扩充,对于获取到的同义词,可能有交叉现象。 例如: 然而并不是所有含有相同同义词的两个目标词都应该合并。 例如:,传递性验证规则,测评结果,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1