中文概念词典的研究与开发.ppt

上传人:本田雅阁 文档编号:2709444 上传时间:2019-05-07 格式:PPT 页数:19 大小:278.51KB
返回 下载 相关 举报
中文概念词典的研究与开发.ppt_第1页
第1页 / 共19页
中文概念词典的研究与开发.ppt_第2页
第2页 / 共19页
中文概念词典的研究与开发.ppt_第3页
第3页 / 共19页
中文概念词典的研究与开发.ppt_第4页
第4页 / 共19页
中文概念词典的研究与开发.ppt_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《中文概念词典的研究与开发.ppt》由会员分享,可在线阅读,更多相关《中文概念词典的研究与开发.ppt(19页珍藏版)》请在三一文库上搜索。

1、中文概念词典的研究与开发,刘 扬 北京大学计算语言学研究所 Nov 13, 2005,报告提纲,WordNet(WN)的理论与方法 中文概念词典(CCD) vs. WordNet CCD研究与开发的实践 “热”问题的“冷”思考,报告提纲,WordNet(WN)的理论与方法 中文概念词典(CCD) vs. WordNet CCD研究与开发的实践 “热”问题的“冷”思考,WordNet(WN)的理论与方法,从词法分析、句法分析到语义分析 语义分析 vs. 概念 vs. 知识本体(Ontology) 如何表征概念?语义分析、计算的基础在哪里? Princeton大学WordNet的理论与方法 概念:

2、由同义词集(Synset)来表示,概念即同义词集 教师、教员、老师、先生、师傅、师爷、孩子王、臭老九、阿姨、导师、老板 知识本体:概念及概念之间多种语义关系,形成概念网络 一个高度形式化的、通用/跨语言的知识表示方法 HowNet 对词义的内涵式定义:意在定义,关注个体,建立在义素分析及格语法上 WordNet对词义的外延式定义:意在区分,关注系统,建立在词义系统结构分析上 比如,添加一个词的新义项/概念,只需 一个可以对语义进行分析、计算的基础,一个形-义系统,WordNet(WN)的理论与方法,词义,词形,WordNet(WN)的理论与方法,WordNet(WN)的理论与方法,WordNe

3、t(WN)的理论与方法,WordNet家族(WordNets)的发展 George A. Miller等人于1985启动语言工程 描述开放词类:名、动、形、副词概念 描述语义关系:同义, 反义, 上下位, 整体部分, 致使, 蕴涵, 属性 1997年PWN 1.6含99,642 个概念、238,442个语义关系 双语WN(bilingual WN) 、多语WN(multilingual WN) WN国际组织和国际会议(GWA02, GWA04, GWA06, ) Google上1,190,000项研究与应用WordNet的检索内容 目前,NLP领域最重要的公用语义资源,报告提纲,WordNet

4、(WN)的理论与方法 中文概念词典(CCD) vs. WordNet CCD研究与开发的实践 “热”问题的“冷”思考,中文概念词典(CCD) vs. WordNet,CCD: Chinese Concept Dictionary CCD作为一个双语WordNet 提供汉英双语的概念对应 可以直接复用现有的WordNet的理论、方法、技术 全球WordNet资源建设的组成部分 CCD不仅仅是双语WordNet 必须反映汉语的实际情况,对中文信息处理有切实帮助 对概念、概念关系的调整和发展 增添汉语特有的语义属性和特征 涉及对PWN的复杂结构的调整和规划 分类原则、概念粒度等,报告提纲,WordN

5、et(WN)的理论与方法 中文概念词典(CCD) vs. WordNet CCD研究与开发的实践 “热”问题的“冷”思考,CCD研究与开发的实践,构造双语WordNet的难点分析 两类不同的知识体系和概念映射 大规模的复杂双子网结构(105概念节点、106语义关系) 双语词典如何演化 实用、高效的双语WordNet的构造模型 强调双语词典的演化 强调双语词典构造中的继承与转换(复用与调整) 模型特点 演化模型 通用的双语WordNet解决方案(与特定语言无关),CCD研究与开发的实践,实现演化模型的辅助构造软件 实现继承:WN语义信息抽取 上下位关系形成的树结构 树结构信息编码(例如“0050

6、01002”)的可计算性 优化搜索算法 二路扫描过程( two-way scanning process) 收集过滤编码过程( gathering, sieving & encoding process ) 实现转换:可视化的、数据敏感的语义树及其操作 可用的语言资源与计算方法(内容的改变:机器+人工的方式) 词典:汉英、英汉、 现汉、词林、语法词典、语义词典、SUMO、HowNet 等 语料库:动态词汇语义知识获取,如共现与搭配、聚类等 可视化的、数据敏感的语义树及其操作(结构的改变:纯人工的方式) 节点添加、修改、删除 子树迁移,CCD研究与开发的实践,CCD研究与开发的实践,CCD与Wo

7、rdNet概念对应的3条语义原则 成词及词性原则 *the group following and attending to some important person cortege retinue suite entourage 随从 随员 左右 跟随 随行人员 准确性原则 *a very attractive or seductive looking woman smasher stunner knockout beauty sweetheart peach lulu looker mantrap dish 佳人 美人 美女 宝贝 心肝 绝色美女 佳丽 绝代佳人 玉女 出水芙蓉 貂婵 天

8、姿国色 狐狸精 完备性原则 *someone who is very highly skilled ace adept sensation maven virtuoso genius hotshot star whiz whizz wizard wiz 专家 内行 大师 高手 巨匠 好手 加入: 大牛、牛人、腕、大腕?,CCD研究与开发的实践,CCD研究与开发的现状与计划 CCD的现状 作为双语WordNet ,对PWN 1.6的覆盖率在94%以上 66025个名词概念 12127个名词概念 17915个形容词概念 3575个副词概念 基本符合概念对应的语义原则 使用和转让 CCD的计划 作为

9、双语WordNet的语义质量的持续提高 充分考虑WSD、语义网、信息检索、文本分类等情况和应用 在高层,强调通用、强势的概念体系 采取理性原则:考虑逻辑,也考虑语言使用 在低层,强调词的不同义项的区分手段和描写信息 采取经验方法:强调义项区分,强调一些必要的组合关系信息,报告提纲,WordNet(WN)的理论与方法 中文概念词典(CCD) vs. WordNet CCD研究与开发的实践 “热”问题的“冷”思考,“热”问题的“冷”思考,如何评价语义知识库 知识表达方法的因素 该方法在语义知识获取、表示、表达环节的特点 该方法表达的语义知识是否够用、易用 该方法表达的语义知识是否可扩展(语言内、跨语言) 强调“通用”?强调“特色”? 与词法不同,从认知角度看,跨语言的语义交流能力和框架很重要 是否是一种新的知识表达方法、不同表示方法下知识的转化 工程实施情况的因素 时间?投资?高质量?低质量? 从应用评测角度,是否有持续的生命力 客观评价一个具体的语义知识库 不混同知识表达方法与语言工程实施情况 在没明确结论前,兼容并包的态度很重要,谢谢各位,请批评指正!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1