一种处理未登录词翻译的新视角.ppt

上传人:本田雅阁 文档编号:2656470 上传时间:2019-04-30 格式:PPT 页数:42 大小:763.51KB
返回 下载 相关 举报
一种处理未登录词翻译的新视角.ppt_第1页
第1页 / 共42页
一种处理未登录词翻译的新视角.ppt_第2页
第2页 / 共42页
一种处理未登录词翻译的新视角.ppt_第3页
第3页 / 共42页
一种处理未登录词翻译的新视角.ppt_第4页
第4页 / 共42页
一种处理未登录词翻译的新视角.ppt_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《一种处理未登录词翻译的新视角.ppt》由会员分享,可在线阅读,更多相关《一种处理未登录词翻译的新视角.ppt(42页珍藏版)》请在三一文库上搜索。

1、一种处理未登录词翻译的新视角,张家俊 翟飞飞 宗成庆 2012.11.4,1,提纲,统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 基于分布语义模型的方法 基于双向语言模型的方法 实验结果与实例分析 总结,2,提纲,统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 基于分布语义模型的方法 基于双向语言模型的方法 实验结果与实例分析 总结,3,统计机器翻译中的未登录词问题,统计机器翻译框架,4,统计机器翻译中的未登录词问题,统计机器翻译框架,5,双语平行语料 (f1,e1),(f2,e2),目标语言单语语料 e1, e2, en,

2、翻译模型,语言模型,统计机器翻译中的未登录词问题,统计机器翻译框架,6,双语平行语料 (f1,e1),(f2,e2),目标语言单语语料 e1, e2, en,翻译模型,语言模型,度量翻译候选的合法性,统计机器翻译中的未登录词问题,统计机器翻译框架,7,双语平行语料 (f1,e1),(f2,e2),目标语言单语语料 e1, e2, en,翻译模型,语言模型,决定了翻译知识覆盖率,统计机器翻译中的未登录词问题,统计机器翻译框架,8,双语平行语料 (f1,e1),(f2,e2),翻译模型,双语平行语料有限的情形下,测试句子中的很多词都未在训练语料中出现过,便导致未登录词翻译问题!,决定了翻译知识覆盖

3、率,统计机器翻译中的未登录词问题,统计机器翻译中未登录词的特点 在分词或词性标注中,我们知道分词或词性标注的候选空间,譬如词性集合 统计机器翻译中的未登录词,若不借助外部资源,无法确定候选翻译空间,9,提纲,统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 基于分布语义模型的方法 基于双向语言模型的方法 实验结果与实例分析 总结,10,传统处理方法与缺陷,尝试一切方法获得未登录词的译文 资源 借助语言学资源,譬如HowNet, WordNet 借助大规模网络资源 方法 利用数据挖掘方法 利用信息检索方法,11,传统处理方法与缺陷,缺陷 只处理部分未登录词,例如命

4、名实体、缩略语等 只关注未登录词的翻译,不考虑未登录词上下文词和短语的目标译文选择与调序 为(is) 百分之六 左右(about) is 6% about,12,提纲,统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 基于分布语义模型的方法 基于双向语言模型的方法 实验结果与实例分析 总结,13,保持语义功能的未登录词处理方法,核心思想 目标不在于翻译未登录词,而是尽可能确保其上下文词或短语的目标译文选择和调序不受未登录词影响 核心方法在于确定未登录词在句中的语义功能,并在解码过程中保持不变,14,保持语义功能的未登录词处理方法,方法框架 对于测试句子中的任意一

5、未登录词,在集内词中搜索与该未登录词语义功能最相似的词 解码前,将未登录词替换为集内词 解码后,将集内词的译文重新替换为未登录词,以便利用其他方法翻译未登录词,15,一个示例, 为(is) 百分之六 左右(about) 搜索集内词,发现 “一半(50%)” 与 “百分之六”具有最相似的语义功能, 替换“百分之六”为“一半” 为 一半 左右 is about 50% is about 百分之六,16,什么是语义功能?,语义功能 一个词的语义功能表示该词在句子中所扮演的语法和语义角色 语义功能决定了该词在源语言和目标语言文本中所带的上下文,17,什么样的词共享相似的语义功能?,如果两个词在文本中所

6、处的上下文相似,那么他们就具有相似的语义功能,18,搜索与未登录词语义功能相似的集内词,统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 基于分布语义模型的方法 基于双向语言模型的方法 实验结果与实例分析 总结,19,基于分布语义模型的方法,分布语义模型 利用表示一个词的所有上下文总和的向量近似该词的语义信息 向量空间模型,20,基于分布语义模型的方法,上下文 以目标词为中心,为长度K为窗口,出现在该窗口中的所有词的总和就是该词的上下文 为目标词tw创建上下文向量Vtw Vtw的第i个元素表示第i个集内词作为目标词的上下文的概率,21,基于分布语义模型的方法,如

7、何计算第i个集内词作为目标词上下文的概率? 逐点互信息(pointwise mutual information),22,基于分布语义模型的方法,如何计算第i个集内词作为目标词上下文的概率? 逐点互信息(pointwise mutual information),23,L-2 normalization,基于分布语义模型的方法,计算任意两个词的语义功能相似度,24,搜索与未登录词语义功能最相似的集内词,25,POS constraint,搜索与未登录词语义功能相似的集内词,统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 基于分布语义模型的方法 基于双向语言模型

8、的方法 实验结果与实例分析 总结,26,基于双向语言模型的方法,分布语义模型的缺陷 将所有上下文看做一个词袋 不考虑上下文之间的词序与依赖 什么是理想的模型?,27,简化 argmax?,模型回退,28,前向语言模型P(wi|wi-1,wi-2,),简化 argmax?,模型回退,29,后向语言模型P(wi|wi+1,wi+2,),简化 argmax?,模型回退,30,or,简化argmax?,模型回退,31,or,双向语言模型,后向语言模型,前向语言模型,附加约束,32,词性约束,附加约束,翻译规则约束 搜索结果的集内词与未登录词的上下文组合必须存在翻译规则 为 百分之六 左右 为 一半 左

9、右 “一半 左右 | about 50%”,33,提纲,统计机器翻译中的未登录词问题 传统处理方法与缺陷 保持语义功能的未登录词处理方法 基于分布语义模型的方法 基于双向语言模型的方法 实验结果与实例分析 总结,34,实验设置,语料 训练语料:FBIS,23.6万句对 开发集: MT NIST2003 测试集: MT NIST2005 翻译系统: Moses NIST2005中未登录词的分布 1082句子中存在796 不同的未登录词 (NR, 273), (NN, 272), (CD, 122), (VV, 99), (NT, 14), (AD, 7), (JJ, 5), (OD, 2) an

10、d (M, 2),35,翻译结果,36,分布语义模型,翻译结果,37,双向语言模型,翻译结果,38,前向语言模型,后向语言模型,两个翻译实例, 内阁 才 作成 决定 , Moses: the cabinet 作成 decided 内阁 才 作成 决定 , 内阁 才 作出 决定 , Moses:before the cabinet made the decision .,39,两个翻译实例, 义演 现场 的 热烈 气氛 , Moses: live义演 and warm atmosphere 义演 现场 的 热烈 气氛 , 演习 现场 的 热烈 气氛 , Moses:the warm atmosphere of the exercise.,40,总结,对于每个未登录词,搜索与该未登录词语义功能最相似的集内词 两种算法 分布语义模型 双向语言模型 相比于分布语义模型,双向语言模型具有更好的性能,41,42,THANKS! Q&A,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1