一种基于短语统计翻译的汉维机器翻译系统.ppt

上传人:本田雅阁 文档编号:2656469 上传时间:2019-04-30 格式:PPT 页数:17 大小:2.84MB
返回 下载 相关 举报
一种基于短语统计翻译的汉维机器翻译系统.ppt_第1页
第1页 / 共17页
一种基于短语统计翻译的汉维机器翻译系统.ppt_第2页
第2页 / 共17页
一种基于短语统计翻译的汉维机器翻译系统.ppt_第3页
第3页 / 共17页
一种基于短语统计翻译的汉维机器翻译系统.ppt_第4页
第4页 / 共17页
一种基于短语统计翻译的汉维机器翻译系统.ppt_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《一种基于短语统计翻译的汉维机器翻译系统.ppt》由会员分享,可在线阅读,更多相关《一种基于短语统计翻译的汉维机器翻译系统.ppt(17页珍藏版)》请在三一文库上搜索。

1、一种基于短语统计翻译的汉维机器翻译系统,杨攀,081009,报告内容,引言 系统简介 解码器实现 相关实验 总 结,引言,新疆地区的官方使用的语言文字有汉语、维吾尔语、哈萨克语、柯尔克孜语、蒙古语等,在这些少数民族语言文字中,除了蒙古语外,维吾尔语、哈萨克语、柯尔克孜语都属于一个语族(突厥语族)。 正是这种少数民族语言文字的构成,使少数民族语言文字信息技术的开发与应用成为新疆信息化建设当中不可或缺的一个重要方面,也是国家信息化建设的基础之一。 由于维吾尔语的黏着特性,汉语-维吾尔语之间的语言差异很大,所以研究汉维机器翻译技术具有重要意义。,引言,自1990年IBM公司的P.Brown等人提出基

2、于信源信道思想的统计翻译模型之后,统计机器翻译越来越受到研究者的重视。 基于短语的统计机器翻译模型在近几年的统计机器翻译研究中占据了主导地位。 统计机器翻译的优点是在不考虑语言特点的情况下借助于双语平行语料库直接构建一个机器翻译系统,但因此会忽略特定语言的复杂性。 目的是尝试借助汉维语料库构建一个汉维机器翻译系统,这样可以为进一步研究汉维机器翻译打下基础。,系统简介,汉维翻译系统基本框架:,系统简介,语言模型 语言模型是自然语言的数学模型,它主要描述自然语言的统计和结构方面的内在规律。 N-gram统计语言模型是统计语言模型的一种。它主要根据历史N-1个词,来决定第N个词可能出现的概率。N-g

3、ram语言模型的概率表示通常由最大相似度来估计。N-gram的句子概率的数学公式如下所示:,系统简介,翻译模型 基于短语的统计机器翻译的最大特点就是其翻译模型为短语级的。典型的翻译过程是将输入的句子划分成短语,然后将每一个短语翻译成相应的译文短语,在翻译的过程中可以对译文的短语序列重新排序。 短语翻译模型的构建需要对语料库中的进行短语的划分,同时对划分的短语进行概率计算。通过短语划分(抽取)得到双语对齐的短语对,短语对的对齐效果和短语对的评分结果直接影响到短语翻译模型的好坏。,系统简介,附加模型 扭曲模型就是对源短语位置重排的范围进行惩罚的。公式如下: 词语惩罚模型计算译文的单词个数作为其惩罚

4、值加入到模型中来,这样可以结合词语惩罚模型的权重值对译文长短的选择。公式如下: 短语惩罚模型计算在构建译文的过程中所使用的源短语的个数。短语惩公式如下:,解码器实现,解码器简介 解码器的任务是用从训练文本中学习到的语言模型、翻译模型以及其他附加模型的信息来确定源句子最可能的翻译句子。本文采用动态规划思想的柱搜索(beam search)算法实现解码搜索功能。 解码器的实现原理 在对数线性模型方法下,将所有的模型信息加入进来后,解码就是在下式中搜索最大模型评分的t的算子:,解码器实现,柱搜索(beam search) 解码算法 柱搜索算法是一种动态规划的栈式搜索算法,源语言句子长度为nf的柱搜索

5、解码算法描述如下: 初始化假设栈hypoStack0nf; 生成初始翻译假设加入到假设栈hypoStack0中; 遍历i从0到nf-1的所有假设栈hypoStack i; 对hypoStacki进行剪枝; 遍历hypoStacki中的每一个翻译假设hypo; 查找hypo所有可用的翻译备选项进行逐个扩展,每次扩展生成一个新的假设newhypo; 计算newhypo的TotalScore,根据newhypo翻译的源语言单词个数 加入到相应假设栈中; 最后从假设栈hypoStack nf中的最佳假设开始回溯得到翻译译文。,解码器实现,柱搜索算法的剪枝策略 在柱搜索解码过程中,在句子比较长的时候可用

6、翻译选项增多,使得假设栈中的翻译假设的数目变的很大。如果不对假设栈中的翻译假设进行剪枝,搜索空间不断增大,扩展会越来越慢,甚至无法搜索。为了降低搜索的复杂度,一方面可以对限制源语言句子短语在翻译过程的位置扭曲范围进行限制,另一方面在柱搜索解码过程中进行剪枝。 在对假设栈进行剪枝时,我们使用了没有风险(no risk)的翻译假设重组和有风险的栈大小剪枝和栈阈值剪枝。,相关实验,语料库准备 由于汉维平行语料库的缺乏,在对有限的汉维生语料进行预处理后,得到了约46万条(句条,词条)汉维双语平行语料库。实验中用汉维双语平行语料库进行翻译模型的训练,用维吾尔语单语语料库进行语言模型的训练,其中维吾尔语我

7、们使用的是拉丁维文。,相关实验,语言模型训练结果 采用SRILM模型训练工具,训练3-gram的维吾尔语语言模型。训练的结果如下表所示:,141457,3-gram,625823,2-gram,137552,1-gram,n-gram数,n-gram,相关实验,翻译模型训练结果 翻译模型采用从词语对齐到短语对齐训练短语翻译模型的路线,在GIZA+的双向词语对齐基础上,通过词语对齐提炼优化的词语对齐结果。下表为我们翻译模型的部分训练结果。,歧 杆菌 属 achiliq tayaqche baktriye uruqdishi 1 1 1 1 2.178 混为一谈 arilashturuwetmek

8、 0.0909091 1 1 1 2.178 原丝体 iptidaiy yipsiman tenche 1 1 1 1 2.178 水 牛乳 半流体 su kalisi 0.0714286 1 1 1 2.178 欧 州 经济 共同体 护照 yawropa iqtisadiy ortaq gewdisi pasporti 1 1 1 1 2.178,相关实验,翻译结果示例 由于汉维机器翻译系统的翻译结果是拉丁维文,为了将其应用到我们的农业专家系统中,我们开发了拉丁维文到传统维文的转换模块,在系统平台中将解码器及转换模块集成后将其应用到新疆番茄栽培专家系统中,实验显示效果之一如下图所示:,总 结,基于短语统计的机器翻译是目前机器翻译的研究热点,本文中的汉维机器翻译系统就是基于此翻译模型构建的。 汉维翻译属于汉民翻译中的一个方向,虽然统计机器翻译中的核心问题是解码器的构建,但是我们在处理汉民翻译时经常遇到是汉民双语语料库相对缺乏以及民族语言本身特点的相关问题。 考虑到维吾尔语本身的形态学特点,如何将形态学信息引入到汉维统计机器翻译之中也是今后研究中关注的重点。,谢谢各位专家!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1