机器翻译原理与方法讲义.pdf

上传人:爱问知识人 文档编号:3333828 上传时间:2019-08-13 格式:PDF 页数:646 大小:7.43MB
返回 下载 相关 举报
机器翻译原理与方法讲义.pdf_第1页
第1页 / 共646页
机器翻译原理与方法讲义.pdf_第2页
第2页 / 共646页
机器翻译原理与方法讲义.pdf_第3页
第3页 / 共646页
机器翻译原理与方法讲义.pdf_第4页
第4页 / 共646页
机器翻译原理与方法讲义.pdf_第5页
第5页 / 共646页
点击查看更多>>
资源描述

《机器翻译原理与方法讲义.pdf》由会员分享,可在线阅读,更多相关《机器翻译原理与方法讲义.pdf(646页珍藏版)》请在三一文库上搜索。

1、机器翻译原理与方法 第一讲 概论 刘群 中国科学院计算技术研究所 中国科学院计算技术研究所2009年秋季课程 2机器翻译原理与方法(01) 概论 内容提要 机器翻译定义机器翻译定义 课程目的与特点 课程概况 机器翻译历史 机器翻译现状 机器翻译应用系统类型 3机器翻译原理与方法(01) 概论 什么是机器翻译 English 中文 4机器翻译原理与方法(01) 概论 什么是机器翻译 机器翻译(machine translation)是使用电子计算机把一种自 然语言(源语言,source language)翻译成另外一种自然语言 (目标语言,target language)的一门学科 这门新学科

2、同时也是一种新技术.它涉及到语言学、计算机 科学、数学等许多部门,是非常典型的多边缘的交叉学科 在语言学中,机器翻译是计算语言学的一个研究领域 在计算机科学中,机器翻译是人工智能的一个研究领域 在数学中,机器翻译是数理逻辑和形式化方法的一个研究领域. 以上定义引自冯志伟澄清对机器翻译的一些误解澄清对机器翻译的一些误解(论文提 要 论文提 要),现代语文(语言研究),2005.1,更改了个别子句 5机器翻译原理与方法(01) 概论 内容提要 机器翻译定义 课程目的与特点课程目的与特点 课程概况 机器翻译历史 机器翻译现状 机器翻译应用系统类型 6机器翻译原理与方法(01) 概论 课程目的 了解机

3、器翻译基本原理 掌握机器翻译实践技能: 能够编写一个简单的机器翻译系统 7机器翻译原理与方法(01) 概论 课程特点 目标驱动 注重实践 8机器翻译原理与方法(01) 概论 内容提要 机器翻译定义 课程目的与特点 课程概况课程概况 机器翻译历史 机器翻译现状 机器翻译应用系统类型 9机器翻译原理与方法(01) 概论 课程概况 教师介绍 学生情况 时间安排 课程内容 作业安排 网络资源 学术会议 学术刊物 参考文献 10机器翻译原理与方法(01) 概论 教师介绍 主讲教师:刘群 中国科学院计算技术研究所 研究员 办公电话:010-62600642 办公地点:计算所642室 电子邮件:liuqun

4、 at 个人主页:http:/ 课件可在个人主页下载(教学工作?机器翻译) 课代表:于惠 手机:15110098760 11机器翻译原理与方法(01) 概论 课程邮件列表 邮件列表地址: mt-course-at-ict- 邮件列表网址: http:/ 选课或旁听的同学同学都可以访问邮件列表网站并申请加 入邮件列表,申请时请注明你的姓名和单位 申请邮件列表需要先注册一个Google Account,最好是用 Gmail信箱注册,也可以用非Gmail信箱注册,但有可能会 丢失邮件 所有课程通知、作业相关资料都通过邮件列表发放 12机器翻译原理与方法(01) 概论 时间安排 (1) 周月一二三四

5、五周月一二三四五六日六日 19月21222324252627 29月/10月2829301234 3 10月 567891011 412131415161718 519202122232425 610月/11月2627282930311 7 11月 2345678 89101112131415 916171819202122 1023242526272829 11 12月 30123456 1278910111213 1314151617181920 1421222324252627 19月21222324252627 29月/10月2829301234 3 10月 567891011 412

6、131415161718 519202122232425 610月/11月2627282930311 7 11月 2345678 89101112131415 916171819202122 1023242526272829 11 12月 30123456 1278910111213 1314151617181920 1421222324252627 授课作业报告笔试讲座 13机器翻译原理与方法(01) 概论 时间安排 (2) 上课时间(12次共48学时): 每周三晚上:18:30-21:30 课堂讲授7次(含2次讲座) 项目报告4次 考试时间(1次2小时): 12月24日晚上:18:30-2

7、0:30 14机器翻译原理与方法(01) 概论 课程内容 讲课28学时(每一次课4学时) 第一讲:机器翻译概述 第二讲:机器翻译方法综述 第三讲:基于词的统计机器翻译方法 第四讲:基于短语的统计机器翻译方法 第五讲:基于句法的统计机器翻译方法 第六讲:语音机器翻译技术(宗成庆) 第七讲:跨语言检索技术(孙乐) 课堂讨论16学时。 答疑2学时,考试2学时。 15机器翻译原理与方法(01) 概论 作业安排项目(1) 目标: 利用开源的统计机器翻译工具SilkRoad(丝路)和 Moses(摩西),实现两个英汉机器翻译系统 自己实现一个统计机器翻译解码器 资源: 开源的统计机器翻译系统SilkRoa

8、d(丝路) 开源的统计机器翻译系统Moses(摩西) 开源的汉语词法分析系统ICTCLAS 开源的语言模型工具SRILM 英汉双语语料库 16机器翻译原理与方法(01) 概论 作业安排项目(2) 第一阶段: 能够掌握SilkRoad和Moses,并在给定的数据上跑完完 整的统计机器翻译训练和解码流程 第二阶段: 在SilkRoad的基础上,自己实现一个解码器 完成方式:每人独立完成 考核: 第4、第6、第8次为课堂报告,每位选课学生都要做一 个报告,介绍项目作业的进展 最终要在给定的测试数据上测试并考察结果BLEU值 17机器翻译原理与方法(01) 概论 作业安排翻译 目标: 自选ACL200

9、8-2009、EMNLP2008-2009的任 意一篇机器翻译论文,阅读并翻译 完成方式:每人独立完成 考核: 提交翻译的论文 在第9次课上,每个人分别介绍做翻译论文的 内容 18机器翻译原理与方法(01) 概论 开源统计机器翻译系统“丝路”简介 http:/ 开发单位: 中科院计算所 中科院自动化所 厦门大学 哈尔滨工业大学 中科院软件所 基于短语的模型 多个不同单位开发的解码器 详细的中文文档 适于入门学习 19机器翻译原理与方法(01) 概论 开源统计机器翻译系统“摩西”简介 http:/www.statmt.org/moses 目前最有影响的开源统计机器翻译系统 代码经过大量优化,性能

10、很高,已成为这一领域研究最主 要的Baseline系统 开发单位:英国爱丁堡大学、德国亚琛工业大学、意大利 ITC-IRST研究所、美国卡内基梅隆大学、美国麻省理工学 院、捷克查尔斯大学在美国和欧盟的一些资助下完成 基本特点: 基于短语的统计机器翻译方法(Phrase-based Approach) 基于混合网络的解码(Confusion Network Decoding) 基于要素的翻译模型(Factored Translation Model) 柱搜索算法(Beam Search Algorithm) 20机器翻译原理与方法(01) 概论 网络资源 ACL主页(ACL Anthology)

11、 NLP新闻组 Machine Translation Archive LDC(Language Data Consortium) ChineseLDC 中文自然语言处理开放平台 中科院计算所自然语言处理研究组 北京大学计算语言学研究所 21机器翻译原理与方法(01) 概论 国际会议 ACL (NAACL, EACL, AFNLP) EMNLP COLING MT Summit AMTA TMI JSCL(全国计算语言学联合学术会议) CWMT(统计机器翻译研讨会) 相关领域会议: 计算机、人工智能、互联网、语音 22机器翻译原理与方法(01) 概论 学术刊物 Computational Li

12、nguistics Machine Translation 中文信息学报 相关领域刊物: 计算机、人工智能、语音、互联网 23机器翻译原理与方法(01) 概论 参考书目 冯志伟(1995)自然语言机器翻译新论,语文出版社1995 年版 翁富良、王野翊(1998)计算语言学导论,中国社会科学 陈小荷(2000)现代汉语自动分析,北京语言文化大学出 版社 赵铁军(2000)机器翻译原理,哈尔滨工业大学出版社 杨沐昀(2000)机器翻译系统,哈尔滨工业大学出版社 姚天顺等(2002)自然语言理解 一种让机器懂得人类 语言的研究(第二版),清华大学出版社、广西科学 技术出版社 俞士汶 主编(2003)

13、计算语言学概论,商务印书馆 冯志伟(2005)机器翻译研究,中国对外翻译出版公司 宗成庆(2008)统计自然语言处理,清华大学出版社 刘群(2008)汉英机器翻译若干关键技术研究,清华大学 出版社 24机器翻译原理与方法(01) 概论 参考书目 James Allen (1995), Natural Language Understanding (Second Edition), The Benjamin / Cummings Publishing Company, Inc.,中译本:刘群等译,自然语言理解(第二 版),电子工业出版社,2005 Christopher D. Manning a

14、nd Hinrich Schutze (1999), Foundations of Statistical Natural Language Processing, The MIT Press, Cambridge, Massachusetts, 中译本:苑春法等译,统计自然语言处理基础,电子工业出 版社,2005 Daniel Jurafsky, James H. Martin, Speech and Language Processing: an Introduction to Natural Language Processing, Computational Linguistics,

15、and Speech Recognition, Prentice Hall, US Ed edition, January 26, 2000, 中译本:冯志伟,孙乐译,自然语言处理综论,电子 工业出版社,2005 Philipp Koehn, Statistical Machine Translation, textbook, Cambridge University Press, August 2009 25机器翻译原理与方法(01) 概论 参考文献 Top 10 SMT papers (2007 By Yang Liu) Bibliography for SMT (2007 By Yang

16、 Liu) 其他 A highly selective MT bibliography (1996 by Adam Berger) Bibliography for Machine Translation Evaluation (2003 by Florence Reeder et al.) Bibliography for Statistical Alignment and Machine Translation (2003 by Adri de Gispert F,E A PAF,E j=1 m f , f je,ea j 35 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 IB

17、M Model 1 的参数求解 (6) 我们有: 将 c (f |e;F,E) 代入迭代公式迭代公式,并将 P(F|E) 并入参数 e,我们得到新的迭代公式新的迭代公式: c fe;F,E= A PF,AE PFE j=1 m f , f je ,ea j = A PF,AE j=1 m f , f je,ea j PFE t fe=e 1 c fe;F,E 36 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 IBM Model 1 的参数求解 (7) 这个新的迭代公式可以理解为: 一旦我们得到了一组参数 t (f |e) ,我们就可 以计算所有的词语对齐的概率 P (F,A|E)

18、; 有了每个词语对齐的概率 P (F,A|E) ,我们 就可以计算新的 t (f |e) 的值,就是所有的出 现词语链接 (e,f ) 的词语对齐概率之和,并 对 e 进行归一化。 这个迭代算法就是一个经典的 EM 算法。 37 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 IBM Model 1 的参数求解 (8) 通常,训练语料库 (F|E) 是由一系列句子对组成的: 因此实际计算时我们采用以下公式: 这里 e仅仅起到一个归一化因子的作用。 F1,E1,F2,E2,.,Fs,Es t fe=e 1 s c fe;Fs,Es 38 机器翻译原理与方法 (03) 基于词的统计机器翻译

19、方法 IBM Model 1 的 EM 训练示例 (0A) 我们用一个简单的例子来演示 EM 训练的过程 假设有两个句子对: (a b|x y) 和 (a y) 先假设所有词语翻译概率平均分布 P(f|e) : P(a|x)1/2 P(a|y)1/2 P(b|x)1/2 P(b|y)1/2 我们这里为方便起见,对 IBM Model 1 做了简化: 只考虑词语一对一的情况,不考虑词语一对多或者对齐到空的情况; 对齐概率计算的时候,忽略了词语长度和词语对齐概率,仅考虑词语 翻译概率。 39 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 IBM Model 1 的 EM 训练示例 (0B

20、) E 步骤 PAF,E c fe;F,E A PAF,E j=1 m f , f je,ea j M 步骤 t fe=e 1 s c fe;Fs,Es 40 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 IBM Model 1 的 EM 训练示例 (1E) 对所有可能的对齐 计算 P(F,A|E) 对 P(F,A|E) 归一化 得到 P(A|F,E) ab xy ab xy a y PF,AE= 1 2 1 2 = 1 4 PF,AE= 1 2 PF,AE= 1 2 1 2 = 1 4 PAF,E= 1 2 / 1 2 =1 PAF,E= 1 4 / 2 4 = 1 2 PAF,E

21、= 1 4 / 2 4 = 1 2 41 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 IBM Model 1 的 EM 训练示例 (1M) 计算 c(f|e)重新计算 P(f|e) cax= 1 2 cbx= 1 2 cay= 1 2 1= 3 2 Pby= 1 2 / 3 2 1 2 = 1 4 cby= 1 2 Pbx= 1 2 / 1 2 1 2 = 1 2 Pax= 1 2 / 1 2 1 2 = 1 2 Pay= 3 2 / 3 2 1 2 = 3 4 42 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 IBM Model 1 的 EM 训练示例 (2E) 对所

22、有可能的对齐 计算 P(F,A|E) 对 P(F,A|E) 归一化 得到 P(A|F,E) ab xy ab xy a y PF,AE= 1 2 1 4 = 1 8 PF,AE= 1 2 3 4 = 3 8 PF,AE= 3 4 PAF,E= 1 8 / 4 8 = 1 4 PAF,E= 3 8 / 4 8 = 3 4 PAF,E= 3 4 / 3 4 =1 43 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 IBM Model 1 的 EM 训练示例 (2M) 计算 c(f|e)重新计算 P(f|e) cax= 1 4 cbx= 3 4 cay= 3 4 1= 7 4 cby= 1

23、 4 Pax= 1 4 / 1 4 3 4 = 1 4 Pbx= 3 4 / 1 4 3 4 = 3 4 Pay= 7 4 / 7 4 1 4 = 7 8 Pby= 1 4 / 7 4 1 4 = 1 8 44 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 IBM Model 1 的 EM 训练示例 (n) ab xy ab xy a y PAF,E=0.00.1 PAF,E=0.99.9 PAF,E=1Pby=0.00.1 Pax=0.00.1 Pbx=0.99.9 Pay=0.99.9 45 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 IBM Model 1 的化简

24、(1) 前面 IBM Model 1 的翻译模型公式为: 这个公式实际上可以进一步简化。 其复杂度太高: 因为: PFE= A PF,AE= l1m a1=1 l . am=1 l j=1 m t f jea j l1m a1=1 l . am=1 l j=1 m t f jea j= j=1 m i=1 l t f jei 46 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 IBM Model 1 的化简 (2) 所以翻译模型公式就可以简化为 : 而 c (f |e;F,E) 也可以简化为: 其复杂度减少为: PFE= A PF,AE= l1m j=1 m i=1 l t f je

25、i lm c fe;F,E= t fe t fe0.t fel j=1 m f , f j i=1 l e,ei 47 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 IBM Model 2 的推导 (1) 假设词语对齐只与源语言长度、目标语言的长度 和两个词的位置有关,与其他因素无关: 归一化条件为: Pa ja1 j1 , f 1 j1 ,m,E=aa jj ,m,l i=0 l aij ,m,l=1 48 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 IBM Model 2 的推导 (2) 经过推导我们可以得到: 经过化简我们可以得到 IBM Model 2 翻译模型:

26、 PFE= a1=0 l . am=0 l j=1 m t f jea jaa jj,m,l PFE= j=1 m i=0 l t f jeiaij,m,l 49 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 IBM Model 2 的参数求解 (1) 同样通过引入拉格朗日乘子推导可以得到: t fe=e 1 c fe;F,E aij,m,l= jml 1 cij ,m,l;F,E c fe;F,E= j=1 m i=0 l t feaij ,m,l f , f j e,e j t fe0a0j ,m,l.t felalj ,m,l cij ,m,l;F,E= t f jeiaij

27、,m,l t f je0a0j ,m,l.t fjelalj ,m,l 50 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 IBM Model 2 的参数求解 (2) 考虑到训练语料库 (F|E) 是由一系列句子对组成的: 因此实际计算时我们采用以下公式: 这里 e和 jml仅仅起到归一化因子的作用。 F1,E1,F2,E2,.,Fs,Es t fe=e 1 s c fe;Fs,Es aij,m,l= jml 1 s cij ,m,l;Fs,Es 51 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 IBM Model 3 Och, Ueffing, and Ney, 01

28、65 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 1st English word 2nd English word 3rd English word 4th English word start end Each partial translation hypothesis contains: - Last English word chosen + source words covered by it - Next-to-last English word chosen - Entire coverage vector (so far) of source sentence -

29、 Language model and translation model scores (so far) all source words covered best predecessor link Jelinek 69; Och, Ueffing, and Ney, 01 堆栈搜索解码算法 (2) Brown et al US Patent #5,477,451 66 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 堆栈搜索解码算法 例子 (1/13) 待翻译句子: 翻译概率表: 我的书 我I0.4 me 0.3 my0.2 mine 0.1 的of0.50.5 书book 0.5

30、the book 0.5 不考虑扭曲概率( IBM 模型 1 ) 语言模型(略) Beam Width=3 假设 the book 是一个词 67 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 堆栈搜索解码算法 例子 (2/13) I0.4 p(I|) me0.3 p(me|) my0.2 p(my|) mine0.1 p(mine|) 译文原文位置翻译模型语言模型 第一个译文词由“我”翻译过来, 得到四个翻译假设 (hypothesis) 68 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 堆栈搜索解码算法 例子 (3/13) I0.4 p(I|) me0.3 p(me|

31、) my0.2 p(my|) mine0.1 p(mine|) of0.5 p(of|) book0.5 p(book|) the book0.5 p(the book|) 加上其他翻译假设 (hypothesis) 69 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 堆栈搜索解码算法 例子 (4/13) I0.4 p(I|) me0.3 p(me|) my0.2 p(my|) mine0.1 p(mine|) of0.5 p(of|) book0.5 p(book|) the book0.5 p(the book|) 剪枝 (prune) 70 机器翻译原理与方法 (03) 基于词

32、的统计机器翻译方法 I0.4 p(I|) my0.2 p(my|) the book0.5 p(the book|) 剪枝 (prune) 后的结果 堆栈搜索解码算法 例子 (5/13) 71 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 I my the book I of I book I the book my of my book the book I the book of 对每个翻译假设进行扩 展,生成第二个译文词 堆栈搜索解码算法 例子 (6/13) 72 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 I my the book I of I book I t

33、he book my of my book the book I the book of 剪枝 (prune) 堆栈搜索解码算法 例子 (7/13) 73 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 I my the book my book the book I the book of 剪枝 (prune) 后的结果 堆栈搜索解码算法 例子 (8/13) 74 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 I my the book my book the book I the book of my book of the book I of the book of I

34、 the book of me the book of my the book of mine 对每个翻译假设进行扩 展,生成第二个译文词 如果剩下的词都可以翻译到空, 该假设可以不再扩展 堆栈搜索解码算法 例子 (9/13) 75 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 I my the book my book the book I the book of my book of the book I of the book of I the book of me the book of my the book of mine 剪枝 (prune) 堆栈搜索解码算法 例子 (

35、10/13) 76 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 I my the book my book the book I the book of my book of the book of my the book of mine 剪枝 (prune) 后的结果 堆栈搜索解码算法 例子 (11/13) 77 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 I my the book my book the book I the book of my book of the book of my the book of mine 在这里加上句尾标记 , 重新计算完整句

36、子的语言模 型分数,并选择最优译文。 所有源文词都已经翻译,不再对假设进行扩展 堆栈搜索解码算法 例子 (12/13) 78 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 I my the book my book the book I the book of my book of the book of my the book of mine 最优译文 堆栈搜索解码算法 例子 (13/13) 79 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 内容提要 为翻译建立概率模型 IBM 的信源信道模型 语言模型 n 元语法模型 翻译模型 IBM 模型 1-5 词语对齐算法 解码

37、算法 Candide 系统 Egypt 工具包与 Giza+ 机器翻译自动评价 80 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 IBM 公司的 Candide 系统 (1) 基于统计的机器翻译方法 分析转换生成 中间表示是线性的 分析和生成都是可逆的 分析(预处理): 1. 短语切分 2. 专名与数词检测 3. 大小写与拼写校正 4. 形态分析 5. 语言的归一化 81 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 IBM 公司的 Candide 系统 (2) 转换(解码):基于统计的机器翻译 解码分为两个阶段: 第一阶段:使用粗糙模型的堆栈搜索 输出 140 个评分最

38、高的译文 语言模型:三元语法 翻译模型: EM Trained IBM Model 5 第二阶段:使用精细模型的扰动搜索 对第一阶段的输出结果先扩充,再重新评分 语言模型:链语法 翻译模型:最大熵翻译模型(选择译文词) 82 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 IBM 公司的 Candide 系统 (3) ARPA 的测试结果 : FluencyFluencyAdequacyAdequacyTime RatioTime Ratio 199219921993199319921992199319931992199219931993 SystranSystran.466.466.

39、540.540.686.686.743.743 CandideCandide.511.511.580.580.575.575.670.670 TransmanTransman.819.819.838.838.837.837.850.850.688.688.625.625 ManualManual .833.833 .840.840 83 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 内容提要 为翻译建立概率模型 IBM 的信源信道模型 语言模型 n 元语法模型 翻译模型 IBM 模型 1-5 词语对齐算法 解码算法 Candide 系统 Egypt 工具包与 Giza+ 机器翻译自动

40、评价 84 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 JHU 的 1999 年夏季研讨班 由来 IBM 的实验引起了广泛的兴趣 IBM 的实验很难重复:工作量太大 目的 构造一个统计机器翻译工具( EGYPT )并使它对于研究者 来说是可用的(免费传播); 在研讨班上用这个工具集构造一个捷克语英语的机器翻 译系统; 进行基准评价:主观和客观; 通过使用形态和句法转录机改进基准测试的结果; 在研讨班最后,在一天之内构造一个新语对的翻译器。 JHU 夏季研讨班大大促进了统计机器翻译的研究 85 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 EGYPT 工具包 EGYPT 的

41、模块 1.GIZA :这个模块用于从双语语料库中抽取统计知识 (参数训练) 2.Decoder :解码器,用于执行具体的翻译过程(在信 源信道模型中,“翻译”就是“解码”) 3.Cairo :整个翻译系统的可视化界面,用于管理所有的 参数、查看双语语料库对齐的过程和翻译模型的解码 过程 4.Whittle :语料库预处理工具 EGYPT 可在网上免费下载,成为 SMT 的基准 86 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 EGYPT 工具包的性能 “ 当解码器的原形系统在研讨班上完成时,我们 很高兴并惊异于其速度和性能。 1990 年代早期在 IBM 公司举行的 DARPA 机

42、器翻译评价时,我们曾经预计只 有很短( 10 个词左右)的句子才可以用统计方法进行解 码,即使那样,每个句子的解码时间也可能是几个小时。 在早期 IBM 的工作过去将近 10 年后,摩尔定律、更好的 编译器以及更加充足的内存和硬盘空间帮助我们构造了 一个能够在几秒钟之内对 25 个单词的句子进行解码的系 统。为了确保成功,我们在搜索中使用了相当严格的阈 值和约束,如下所述。但是 , 解码器相当有效这个事实为 这个方向未来的工作预示了很好的前景,并肯定了 IBM 的工作的初衷,即强调概率模型比效率更重要。” 引自 JHU 统计机器翻译研讨班的技术报告 87 机器翻译原理与方法 (03) 基于词的

43、统计机器翻译方法 内容提要 为翻译建立概率模型 IBM 的信源信道模型 语言模型 n 元语法模型 翻译模型 IBM 模型 1-5 词语对齐算法 解码算法 Candide 系统 Egypt 工具包与 Giza+ 机器翻译自动评价 88 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 机器翻译的评价 常见的人工评价指标 忠实度和流利度 可理解率 自动评价的重要意义 反复使用无需成本 为通过频繁的实验提高系统性能提供了基本的 保证 89 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 基于测试点的机器翻译自动评价 北大俞士汶于 1990 年代初期提出 模仿人类的标准化考试的方法,对每

44、个题目(源 文句子)设置若干个测试点 每个测试点只考察一个问题(比如汉语分词、词 语译文选择等) 判断测试点是否被正确翻译,完全通过字符串匹 配,每个测试点可以有多种候选的正确答案 是国际上最早出现的机器翻译自动评价方法之一 缺点是题库的构造成本很高,需要对机器翻译有 相当了解的专家 90 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 基于编辑距离的机器翻译自动评价 编辑距离: Edit distance ,又称 Levenshtein Distance ,用于计算两个字符串之间的距离 编辑距离的含义,是指通过插入、删除、替换等编 辑操作,将一个字符串变成另外一个字符串时,所 需要的

45、编辑操作的次数 常见的基于编辑距离的评价指标: WER , PER , mWER , mPER 缺点:对词序问题没有好的处理方法 91 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 基于 N 元语法的机器翻译自动评价 基本思想 对于每个源文句子,由多位翻译人员提供人工翻译的 结果 将机器翻译的结果与这多个人工翻译的结果进行比较 ,越相似的句子,评价越高 这种比较按照一元语法、二元语法、三元语法、 分别进行,然后进行评价 常见的评价指标 BLEU :各层语法的结果进行几何平均 NIST :各层语法的结果进行算术平均,同时考虑信息 增益 92 机器翻译原理与方法 (03) 基于词的统计机器翻译方法 机器翻译自动评价:例子 考虑例子: Candidate 1: It is a guide to action which ensures that the military always obeys the command of the party Candidate 2: It is to insure the troops forever hearing the activity guidebook that party direct Reference 1: It i

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/环境 > 装饰装潢


经营许可证编号:宁ICP备18001539号-1