基于多引擎的WEB机器翻译系统在专利文献中的应用.pdf

上传人:tbuqq 文档编号:5508467 上传时间:2020-05-26 格式:PDF 页数:6 大小:466.36KB
返回 下载 相关 举报
基于多引擎的WEB机器翻译系统在专利文献中的应用.pdf_第1页
第1页 / 共6页
基于多引擎的WEB机器翻译系统在专利文献中的应用.pdf_第2页
第2页 / 共6页
基于多引擎的WEB机器翻译系统在专利文献中的应用.pdf_第3页
第3页 / 共6页
基于多引擎的WEB机器翻译系统在专利文献中的应用.pdf_第4页
第4页 / 共6页
基于多引擎的WEB机器翻译系统在专利文献中的应用.pdf_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《基于多引擎的WEB机器翻译系统在专利文献中的应用.pdf》由会员分享,可在线阅读,更多相关《基于多引擎的WEB机器翻译系统在专利文献中的应用.pdf(6页珍藏版)》请在三一文库上搜索。

1、2007年第3期专利文献研究2007年6月 基于多引擎的WEB机器翻译系统 在专利文献中的应用 中国专利信息中心高立华 随着我国专利申请量的逐年增长,越来 越多的国外人士需要浏览我国的专利文献。 对于母语是非汉语的人士来说,要在浩瀚的 专利文献中检索出有用的专利信息,这就需 要一个从中文到英文甚至到其它种类语言 的转换,基于多引擎的WEB 机器翻译系统 (以下简称多引擎翻译系统)基本可以满足 这种需求。 本文仅对中文到英文的翻译作初 步的探讨。 一、多引擎翻译系统的发展背景 自 20 世纪 90 年代后期以来, 机器翻译 的方法和技术从传统的基于规则的机器翻 译( RHAT )扩展到了诸如基于

2、实例的机器 翻译(EHMD ) 、 基于模版的机器翻译 (MT ) 、 基于知识的机器翻译( KHAT ) 、统计机器翻 译( SIT) 、混合式机器翻译(HMD ) ,机器 翻译所依据的语言学理论则从以句法描述 为特征的短语结构语法,发展到以语义描述 为特征的格语法、依存语法、配价语法,再 到以知识描述为特征的翻译系统以及本体 论(Ontclogy ) 。机器翻译在走过了漫长的发 展历程后,其局限性仍然比较明显。究其原 因,是由于单一的机器翻译方法难以适应不 同领域的需求所造成的。 基于多引擎的WEB 机器翻译系统,经 过了艰辛的历程,其最终目标是:实现70 80的可读性和可理解性。实现母语

3、为非 汉语的国内外专利人士及专利爱好者对专 利文献的阅读和快速浏览功能,并在一定程 度上对专利文献的翻译起到辅助和参考作 用。 二、多引擎翻译针对专利文献的引擎分 配 专利文献具有其特定的格式及特点。比 如:每篇专利文献基本是由标题、文摘、权 利要求、说明书和附图这五部分组成。虽然 专利文献囊括了各个实用技术领域,而且有 很强的专业术语, 对它们的翻译工作看似是 一项巨大而艰难的工程,但其每部分的撰写 都有其固有的特性,这就使得专利文献具有 采用多引擎翻译引擎得天独厚的优势。 本系统可集成多个翻译引擎,构建不同 级别的翻译服务,对不同目标(如速度和准 确性之间的折衷)采用不同的引擎。例如: 对

4、标题、文摘、权利要求,说明书和附图的 翻译需要不同的翻译机制,允许翻译服务的 请求者对翻译内容做出某种标记。 1. 对于标题可以调用基于规则的翻译 引擎 标题是对全文的高度概括。它不像专利 文献中的句子,上下连贯,共同阐述某个问 题。它浓缩了文章的内容,简单、明了。因 此,标题一般可以翻译成名词短语,动名词 短语,介词短语,不定式短语。 例如: 中文: 离合器装置和具有该装置的电动 检索与数据库 国家知识产权局专利局文献部 1 2007年6月 专利文献研究2007年第3期 机设备。 英文:Clutch device and motor apparatus having the same. 中文

5、:调整装置,生产加工系统和控 制调整装置的方法。 英文: Adjusting apparatus, production processing system, and method of controlling adjusting apparatus. 为避免标题中复合长句式太多,结构过 于复杂, 所以广泛使用非谓语动词短语性长 句。应该说在叙述中大量V-ed 和 V-ing 等非 谓语动词形式是专利标题翻译的主要特征 之一。这样,对于标题可以调用基于规则的 翻译引擎。 2. 权利要求可采用基于模板的翻译引 擎 权利要求书具有法律意义,这部分集中 体现了申请人对于自己的知识产权的范围 和应用的

6、可能性进行有效保护。法律的语言 特色是模糊和清晰的统一,专利文件往往也 具有模糊性, 其模糊性存在的原因是由于因 为专利持有人不可能完全列举专利技术的 应用潜力。而原文中的模糊说法,或许正是 原文作者有意留下的陷阱。翻译中没有责任 也没有必要清除这些模糊性,而是考虑如何 用汉语中的相应词汇保留这些模糊概念。因 此,这也是翻译过程中应该注意保留的原文 文体的特点之一。专利翻译不能像文学翻译 那样,深入理解,而只能以准确把握字面意 义为限。因此,其表达方式非常统一,可采 用基于模板的翻译引擎。 翻译独立权利要求时,要特别注意技术 特征部分是否是开放式的还是闭合式的,正 确 使 用comprise,

7、 consist of , contain , essentially consist of , substantially comprise 等等。 1) 例如: “包含”、 “包括”或“含有” 基 本 具 有 固 定 的 译 法 : “ comprising ” , “including ”,“containing ” 。 2) “由组成”应译为“consisting of ” ; “基本上由组成”或“大体上 由组成” 应译为“consisting essentially of “。 这两个句式连接字词有着重大意义差 别: consisting of A and B :只包括A 及 B,

8、无其它。 comprising A and B :除包括 A 及 B 外,尚可能包括C、D 等。所以,需要把这 些语句放入模板库形成固定的译法。 3) “ 其 特 征 在 于 ” 可 译 为 : “characterized in that”,“characterized by” 。 3. 专利说明书采用基于实例的翻译引 擎 在文摘中经常会出现一些对其功能和 效用的总结,这些句子,如果直接用机器翻 译,结果会令人很不满意,甚至出现啼笑皆 非的现象。 例如: 中文:该方法得到极好的结果,而且比 已知方法灵活而且也简便得多。 英文:The method gives excellent result

9、s, and is flexible and also much simpler than known methods. 面向专利性说明文的汉英机器翻译模 板,需要抓住的是格式特点的规律性东西, 或者说要把这些格式的常见表达方式尽可 能收集和穷尽,然后总结抽象成为翻译实 例。由于专利摘要属于典型的说明文,其表 达格式相对规范, 遣词造句比较简单, 因此, 可以将常用的主要的表达方式收集完全,争 取做到穷尽。 这样汉英机器实例翻译至少可 以把专利摘要的句子结构翻译得比较地道 和准确。 例如: 中文:在一个优选实施方案中,该非织 造织物具有弹性拉伸与回复性和类似于织 物的手感。 英文: In a

10、preferred embodiment, the nonwoven fabrics have elastic stretch and 国家知识产权局专利局文献部 2 2007年第3期专利文献研究2007年6月 recovery properties with a textile-like hand. 上文中,“在一个优选实施方案中”或 “在一个较好的实施方案中”,均可翻译成 “In a preferred embodiment ” 。再如,“在此 设计方案中” , 可翻成“In this arrangement” , 这些均可制作为实例加入翻译引擎。 三、多引擎翻译的优势 在基于多引擎的机器

11、翻译研究中,计算 机工作者和语言工作者的合作形成了一种 新的范式。 语言工作者的工作主要是定义和 开发语料库、词典等语言学资源,而计算机 工作者主要是改进算法。这种范式比基于规 则的机器翻译系统研究中形成的开发范式 更加有效, 语言数据和算法之间的区分更加 清楚。 在系统开发阶段,语言工作者可随时与 计算机工作者进行交互,二者独自开发。语 言工作者开发的语言资源不是为特定的机 器翻译系统服务的,可以用于任何一个机器 翻译系统, 这样从总体上大大减少了语言工 作者的重复劳动,形成了良好的积累效应。 而且,计算机工作者可以不断地通过改进算 法来提高机器翻译系统的性能,而不像基于 规则的范式中,一旦

12、算法确定,提高系统性 能的任务主要取决于语言工作者的词典编 辑。 图 1是以基于规则的翻译为例的翻译流 程图,其它的基于实例,基于模板的翻译流 程类似。 成功 输入待处理句子 译文生成 搜索词料库 预处理词典 规则处理 语料 规则 Y N 图 1 翻译流程图 四、多引擎翻译的词典维护 多引擎机器翻译需要有一套合适的机 器词典来支持。 为了提高机器译文的质量和 工作效率,本系统词典设计采用“基础词典 +专业词典”的形式。要翻译某一专业领域 的文献, 则要建立具有基础词条和该专业词 条的词典。 例如要自动翻译化工学专业的文 献,则词典中只需要具有基础词条和化工专 业词条。当改变专业领域时,只需选择

13、相应 的专业词典即可。 这种积木式结构的词典既 有继承性,又有可拆卸替换性,有利于词典 的扩充与提高。 以往的翻译系统都是以单一翻译工作 人员或集中工作的翻译小组为服务对象,不 国家知识产权局专利局文献部 3 2007年6月 专利文献研究2007年第3期 能或不便于在更大物理范围内使不同的翻 译人员协同工作并共享资源。这样的现状所 导致的结果是不同的翻译人员可能需要进 行重复劳动,翻译过程中互相等待,不同翻 译人员的翻译结果需要重新进行统一方能 输出,最终造成资源与时间的严重浪费。在 经济活动日益频繁的今天,翻译项目,尤其 是商业性的翻译项目,时间和准确率往往决 定着项目的成败。 某个翻译工作

14、者效率的提 高,不能显著提高处于分散工作状态的小组 效率。要解决这一问题,就需要将现有的单 机或局域网软件向互联网进行移植,并同时 提供一些实用的网络功能,从而更好地进行 跨地域的小组合作,实现小组成员间的资源 共享,提高小组整体工作效率。 系统管理员 管理调试界面 查 询 增 删 修 改 使用界面 英 汉 翻 译 汉 英 翻 译 词 实例 语 言 模 型 翻译子系统知识 用户 规则 图 2 如图 2 所示,此系统在对词库的维护过 程中,由系统管理员分配客户端用户名及密 码,客户端用户在登陆了词库维护工具界面 后,即可进行汉英,英汉的翻译工作。在对 翻译结构进行分析后,可对词库中已有的词 进行

15、添加,删除,修改。对于普通用户,不 具有修改其它用户词的权限。经过一定时间 的协同作业,比如,以一周为一个周期,可 由精通此专业的用户来统一修改和去除重 复的词汇。当然,要在管理员给其设定了相 应的权限后方可进行。 五、多引擎翻译的Web 服务实现 采用 J2 EE Web服务方式实现Web 服 务。 J2EE Web 服务规范定义的体系结构关 系是一种逻辑关系,添加到J2EE 平台的内 容包括依赖于由Web 容器和 EJB 容器提供 的端口组件以及SOAP 传输。 J2EE Web 服 务需要端口能够从客户机、Web 容器和 EJB 容器引用。 J2EE Web 服务的特定角色可以 被映射到

16、已有的J2 EE 平台角色上。例如: J2 EE Web 服务产品提供者角色可以被映射 到 J2 EE 产品提供者角色上,Web 服务容器 提供者角色可以被映射到J2 EE 规范中的容 国家知识产权局专利局文献部 4 2007年第3期专利文献研究2007年6月 器提供角色上。 Web 服务的客户机可以是另一个Web 服务、一个 J2EE 组件(包括 J2EE 应用程序 客户机),或任意的Java 应用程序。 Web 服 务客户机视图可以是远程的,它提供了本地 与远程间的透明性。 1. Web 服务的特点 1) 以基于实例、辅以模式的混合策略 机器翻译方法为基础; 2) 将实例库和规则库进行分离

17、,实例 库在服务器端存储,规则库则安装在客户 端; 3) 根据对实例库的客户端使用频率及 客户端硬件条件,可自主选择是否下载部分 常用实例库至客户端运行,以提高客户端工 作效率; 4) 实例库和规则库的自动及手动上传 和下载更新功能; 5) 为减轻服务器负载,使用P2P 技术 对某些实例库进行分散存储; 6) 其他辅助性功能。如对 Word 与 PDF 文件的兼容,集成网络化双语或多语 电子词典,集成网络化术语库(Term Lib ) 功能,集成各大搜索引擎等。 2. 优点: 实例库和规则库的分离存储与 管理 以多引擎机器翻译系统为基础的机器 翻译有两个关键模块,即实例库和规则库。 其中实例库

18、是翻译工作主要的参考源,也是 小组协作工作时需要共享的最重要的资源, 随着翻译项目的展开其容量会不断增加。而 规则库基本上在软件开发时就已经形成,且 很少发生变化。 这样的特点决定了在网络化 的机器翻译软件系统中,可以采用实例库和 规则库进行分离的存储技术。 使用网络化的机器翻译系统,翻译小组 的成员在物理上可以分布在拥有互联网接 入的任何地点。 由于实例库集中位于服务器 端存储, 确保了所有的小组成员都可以共享 项目的实例资源。 而每个成员完成的新的实 例,都可以即时更新到实例库,从而保证服 务器端实例库始终最新最全。为了确保实例 的有效性, 项目管理人员可以给小组成员分 配不同权限, 并在

19、所有新的实例进入服务器 实例库之前进行审核和预处理。在服务器端 和客户端均有规则库。小组成员平时依靠本 地规则库工作。当规则库有更新时,可从服 务器端自动向所有小组成员进行发布。 在这种结构下, 根据小组成员的使用需 要,也可以自主选择是否将一部分实例库下 载到本地运行,以提高客户端的翻译效率。 项目管理人员可以对小组成员设定权限,确 定每个成员可下载的范围,这对于整个项目 的管理和保密将至关重要。由于用户可以将 部分实例库下载到本地运行,为减轻主服务 器的负载,可以考虑使用 P2P 技术将数据 进行分流。 翻译系统可以自动选择以最节省 网络资源的方式与其它用户共享实例资源。 六、多引擎翻译的

20、其他实用性功能 在上述基本结构基础之上,网络化的多 引擎翻译系统还提供如下一些实用性功能, 从而使得整个系统更趋完善。这些功能是: 1. 文档兼容性 翻译工作中最常接触的两类文档格式 是 Word 和 PDF 文件。由于大部分翻译人员 都采用微软的 Word 作为字处理软件, 以往 遇到PDF 文件时,往往需要借助第三方软 件将 PDF 文件转换成 Word 文档格式才能 够进行工作。在此系统中,可集成对PDF 文档的转换功能, 从而为翻译人员提供一项 非常大的便利。 2. 网络双语或多语电子词典 在翻译人员的工作过程中,经常需要查 询各种专业词典。 借助于传统的纸质词典或 其他第三方电子词典

21、常需要打断现有的工 作进程,也要消耗一定的时间。在此系统中 集成了项目所需的多种双语或多语专业词 国家知识产权局专利局文献部 5 2007年6月 专利文献研究2007年第3期 典,并具备常见的“即指即译”及相应详细 解释功能, 将会为翻译人员节省更多的工作 时间,使其整个工作过程更加流畅。 3. 网络术语库 术语库是翻译人员在翻译专业性很强 的专业技术文档时的一项利器。同时,术语 库的建设也是一个不断积累的过程。现有的 机器翻译软件都是在单机基础上进行术语 库的建设和交换的,往往造成工作的大量重 复,也不便于交流和共享。在采用网络结构 后,可以参考实例库的方式进行术语库的设 置。网络化的术语库

22、也将节省更多的项目时 间。 4. 集成搜索引擎 笔者在翻译过程中经常需要借助各种 搜索引擎来搜索与翻译对象相关的内容。有 的时候一些搜索结果还可以直接应用到自 己的翻译结果当中。在没有一个集成环境的 情况下, 需要笔者手动在各种不同的应用程 序之间频繁切换,无形中降低了效率,浪费 了时间。 本系统在一个统一的界面中集成搜 索引擎功能, 无须切换即可直接浏览搜索结 果并将其应用于翻译结果,将给翻译人员节 省大量时间。 七、小结 从目前的机器翻译研究的现状和发展 趋势来看, 随着数据资源规模的不断扩大和 计算机性能的迅速提高,多引擎的机器翻译 还有很大的发展空间。在未来几年内,在基 于短语的主流翻译方法中融入句法、语义信 息,必将成为机器翻译发展的趋势。 (信息中心 方建国 审校) 国家知识产权局专利局文献部 6

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1