双语语料库段落重组对齐方法研究.ppt

上传人:本田雅阁 文档编号:3179353 上传时间:2019-07-21 格式:PPT 页数:32 大小:238.01KB
返回 下载 相关 举报
双语语料库段落重组对齐方法研究.ppt_第1页
第1页 / 共32页
双语语料库段落重组对齐方法研究.ppt_第2页
第2页 / 共32页
双语语料库段落重组对齐方法研究.ppt_第3页
第3页 / 共32页
双语语料库段落重组对齐方法研究.ppt_第4页
第4页 / 共32页
双语语料库段落重组对齐方法研究.ppt_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《双语语料库段落重组对齐方法研究.ppt》由会员分享,可在线阅读,更多相关《双语语料库段落重组对齐方法研究.ppt(32页珍藏版)》请在三一文库上搜索。

1、双语语料库段落 重组对齐方法研究,李维刚 刘挺 王震 李生 哈工大信息检索研究室 2003-8-1,Information Retrieval Lab HIT http:/,2,主要内容,引言 方法 结果 讨论,Information Retrieval Lab HIT http:/,3,构建双语语料库,机器翻译和跨语言检索解决人类的不同语言之间的障碍 双语资源给机器翻译和跨语言检索提供了有力的支持,尤其是双语语料库 构建双语语料库(英汉双语语料库)是一项十分有意义的工作,Information Retrieval Lab HIT http:/,4,真实双语文本的特征,网络资源丰富 篇章级对齐

2、 内容分散 格式复杂 风格各异,Information Retrieval Lab HIT http:/,5,目前的问题,不同的对齐精度 段落、句子、词和短语的对齐 上一级的对齐是下一级对齐的基础 经过统计发现90%以上的电子文本中的段落并不对应或者没有明显的段落标记,Information Retrieval Lab HIT http:/,6,段落对齐和段落重组对齐,段落对齐是进行对齐加工的第一步 对段落对齐研究的很少 段落对齐的目的是句子对齐 段落重组对齐是打破原有的段落标记,对篇章进行重新分段,仅仅在形式上对篇章进行对齐,Information Retrieval Lab HIT htt

3、p:/,7,句子对齐,基于长度的句子对齐 长句对应的译文长,短句对应译文短 根据长度的不同 单词个数-Brown et al. (1991c) 字符的个数-Gale and Church (1993) 基于词典的句子对齐,Information Retrieval Lab HIT http:/,8,段落重组对齐(1),自动分段对齐研究(中科院计算所) 将原有的段落合并 通过汉英词汇对之间的特征比较,包括词的出现频率、字节偏移量、出现间隔向量 找到可以用于分段的锚点词汇对 通过锚点词所在句子的匹配获得锚点句子进行分段,Information Retrieval Lab HIT http:/,9,

4、段落重组对齐(2),适合含有较多高频固定词的双语文本 适合于术语提取 数据稀疏(较少高频固定词) 需要分词等预处理,Information Retrieval Lab HIT http:/,10,主要内容,引言 方法 结果 讨论,Information Retrieval Lab HIT http:/,11,几个概念,锚点 句珠 二分图(完全二分图) 匹配 最优对齐匹配,Information Retrieval Lab HIT http:/,12,锚点和句珠,锚点(anchor) Brown在对Hansard语料库进行对齐时,引入了锚点的概念,认为锚点的作用就是将整个语料库分成一些小的对齐片

5、断 句珠(Sentence bead) 每一对相对应的句子称作句珠,Information Retrieval Lab HIT http:/,13,二分图,设G为无向图,G=,结点集V有两个子集V1,V2满足V1 V2V,V1V2,使G的每一条边eE时,e=vi,vj,viV1,vjV2,即同一子集Vi(il,2)中的任何两个结点都不邻接,称这样的图为二分图。,Information Retrieval Lab HIT http:/,14,完全二分图,G记为G=V1,E,V2。对于二分图G中,若V1的每个结点与V2的每个结点相邻接,反之亦然。则称G为完全二分图,若|V1|m,|V2|n,则简记

6、为Km,n,如图所示,Information Retrieval Lab HIT http:/,15,匹配(Matching),设G是二分图,如E的一个子集M中的边无公共端点,即任两边均不邻接,则M为G的一个匹配。 最优对齐匹配,Information Retrieval Lab HIT http:/,16,最优对齐匹配,M为完全二分图G=的一个最优对齐匹配 ,满足以下条件: 二分图中所有的节点是有序的 若|S|=m,|T|=n则首先默认sm,tnE; M中若存在一条边e=si,tj满足d(si,tj)j或ki且rj成立; 采用贪心算法依次在完全二分图G中选取权值最小的边,直到M中边数达到饱和

7、。,Information Retrieval Lab HIT http:/,17,最优对齐匹配(图示),T1, T2, T3, T4, T5, T6, T7 Tn-2, Tn-1, Tn,Information Retrieval Lab HIT http:/,18,段落对齐问题和模型的关系,S(s1, s2, s3,si, sj, sm) V1 T(t1, t2, t3,ti, tj, tn) V2 (1:1)型句珠(si, tj)的集合Km,n 默认文本中最后一句对齐sm,tnE 双语段落重组对齐 寻找最优对齐匹配,Information Retrieval Lab HIT http:/

8、,19,段落重组对齐的锚点选择,(1:1)型正确对齐句珠在文本中的分布情况 (1:1)的句对在全篇的比例均超过85%,并且有着良好的分布规律,Information Retrieval Lab HIT http:/,20,段落重组对齐总体思想,篇章定位 句长搭配 词典校对,Information Retrieval Lab HIT http:/,21,形式对齐评价函数,Pi,j = a(Pui,j-P0) + (Pli,j -P0) + a(Pdi,j -P0) P0为对应文本长度之比; Pui,j为对应上文部分长度之比; Pli,j为对应句长度之比; Pdi,j对应下文部分长度之比; a为加

9、权系数,Information Retrieval Lab HIT http:/,22,重组段落对齐思想,P0,锚点句对,Pui,j,Pli,j,Pdi,j,Information Retrieval Lab HIT http:/,23,锚点句对的校验,词典检验 L| |表示全部元素的字符长度和; Match(S)表示译文出现在汉语句中英语单词; Match(T)表示成为英文单词译文的汉语单词 ;,Information Retrieval Lab HIT http:/,24,主要内容,引言 方法 结果 讨论,Information Retrieval Lab HIT http:/,25,试验

10、结果(1),召回率 = (返回段落总数 错误段落总数)/ 双语文本中(1:1)型正确句珠总数; 准确率 = (返回段落总数 错误段落总数)/ 返回段落总数;,Information Retrieval Lab HIT http:/,26,试验结果(2),重组分段的结果一般每一段落的句子数在10句以内。,Information Retrieval Lab HIT http:/,27,重组分段的实例(1)-original,Around 30 people have staged a naked protest against GM food. The protesters spelled out

11、 “no GM“ with their bodies in a meadow at Forest Row, East Sussex. Organiser Mike Grenville said he hoped it would send a message to the Government of peoples concern, particularly over commercial planting of GM crops. Mr Grenville, 51, a self-employed business consultant from Forest Row, said: “I t

12、hink people were very pleased to have the opportunity to express how we feel, how frustrated we are about what seems to be the foregone conclusion, and the question many people are saying is What do we do next?. “We hope others will follow our lead and find other ways to express how we feel. “We do

13、not want GM crops planted in the country at all.“,约30名人士在英国苏塞克斯郡东部的福利斯劳的一处牧场裸体组成“反对基因改良作物”的字样。组织者迈克-格伦威利,希望通过这次行动向政府传达人们反对商业化种植基因改良作物的意愿。 51岁的格伦威利是福利斯劳一名自雇的商业顾问,他说:“当人们得知种植基因改良作物似乎不可避免时,他们感到十分沮丧。许多人都提出这样的问题,接下来我们该做什么?。令人欣慰的是,人们有机会表达内心的感受。希望其他人加入我们,跟我们一起找到其他表达内心感受的方法。我们根本不希望在这个国家里种植基因改良作物。,Informatio

14、n Retrieval Lab HIT http:/,28,重组分段的实例(2)-Merged,Around 30 people have staged a naked protest against GM food. The protesters spelled out “no GM“ with their bodies in a meadow at Forest Row, East Sussex.Organiser Mike Grenville said he hoped it would send a message to the Government of peoples concer

15、n, particularly over commercial planting of GM crops. Mr Grenville, 51, a self-employed business consultant from Forest Row, said: “I think people were very pleased to have the opportunity to express how we feel, how frustrated we are about what seems to be the foregone conclusion, and the question

16、many people are saying is What do we do next?. “We hope others will follow our lead and find other ways to express how we feel. “We do not want GM crops planted in the country at all.“,约30名人士在英国苏塞克斯郡东部的福利斯劳的一处牧场裸体组成“反对基因改良作物”的字样。组织者迈克-格伦威利,希望通过这次行动向政府传达人们反对商业化种植基因改良作物的意愿。 51岁的格伦威利是福利斯劳一名自雇的商业顾问,他说:“

17、当人们得知种植基因改良作物似乎不可避免时,他们感到十分沮丧。许多人都提出这样的问题,接下来我们该做什么?。令人欣慰的是,人们有机会表达内心的感受。希望其他人加入我们,跟我们一起找到其他表达内心感受的方法。我们根本不希望在这个国家里种植基因改良作物。,Information Retrieval Lab HIT http:/,29,重组分段的实例(3)-ReAlign,Around 30 people have staged a naked protest against GM food. The protesters spelled out “no GM” with their bodies i

18、n a meadow at Forest Row, East Sussex.Organiser Mike Grenville said he hoped it would send a message to the Government of peoples concern, particularly over commercial planting of GM crops. Mr Grenville, 51, a self-employed business consultant from Forest Row, said: “I think people were very pleased

19、 to have the opportunity to express how we feel, how frustrated we are about what seems to be the foregone conclusion, and the question many people are saying is What do we do next?. “We hope others will follow our lead and find other ways to express how we feel. “We do not want GM crops planted in

20、the country at all.“,约30名人士在英国苏塞克斯郡东部的福利斯劳的一处牧场裸体组成“反对基因改良作物”的字样。组织者迈克-格伦威利,希望通过这次行动向政府传达人们反对商业化种植基因改良作物的意愿。 51岁的格伦威利是福利斯劳一名自雇的商业顾问,他说:“当人们得知种植基因改良作物似乎不可避免时,他们感到十分沮丧。许多人都提出这样的问题,接下来我们该做什么?。令人欣慰的是,人们有机会表达内心的感受。希望其他人加入我们, 跟我们一起找到其他表达内心感受的方法。 我们根本不希望在这个国家里种植基因改良作物。,Information Retrieval Lab HIT http:/,30,主要内容,引言 方法 结果 讨论,Information Retrieval Lab HIT http:/,31,讨论,有效的抑制了错误蔓延 该算法有很强的鲁棒性 在进行词典检验时,无需对汉语分词,实现简单,代价较小 适合各种形式的语料,Information Retrieval Lab HIT http:/,32,Thanks!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1