【大学】基于语料库的双语词典编纂平台.ppt

上传人:本田雅阁 文档编号:3032578 上传时间:2019-06-28 格式:PPT 页数:23 大小:2.66MB
返回 下载 相关 举报
【大学】基于语料库的双语词典编纂平台.ppt_第1页
第1页 / 共23页
【大学】基于语料库的双语词典编纂平台.ppt_第2页
第2页 / 共23页
【大学】基于语料库的双语词典编纂平台.ppt_第3页
第3页 / 共23页
【大学】基于语料库的双语词典编纂平台.ppt_第4页
第4页 / 共23页
【大学】基于语料库的双语词典编纂平台.ppt_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《【大学】基于语料库的双语词典编纂平台.ppt》由会员分享,可在线阅读,更多相关《【大学】基于语料库的双语词典编纂平台.ppt(23页珍藏版)》请在三一文库上搜索。

1、基于语料库的双语词典编纂平台,http:/ 技术可行性 计算机技术、互联网技术迅猛发展 语言信息技术、大规模语料库技术迅猛发展 基于语料库的英语辞书编纂已有先例 Collins COBUILD Macmillan English Dictionary ,语料库辞书编纂技术在中国,已经引起广泛关注 商务印书馆 南京大学 广东外语外贸大学 国家语委 总体而言,还落后于西方国家 基本上还没有基于语料库编纂的辞书(?) 缺乏大规模的用于辞书编纂的语料库 缺乏友好可用的计算机化的辞书编纂平台,基于语料库的词书编纂平台,要真正发挥出语料库以及语言信息技术在词典编纂中的作用,切实提高词典编纂人员的效率和提高

2、最终词典产品的质量,就必须认真探索计算机化的词典编纂流程和模型并建立基于这些模型的软件系统。 基于这一思考,我们开始了构建“基于语料库的双语词典编纂平台”的工作,期望能为我国辞书编纂技术的现代化工作做出些许尝试。,平台构建的目标,提高汉英双语辞书的编纂质量 词典编纂决策基于真实语言材料(语料库) 为词典编纂提供用例以及搭配、词频等统计信息 丰富的参考词典资源 提高双语辞书的编纂效率 减轻传统词典编纂人员的非智力劳动 网络化的项目管理 为双语辞书编纂提供一个基础平台,工作基础,从2001年起,开始建设汉英双语对齐语料库 双语对齐语料库是双语词典编纂不可或缺的资源之一 在互为译文的汉英两种文本之间

3、建立了句子级的对齐关系,并全部经过人工校对 规模: 汉语:2000万字 英语:1800万词 对齐句子对:80万对 为词书编纂平台的构建提供了一个工作基础 当然,编纂平台并不限定一定使用北大的双语对齐语料库,北大双语语料库工作介绍规范,基于XML标记语言 便于共享和交换 便于统一处理 容易获得广泛的软件支持 标记层次 文本属性信息 领域、语体、年代、作者、译者等 单语文本结构信息 语篇、段落、句子、词的边界、词的词性 双语对齐信息 原文、译文 句子间的对应关系和对应模式,语料库标记样例(一),语料库标记样例(二),北大的双语语料库技术研究,汉英双语语料库处理软件工具集 汉英双语语料段落、句子级对

4、齐软件 汉英双语语料词汇级对齐软件 汉语文本词语切分和词性标注软件 统计汉语句法分析软件 Tokenizer for English Text Lemmatizer for English Text POS tagger for English Text 双语语料检索系统(Parallel Concordancer),双语词典编纂平台的结构,双语词典编纂平台的基本功能,语料库的定制和索引 参考词典的定制和索引 词典编纂项目的管理 词典条目的生成和管理 释义词表的生成和管理 词典编纂任务的管理 词典编纂平台的用户管理 词典微观结构的定制和管理 结构化词条编辑界面 语料库检索、参考词典检索 基于语料库的搭配信息统计分析,词典编纂平台用户系统管理员,词典编纂平台用户项目负责人,词典编纂平台用户词典编写人员,词典微观结构的定制,词条的格式化编写,语料的检索和统计查询语言,语料检索举例,语料的检索排序,生成词频表,搭配强度的统计和分析,结束语,目前该平台已经具备了基本功能,正处在调试过程中。 进一步的工作方向 完善平台的基本功能(界面的改善) 加强基于语料库的搭配统计分析功能 词义的聚类分析 句法分析的应用(长距离搭配) 谢谢大家,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1