校对软件的再开发与实践中国水利报社张卫东19.ppt

上传人:本田雅阁 文档编号:3353512 上传时间:2019-08-16 格式:PPT 页数:88 大小:301.58KB
返回 下载 相关 举报
校对软件的再开发与实践中国水利报社张卫东19.ppt_第1页
第1页 / 共88页
校对软件的再开发与实践中国水利报社张卫东19.ppt_第2页
第2页 / 共88页
校对软件的再开发与实践中国水利报社张卫东19.ppt_第3页
第3页 / 共88页
校对软件的再开发与实践中国水利报社张卫东19.ppt_第4页
第4页 / 共88页
校对软件的再开发与实践中国水利报社张卫东19.ppt_第5页
第5页 / 共88页
点击查看更多>>
资源描述

《校对软件的再开发与实践中国水利报社张卫东19.ppt》由会员分享,可在线阅读,更多相关《校对软件的再开发与实践中国水利报社张卫东19.ppt(88页珍藏版)》请在三一文库上搜索。

1、校对软件的 再开发与实践 中国水利报社 张卫东 2005.10.19,一、意义形势历史 发展趋势前景,信息时代的大趋势是网络化、信息化、智能化,让电脑尽可能多地替代人脑的劳动特别是重复性劳动。,语言文字词汇有固定的语法、用法、搭配,有许多机械、死板的规则,非常适合于电脑识别。,全国有图书、报纸、杂志、互联网、电影、电视、广播、广告等媒体。 据统计,有记者55万名。 编辑、校对、翻译、速记员、录入员以及作者队伍难以计数。 他们都关心着校对软件。,从全国来看,几十万编校人员每天可能几百万次地重复着同一类错误,完全应该交给电脑去识别。,国外很早就有外文词汇自动识别与纠错系统。现在,英文、汉语拼音均可

2、自动提示输入错误。 拼音文字只有20多个字母排列组合,而中文是几万个汉字排列组合,所以中文汉字词汇校对系统比拼音文字要复杂得多。,10年前,黑马、金山、工智通等几家公司迎难而上,开始进军中文自动校对领域并展开竞赛,最后黑马公司技术开发和市场运作比较成功,坚持了下来。这是一项具有公益性质的事业。,但是,要不断发展造福社会,就离不开数据库开发。因为软件“词汇量”的多少决定了软件效率的高低。,中文词汇差错类型数不胜数,可能的错词也是数不胜数的。现在黑马核心数据库大约有30万条错词,涵盖很广,但还是存在许多空白。,语言在不断发展,各行各业也都有各自的特殊之处,差错也各有特点。一个校对公司的力量是有限的

3、,众人拾柴火焰高。,黑马软件允许使用者自己添加词汇库,提供了一个开放性平台。核心词库由黑马公司完成,自定义词库由校对软件使用者自主完成并可供核心词库挑选收录。这为我们参与软件再开发提供了可能。,问:我自己记录总结的词库,凭什么要捐给黑马公司?,答:作为编校人员,每人每天接触大量不同类型的错误,输入自定义词库,就可以作为宝贵的经验供自己今后长期享用。,对于多机版用户来说,局域网中某个人的自定义词库,可以在一定范围内共享。,若某个自定义词库的内容被吸收进核心词库,就可以在全国的软件用户范围内实现共享。,对于有心人来说,记录未曾见过的差错实例,只是举手之劳。这件事情,我不做,别人迟早也会做。能为历史

4、做点贡献,是很值得自豪的。,词库越丰富,我们的工作效率就越高。在我们记忆力下降时,精力减退时,校对任务紧急而又繁重时,词库的作用就会更加明显。 现在我们要做的,就是开发适合自己使用的自定义词库。,二、演示交流答疑 通信电邮服务,水利总建议库示例 (内含错误库),批量查找库示例 (内含错误库、标点符号库),联系方式,13910785358(短信) z h w d ,三、 实践效果经验 措施问题困难,根据黑马软件提供的框架,自定义词库可以包括:用户库、错误库、建议库、批量查找库(find)。另外我们自己还可以分为敏感词汇库、保密词库、数字标点符号与字母库等等)。,日常校对纠错经验实例大部分可以概化

5、为自定义错词。 纯粹的中文(27字)或纯粹的英文(414个字符)可以输入黑马错误库,不符合上述条件的情形可以输入批量查找库。 当文章中出现与错误库词汇一致的词汇时,通过黑马软件检索即可以标红或标粉提示。,错误库的格式要求: 每行限制27个汉字,或者14个英文字母。 汉字和英文数字符号等不能混合。 不得夹带空格。,核心词库没有关于“的、地、得”用法错误的内容。 不能判断句子的语法错误。,为了减少误判,黑马软件设计了自动切分词语功能。由于计算机自动切分词语字串难免失误,因此自动校对过程中会有少量错误漏网。如果改用批量查找功能则不会有错误漏网。,下面分别叙述各个词库。,用户库,用户库 主要是正向思维

6、,搜集正确的词汇,校对时要求电脑作为“朋友”予以“放行”。增加用户库词汇操作简单,但要求所依据的文件样本权威、准确,无任何错误。黑马软件有比较强大的用户词库而且经常完善补充,一般我们可以不管它。,错误库,错误库 主要是逆向思维,搜集错误的字符串。校对时要求电脑作为“敌人”或“嫌疑分子”识别出来,交给人处理。类似于杀毒软件的病毒库。,1.观念错误,人定胜天 向沙漠进军 ,2.概念错误,祖国的生日 国家审计署 人大主任 法人代表 许可证制度 违法必纠 利税 村长 平方公顷 县乡村社,3.敏感词汇,政治性、行业政策性敏感词汇 民族问题 宗教问题 外交问题 港澳台问题 国际河流 学术性争议词汇 成语误

7、用 保密词汇,政治性敏感词汇,法轮功 (“法轮功”) 文革 (“文革”) 大跃进 (“大跃进”) 六四”事件 (注意!敏感) 李洪志 (注意!敏感) 弱势群体 (困难群众),行业政策性敏感词汇,征收水费 (计收水费) 渔业执法 (渔业行政执法) 教育产业化 (教育不宜产业化) 行业脱贫/职工致富 (不提倡) 炸坝拆坝/恢复天然河流 (敏感),民族问题,为什么不吃猪肉 (回民族敏感) 天葬 (藏族敏感) 达赖呼布镇 (藏族敏感),宗教问题,宗教搭台经贸唱戏 (不合政策) 宗教与迷信 (不宜并列),外交问题,南朝鲜 韩国 北韩 朝鲜 汉城 首尔 刚果首都金沙萨 (两个刚果混淆),国际河流,怒江开发

8、 黑龙江开发 额尔齐斯河开发 鸭绿江开发 元江开发,港澳台问题,行政院 清华大学 台湾总统 香港、台湾、日本 连战访问中国 中港合资 世贸组织(或其他组织)成员国,学术性争议词汇,空穴来风 民营企业 稽查 生态环境 国际间的 行政村 湘西州 湄洲岛,成语误用,从长计议 首当其冲 七月流火 阳春三月 红杏出墙 紧锣密鼓 不以为然 不以为意,保密词汇,涉及各类国家机密,科技、军事、商业机密的词汇、代号。,4.语法错误,差别悬殊极大 人员臃肿 截止目前 今年以来,病句特征词素,由于使 加大 列入 开创先河 授予 荣获 采取 我国最大的,5.错别字,中华人命共和国 国家发展与改革委员会(个字) 其它人

9、员 权力与义务 迳流 荷泽,如何开发错误库?,收集错词,案头预备一本杂志,在空白处随时记录。,错词来源(1),日常校样。 盗版书或其他电子扫描技术产品。 电视节目字幕。小学生改错练习作业。 错别字字典、词典、专业词典、成语词典。 辞海、辞源、地图、地名词典、行政区划简册、历史年表等工具书。专业性词典、手册。 语言文字以及其他各行业政策性规定。,错词来源(2),各种研究文字差错的书籍、报刊、网站上的文章,编校质量检查评比总结资料。中国校对网、语言文字网、李南生校对工作室及其校对之友电子期刊、黑马校对网上的实例。 各种培训场合的纠错经验介绍。,2. 联想推衍,(1)拾遗补缺 的、 地、 得、 了

10、成语、诗词、名人名言 繁体字与简化字混淆,2. 联想推衍,(2)围追堵截 一条分解为多条,防止电脑切分错误。如: 反到是=反到+到是+反到是,2. 联想推衍,(3)制造错误。按照音近、形近、义近三大出错规律,根据实例作合理延伸。错词、病句、语病词素等等。,2. 联想推衍,(4)类比罗列。根据偶尔发现的一个错误,推导出一类错误形式,并且把这一类错误罗列完整。如: 12% 下降了一倍 13% 下降了两倍 99100% 下降了一百倍,3. 整理温习,整理的过程也就是温习的过程,积累知识的过程。,自定义错词时注意事项 (用标点打头的字符串有时无效,所以应尽量避免用标点符号打头) 汉书、地理志 无效 汉

11、书、地理志 有效 汉书、地理志 有效,建议库,建议库 与错误库词条一一对应,格式为“错词+空格+建议”。 例如: 中华人命共和国 中华人民共和国 其它人员 其他人员 迳流 径流,开发建议库注意事项,建议词库与错误库同步建设。 可以先完成建议词库,也可以先完成错误库。 随时记录修改日期,以防混淆、遗漏。,查找库,批量查找库(find) 查找库是错误库的重要补充。 格式为纯文本文件,允许包容所有错误库(27个汉字)内容,允许单字、多字(8个以上汉字或14个以上字母),允许汉字与标点数字符号字母混合,允许包容所有其他词库(建议库除外)。,数字标点符号字母,不限字数,各种字符可以混合搭配,但是不能区分

12、大小写、上下标。 对于易错的字符串,可以在建议库中加注。,查找库与错误库的区别,使用错误库的优点是,核心词库与自定义词库同时发挥作用,集中了许多专家的智慧。缺点是,由于电脑切分词汇时可能失误,因而有漏错现象。 使用批量查找库,优点是不会遗漏自定义错误,而且可以查出超长字符串、标点符号、中英文混和字符串等。缺点是无法调用核心词库。 为安全计,可以各操作一遍。,如何开发批量查找词库?,1.数字 2.标点 3.符号 4.字母 5.单字 6.超长字符串,数字错误,大(一)型水库 30几岁 康熙61年 腊月29 1520亿元 500户医院,标点,等等 六、七十岁 ;(分号是目前最容易出错的标点) 第一、

13、 首先、 11:00时,符号,98大水 作了题为 1# 坝段 中发(2003)9号,字母,V型河谷 V形河谷 IV类水 类水 PH值 pH值 NH3-N (下标)。 CODmn (m大写n小写,均下标) 库容6108m3 (8、3均上标),单字,迳活跃的繁体字 隄不活跃的繁体字 闫易错简化姓名用字 吋淘汰多音字、单位 ;易错标点符号提示,超长字符串,区防汛抗旱总指挥部 防洪标准50年一遇标准 进入20世纪80年代以来 命脉-新中国水利50年 Hydometeorological,职务库,职务库,朱鎔基副总经理 吴仪总理 刘平(副)省长 德国前总统施密特,领导人排序错误举例: 吴官正、黄菊、李长

14、春、罗干,如何整理词库?,为了提高词库运行速度,减少重复,当词库足够大时,应该进行去重处理。,1. 消除重复词, 利用word的替换功能(高级特殊字符段落标记)把错误库每一行的末尾都加上句号。建议库每一行当中有一个空格,需要先用本人姓名替换所有的空格,使每一行变成一句话,句末加句号。 利用黑马检查重句功能,把重复的错词标红。 将红色词汇的格式统统替换为空白,红字即全部删除。 利用word的替换功能把每一行末尾的句号删掉。建议库完成后再把个人姓名替换成空格。,2. 词库排序,词库排序后可以方便查询、管理、补充完善。 词库排序(word表格排序)。 建议词库可以带空格排序。 错误库输入软件后第一次

15、运行时会自动排序。,3. 词库更新,(1)更新错误库、建议库、职务库时,可以采用逐条增补的方式,也可以采用整体替换的方式。实际操作中发现后者更好一些。,3. 词库更新,(2)词库植入软件时要注意一点:尽量从小样版窗口输入,其他窗口容量有限度,当词库相当大(成千上万行)时,会甩掉后半部分。,自定义词库的科学性问题,1. 有一些是讨论中的问题,暂时没有定论,可以根据所在媒体的习惯决定是否收录进词库。一旦语言文字权威机构形成定论,要注意跟踪掌握。比如“唯一/惟一”“想象力/想像力”,应该及时修正。,自定义词库的科学性问题,2. 因为语言环境十分复杂,有些敏感词虽然标红了但不见得一定就是错误。对于这种

16、情况,要宽容,不要因噎废食,轻易删除。,自定义词库的科学性问题,3. 词库建设是一件功在当代、利在千秋的事情,要争取百发百中,要防止矫枉过正。有一些自定义错误随着研究的深入被推翻了(如词典修订修改),或者是输入时出现了错误,要经常检查,及时删除。,自定义词库的科学性问题,4. 词库建设只是在有限的范围内让电脑继承人的智慧,并且尽量变得聪明一些。但它不是万能的,不能代替人脑的思考。不能因为有了校对软件,就放弃或放松编校责任。,自定义词库的科学性问题,5. 自定义词库建设犹如“愚公移山”,不是一朝一夕的事情,而且错词积累得越丰富,搜集新的错词难度就越大。我们要发扬愚公精神,挖山不止,持之以恒;要联合起来,从不同的方向不懈努力,集腋成裘,积小成为大成。,限于知识水平和对黑马校对软件的了解不够深入,以上观点、结论以及几个词库存在很多疏漏和错误,希望大家批评指正。,谢谢大家! (请提问题),

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1