知识产权出版社自动数据加工方法与技术研究王维.ppt

上传人:本田雅阁 文档编号:2179350 上传时间:2019-02-26 格式:PPT 页数:25 大小:643.01KB
返回 下载 相关 举报
知识产权出版社自动数据加工方法与技术研究王维.ppt_第1页
第1页 / 共25页
知识产权出版社自动数据加工方法与技术研究王维.ppt_第2页
第2页 / 共25页
知识产权出版社自动数据加工方法与技术研究王维.ppt_第3页
第3页 / 共25页
亲,该文档总共25页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《知识产权出版社自动数据加工方法与技术研究王维.ppt》由会员分享,可在线阅读,更多相关《知识产权出版社自动数据加工方法与技术研究王维.ppt(25页珍藏版)》请在三一文库上搜索。

1、知识产权出版社 汇报人:王维,自动数据 加工方法与技术研究,课题的提出 理论依据 自动摘要抽取 自动关键词标引 模板自动分类 相关短语词典 总结和展望,报告提纲,一、课题的提出,专利数据每年大规模的递增 我局的信息化建设中,专利数据加工是一项十分重要的工作 人工处理无论从成本还是效率上都无法满足要求,必由之路,自动化加工方法,二、理论依据,自然语言理解 自然语言理解是计算机科学领域与人工智能领域中的一个重要方向。简单的讲,它就是研究如何才能使计算机理解人类的语言,研究人与计算机之间用自然语言进行有效通信的各种理论和方法。 自然语言理解是一门融语言学、计算机科学、数学于一体的学科,自然语言理解技

2、术在专利信息服务中的应用方向,自然语言理解技术,机器翻译,信息检索,专利分析,数据加工,中 翻 外,外 翻 中,语 义 检 索,相 似 性 检 索,自 动 聚 类,智 能 预 警,自 动 分 类,自 动 标 引,跨 语 言 检 索,相 关 概 念 联 想,自 动 摘 要,三、本课题主要研究内容,自动摘要提取:给定一篇专利文本,从该文本中自动提取出该篇文本的摘要。 自动关键词标引:给定一篇专利文本,从该文本中提取出最能够表达该文本意义的若干个关键词。 自动分类训练:即专利分类模板训练。根据给定的分类(例如IPC分类)训练语料,训练统计语料中的分类文本特征生成专利分类模板。 相关短语词典:给定一批

3、短语,根据专利背景库以及给定的短语、生成与每一个给定短语最相关的短语组,并按照一定的格式生成相关短语词典。,每期 原始数据,模板分类等自动化分类组件,自动摘要等自动化标引组件,人工校对,人工校对,反馈,反馈,四、自动摘要提取及其应用,词频 词的权值 句法结构 句的权值 篇章位置 线索词,片段去重算法,输出参数设置,具体步骤: 分析篇章结构 分词和统计 计算词在句子中的权值 计算句子的权值 按权值排序 片段去重分析 平滑处理 输出参数限制 输出,五、自动关键词标引及其应用,规则与统计相结合 词语位置 出现频率 分布情况 词语的类型 最后打分,训练阶段: 对文本进行分词和词性标注 使用特征提取技术

4、,抽取有用的文本特征 根据提取的文本特征得到统计分类规则 将分类规则转换成分类模板 分类阶段: 对文本进行分词和词性标注 使用特征提取技术,抽取有用的文本特征 将提取的文本特征表示成文本向量 将文本向量送入分类器,计算文本向量与分类模板之间的距离,确定该文本的类别,六、分类训练及其应用,七、相关短语检索和词典,目的:获得词之间的关联关系,使检索更加准确 途径: 1 从用户检索词中挖掘 2 从专利文本中挖掘,洗手液,香皂,洗衣液,洗涤用品,基本步骤: 对大量专利文本进行预处理 自动抽取出关键词(短语) 当外界输入一个短语A时,根据语义词典、语法结构、共现概率、同义词词典等找出与其最相关的短语A1

5、、A2、A3 ( A: A1 A2 A3 )即成为相关短语词典中的一条记录,八、存在的不足及展望,综上所述,本课题主要研究了的自动摘要提取、自动关键词标引、分类模板训练、自动相关短语词典四方面的方法和技术,且目前均已步入实用阶段。实践证明这些自动化的专利数据加工方法与技术大大减轻了人的工作量,明显的提高了工作效率,具有非常重要的意义。然而在目前,人们对自然语言的研究刚刚起步,人类语言的多样性和复杂性使得计算机自动处理的结果与人工加工的结果有不小的差距,很多问题有待改善,尤其是对于自动摘要和自动分类系统来讲。不过我们乐观的看到,随着研究的继续深入和各方面投入的增大,自然语言处理在一些专业领域,尤其是像专利这类格式比较统一的文本,必定会取得重大成功,产生出更准确、更高效的自动化数据加工方法与技术。让我们拭目以待。,谢 谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1