龙马网络内容定向建设系统.ppt

上传人:本田雅阁 文档编号:3217064 上传时间:2019-08-01 格式:PPT 页数:33 大小:2.48MB
返回 下载 相关 举报
龙马网络内容定向建设系统.ppt_第1页
第1页 / 共33页
龙马网络内容定向建设系统.ppt_第2页
第2页 / 共33页
龙马网络内容定向建设系统.ppt_第3页
第3页 / 共33页
龙马网络内容定向建设系统.ppt_第4页
第4页 / 共33页
龙马网络内容定向建设系统.ppt_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《龙马网络内容定向建设系统.ppt》由会员分享,可在线阅读,更多相关《龙马网络内容定向建设系统.ppt(33页珍藏版)》请在三一文库上搜索。

1、龙马网络内容定向建设系统,广州阔拓信息科技有限公司,背景,我们需要网络信息吗 在购买了大量专业库的情况下,无论是科研,还是学习仍然要通过搜索引擎去寻找海量的,最新的专业信息(论文、评论、动态、文章)和新闻动态,虽然很累,但是我们离不开网络信息。 传统互联网搜索的缺憾 大量的有用信息与之擦肩而过 能收集多少?有多少时间去收集? 不同的网站去登录,去注册,不断的发现是重复内容,不累吗? 建立专业数据库 大数据的挖掘,我们做到了多少?,?,?,?,解决方案,龙马网络内容定向建设系统是运用尖端的搜索引擎技术、文本挖掘技术,自然语言技术、统计语言学、机器人工智能技术等面向个人科研、学习信息收集和图书馆的

2、特色数据库建设的系统工具。通过用户所设置的分类和关键词,对网页内容自动采集处理、自动识别、文章去重与相似度分析、智能聚类分类、自动生成摘要和关键词、主题检测,分类自动入库。 用途 图书馆建立专题数据库 教师建立个人的学科情报、研究专题库 大数据挖掘,页面解析、文件编码处理、文章自动去重、正文自动识别与提取、标题自动识别与提取、垃圾信息过滤、文章相似度判别、自动摘要、自动分类、热点发现、高效索引、海量信息存贮,访问穿透需要注册、登录的各类型网站、论坛、博客; 元搜索采集、RSS采集和指定站点采集等多种采集途径,实现采集全网覆盖;支持对多种网页格式、多种字符的采集。,根据网络转载、本地引用、内容数

3、据提取、搜索引擎查询频次,判断采集的精度和全面性,自动优化算法。,系统功能,全面 采集,精确 处理,内容 分析,建设内容,采集 对象,采集 内容,内容 标引,自动 归类,各大学术搜索引擎 数千个学术网站 学术论坛、博客 常用搜索引擎 全网络覆盖,论文 开放期刊 预印本 学科文章 评论 会议报告 学术动态 学科新闻,题名 关键词 内容摘要 来源网站 文章字数 是否带有附件 全网转载数 本地引用数,国标学科分类 本馆自定义分类,说明,系统是对定向任务(专题)面对互联网的全面采集,是从整个网络信息中采集自己关注、需要的信息进行入库、整理的系统。 对采集入库的情报可以进行即时的查找,分析、汇总分发。

4、本系统不是搜索引擎,不能对未采集的内容进行查找。 收费文章、商业数据库、加密文章不在本系统收集范围之内。,专题2,专题4,专题3,先建立采集任务,才有内容可供使用,使用步骤必须步骤,1、建立采集专题,专题中必须有需要监控关键词。 2、如果有需要定向监控的网站,设置定向监控源。 3、过滤词设置。对于采集文章中需要回避的词(该词在内容中出现能够表明该文章是不需要的)进行设置,设置了的过滤词如果在文章中有出现,该文章将别系统自动排除,不被收录。过滤词的设置可以在系统运行最初进行,更多的是在系统运行一段时间(3天)后观察采集到的错误文章以后再进行设置。 4、过滤源设置。设置成为过滤源的网站,系统将自动

5、跳过,不对其网站的任何内容进行采集。,前台说明,前台说明,:系统管理入口:从这里可以进入到后台的管理区域。 :导航区:对采集回来的内容从如下几个方面进行展示 自建库:该类别下的文章都是图书馆自建数据库采集回来的文章。 最新文章:所有的文章,按照发布时间倒排序展示。 热门文章:按照文章在网络上的转载次数进行倒排序展示。 精品文章:从专业的学术网站收录回来的内容都展示在这里。 :综合搜索: 这里是一个搜索区,在首页的搜索区,搜索的内容根据选择的条件进行查询,在二级页面的搜索区,是在当前二级页面的基础上再根据搜索区的条件进行过滤。 :全文检索:这里是对文章的内容进行全文检索,按照搜索引擎的规则搜索文

6、章。 :最新文章: 这里是显示最新收录回来的文章,点击右面的更多进入到二级页面。 文章列表中点击标题可以查看收录的文章内容,点标题进去查看内容不需要客户端电脑连接互联网就能看到内容。标题后面是该文章的一些属性。 如果有转载数,可以点击转载数的数字显示文章的转载列表。 媒体是这篇文章在什么网络媒体上收录回来的,媒体名称的链接可以直接进入该媒体进行查看原文。,系统使用,该二级页面是所有学科的文章汇集列表。,本帐号开放的管理功能,自建库分类管理,系统的使用第一步是设置进行自动采集的专题,在系统中以分类形式展现。,点击添加,进入到添加分类页面,自建库分类管理,填写分类名称和编码(编码可以不填) 状态是

7、选择本专题是否立即开始采集任务,一般情况下都应该选择“是” 是否开放是选择本专题采集到的内容是让公众都可见还是只让本帐号通过用户名、密码登录才可见。 在包含的关键词中录入该分类的想要采集的文章可能会出现的关键词。 排除的关键词是指在文章中出现这些关键词就不收录。(一般来说,排除关键词都是采集了一段时间内容以后,观察采集的内容以后才进行设置)。 填写完毕后点击保存即可。,关键词输入,注意: 每一行表示一个关键词组。 不同行关键词组之间的关系是或者(or)的关系 同一行里边只允许有与(and)的关系,用空格表示与(and)的关系。 or、and和( )等符号是保留符号,不允许出现这些符号。 词在文

8、章出现的次数用紧跟着单词后面表示,如果只出现一次就不用录入,比如:东盟5,!如果只是建立了分类,而没有输入关键词是采集不到内容的 !单个的关键词能够采集更多的内容,但是也会造成采集内容过于杂乱,建议建立2个关键词以上的关键词组 !如果是专业词汇,单个关键词的设置不会出现过多杂乱内容 !使用过程当中,关键词也是需要进行适当的调整,注意:专题设置成功以后是建立了自动采集任务,系统会在后台开始采集,再未采集到内容之前该专题不会在前台出现。 受使用环境、用户数量和专题数量的影响,新建专题不会马上有内容入库,本地使用一般2分钟左右开始有内容入库,远程使用30分钟以上。,排除关键词输入,过滤词的设置在于为

9、了保证采集全面性的前提下,为避免采集文章出现了误中,用户通过经验,人工观察添加的词。在此设置了的过滤词对采集到的文章进行二次筛选,文章中出现了过滤词的,该文章将被删除,不收录入库。在专题下设置的过滤词只对本专题使用。 注意:排除关键词(过滤词)只对还没入库的文章有用,已经入库了的文章,后添加了的过滤词无法将其自动删除,需要用户自己手工处理。,批量导入关键词,如果有大量的关键词需要输入,而不愿意采用界面输入的方式,也可以采用批量导入的功能。 导入关键词:该功能是可以对该学科批量导入关键词,点击导入关键词链接,出来导入的界面,选择准备好的关键词文件,然后点击确定,就把文件中的关键词导入到系统中,系

10、统就根据导入的关键词进行网络搜索。 注意:准备的关键词文件格式是txt格式,文件的编码是系统默认的编码,文件里边关键词的组织方式是每一行算一个关键词。,设置专业网址,设置专业网址的目的是为了重点采集指定网站的内容。 对具体某个分类设置需要采集的网址,采集回来的内容就直接划分到该分类下。注意在添加网址时,需要输入该网址的完整url路径,包括前面的http协议。 专业网址的设置可以分为两类:,设置专业网址,第一种方式:按照关键词去收录文章,这种方式会按照设置的关键词去和录入的网址内容进行匹配,如果满足关键词条件,就收录回系统。,注意:部分专业网址不能通过常规模式获取的,需要通过我方工程师进行定制配

11、置,用户需要将地址提交给我方。,设置专业网址,第二种方式:对设置的网址列表文章全部收录,不跟关键词进行匹配。这种方式设置的时候要注意几点:1、所录入的网址必须是文章列表网址,这个网址下的文章列表全部收入到指定的分类。2、录入的时候要复制一个文章的链接样本,系统根据录入的链接样本进行分析,找出跟样本类似的链接进行收录。3、列表页如果有翻页的,要填入总页数,提供一个下一页的链接样本,这样就会把翻页后的文章也收录回来。设置方式如下图所示:,设置专业网址,如果网站的列表不规范的话,这种方式有可能会收录到页面上其他地方符号文章链接样本的文章,或者是收录的内容不全,会漏掉一些文章。 如果文章列表中有多个不

12、同规则的样本,可以在文章链接样本框输入多个链接,必须每行只有一个链接。 链接采集方式如下图:,1、找到文章列表里边的一篇文章,把鼠标放到文章标题上,点击鼠标右键,选择复制快捷方式,这样就把文章的链接复制,2、到输入框选择粘贴,设置专业网址,一般来说这种列表式的文章连接,组织的规则都是一样的,比如http:/ 按照/进行分开,就是note和157229045这两部分,第一个是字母,第二个是数字。这就是他的规则如果还有其他的连接不满足这个规则,比如: http:/ 关闭采集:停止对该分类的采集,但是并不删除分类。 删除:删除该分类。,专业网址设置,如果管理人员不知道某网站应该归入某个分类,或者某个

13、网站可以归入多个分类,可以在此功能下添加专业网址。系统会专门对这些网站进行扫描,收录符合要求的文章。 在这里设置的网址的内容都是通过关键词匹配满足条件后才会收录入系统。,过滤网址设置,在此处设置的过滤网址是表示系统不会对这些网站进行扫描,这些网站的内容都不会被收录入库。,账户下共有过滤词设置,在此处设置的过滤词是对所有专题都起作用,任何一个专题采集到的文章都会通过该处设置的过滤词进行二次筛选,被过滤词命中的将被删除,不收录入库。,自建库文章管理,文章管理是对从网络搜索回来的文章内容进行管理,点击自建库文章管理,右边是搜索回来的文章列表,可以对文章进行编辑,删除和对分类进行调整。修改和删除按照页

14、面的提示操作即可。,注意:这里的检索是对入库的内容的检索,不是针对互联网的。文章参考类型是系统对自动采集入库的内容的判断,有一定的误差,如果不是明确的要找某一类型文献,可以不用选择此项。,点击分类调整,出现分类调整页面.该页面分上下两部分,上面是这篇文章所属的分类,如果有分类错误的,可以删除掉,然后从下面部分选择正确的分类。 下面部分是搜索框,在搜索框填入分类的名称关键词,比如数学,点击查询,就能查出来包含关键词的分类.,从列表中找到该文章正确的分类,点击添加,则该分类就加入到上面的所属分类列表中,然后点击保存按纽,则该文章的分类就调整过来了。,分类调整,自有资源分类管理,对于用户自有的数字文档,可以通过系统设定分类进行上传,提供给读者使用。满足自建数据库资料来源多样化的需求。,自有资源文章管理,建立分类以后,在此功能下添加本地资源。,自有资源管理,单条资源添加,分类选择:用户可以选择添加的本地资源属于学科分类、自建库分类或者本地资源分类。,自有资源管理,批量资源添加,本地资源发布效果,自有资源在前台位置,CKI提供最先进的情报服务!,广州阔拓信息科技有限公司,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1