面向学术系统的定向爬取技术研究和实现.ppt

上传人:本田雅阁 文档编号:2605189 上传时间:2019-04-16 格式:PPT 页数:28 大小:561.01KB
返回 下载 相关 举报
面向学术系统的定向爬取技术研究和实现.ppt_第1页
第1页 / 共28页
面向学术系统的定向爬取技术研究和实现.ppt_第2页
第2页 / 共28页
面向学术系统的定向爬取技术研究和实现.ppt_第3页
第3页 / 共28页
亲,该文档总共28页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《面向学术系统的定向爬取技术研究和实现.ppt》由会员分享,可在线阅读,更多相关《面向学术系统的定向爬取技术研究和实现.ppt(28页珍藏版)》请在三一文库上搜索。

1、,面向学术系统的定向爬取技术研究和实现,姓名:李德阳 学号:2013103310 导师:陆嘉恒,目录,选题依据,预期成果,工作进度安排,课题技术路线及研究方案,学术搜索,Google学术搜索 Google学术搜索提供可广泛搜索学术文献的简单方法。您可以从一个位置搜索众多学科和资料。它可以帮助您在整个学术领域中确定相关性最强的研究。http:/ BASE学术搜索 BASE是德国比勒费尔德大学图书馆开发的一个多学科的学术搜索引擎,提供对全球异构学术资源的集成检索服务。它整合了德国比勒费尔大学图书馆的图书馆目录和大约160个开放资源(超过200万个文档)的数据。http:/www.base- pan

2、dasearch,选题依据,信息量指数增长。 标准爬虫满足不了需求。 慢 标准爬虫缺点 消耗大量的存储空间 带宽资源 容易出错 定向爬虫是为了获得互联网上某一方面的特定信息而设计的。最理想的定向爬虫是能使获得的页面相关性最大,而不相关性最小。 快速、消耗少量的带宽和存储空间、个人机就可以爬取。,标准爬取和定向爬取,国内外研究现状分析,根据某一特定查询语句来爬取特定文档信息。 seed keywords seed urls seed pages topic keywords web page COMP630D Course Project Report: Implementation of Fo

3、cused Crawler Yang Yongsheng,Wang Hui Department of CS/EEE, HKUST ysyangcs.ust.hk, whuiust.hk,国内外研究现状分析,国内外研究现状分析,The Context Focused Crawler Focused Crawling Using Context Graphs M.Diligenti,F.M.Coetzee,S.Lawrence,C.L.Giles and M.Gori NEC Research Institute,4 Independence Way,Princeton,NJ 08540-663

4、4,满足不了学术搜索系统的建立。 要求: 1.全 2.准确,课题技术路线及研究方案,爬取计算机相关网站,保证信息相关性最大,查全率、查准率最高。 照片 静态页面 动态页面 GoogleAPI Springer IEEE ScienceDirect 知网,爬取引擎,服务器,建立学术搜索必须首先建立专家学者库以及论文库。 姓名、单位、照片、邮箱、介绍等 专家库 论文 论文标题、子标题、作者、期刊号、页码、摘要等 论文库 论文全文,分类 Google Springer 爬取的网站 IEEE ScienceDirect 其他,照片 作者信息 爬取的内容 论文标题、摘要、期刊号、页码等信息 全文信息,爬

5、取照片,服务器,本地,本地,Google,照片,Google图片 优点:爬取的图片查准率较高。 缺点:但是稳定性差,速度慢。 GoogleAPI 优点:爬取的图片查准率高,稳定性好,速度快。 缺点:每天的访问次数有限制。,照片,下载图片,切割图片,人脸识别,保存照片,下载图片,来源网站Google API,注册Google账户,申请key,key值列表,爬取数据,解析,爬取图片,url,json,过滤,我们前台显示的照片大小为96*96,后缀为jpg,这就需要对下载下来的图片进行切割。 1.程序切割 2.第三方工具 人脸识别 去掉没有头像的图片 OpenCV 手动二次删除 转化成Base64字

6、符串 保存到10.77.20.50服务器中,静态网页,enter new page,getDom,extract,Candidate Elements,crawl Elements,enter new page,getData,other input,database,静态网页,CCF上面出版社为Springer的期刊 1.获得期刊名和网址的列表 seed urls 2.爬取每个网址,获得数据。 3.插入到数据库中。 Journal 1.获得所有journal的列表 seed urls 2.获取数据。 Lecture Notes 爬取数据 IEEE Transactions 1.获取列表 se

7、ed urls 2.爬取每个网址,获得数据。 3.插入到数据库中。,动态网页,ScienceDirect、知网等网站的数据使用javascript生成,通过HttpClient获得不了,这就需要使用其他方法获得动态数据。 模拟浏览器的运行 HTMLunit、HttpClient、HttpURLConnection等是利用程序模拟浏览器的,通过设置User-Agent参数来实现模拟。可是这样做却不能真正实现浏览器的功能,比如不能运行js代码。我使用Selenium WebDriver,它不拥有浏览器内核,而是直接调用真正的浏览器。,动态网页,enter new page,getDomWithou

8、tIframeContent,extract,frameDom,has frame,Candidate Elements,crawl Elements,fireEvent,enter new page,getPageSource,click,output to 静态,动态网页,初始状态,状态1,状态5,状态3,状态2,状态4,事件,click hovor 元素 input,dom url,实验结果,从SD上获得爬取列表 seed urls 下载静态页面 解析页面获得数据 插入到数据库中。,全文,服务器,本地,从服务器上获取pdf链接地址 爬取pdf,远程服务器,面临的挑战,更新页面后如何防止重

9、复的爬取 计算机科学每年都会产生大量新的数据,相关网站每年每月都会更新数据,二次爬取时防止重复爬取,只爬取新的内容。 1个解决方法:可以按照volume issue编号来判断是否是新的内容。,工作进度安排,2014.11.1-2014.11.15 文献调研 2014.11.15-2014.12.31 系统设计 2015.1.1-2015.1.31 优化、测试系统 2015.3.1-2015.3.15 数据分析 2015.3.16-2015.5.1 撰写论文,预期成果,能够实现面向学术系统的定向爬取,爬取照片、个人信息、论文等。能够实现基于JS网站的爬取,准确、快速地获得爬取结果,为学术搜索提供丰富的数据。丰富了爬取手段,对于爬取更复杂网站提供有力工具。,谢谢,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1