面向学术系统的定向爬取技术研究和实现.ppt

资源描述

《面向学术系统的定向爬取技术研究和实现.ppt》由会员分享，可在线阅读，更多相关《面向学术系统的定向爬取技术研究和实现.ppt（28页珍藏版）》请在三一文库上搜索。

1、,面向学术系统的定向爬取技术研究和实现,姓名：李德阳学号：2013103310 导师：陆嘉恒,目录,选题依据,预期成果,工作进度安排,课题技术路线及研究方案,学术搜索,Google学术搜索 Google学术搜索提供可广泛搜索学术文献的简单方法。您可以从一个位置搜索众多学科和资料。它可以帮助您在整个学术领域中确定相关性最强的研究。http:/ BASE学术搜索 BASE是德国比勒费尔德大学图书馆开发的一个多学科的学术搜索引擎，提供对全球异构学术资源的集成检索服务。它整合了德国比勒费尔大学图书馆的图书馆目录和大约160个开放资源（超过200万个文档）的数据。http:/www.base- pan

2、dasearch,选题依据,信息量指数增长。标准爬虫满足不了需求。慢标准爬虫缺点消耗大量的存储空间带宽资源容易出错定向爬虫是为了获得互联网上某一方面的特定信息而设计的。最理想的定向爬虫是能使获得的页面相关性最大，而不相关性最小。快速、消耗少量的带宽和存储空间、个人机就可以爬取。,标准爬取和定向爬取,国内外研究现状分析,根据某一特定查询语句来爬取特定文档信息。 seed keywords seed urls seed pages topic keywords web page COMP630D Course Project Report: Implementation of Fo

3、cused Crawler Yang Yongsheng,Wang Hui Department of CS/EEE, HKUST ysyangcs.ust.hk, whuiust.hk,国内外研究现状分析,国内外研究现状分析,The Context Focused Crawler Focused Crawling Using Context Graphs M.Diligenti,F.M.Coetzee,S.Lawrence,C.L.Giles and M.Gori NEC Research Institute,4 Independence Way,Princeton,NJ 08540-663

4、4,满足不了学术搜索系统的建立。要求： 1.全 2.准确,课题技术路线及研究方案,爬取计算机相关网站，保证信息相关性最大，查全率、查准率最高。照片静态页面动态页面 GoogleAPI Springer IEEE ScienceDirect 知网,爬取引擎,服务器,建立学术搜索必须首先建立专家学者库以及论文库。姓名、单位、照片、邮箱、介绍等专家库论文论文标题、子标题、作者、期刊号、页码、摘要等论文库论文全文,分类 Google Springer 爬取的网站 IEEE ScienceDirect 其他,照片作者信息爬取的内容论文标题、摘要、期刊号、页码等信息全文信息,爬

5、取照片,服务器,本地,本地,Google,照片,Google图片优点：爬取的图片查准率较高。缺点：但是稳定性差，速度慢。 GoogleAPI 优点：爬取的图片查准率高，稳定性好，速度快。缺点：每天的访问次数有限制。,照片,下载图片,切割图片,人脸识别,保存照片,下载图片,来源网站Google API,注册Google账户,申请key,key值列表,爬取数据,解析,爬取图片,url,json,过滤,我们前台显示的照片大小为96*96，后缀为jpg，这就需要对下载下来的图片进行切割。 1.程序切割 2.第三方工具人脸识别去掉没有头像的图片 OpenCV 手动二次删除转化成Base64字

6、符串保存到10.77.20.50服务器中,静态网页,enter new page,getDom,extract,Candidate Elements,crawl Elements,enter new page,getData,other input,database,静态网页,CCF上面出版社为Springer的期刊 1.获得期刊名和网址的列表 seed urls 2.爬取每个网址，获得数据。 3.插入到数据库中。 Journal 1.获得所有journal的列表 seed urls 2.获取数据。 Lecture Notes 爬取数据 IEEE Transactions 1.获取列表 se

7、ed urls 2.爬取每个网址，获得数据。 3.插入到数据库中。,动态网页,ScienceDirect、知网等网站的数据使用javascript生成，通过HttpClient获得不了，这就需要使用其他方法获得动态数据。模拟浏览器的运行 HTMLunit、HttpClient、HttpURLConnection等是利用程序模拟浏览器的，通过设置User-Agent参数来实现模拟。可是这样做却不能真正实现浏览器的功能，比如不能运行js代码。我使用Selenium WebDriver，它不拥有浏览器内核，而是直接调用真正的浏览器。,动态网页,enter new page,getDomWithou

8、tIframeContent,extract,frameDom,has frame,Candidate Elements,crawl Elements,fireEvent,enter new page,getPageSource,click,output to 静态,动态网页,初始状态,状态1,状态5,状态3,状态2,状态4,事件,click hovor 元素 input,dom url,实验结果,从SD上获得爬取列表 seed urls 下载静态页面解析页面获得数据插入到数据库中。,全文,服务器,本地,从服务器上获取pdf链接地址爬取pdf,远程服务器,面临的挑战,更新页面后如何防止重

9、复的爬取计算机科学每年都会产生大量新的数据，相关网站每年每月都会更新数据，二次爬取时防止重复爬取，只爬取新的内容。 1个解决方法：可以按照volume issue编号来判断是否是新的内容。,工作进度安排,2014.11.1-2014.11.15 文献调研 2014.11.15-2014.12.31 系统设计 2015.1.1-2015.1.31 优化、测试系统 2015.3.1-2015.3.15 数据分析 2015.3.16-2015.5.1 撰写论文,预期成果,能够实现面向学术系统的定向爬取，爬取照片、个人信息、论文等。能够实现基于JS网站的爬取，准确、快速地获得爬取结果，为学术搜索提供丰富的数据。丰富了爬取手段，对于爬取更复杂网站提供有力工具。,谢谢,

展开阅读全文