大规模进行RSS聚合和网站下载在科学研究中的初步应用.pdf

上传人:来看看 文档编号:3333015 上传时间:2019-08-13 格式:PDF 页数:78 大小:3.78MB
返回 下载 相关 举报
大规模进行RSS聚合和网站下载在科学研究中的初步应用.pdf_第1页
第1页 / 共78页
大规模进行RSS聚合和网站下载在科学研究中的初步应用.pdf_第2页
第2页 / 共78页
大规模进行RSS聚合和网站下载在科学研究中的初步应用.pdf_第3页
第3页 / 共78页
大规模进行RSS聚合和网站下载在科学研究中的初步应用.pdf_第4页
第4页 / 共78页
大规模进行RSS聚合和网站下载在科学研究中的初步应用.pdf_第5页
第5页 / 共78页
点击查看更多>>
资源描述

《大规模进行RSS聚合和网站下载在科学研究中的初步应用.pdf》由会员分享,可在线阅读,更多相关《大规模进行RSS聚合和网站下载在科学研究中的初步应用.pdf(78页珍藏版)》请在三一文库上搜索。

1、大科学大科学 大数据理念的初步实践大数据理念的初步实践 一一 大大科学科学 大数据的基本大数据的基本概念概念 二二 基于基于RSS的抓取的抓取 三三 整站下载整站下载 四四 数据的数据的整合整合 五五 应该注意的其他应该注意的其他问题问题 崔克俊崔克俊 QQ:372948992 CUIKEJUNQQ.COM 13381113196 13681445347 个人博客:个人博客: http:/ 大数据系统的整体概览 一 前言 RSS聚合案例 商业应用Top7News https:/drupal.org/node/1938242 http:/www.top7news.gr RSS聚合案例 商业应用

2、中华书局网上书店 Rss聚合案例 知识分享 Drupal planet https:/drupal.org/planet Rss聚合案例 知识分享 Wordprss planet http:/planet.wordpress.org RSS聚合案例 科学研究 高能物理所高能物 理信息监控 我们也可以做大数据相关RSS聚合 http:/ http:/ 重点涉及的几款软件 一一 大科学大科学 大数据的基本大数据的基本概念概念 http:/zh.wikipedia.org/wiki/大科学大科学 大科学(大科学(Big Science,Megascience,Large Science)一般是指投资

3、大,)一般是指投资大,多学科交叉多学科交叉的大型的基的大型的基 础科学研究项目,目前还没有一个确切的定义。础科学研究项目,目前还没有一个确切的定义。 大科学需要大量的资金,实验设备昂贵复杂,研究目大科学需要大量的资金,实验设备昂贵复杂,研究目 标宏大。因此多为国际合作的形式进行。标宏大。因此多为国际合作的形式进行。 一一 大科学大科学 大数据的基本概念大数据的基本概念 大大数据数据http:/zh.wikipedia.org/wiki/大数据大数据(英语英语: Big data12),或称巨量数据、海量数据、大资料,),或称巨量数据、海量数据、大资料, 指的是所涉及的数据量规模巨大到无法通过人

4、工,在指的是所涉及的数据量规模巨大到无法通过人工,在 合理时间内达到截取、管理、处理、并整理成为人类合理时间内达到截取、管理、处理、并整理成为人类 所能解读的信息所能解读的信息。 大数据的常见特点是大数据的常见特点是4V:Volume、Velocity、 Variety、Veracity(数据量大、输入和处理速度快、(数据量大、输入和处理速度快、 数据多样性、价值密度低)。数据多样性、价值密度低)。 二 RSS抓取 二二 RSS抓取抓取 2.1 RSS是什么以及为什么要做是什么以及为什么要做RSS抓取抓取 2.2 科研院所的科研院所的RSS举例举例 2.3 技术实现技术实现 2.3.1 RSS

5、的组织和抓取的组织和抓取 2.3.2 RSS的检索和主动推送的检索和主动推送 二二 RSS抓取抓取 2.4 实现技术介绍实现技术介绍 2.4.1 Drupal 2.4.2 Apache Solr 2.4.3 PubSubHubbub 2.4.4 open search feed 2.4.5 Yahoo pipes 2.1 RSS是什么以及为什么要做是什么以及为什么要做RSS抓取抓取 2.1.1 定义定义 (Really Simple Syndication“聚合真的很简单聚合真的很简单”就是就是RSS 的英文原意。把新闻标题、摘要(的英文原意。把新闻标题、摘要(Feed)、内容按照用)、内容按

6、照用 户的要求,户的要求,“送送”到用户的桌面就是到用户的桌面就是RSS的目的的目的。 2.1.2 RSS优点优点 (1) 多样性、个性化信息的聚合多样性、个性化信息的聚合 (2) 信息信息发布的时效强、成本低廉发布的时效强、成本低廉 (3) 无无“垃圾垃圾”信息和信息量过大的问题信息和信息量过大的问题 (4) 没有没有病毒邮件的影响病毒邮件的影响 (5) 本地本地内容管理便利内容管理便利 2.1.3 为什么要做为什么要做RSS抓取抓取 Google Reader RSS桌面阅读器 2.2 科研院所的科研院所的RSS举例举例 http:/www.ameslab.gov 2.2.1.1机构新闻

7、1.1 news 1.2 twitter http:/ http:/ ory 1.33 youtube http:/ http:/ v=2&orderby=published&client=ytapi-youtube-profile 2.2 科研院所的科研院所的RSS举例举例 1.5 flickr http:/ http:/ lang=zh-hk&format=rss_200 1.6 blog http:/ 2.2 科研院所的科研院所的RSS举例举例 http:/.hk/news?hl=zh- CN&newwindow=1&safe=strict&q=Argonne+National+Labo

8、ratory&bav=on .2,or.r_gc.r_pw.&biw=1280&bih=899&um=1&ie=UTF-8&output=rss http:/www.anl.gov/article-feed/1 2.3 RSS抓取在某单位的成功应用 2.3.1 项目背景及实际效果图项目背景及实际效果图 2.3.2 RSS组织和抓取组织和抓取 2.3.3 检索效果图检索效果图 2.3.4 信息的主动推送和种子的生成信息的主动推送和种子的生成 2.3.1 项目背景及实际效果图项目背景及实际效果图 2.3.2 RSS的组织和抓取 2.3.1 组织组织 2.3.3 检索效果图检索效果图 2.4 实现技

9、术实现技术介绍介绍 2.4.1 Drupal 2.4.2 Apache Solr 2.4.3 PubSubHubbub 2.4.4 open search feed 2.4.5 Yahoo pipes 2.4.1 Drupal Drupal 是一个自由开源的是一个自由开源的内容管理系统内容管理系统, 以以 PHP 语言写成。在网页编程界中,语言写成。在网页编程界中, Drupal 经常被视为一套内容管理框架经常被视为一套内容管理框架 Drupal 的功能由于极具弹性,而且其运作环境能让编程人员较易作大幅改动,创建出 大量崭新功能 Drupal其他feeds模块 https:/drupal.or

10、g/search/site/feeds?f%5B0%5D=&f%5B1%5D=&f%5B2%5D=& f%5B3%5D=&f%5B4%5D=sm_field_project_type%3Afull&f%5B5%5D=ss_meta_t ype%3Amodule&solrsort=ds_created+desc https:/drupal.org/project/spider-facebook http:/drupaldemo.web- https:/drupal.org/project/feeds_youtube 推荐站点 葛红儒 http:/ Drupal培训班 http:/ 赵高欣 Dru

11、pal与高性能 http:/ 2.4.2 Apache Solr 2.4.3 PubSubHubbub 2.4.4 open search feed open search feed http:/www.opensearch.org/Home http:/ http:/en.wikipedia.org/wiki/OpenSearch http:/ https:/ 2.4.5 Yahoo pipes http:/ http:/ yahoopipes/index.html http:/ http:/www.binghe.org/2010/04/export-full-text-feed-using

12、-yahoo-pipes/ http:/www.binghe.org/2010/04/export-full-text-feed-using-yahoo-pipes/ http:/en.wikipedia.org/wiki/Yahoo!_Pipes http:/ 一一个被遗忘的个被遗忘的Yahoo项目和它的后继者项目和它的后继者IFTTT、Zapier http:/ https:/ http:/ 三三 整站整站下载下载 Offline Explorer Enterprise相当方便使用的离线浏览工具,可排定抓取时间、设定 Proxy,也可选择抓取的项目及大小,可自设下载的存放位置、及存放的空间

13、限制。它 内置浏览程序、可直接浏览或是使用自己喜欢的浏览器来浏览、且更可直接以全浏览窗 切换来作网上浏览,另它对于抓取的网站更有MAP的提供、可更清楚整个网站的连结 及目录结构。 三三 整站整站下载下载 Very fast, easy and reliable file retrieval from the Web including FTP, HTTP, HTTPS, MMS, RTSP and NSV (SHOUTcast) sites Support of BitTorrent protocol and downloads HTTP, SOCKS4, SOCKS5 and UserSit

14、e Proxy support 项目背景 航天测控 深空探测 等等 大规模的下载国外专题网站和数据库 国际上顶尖安全和国际关系研究智库国际上顶尖安全和国际关系研究智库 顶尖科技智库顶尖科技智库 政府机构政府机构 各大公司网站各大公司网站 重点实验室重点实验室 会议网站会议网站 国际上顶尖安全和国际关系研究智库 1. Center for Strategic and International Studies (CSIS) United States 2. Brookings Institution United States 3. Council on Foreign Relations (C

15、FR) United States 4. Carnegie Endowment for International Peace United States 5. Chatham House (CH), Royal Institute of International Affairs United Kingdom 6. RAND Corporation United States 四 资源整合搜索 http:/stor- 抓取十大初创大数据公司界面 搜索hadoop 四 视频下载 atube catcher http:/atube- 免费 下载 big data的视频 下载TEDtalks youtube频道视频 感谢CSDN云计算俱乐部!感谢郭婵小姐及 各位同事!感谢各位!希望以后多交流! 。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/环境 > 装饰装潢


经营许可证编号:宁ICP备18001539号-1