网络信息采集技术介绍.doc

上传人:scccc 文档编号:13738850 上传时间:2022-01-22 格式:DOC 页数:16 大小:80.50KB
返回 下载 相关 举报
网络信息采集技术介绍.doc_第1页
第1页 / 共16页
网络信息采集技术介绍.doc_第2页
第2页 / 共16页
网络信息采集技术介绍.doc_第3页
第3页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《网络信息采集技术介绍.doc》由会员分享,可在线阅读,更多相关《网络信息采集技术介绍.doc(16页珍藏版)》请在三一文库上搜索。

1、2 网络信息采集技术介绍学习内容1. 网络信息采集概述2. 网络信息采集技术的发展3. 网络信息采集软件简介实训内容网络信息采集软件的使用学习目标掌握:网络信息资源采集的质量标准、途径与策略,网络检索自动化技术的发展,常用网络信息采集软件的使用方法。理解:网络信息采集的特点、原则,网络检索多媒体技术的应用及检索工具的智能化发展。了解:网络信息采集系统的应用前景,常用网络信息采集软件的种类。2.1 网络信息采集概述网络信息采集是指从互联网共享服务资源中收集、处理和分析网络实体信息的过程。网 络信息采集不仅包括对互联网公共实体信息的查询和存储,还包括对信息的归类、提取和解 析,更重要的是在已收集信

2、息的基础上分析数据,并将分析结果用于实际问题的解决。网络资源纷繁而复杂,为了避免网络信息资源采集的随意性、无计划性和盲目性,对网 络资源的采集必须严格执行统一的采集标准,主要包括以下几个方面的原则:全面性原则: 全面性原则是对网络信息采集网罗度的要求。对于所要采集的某方面的信 息,要尽可能全面地采集,保证为收集到尽可能多的信息。针对性原则: 指应依据用户的实际需要,有目的、有针对性、有重点、有选择地获取利 用价值大的、符合需求的信息。针对性原则能够提高信息采集的准确性和价值性。时效性原则: 及时收集最新的、有效的信息,并定期对原有信息资源进行更新,方能使 所保有的信息常新。这样既能够保证资源得

3、到有效的保存,又能保证信息资源的高质量。选择性原则: 采集时首先应对信息来源有所选择,重点采用信誉高、稳定性强的网站的 信息。其次,资源采集所用的方法要有所选择,应用不同的信息采集方法所获得的信息往往 不同,要善于通过多种途径进行信息的采集工作。再次,采集的信息应把质量放在首位,在 保证质量的情况下兼顾数量。全程性原则: 信息采集是一个全过程的连续性的工作。信息资源必须持续不断地补充, 进行长期的积累。这样才能反映这些资源的历史、发展状况、特点及规律,从而保证所收集 的资源具有较高的使用价值。网络信息资源采集的特点主要表现为采集对象的多样化、采集方式的多元化以及采集手 段的现代化。1采集对象多

4、样化 传统的文献信息资源采集是以纸张为载体的印刷型文献为主,采集种类单一。而在网络 环境下,各种各样名目繁多的电子文献和网络文献层出不穷,文献信息资源的种类呈现出多 样化发展的趋势,文献信息资源的采集种类不仅包括传统的印刷型文献 ( 如各类纸质型图书、 期刊、报刊等 ) ,还包括各类电子文献 (如电子图书、 电子报刊、 计算机软件等 )和各类网上信 息资源 ( 即以数据库和网络为基础,通过联机系统或互联网向用户提供的文献信息)。2采集方式多元化 传统的文献信息资源采集主要是根据需要,通过订单向出版社或书商订购或直接到书店 选书,采集方式比较单一。而在网络环境下,由于信息存储、传输和再现发生了变

5、化,文献 信息资源的出版发行渠道变得更加复杂多样, 人们采集文献信息资源的方式除了订购、 现购、 交换、接受赠送等传统方式外,还包括入网、联机使用、租用、免费获取等方式,采集方式 呈现出多元化的趋势。3采集手段现代化 传统的文献信息资源采集,主要是以手工操作的方式进行,程序复杂、烦琐,不但花费 大量的时间,而且容易出现差错。网络环境下的文献信息资源的采集实现了现代化、电子化 和网络化, 用先进的计算机技术可以从事查重、 打印订单、统计、验收等工作,不仅速度快、 效率高,而且不容易出现差错。另外,现代化的采集工具不仅提高了工作质量和工作效率, 也节约了采集人员的时间和精力,使他们能够有足够的精力

6、了解、掌握、研究文献信息资源 方面的出版动态,保证文献信息资源的采集质量不断提高。严格的资源采集标准是信息资源可靠性的关键保障之一。可以从内容和形式两个方面对 网络信息资源的质量进行评价。1内容标准内容标准主要包括权威性、实用性、准确性、实效性、独特性、全面性等。权威性:信息发布者是学术权威或者是有影响的学术机构,专业性网站评价机构对其有 较好的评价结果,资源在本领域有一定知名度与学术号召力,得到本领域相当数量专业学者 的公认。实用性:广告所占比例低,对信息进行了深度揭示,包括与其他外部信息的链接,对链 接列表中的资源有注释说明。准确性:资源内容基本覆盖资源标题所言范畴,内容客观,信息 ( 包

7、括引用信息 )准确可 靠,语法和拼写错误很少甚至是没有,转载的内容有来源说明,链接有效性高。时效性: 资源内容反映学科的最新发展, 近期内进行过内容更新且注明了最后更新日期。 独特性:资源包含信息基本上是其他网络资源不具有的,网站上的内容主要为原始信息 而非转载或指向其他网站的链接。全面性:资源内容包含了该领域的尽可能全的信息,资源来源渠道多样化。2形式标准形式标准主要从三个方面去衡量,即资源的组织与利用方式、资源的接入条件、网站的 页面设计。资源的组织与利用方式:包括资源的分类与组织是否科学、合理,浏览导航结构是否清 晰、易用,网站资源是否具有供用户检索的搜索引擎,搜索引擎是否允许逻辑运算,

8、搜索结 果能否按相关度排序等。资源的接入条件:资源的接入是否便利,对用户的硬件和软件是否有特别的要求 ( 比如 安装插件或特殊软件 ) ,是否有知识产权方面的限制条件, 是否需要注册才能访问, 资源接入 时反应是否快捷。网站的页面设计:用户界面是否友好,页面是否整洁、柔和、协调、美观,网页各部分 的位置关系和所占比例是否合适,是否具有准确的站点导航图。1网络信息资源采集的途径目前流行的采集技术主要是人工采集、网站系统抓取以及定制信息等。(1)人工采集 人工采集是通常的网络信息采集方式。在现在的互联网世界里,用户接触最多的网络信息是以 Web页面形式存在的。另外,电子邮件、FTP、BBS电子论坛

9、、新闻组也是互联网上获取信息的常见渠道。以学科信息为例,常见的人工获取网络信息的主要方式有: 通过相关领域的学科主题指南或学科信息门户进行搜索:学科主题指南一般是由学会、 大学、研究所和图书馆等学术团体和机构编制的网络学科资源导航目录。学科主题指南经过 专业人士的加工和组织,所含的信息切合主题,实用价值较高。使用搜索引擎采集信息:搜索引擎是最常用的搜索相关信息的工具,使用搜索引擎可采 用两种方法:一是利用关键词来检索,二是通过学科分类体系来查找。专业搜索引擎是查找 网上某种信息的检索工具。利用专业搜索引擎所查找出来的信息具有学术性强、质量高等优 点。利用专业网站查找:专业网站是获取相关学科信息

10、的一个捷径,它提供与学科有关的电 子出版物、专利、标准、会议和专业数据库等信息。跟踪综合性门户的相关栏目:许多综合性门户都设置有一些学科专业栏目,并定期更新 和发布一些重要学科信息,也具有很好的参考价值。跟踪相关的重要国际组织或机构的网站:重要国际组织或机构的网站本身就是待收录的 高质量资源,并且质量越高的网站所给出的相关链接质量也可能越高。这些链接往往已经是 经过专业人员选择的结果,需要纳入跟踪和搜索的范围。了解相关学科领域的专家并搜寻他们的个人网站:这些网站本身或者其中给出的链接列 表都可能是高质量的资源。搜索和加入相关领域的重要主题性邮件列表:相关领域的重要主题性邮件列表大都以免 费订阅

11、的方式将其更新、公告或出版物发送给订阅者,也是一种很有用的信息源。上面所介绍的通过IE浏览器浏览 Web页面,通过 Outlook收发电子邮件,通过登陆 FTP 服务器上下载资料等等都是利用客户端软件手工链接到信息源去获取信息,属于人工采 集。这种采集方法有一个共同点:用户手工键入一个URL或电子邮件地址,这些客户端软件就链接到信息源,用户可以从信息源上获取所需信息。(2)采集器自动抓取(信息采集技术) 随着互联网的迅速发展,仅仅依靠人工搜集、整理信息已愈来愈不能满足实际需要。于 是人们开始探索新的信息获取方式,采集技术和推送技术就是应这种需求而产生的。信息采集技术是目前时兴的一种信息获取方式

12、。信息采集技术是在用户设定某些信息源 的某类信息后,采集器就自动地定期从这些信息源中取出用户所需的最新信息。这是一种定 向收集和定题收集相结合的主动的、跟踪式的多向收集,它的特点是获取信息主动、灵活。资料:采集器自动抓取的优缺点利用采集技术的优点是:用户自己可以设置信息源和所需信息类型;具有信息自动化、本地化、集成化、最新化的特点。信息自动化是指用户不必一个一个的去各个信息源去取信息;信息本地化是指用户不必到远程信息源去取信息,采集器已经把用户所要的信息采到本地了;信息集成化是指采集器可以一次性把各个信息源的同类信息都采过来;信息最新 化则是指采集器采过来的都是最新信息,用户不再需要从信息源的

13、新旧信息中分辨出新信息 了。采集技术在定向收集和定题收集、主动收集、跟踪收集等方面都较推送技术有明显的 优势,另外在个性化方面也是推送技术无法比拟的。但采集技术也有它的缺点,那就是所获 取的信息都是原始信息,还需要进行加工。( 3)定制信息(推送技术) 虽然在信息处理系统中,信息推送属于信息服务提供的手段。但从需要获取信息的用户 角度来看,接受信息服务也是一种获取信息的方式。因此信息推送也是一种信息获取技术。 这种方式有点类似传统的广播,有人称它为“网络广播”。网络公司通过一定的技术标准或 协议,从网上的信息源或信息制作商获取信息,经过加工之后,通过固定的频道向用户发送 信息。这种方式的特点是

14、用户获取信息比较被动,只能定制自己的频道,信息的来源以及信 息的具体内容往往不能灵活地控制。资料:定制信息的优缺点通过推送技术获取信息的优点主要有:可以定制自己所需的信息;自己不必过问信 息从哪里得到;接受的信息都是推送服务提供者从信息源获取的、经过加工的有效信息。通过推送技术获取信息的缺点是:用户定制的选择空间是有限的;虽然用户可以中止或 更改所要的服务,但是被动的和不方便的;目前多数推送服务提供者只推送信息的主题, 具体的内容还要用户去信息源去取。2网络信息资源采集的策略 网络信息资源采集的策略主要有以下几种:(1) 限制采集的深度:从采集深度考虑,通常情况下,如果用户通过IE 浏览器看新

15、闻 的话,从首页开始,最多点击三层,就可以看到所需的所有新闻内容。同样的道理,采集器 只要采集三层就能得到各个具体的新闻内容,而没有必要采集更深的层次。(2)限制某些链接:从采集广度考虑,对于那些大家都不感兴趣的链接,完全可以设 定不采这些链接,这样就大大地减小了采集工作量,从而也大大地减少了过滤的工作量。这 是限制采集广度的一个强有力的手段。(3)限制搜索跳转:作为专业搜索引擎,要采集的信息资源通常集中在几个固定的初 始网站内,这样就不希望网站采集器跳转到其它的网站。(4)限制采集的文件类型:如果用户只想采集或者不想采集具有某些扩展名的文件, 就可以对采集的文件类型进行规定或限制。(5)采集

16、或不采集某些目录下的文件。用户在设置这样的过滤策略时,必须保证所需 的信息在这样的过滤策略下能够获取,这一点要尤为注意。因为,这样的设置有可能断了由 首页到所需页面的链接,从而取不到所需信息。除以上策略外,还可过滤旧的信息、限制采集文件的最大长度、限制站点采集的最大页2.2 网络信息采集技术的发展信息采集技术的发展以计算机技术、电子技术、网络技术、多媒体技术的发展为依托, 逐步向全球网络化、全自动化、智能化、多功能化、家庭化和个人化的方向发展。随着智能 科学研究的进展,模拟人脑认知和思维过程的新概念计算机将会问世,这为信息采集技术的 发展指明了方向。网络信息检索技术基础网络信息检索工具最早产生

17、于1994年,首个中文 WW网络检索系统 Goyoyo也于1997年在香港问世。进入 21 世纪后,网络信息检索技术不断深入发展,取得了更大的进步。1 资源定位检索技术互联网是以TCP/IP(传输控制协议/互联网协议)和HTTP超文本传送协议)为核心而发展 起来的。 URL(Uniform Resource Locator) ,俗称网址,是描述网络信息资源的字符串统 一资源定位符。 它包括传输协议、 信息资源的主机 IP 地址和主机目录及文件名的具体地址三 个部分。网络数据库、网上出版物、网络机构等有固定的URL联机数据库检索中心,期刊、报纸等电子出版物,图书馆、高校、企业、政府等机构都有唯一

18、明确的网址。利用网络浏览 器( 如 IE) 查找网址,可以快捷、方便地获得针对性极强的“对口”网络信息。 2“超链接”搜索技术Web信息以超文本链接方式组织,基本组织单元是信息节点而不是字符串,信息节点之 间通过链接进行联系。超链接是网页必不可少的一个元素,同一主题或相关的信息因超级链 接构成了庞大的无形的跳跃式的信息网。超文本信息检索技术,以超文本信息节点之间的多 种链接关系为基础,根据思维联想或查找信息的需要,通过链接从一个信息节点转到另一个 信息节点。人们可以根据它顺藤摸瓜,在网上自由地浏览信息,边浏览点击边分析筛选,一 步一步根据链接跳转查阅,直至获得令人满意的结果。3网络搜索引擎技术

19、搜索引擎 ( Search Engine) ,也称导航站点。搜索引擎技术集中体现在四个方面:访问、 阅读、整理 Web信息的信息采集,建立包含关键信息的索引数据库,根据用户请求查找索引 数据库相关文档的搜索软件, 以及为用户提供可视化的查询输入和结果输出界面的用户接口。 目前,实现网络信息检索的搜索引擎技术可以分为两类,即网站分类目录技术和全文索引检 索技术。4 web 挖掘技术web挖掘技术是从www及其相关的资源和行为中抽取有用的模式和隐含信息,利用web技术中的文本总结技术,可以从文档中抽取出关键信息,以简洁的形式对web 文档的信息进 行摘要或表示,使用户大致了解 web 文档的内容,

20、对其相关性进行取舍。 除以上技术外,知识发现技术、通用信息检索技术、自然语言处理技术等也有了很大的 发展。随着计算机及通讯技术的发展,网络信息采集技术也在不断发展。网络信息采集技术的 发展趋势主要表现在以下几方面:1检索工具的多语种化 多语种检索即提供多语种的检索环境供检索者选择,系统按指定的语种进行检索并输出 检索结果。随着各地上网人数的不断增多,各种语言的网站也在不断增长,语言障碍使人们 不能充分利用网上信息资源。跨语言检索系统仍然在摸索中,许多搜索引擎也在构造跨语言 搜索引擎来解决这个问题。建立跨语言检索系统要涉及到语言学、情报学、计算机科学等多 门学科知识,是一个综合性能强富有挑战性的

21、研究领域。2检索工具的综合化和专业化 从内容与提供信息的深度上看,网络检索工具分别向综合化与专业化两个方向发展。综 合性的检索工具要求面向一切学科,跨越所有领域,提供全面的信息。另一方面,由于有些 用户对所需信息的深度、内容的精确性和相关性要求较高,综合性的检索工具往往不能满足 专业用户的需求。为了提高检索质量,专业网络检索工具必须面向特定的专业领域,满足专 业用户的信息需求。3检索寻址的内容化基于内容的检索(Content Based Retrieval, CBR),是指根据媒体对象的语义、特征进行检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音调、 响度、音色等

22、。利用多媒体信息分析处理程序,对其内容进行全面准确的标引,建立“内容 对象”关系型索引多媒体数据库。检索时计算机程序自动获取用户查询内容,然后与多媒 体索引库匹配并提供内容完全一致的检索结果。4检索工具的智能化 智能检索技术就是采用人工智能进行信息检索的技术。它可以模拟人脑的思维方式,分 析用户以自然语言表达的检索请求,自动形成检索策略进行智能、快速、高效的信息检索。 智能检索技术主要体现在语义理解、知识管理和知识检索三个方面。它利用语义分析模块自 动智能分词, 进行用户请求和知识库 “数据” 的语义理解, 最终把知识库中匹配的信息筛选、 整序后提供给用户。总之,网络信息检索不受时空限制,检索

23、速度快,检索功能强大。智能化、知识化、多 语种化等多途径一体化网络信息检索技术,为人们跨越信息时空描绘了波澜壮阔的蓝图。网络信息采集系统的应用前景1网络信息采集系统概述 网络信息采集系统是一个汇集了各种网络信息收集技术的计算机程序集成系统,其最终 目标是给广大读者提供网络信息资源服务,整个过程经过网络信息收集、整合、保存和服务 四个步骤,其流程图如图 2.1 所示。图2. 1网络信息采集系统流程图网络信息收集是基于网络信息采集系统自 动完成的。网络信息采集系统首先按照用户指 定的信息或主题,调用各种搜索引擎进行网页 搜索和数据挖掘,将采集的信息经过滤等处理 过程剔除无关信息,从而完成网络信息资

24、源的 “收集”;然后通过计算机自动排重等处理过 程剔除重复信息,再根据不同类别或主题自动 进行信息的分类,从而完成网络信息的“整合”; 分类整合后的网络信息采用元数据方案进行编 目,并采用数据压缩、解压及数据传输技术实 现本地化的海量数据存储,从而完成网络信息的“保存”;经过编目组织的网络信息正式发 布后,即可通过检索对读者实现网络信息资源的“服务”。名词术语:元数据(关于数据的数据)。它是一种广元数据最本质、最抽象的定义为:data about data泛存在的现象,在许多顶域有其具体的定义和应用。在图书馆与信息界,元数据被定义为: 提供关于信息资源或数据的一种结构化的数据,是对信息资源的结

25、构化的描述。其作用为:描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、 评估、选择等功能。2 网络信息采集系统的应用前景网络信息采集系统具有广阔的应用前景,可以广泛地用于以下方面:(1) 数字图书馆建设建设现代化数字图书馆的一个核心问题就是网络信息资源的收集和保存问题。在当今这 个信息爆炸的时代,如果不能实现网络信息资源的自动收集和保存,那么建设数字图书馆就 是一句空言。网络信息采集系统可以自动地收集网络信息资源,并将其分门别类地存入各个 主题数据库,从而可以为构建学科门户网站打下基础。(2) 企业情报采集信息化时代,一个企业若要在行业中立足并取得优势地位,离不

26、开对政府部门的相关政 策以及对竞争对手行动的跟踪与调查。网络信息采集系统可以根据企业自己的需求,自动地 为企业收集相关情报,并提出预警分析等。这样,企业就可以对政府有关的政策导向和对手 的动向了如指掌,从而制定正确的企业运行战略,并最终在竞争中取胜。(3) 知识信息积累对于任何提供信息服务的部门而言,如何获取大量的信息都是一个相当棘手的问题。网 络信息采集系统可以自动地进行网络信息资料的收集,并对信息进行分类处理,最终形成知 识信息的积累。(4) 个性化信息采集某些专业用户 ( 如某个领域的科技人员等 )对信息的需求是非常特殊和专业的,网络信息 采集系统可以根据他们的个人兴趣为他们进行个性化专

27、题的自动收集,为他们提供其所在领 域的最新信息。总之,网络信息采集系统作为网络信息收集工具有着很好的应用前景。2.3 网络信息采集软件简介 互联网为我们提供了海量的信息,当我们需要某些信息的时候,就要直接登录网站或是 通过搜索引擎来进行查找, 这样操作非常麻烦。 如果能够把自己需要的信息全部下载到本地, 就大大方便了用户操作,网络信息采集软件就是帮助用户解决这一问题的。这类软件一般都 是集数据采集及管理为一体的软件,可以帮助用户有针对性地下载自己需要的数据。网络信息采集软件是进行将非结构化的信息从大量的网页中抽取出来保存到结构化的数 据库中的过程的软件。无论是公司、企业还是个人,基于各种目的,

28、都需要从网络中采集信 息,然而,从浩如烟海的网络中采集到自己需要的信息实在是需要耗费太多的时间与精力, 信息采集软件的出现使用户获得了解脱。信息采集软件的开发者从用户角度出发,都具有任务管理、信息采集、数据管理、数据 发布等方面的功能。 这类软件一般都有比较便捷的任务管理功能, 可以随意添加、 修改任务, 都支持批量添加任务;在信息采集方面都可以通过设置实现从网络自动采集信息,显得比较 人性化和智能化; 在数据管理上各有千秋, 一般都支持目前流行的主流数据库, 都有很方便、 很智能化的数据发布功能。目前市场上的信息采集软件很多,质量也良莠不齐,比较常用的网络信息采集软件主要 有网络信息采集专家

29、、网站万能信息采集器以及网络信息采集大师等。总之, 网络信息采集软件可以帮助用户有效、 快速地进行网站抓取采集、 网页信息下载、 情报采集等工作,提高用户以及用户所在组织的生产力和情报获得能力。相信在这类软件的 帮忙下,网络信息的采集会更加自动化、智能化,网站的更新和维护会变得更简单。资料:常用网络信息采集软件简介(1) 网络信息采集专家网络信息采集专家可以将网络信息按规则多任务,多线程采集保存到数据库中。主要功 能有网站登录、信息自动识别、网页正文提取、采集结果分类、预留编程接口、过滤重复内 容等。可以通过设置“计划执行采集任务”实现信息采集自动化。可以将采集的数据储存为 Micsoft A

30、ccess 、SQL Server 2000 、MySQL 、Web 等类型的数据库,并支持数据信息的 发布。(2)网站万能信息采集器网站万能信息采集器具有信息采集添加全自动、 网站登录、 文件自动下载和 N 级页面采 集等四大特色功能。采集器任务管理很方便,新建任务、载入任务、修改任务、删除任务, 任务开始、暂停、继续等功能应有尽有,也支持批量添加任务。在软件启动设置中可以设置 定时自动抓取网络信息,实现采集自动化。采集器可以将采集的信息直接发布到自己的数据 库中,并且支持任意数据库类型,兼容性相当不错。(3)网络信息采集大师网络信息采集大师功能强大,采集速度快,信息准确。任务管理非常方便,

31、不仅可以随 意添加、修改任务,而且可以通过设置,让任务随软件自动运行或在某个时间运行,甚至可 以设置运行次数或循环运行,实现信息采集自动化。网络信息采集大师支持目前流行的 SqlServer 、 Access 、 Oracel 、DB2 、Mysql 等类型的数据库,可以发布数据到网站,还可 以将采集的信息直接导出为文本文件或 Excel 格式的文件。图2. 2软件主界面网络信息采集大师(NetGet)的使用在各类信息采集软件中,网络信息采集大师(NetGet)是其中比较出色的一款软件,其功能强大,使用也较为方便。1 软件主界面软件安装完成后运行,可以看到如图2.2所示的软件主界面及悬浮窗口。

32、软件主界面非常简洁。软件最顶端是菜单栏及工具 栏,工具栏提供了最常用的一些工具按钮, 为用户操作软件提供了方便。左侧是分类数 据区,对数据进行分类,便于管理。右侧上 半部分是任务区,在这里列出了正在运行的 任务。接下来是采集数据区,在这里显示正在运行任务的数据。2 采集数据使用网络信息采集大师采集网站上的信息非常简单,只要在建立任务时填写上要采集的 网址,然后按自己的要求来设置采集规则即可。具体操作如下:(1) 任务概述单击工具栏上的“新建”按钮,出现如图2.3所示的“任务概述”对话框。在该窗口中对任务概述进行设置。设置好任务名称、网站首页、类别、保存位置、文件名、任务类型及 自动保存采集数据

33、时间等,建立一个新的任务。设置好后,单击“下一步”按钮,进入采集 规则设置。图2. 3任务概述对话框图2. 4采集规则对话框(2) 采集规则在如图2.4所示的采集规则对话框中,设置任务的采集规则。此页数据的填写较为关键,直接关系到数据能否采集。起始地址:要采集页面的开始地址。也可以是一个本地文件,如c:list.txt,该文本文件里是采集页面的地址集合。导航关键字:可连接到下一页的关键字符串。一般来说采集的信息是多页的,如,页码数字前面的字符串page就是导航关键字。若不添该项,则只采集起始地址的数据。采集页数范围:采集哪一页到哪一页之间的数据。若不添该项则只采集起始地址的数据。增量:默认为

34、采集网址标识:1。一般来说页码变化是连续的。需要抓取数据的页面URL地址关键字。若采集本级页面,为空即可。过滤网址标识:不打算采集的页面地址里的关键字,一般情况下不用。关联网址标识:一次采集多个页面的信息组合成一条数据。在此填写关联网址的关键字。注意该标识符在整个网页源码中具有唯一性,可以组合 URL 前后的字符串来标识。 采集数据页包含分页:一般用来采集新闻,文章等一篇文章用多个页面来显示的情况, 关键字就是分页地址里的关键字符串。采集关键字替换:一般不用,为了提高采集效率设置。目的是把某些 URL 地址直接替 换成自己想要采集数据的 URL 地址。设置好后,单击“下一步”按钮,进入数据提取

35、规则的设置。图 2. 5 数据提取规则对话框图 2. 6 修改任务设置窗口(3)数据提取规则在如图 2.5 所示的数据提取规则对话框中,设置数据提取规则。 本页提取多行同类数据:比如只采集文章的标题列表等。 中文名称:自己随便命名,比如“姓名”、“联系地址”等。 前标识符:确定一个数据值的前符号。在源文件里查找。(先在软件的浏览器里打开要 分析的网页, 然后点 “源文件” 按钮,可显示要分析的源文件数据。 注意不要直接用 IE 浏览 器得到网页源代码,一定要用软件的“源文件”按钮。)后标识符:确定一个数据值的后符号。参考前标识符的解释。信息类型:其中有几种最为常用。URL类型:当一个数据项被设

36、置成 URL类型时,假如采集到地址不完整, 会自动格式化成一个完整的地址。 附加类型: 采集的信息里, 有循环的, 有不循环的,这时不参与循环的要设置为附加类型。常量:有时采集的数据项里,有一个或 多个数据项不需要采集,要和采集结果在一起,把这些数据项设置为常量。提取数据页的全部数据作为一个数据列:把采集的数据整个输出。一般适用于数据很难 拆分的情况。若使用该项,下面的不用再设置。保存对应的URL有时候URL能标识一行具体的数据,这样数据导入数据库后,用户能 很方便地分辨。区分大小写:采集英文的数据,可选中此项,因为中文没有大小写之分(采集新闻最好 选中该项,有些图片地址对大小写敏感)。自动截

37、取字串:使用默认即可。保留 html 代码:默认情况下,采集到的 html 代码中, 之间的部分会自动清除,选中 该项后可保留代码。该选项是针对每个数据项的,有比较大的灵活性。任务设置完成后,只要在任务分类区选择任务名称,然后直接单击工具栏上的“运行” 按钮,即可按设定好的规则采集数据到本地。3任务管理如果想修改任务的采集规则,只要选择要修改的任务,然后双击即可打开如图2.6 所示的任务修改窗口,在这里可以对任务概述、采集规则及数据提取规则进行修改设置。图2. 7任务调度窗口另外,还可以通过任务调度设置 任务自动运行。单击工具栏中的“调 度”按钮,出现如图 2.7所示的任务 调度对话框。在该对

38、话框中可以设置 任务为自动随软件运行,或是在某个 时间运行,可以设置运行指定的资数 或是循环运行,从而使采集的数据同 步。总之,网络信息采集大师对任务 的管理非常方便,可以按要求随意修 改任务设置,设置任务自动运行,让 采集数据能够全自动完成,同时还可 以备份分类数据库。4 采集数据管理使用网络信息采集大师采集完成数据后,所有的被采集数据都会在采集数据区里显示出 来,如图2.8所示。用户可以对这些数据进行各项操作。图2. 8采集到的数据可以把采集数据区中的所有数据导出为文本或是Excel,然后对其进行保存,在导出的同时,还可以配置数据库,让其与数据库直接链接,能够把采集的数据直接进行发布,使其

39、 与数据库完美对接。同时还可以只是导出所有数据的标题、链接。(1) 输出为文本单击工具栏中的“文本”按钮,出现如图2.9所示的“数据输出到文本”对话框。在该对话框中,只有窗口的上半部分的功能有效,下半部分为数据库功能,不用设置。若打算把图2. 9数据输岀到文本对话框采集数据项的标题一起导出,可勾选“输出列标题”,默 认只输出采集的数据;可选择输出的数据范围,比如1-1000 行等。(2) 输出为Excel单击工具栏中的“ Excel”按钮,出现“数据输出到Excel ”对话框,该对话框与“数据输出到文本”对话框基 本一致。注意:导出 Excel时不要对Excel文件有任何操 作(点击,调整宽度

40、等),否则可能导致异常;若没任何 操作情况下仍有异常,一般重装Ofice软件可得到彻底解 决。(3) 输出到数据库单击工具栏中的“数据库”按钮,出现“数据输出到 数据库”对话框。该对话框与“数据输出到文本”基本一致。输出到数据库时,窗口的上半部分只有“输出行范围”有效,列标题不会导入到数据库。窗口的下半部分,即标志“数据 库”的部分需要重点设置。一般需要进行以下步骤:配置数据库连接:目前完整测试的数据库有Access、Sqlserver 、 Oracle 、 MySql。选择导入哪个表: 假如已经配置好了数据库连接, 点“刷新”, 可得到连接数据库的表, 选择一个表导入。或者使用新表,勾选“使

41、用新表”,添入表名称,可自动创建表。假如是导入数据库里已经存在的表,并且表里的字段个数(或叫列个数)与采集数据项 的个数完全一致,并且字段长度可容纳采集的数据,可直接点“确定”,数据会自动导入数 据库。假如不能满足这两个条件(即字段和采集项个数一一对应,字段长度足够长),导入 数据库会发生异常;字段长度不够可到数据库里更改字段长度;不是一一对应的,单击“定 义数据接口”,在“数据列接口设置”对话框中设置哪个数据项对应哪个字段,还可设置不 可重复数据列(发现重复的数据自动过滤掉),非常方便。总之,使用网络信息采集大师采集的信息可以直接导出为文本文件或是 Excel 格式的文 件,即使是数据库文件

42、也能够方便地导出,方便了用户的操作,同时能够直接把采集的数据 导入数据库,数据查询功能大大方便了用户对数据库内容的搜索。2.4 实训实训 1:网络信息采集软件的使用1. 目的: 掌握一种网络信息采集软件的使用2. 内容:使用网络信息采集大师(NetGet)进行信息检索。3. 要求:使用网络信息采集大师(NetGet)搜索至少三类信息并进行输出。4. 操作过程:(1) 从网上下载、安装网络信息采集大师(NetGet)。(2)运行网络信息采集大师(NetGet), 了解其界面构成。( 3)采集数据:设置一个新任务,如采集北京五星级酒店的信息。( 4)任务管理:对设置好任务的规则进行修改,以更加完善

43、任务要求。( 5)采集数据管理:使用“运行”命令采集数据,将采集到的数据输出到文本。本章小结本章学习的重点是网络信息采集软件的使用方法。学习者应对网络信息采集系统的基本技术及应用前景有一个基本的了解,熟悉几种常用的网络信息采集软件,能够熟练掌握其中一种信息采集软件的使用方法,能够利用信息采集软件收集到自己所需要的信息。另外,学习者应理解网络信息采集的特点及其原则,掌握网络信息资源采集中内容与形 式上的标准,熟悉通常的网络信息采集方式以及采集技术、推送技术的运用。学习者还应掌 握网络信息资源采集的策略,能够根据自己的需求制定富有成效的策略。本章的教学难点是网络信息采集技术的发展。学习者应掌握网络

44、检索自动化技术的发展 状况,对“超链接”搜索技术、网络搜索引擎技术、 Web 挖掘技术等有一定的认识,同时, 理解网络信息采集技术的发展趋势,认识多媒体化、多语种检索技术、检索工具的综合化和 专业化、基于内容的检索技术、检索工具智能化等。在学习本章时,学生必须要进行上机实践,必须要掌握一种网络信息采集软件的使用方法。另外,也可以通过教学录像、 IP 课件进行学习。思考与练习1选择题(1)在采集网络信息时,发现信息陈旧、死链接的网站,应及时予以剔除,这是贯彻了( )的原则。A .针对性B.全程性C.时效性D .选择性( 2)下列关于信息推送技术的叙述,正确的是()。A .用户获取信息比较主动B

45、信息的来源以及信息的具体内容往往不能灵活地控制C 信息推送也是一种信息获取技术D 用户自己可以设置信息源和所需信息类型( 3 )下列关于自然语言的叙述,错误的是()。A 自然语言的词义模糊、词间关系不清B 自然语言标引错误少、准确度高、时效性强C 自然语言是受控语言,除语法的限制外其它束缚亦很多D .使用自然语言检索,用户不必考虑检索规则,信息检索极其方便( 4)网络信息采集软件具有()功能。A .任务管理B.数据管理C .信息采集D .数据发布(5)使用网络信息采集大师( NetGet )输出数据时,可以把采集数据区中的所有数据 导出为( )。A .文本B. ExcelC.数据库D .页面2. 判断题(1)若要进行定题收集,采集技术较推送技术有明显的优势,(2)限制某些链接是限制采集广度的一个强有力的手段。(3)Web 信息以超文本链接方式组织,基本组织单元是字符串。(4)智能检索技术主要体现在语义理解、知识管理和知识检索三个方面。(5)网络信息采集大师对任务的管理非常方便,可以按要求随意修改任务设置。3. 思考题(1)网络信息采集的特点及原则是什么?2)试述网络信息资源采集的质量标准。3)网络信息资源采集的途径与策略有哪些?4)简述网络信息采集技术的现状。5)简析网络检索技术的发展趋势。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1