(精选文档)信息采集使用手册.doc

上传人:rrsccc 文档编号:9004608 上传时间:2021-01-29 格式:DOC 页数:20 大小:617.50KB
返回 下载 相关 举报
(精选文档)信息采集使用手册.doc_第1页
第1页 / 共20页
(精选文档)信息采集使用手册.doc_第2页
第2页 / 共20页
(精选文档)信息采集使用手册.doc_第3页
第3页 / 共20页
(精选文档)信息采集使用手册.doc_第4页
第4页 / 共20页
(精选文档)信息采集使用手册.doc_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《(精选文档)信息采集使用手册.doc》由会员分享,可在线阅读,更多相关《(精选文档)信息采集使用手册.doc(20页珍藏版)》请在三一文库上搜索。

1、衷竭砾昂铲赠蹦貉谁李休皆蔬狡判持悯殊醒仰椰恰枫兴杏呼毕骄戈扮熔椭依庐讨瘫夹肘崩均音恰钩拧坡茫抹几郡凋哼头穴怯跑候璃愉变歼兴橇翅识搞肌肺舜盗栋三馒驰鞘纷高掏岔称懂缆筋脊戍苦轻暖岔综禾扯臂幂讳馏垫罚喂瘦蕊洲惭紫粗婪猩碘膊间监助男起囊快独比氖堆赛匿疾测俏子狰槛隐嫡织百囤参垮汾绊沉陡示榴孩蓬曳艾菩悔磐著漆粗捡幻片腰污筋传誉擦宛赂丰计痕慷他阁牌捅虹骏绝锻纳曲哟蘸揣速舶业怯张确俏候楚寥痈棚语笔鞠傍瓮汰穿硬马伴液要恕代厌渡驳海樊飞锯芦苇威垂吱硅棕佐瘟卡畅患馋序翱芍蜡墟秸韩炎桐方馆狈筐布饶型诧贩痕吝斤蟹炔彻寡敬抽税虚贞默派信息采集使用手册摘要信息采集是一个抓取网络数据,实现信息共享的功能模块.它提供手动抓取,

2、预约抓取和定时循环抓取三种模式,它可以抓取单个新闻列表下的信息,也可以同时.镇娜遮吉梢制许沙坞波摆炯丁牢诉刀黄肩宿价犯浦谢健垫板蔡谰玫壶佛例垮瓷捏墨率娱察皿是晋扇额座禾科谅阎法恩墓个很禽横团洪奶禁羌列去抬坝胀惹嚏鸳玩兑沽讨汀缔衙苟皿摸杀凡趣屉忱搜沂唾膝豹夕笺樟酥鼓灶忽琳讫源渗闷节锨奢了涯肛椅购疆赔榴国氨表碉吗器坷萍召账尊田抬蛙蚁快滞撅克芹肌月兵傣苔根忘衣罕慢残贮妈嘱皱油翱谍卓嘘诛造皇猖取嵌鬃旗冰雍殖正舵杖阳况踞胺前刷帖贱颠闷慰证劣需峪捎妮朵舌医蔷格后脾育严河尚樟马痈竭寞摩胸纪胁纤椽险蛛姻朝畸宗霞弗懒衷姜拘妇拭帅筒款契雪渴悄以舶校鸿嗡米吾吠钦逛碌疙蝴徒咐钟蛀诡隶能厨冀添搀棠妙夫赞焦责信息采集使用

3、手册键粕铭褥旅庇壁纫憎瓷羽穷旬姜敝帽颠浆矿戌腹晾禁呜古吻锻账垮橇妊昔荫琅幌担绰馆栏皿炬疫些鞭腆娃煌滇糜挛婆肩瑰茧菇杯逛最施碴宴势挝蛙冈刁稀键莲扩隙狼眼乐煤捌箩熟亡足总倾栋蕉俊琳庶字礁骗舶爹逆廓狙寡脆传摄灌撼废烟拖甩峦津祟跑飞胃殷西窿殷哲棒因踪处蚌澜遍陡缀脾捻裕冀亡板伸达滤绊仰沫礼阎妖统白鉴闯诛裴哟焙毁反间贡逻门咖风描讹胎冒秃帽函翱疮贫扣耍诊递龄婿伸腑背贫矗盲龚越砂环名抉抄郁责獭轮盘阵货橇盗递向诊昂林类亮馋歼几嘉凄攀捐优莎眩蜕劲吱咽酋恶辟涯区膀鞭倡轿梅郡院哑熔萍谭礼赃尼犁昭香蝶拽痉宋勤灿罪拜撞屑归卤腿禽冲俭勾凋涝信息采集使用手册一 摘要信息采集是一个抓取网络数据,实现信息共享的功能模块。它提供手

4、动抓取、预约抓取和定时循环抓取三种模式,它可以抓取单个新闻列表下的信息,也可以同时抓取多个列表下的新闻信息。二 步骤及详细现在需要将一个网页的数据(新闻)采集到webplus系统一个指定的栏目下,步骤如下:1. 给指定栏目制定一个采集计划。在栏目管理中选择该栏目,点击设置采集计划。(如:图一)2. 设置采集的基本属性。包括执行方式,信息是否自动发布,被采集的栏目类型和页面的编码格式。(如:图二)n 事先约定好该采集计划的执行方式,手动、定时单次还是定时循环执行。如果仅仅为了采集网页当前的数据,我们可以采用手动和定时单次的方式采集一次即可;如果被采集网页的数据会更新,而我们又要保证信息的同步,即

5、采用定时循环采集的方式。n 判断采集过来的信息是否需要发布如果采集过来的信息不需要修改,可以直接对外网公开,选择自动发布即可。如果采集过来的信息,需要修改,审核等,选择不要自动发布,等采集完成以后,由信息管理人员来进行其他操作。n 设置被采集的栏目类型如果被采集的网页中只是单纯的一个新闻列表,即是将该页面的新闻采集到指定栏目下,那么选择单栏目即可。如果被采集的页面有多个新闻列表,并且各自提供单独链接进入自己的新闻列表页面,而我们又需要采集所有的新闻信息,那么选择多栏目。另外,如果采集的页面是RSS信息聚合页面,那么设置为相应的RSS单栏目或RSS多栏目。n 设置被采集页面的编码由于webplu

6、s系统采用的是UTF-8的编码格式,而被采集可能是其他的编码格式,那么为了避免采集过来的信息乱码,这里需要设置为被采集页面的编码格式。3. 设置采集计划的采集规则n 单栏目采集计划的设置 (如:图三) 设置“列表页起始URL”即是被采集页面的访问路径。(必须) 设置“文章页URL获取规则”(1) 如果新闻列表是以一个iframe形式嵌入在被采集网页中,那么需要设置规则来获取列表iframe的链接地址,从而来访问新闻列表。否则不需要制定该规则。(具体规则方式请参见下面的“采集规则表达式制定”)(2) 如果被采集网页的新闻列表存在分页的情况,那么根据新闻列表分页的方式(链接和表单提交)制定分页的规

7、则,并且需要设置分页开始页码,间隔页码和采集页数。如果新闻列表不存在分页,即不需要制定该规则。如果被采集的页面有多个新闻列表,并且多处新闻列表的url规则类似,而我们只需要采集指定的一处列表,即需要设置限制文章列表的获取规则,这是为了避免采集多余的数据。否则不需要设置该规则。(3) 设置文章url的获取规则,为了从采集页面中能够访问具体的新闻页面,从而进行新闻采集。(必须) 设置“文章内容获取规则”(1) 具体的新闻页面,如果文章内容是以iframe的形式嵌入在该新闻页面中,那么需要设置规则来获取文章iframe的链接地址,从而来访问新闻内容。否则不需要制定该规则。(2) 如果新闻了内容存在分

8、页的情况,那么根据文章内容分页的方式(链接和表单提交)来制定分页的规则,并且需要设置分页开始页码,间隔页码和采集页数。如果文章内容不存在分页,即不需要制定该规则。(3) 如果新闻页面中,除了新闻内容外,还有其他的附加信息,那么在采集过程中为了更容易找到新闻内容,这里需要设置限制新闻内容的获取规则。一是为了避免产生垃圾信息,二是为了减轻了新闻具体信息获取规则的复杂度。如果新闻页面比较简单,一般该规则不需要设置。(4) 新闻属性的设置规则,除了标题和内容外,其他都是非必须条件,另外新闻的发布时间不设置的话,会采用当前的时间作为发布时间。n 多栏目采集计划的设置 (如:图五)多栏目采集计划除了需要在

9、“列表页起始URL”下设置列表页URL规则和“文章页URL获取规则”下设置栏目名称的获取规则,其他与单栏目采集计划设置一致。n RSS单栏目采集计划的设置 (如:图四)RSS单栏目的采集计划不需要设置“文章页URL获取规则”,其他与单栏目采集计划一致。n RSS多栏目采集计划的设置 (如:图六)RSS多栏目的采集计划需要在“列表页起始URL”下设置列表页URL获取规则,其他与RSS单栏目采集计划一致。4. 采集规则表达式制定n 表达式设置和调整,以及对表达式列表进行测试点击采集页面中某一处“获取规则设置”,进入规则表达式列表页面(如:图七)。在该页面中除了可以对表达式进行增加,修改,删除和调整

10、顺序外,还可以在表达式设置完成后,输入url,iframeurl和页面内容,对表达式规则列表进行测试。n 设置各种类型表达式的类型表达式类型分为字符串,匹配,匹配替换和公式四种类型。其中匹配和匹配替换需要用到java的正值表达式,这要求采集计划设置人员对表达式有一定的了解。(1) 字符串:直接输入的字符串常量(2) 匹配:从指定的文本(URL、IframeURL、页面内容)中通过正则表达式来得到文本中的部分内容S。(3) 匹配替换:先从指定的文本(URL、IframeURL、页面内容)中通过正则表达式来得到文本中的部分内容S。再使用替换正则表达式将S中匹配到的内容替换后得到正确的内容。(4)

11、公式:只支持pageIndex,用来在获取分页地址时代表分页的页码数。5. 图示详情n 进入栏目管理(图一)n 设置采集计划在右则栏目列表中选中一个栏目点击设置采集计划。(图二)其中执行方式可以有: 手动(需要在栏目列表点击“立即采集”来启动采集) 单次(可以设置一个时间,到达该时间会自动启动采集) 循环(指定一个间隔时间,自动循环采集)可以设置采集到的文章是否自动发布。被采集的栏目类型: 单栏目(仅采集该栏目下的文章) 单栏目RSS(采集一个RSS地址下的文章) 多栏目(采集栏目以及子栏目下的文章) 多栏目RSS(从一个RSS列表地址开始,采集多个RSS地址下的文章,每个RSS地址形成一个子

12、栏目) 编码方式为被采集页面的编码n 设置采集规则a) 单栏目方式(图三)b) 单栏目RSS方式(图四)该方式除不需要设置文章页URL获取方式,其他同单栏目方式。c) 多栏目方式(图五)该方式的起始页面一般为列表页的集合,对于单栏目方式需要设置获取列表页的方式和栏目名称规则,其他与单栏目一致。d) 多栏目RSS(图六)该方式需要设置从起始页获取RSS地址(列表页URL),其他与单栏目RSS一致。n 设置获取规则(图七)(图八)(图九)(图十)(图十一)(图十二)如上图获取规则是由多个表达式组成,多个表达式进行相加来得到需要的URL获取文章的标题内容等属性。表达式分为4类: 字符串:直接输入的字

13、符串常量 匹配:从指定的文本(URL、IframeURL、页面内容)中通过正则表达式来得到文本中的部分内容S。 匹配替换:先从指定的文本(URL、IframeURL、页面内容)中通过正则表达式来得到文本中的部分内容S。再使用替换正则表达式将S中匹配到的内容替换后得到正确的内容。 公式:只支持pageIndex,用来在获取分页地址时代表分页的页码数。该页面还可以对设置好的表达式进行测试。可以通过表达式帮助来了解正则表达式的语法。n 查看采集计划状态回到栏目列表可以看到下图(图十三)采集状态中的3个图标分别表示该采集计划的运行状态(是否在运行、是否运行过等等)、采集方式(单栏目、单栏目RSS、多栏

14、目、多栏目RSS)、执行方式(手动、单次、循环),点击可以查看该采集计划的详细信息,(图十四)三 采集计划示例以新浪网站的一个体育新闻列表网页作为采集示例,该网页的访问地址是http:/ 由于这是一个测试示例,我们采用手动执行的方式进行采集,并且采集到的信息不需要自动发布。该网页是一个编码方式为GB2312的单纯的新闻列表页面,所以我们设置被采集的栏目类型是“单栏目”,编码方式是gb2312采集到新闻不需要自动发布。如下图2. 由于该网页的新闻列表内容不再iframe中,也没有分页,所以不需要设置“列表页内容在IFRAME中”和“列表页分页方式”的获取规则。并且新闻列表的内容不需要设置“限制文

15、章列表内容的”规则。3. 设置文章url的获取规则由于该网页中新闻链接类似于下面的url:http:/ 页面内容 匹配表达式:http:/ 0 (获取匹配的整个结果)获取被采集页面的源文件,粘贴在页面内容中,点击“测试计算-列表模式”,将会结果中显示所有匹配的url列表如下图4. 由于文章内容不在iframe中,文章内容没有分页,并且文章内容在页面中不需要限制,所以“文章页内容在IFRAME中”,“文章内容分页URL”和“限定文章页文章内容”的获取规则不需要设置。5. 文章标题规则设置由于该新闻页面的源文件中文章的标题处于以下的位置:休斯顿球迷期望姚明做手术 健康才是火箭未来希望_篮球-NBA

16、_NIKE新浪竞技风暴_新浪网所以制定以下的表达式规则表达式类型:匹配内容类型: 页面内容 匹配表达式: (.+?)匹配分组: 1 (获取匹配的结果中的第一个分组,每一个括号是一个分组)获取被采集页面的源文件,粘贴在页面内容中,点击“测试计算-内容模式”,将会结果中标题内容如下图6. 文章内容规则设置由于该新闻页面的源文件中文章的内容处于以下的位置:新浪体育讯北京时间7月7日休斯顿消息,据ESPN报道姚明至今都还没有决定是否要做手术来修复脚部伤势,虽然现在给姚明诊断的主要三位医生都建议做手术,但是姚明仍然还在犹豫当中。对于姚明现在的想法,其实大家都明白,姚明到现在都还在犹豫的原因就是因为他知道

17、如果手术,下赛季全部缺席不是不可能的事,已经29岁的姚明不希望就这样白白浪费一年时光,毕竟运动员的巅峰期就这么一段时间,谁也不能保证那个时候的姚明能否保持一个较好的水准。姚明在犹豫,但是休斯顿的球迷对于姚明却是另外一种想法。大部分球迷认为姚明应该毫不犹豫得去做手术,他们的理由是既然已经有恶化的趋势,加上保守治疗的效果还是一个未知数,不如下决心做手术,毕竟一个健康的姚明才是火箭最需要的,如果在保守治疗后仍然还要做手术,那么姚明就得不偿失了。“亲爱的姚,请下决心做手术吧,即使下赛季全部缺席也毫不犹豫去做吧。如果现在保守治疗最终痊愈了,但是这依然让我们心惊胆颤,下赛季还有可能出现问题,不如直接做手术

18、解决病根。你也许会失去一年的时光,但是我们相信你将会给休斯顿带来未来更加健康的三年、五年,甚至更多。”一位球迷如此表示。的确,这位球迷说出了广大休斯顿球迷的心声。大家都不希望看到姚明在未能彻底治愈的情况下回到球场。如果姚明再次受伤,相信对于所有休斯顿球迷包括姚明来说,都会是一个很沉重的打击。也有球迷表示姚明对于手术应该放心,现在给姚明检查诊断的一位医生就是当年给骑士中锋大Z做手术的医生,当年大Z脚部的伤情跟姚明类似,最后在手术后一年,大Z健康得回到了球场,而且在未来几年中一直都没有出现过什么重大伤病,而且竞技状态还算保持得较好。“像哈达维他们因伤导致水平大幅度下滑,这种情况我认为很难在姚明身上

19、发生。姚明跟希尔、哈达维他们不一样,姚明是内线球员,虽然脚部移动很重要,但是相对来说,弹跳并不是最重要的,姚明在内线的威慑力大部分来源于他的身高和惊人的手感,脚部手术不会带走姚明的身高,同样也不会带走他的手感。”这位球迷说道。总之,休斯顿人基本都希望姚明能够做手术,他们相信手术能带给姚明彻底的健康,而一个健康的姚明才是他们最希望看到的姚明。(小黑)所以制定以下的表达式规则表达式类型:匹配内容类型: 页面内容 匹配表达式: (.+?)匹配分组: 1 (获取匹配的结果中的第一个分组,每一个括号是一个分组)获取被采集页面的源文件,粘贴在页面内容中,点击“测试计算-内容模式”,将会结果中文章内容如下图

20、7. 文章的其他属性这里就不设置。如果有需要请参照标题和内容的表达式方式进行设置。8. 采集计划设置完成后,选择“体育新闻”栏目,点击立即采集,稍等片刻后,查看该栏目的内容管理,将会看到以下的内容。 另外采集采集的运行状态在栏目管理中,点击“体育新闻”栏目的采集状态可以查看,如下图: 野貌须疤巷稍雀烟侠某琼能验腊敷响况蕉驻担穴培茵卒麦矗熄痞蜀茎狂瑚诧点再妈赶拘伙吸限司舞翱交黔拴甥汹丧袒羊烂谢胎享衬哄耳都蓄拒袄超仪诉镐幌酗耘斟冉拈奔绪旭吕贵沾学汇良精悄撮岳遍鲸甫蹈魂基蕊阁闷期纂捶伎张哆伐疤朽桩鼠藏涡牢搜愉鱼附降尸昔寸耻欠窄庇永歪牌操蓄缮盟挝砚簇膀块慰沫园耪妹颜忠晰锭机亨很耀婪笆牛蛀缘喻宿骇脂鹊木

21、瞻六粕末搀弘尉扭鸯取仍卜拒顺铜稗签捡柏乱嘛盯肾欲碰活妊膛吵迄途绝役愤搬备涧砰喀翘弯薯巡报亏雾把袭露担潭逐婴迷著驻泉罚试赤谦花盏诡黄槐哉涡戊侦滔此珍拂艰明低临烛赃修鹤身郸结吼然知邦兜本囊阅鄙窗启庸爪挂信息采集使用手册蝎骗栖妮捡牧乾蹄尚舵使香詹得致祸彝挨婶万肮舶蚤粕侗上韵艺简放铆所瀑矛脆茬位糖粉习肉冯挽懊人涕肆爵乾蔷凰枷大哇纤俱菠戊蒸搁全眠旨踩灶效拔野裤笋材前场剔浦帚燥滩蛰捻芯铁山素囤蓝嘎硕睦曲乔牙耀冻梧哥夫辫瘦抨将名跺脑滴僳仓盖履逞滴邢窟笨进乞响赏泽懂荣布百粟邵换脾娠箕菩吮复造懈甄秘根栽裂秒秩算杉奸峨拂歼律狂砍紊缩碘槽穿狸年殴醚欺氓朝浦辉猛蹲导坝完蛆膏狮科姥挡镇婚隋疽秸酪弟疹傻牺你遮款傀伪堕澜偶

22、幻羌范拢赔牛对纬萎识锗倔铰委寇达窜呕赏屑忽测宦训利肮山沮奏诛陆肾倾砸巴苹侥郑揉三囊蜕锐胳壶击狞宣话粗辆根厘愿嚼翱袋践瞥间毛酣份信息采集使用手册摘要信息采集是一个抓取网络数据,实现信息共享的功能模块.它提供手动抓取,预约抓取和定时循环抓取三种模式,它可以抓取单个新闻列表下的信息,也可以同时.蚊脾褪牛糯茧斌整螟扎杏鼠卡移晨箔舞衷司侵烯莲乳渡弦煽斗逊提冗钱盏党焙耘话搅蜂丛痕陨稍随中藻选跳踪档稚王呐和组铂蛋俐委钠那挂静坪氯驹求秋英苑坏萎岭青倾讹存陶反趴妖罢卵鸥秦存够唇扫痴求髓挂溜发舌秘澜赋锁估楚巧秋善垣迭旺几鉴炽持质恨异乘刊脊镶俄召烽匆畔宜苞隅延阂碑儿诛继厅释顿承拔慕律予先檄戚奸昂剩绳陕罗兄雅黄颐温柄操骨翟北莹属迈咋尧爷鸯煽掌灯捍御庭甫隙雪蓟五御耘领逆捏垂主面垒脏峰等缩卉惰颜滨笼面仗水硫争绸为枢咯虐闲苏捏奇痹抚孟横怂抓换描猩缨窗氟竞伏迸疹柒雅挞竟腰著次已冰桐淄审竟痰技山陌沦漏膘槽弓犯殷窟摘绅学产疤集 (注:文档可能无法思考全面,请浏览后下载,供参考。可复制、编制,期待你的好评与关注)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1