第五讲网络信息检索.ppt

上传人:本田雅阁 文档编号:3123268 上传时间:2019-07-13 格式:PPT 页数:66 大小:2.74MB
返回 下载 相关 举报
第五讲网络信息检索.ppt_第1页
第1页 / 共66页
第五讲网络信息检索.ppt_第2页
第2页 / 共66页
第五讲网络信息检索.ppt_第3页
第3页 / 共66页
第五讲网络信息检索.ppt_第4页
第4页 / 共66页
第五讲网络信息检索.ppt_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《第五讲网络信息检索.ppt》由会员分享,可在线阅读,更多相关《第五讲网络信息检索.ppt(66页珍藏版)》请在三一文库上搜索。

1、第四讲 网络信息检索,导言:网络社会,在现在的网络信息环境下,网络信息资源是我们学习、工作、生活中利用率最高的信息资源之一。对网络信息资源和网络的利用是终身学习的需要,也是个人信息素质中的重要内容。相对与图书馆纸本文献信息资源和数字资源的检索利用,其对人的影响更为深远。 今后的社会,网络是一个基本要素,它将对社会经济、科技教育、国防乃至政治产生决定性的影响。,目录,网络信息资源概述,1,2,4,3,网络信息检索工具,搜索引擎检索技术,网络信息检索技巧,网络信息资源概念 信息资源以电子数据的形式存放在非印刷型的介质中,并通过网络通信手段,在计算机等终端上再现的信息的总和。,1.网络信息资源概述,

2、网络信息资源类型 按信息内容的表现形式和内容划分可分为: 全文型信息:直接在网上发行的电子期刊,网上报纸,印刷型期刊的电子版,网络学院的各类教材,政府出版物,标准全文等; 事实型信息 天气预报,节目预告,火车车次,飞机航班,城市或景点介绍,工程实况、IP地址等; 数值型信息:主要是指各种统计数据; 数据库类信息:如CNKI,万方等,是传统数据库的网络化; 微信息(web2.0特征):如博客、播客,BBS,聊天,邮件讨论组,网络新闻组等; 其它类型:投资行情和分析,图形图象,影视广告等。,1.网络信息资源概述,1.网络信息资源概述,按所采用的网络传输协议可分为: WWW网络资源: 因特网信息资源

3、的主流,它使用http协议,使用简单, 功能强大,能方便迅速的浏览和传递分布于网络各处的文字、图象、声 音和多媒体超文本信息。 FTP信息资源:它使用ftp协议,该协议主要用语连网计算机之间传输文件 。FTP相当于在网络上两个主机之间复制文件。目前仍是发布、传递软件 和长文件的主要方法。 TELNET信息资源:telnet是远程登陆协议。telnet信息资源包括硬件资源和 软件资源。许多机构都提供远程登陆的信息系统,如图书馆的公共目录 系统,信息服务机构的综合信息系统等。 用户服务组资源:包括新闻组,电子邮件组等。,1.网络信息资源概述,网络信息资源特点 信息资源丰富、种类繁多 超文本、超媒体

4、、集成式提供信息,图表、图形、图像、声音、动画等 信息来源分散、无序,没有统一的管理机构,没有统一的发布标准 价廉,但质量良莠不齐 正式出版物和非正式信息交流交织在一起 共享程度高 是信息资源的宝库,1.网络信息资源概述,网络信息资源的评价与选择 网络信息资源的评价与选择主要是针对信息源 内容因素:内容是评价与选择的核心和重点,从中可以反映网络信息资源的本质。评价网络信息资源的内容因素主要有:权威性、完备性、可靠性、原创性、新颖性、稳定性等。 形式因素:形式指标反映了外部特征以及操作使用等方面,是为提示内容服务的,主要包括:美观性、条理性、查检性、帮助性、快捷性、低耗性等。 定量的评价:Goo

5、gle的pagerank;星数评价等级。,1.网络信息资源概述,网络检索的类型 按搜索的目标分类,可分为 站点搜索 普通搜索引擎、新浪、搜狐、Yahoo等 图书资料 网上图书馆、电子图书、网上商店 专业文献 专业数据库(中外文期刊、专利、图书),1.网络信息资源概述,寻找因特网上的任何一个网页,其中的环节不会超过十九个页面,六度空间理论?,搜索的六度空间理论?,寻找世界上任何一个人其中的环节不会超过六个人,1.网络信息资源概述,附:人肉搜索 请通过百度百科中的“人肉搜索引擎”词条了解人肉搜索http:/ 人肉搜索,其实是情报学中的信息分析和情报调研过程,是信息检索技能、信息分析方法和情报调研过

6、程的集中应用。其最大的特点是应用web2.0的思路,网聚人力,虚拟与现实结合。,2. 网络信息检索工具,当已经知道地址时,直接通过地址访问。 当不知道地址时,需要借助检索工具。 搜索引擎 网络资源目录 信息门户 搜索软件,2. 网络信息检索工具,当别人问你一个问题,而你10秒内无法想出答案时,你是否会回答去网上搜索一下? 当你需要编写一个格式报告(如毕业论文、年终总结)时,你是否会先搜索一些范例并参照编写? 如果你马上要和别人就一个你不熟悉的领域进行讨论时,你是否会赶紧先搜索一把,储备足够的背景知识,然后出动? 你是否经常有这样的感觉,凡是我想到的,别人都想到了;凡是我想知道的,一定有人知道答

7、案? 当你即将前往一个陌生的地方,你是否会先打开搜索引擎页面,查阅当地的地理人文、风俗习惯,然后再启程?,2. 网络信息检索工具,搜索引擎,除此之外,还有哪些?,2. 网络信息检索工具,中文常用搜索引擎 国内搜索引擎 百度(Baidu) 国内唯一商业化的全文搜索引擎,提供搜狐、新浪、263、Tom等站点的网页搜索服务。 国内目录索引 搜狐(Sohu) 国内三大门户之一,最早在国内推出搜索引擎收费登录服务 新浪(Sina) 最大的中文门户网站,同样也推出了搜索引擎收费索引项目 网易(Netease)网易旗下搜索引擎,主要提供网页、图片、热闻、视频、音乐、博客等传统搜索服务,同时推出海量词典、阅读

8、、购物搜索等创新型产品。,2. 网络信息检索工具,英文常用搜索引擎 Google 以搜索精度高、速度快成为最受欢迎的搜索引擎,搜索界的领军人物。 Yahoo 最著名的目录索引,搜索引擎开山鼻祖之一.,2. 网络信息检索工具,搜索引擎只是一个索引数据库,一般没有自己的信息资源,信息的可获得性与搜索引擎无关。不过搜索引擎有时也会在数据库中存储某些信息的内容。,baidu,google,2. 网络信息检索工具,水平搜索引擎(综合搜索引擎) 水平搜索引擎索引几乎所有可能内容, 包括多种类型、大量领域。在 内容类型和领域方面表现出综合性。 水平搜索引擎强调信息的宽广、面对的是广泛用户的信息需求。 典型的

9、水平搜索引擎有: 百度中文搜索引擎:http:/ Google中文搜索引擎:http:/.hk/,2. 网络信息检索工具,垂直搜索引擎 垂直搜索引擎 即专业或专用搜索引擎,它专门用来检索某一主题范围或某一类型信息,追求专业性与服务深度是它的特点。 垂直搜索引擎不但可保证此领域信息的收录齐全与更新及时,而且检索深度和分类细化远远优于综合搜索引擎。 垂直搜索引擎的检出结果虽可能较综合搜索引擎少,但检出结果重复率低、相关性强 、查准率高,适合于满足较具体的 、针对性强的检索要求 。 目前已经涉及到购物,旅游,汽车,工作,房产,交友等行业。,2. 网络信息检索工具,找工作的搜索引擎:http:/ ht

10、tp:/ google学术搜索:http:/ google图书搜索:http:/ 比价购物搜索引擎:http:/ 论坛搜索引擎:http:/ 旅行TripAdvisor http:/ 图像搜索引擎:http:/ 网络信息检索工具,综合搜索引擎的专门化趋势 搜狗(Sogou) 人物、音乐、购物、图片、地图 http:/ GOOGLE 学术搜索: http:/ GOOGLE 图书搜索 http:/ http:/ AllTheWeb 能专门对图像、多媒体信息。 http:/,2. 网络信息检索工具,元搜索引擎 元搜索引擎(matesearch)又称集合型搜索引擎,将多个单一搜索引擎集成在一起,提供统

11、一的检索界面,将用户的检索提问一次搜索多个搜索引擎,并将结果返回给用户。 优点:能同时搜索多个搜索引擎,能在一定程度上提高查询的广度。 缺点:因为有时后并不能对一个搜索引擎全部查完,有时后也会漏掉一些重要信息。 例如:搜魅网(someta)、马虎聚搜,2. 网络信息检索工具,网络资源目录 由人工采集网上信息,然后按照一定分类标准,比如学科类型、主题等,建立网站分类目录,并将筛选后的信息分门别类放入各类目中供用户进行浏览。,2. 网络信息检索工具,搜索引擎目录目录索引:新浪目录http:/ 开放目录ODP http:/dmoz.org/ 、http:/ 中国艺术开放目录 http:/ http:

12、/ 专题网址 如搜索引擎的专题网址:http:/ 网络信息检索工具,信息门户 学科信息门户 http:/ 政府信息门户 http:/ 商业信息门户 公司信息门户 导航库,一些疑问?,搜索引擎到底有什么搜索技术? 搜索引擎技术都有哪些应用? 是不是也有应用实例演示? 我们将进入本次课程下一个部分的学习,3.搜索引擎检索技术,一、Google 二、Baidu 三、其他,3.搜索引擎检索技术,3.搜索引擎检索技术,3.搜索引擎检索技术,谷歌 网址:http:/.hk 谷歌宣传动画:http:/ “ Google ”取自数学术语googol ,意思是一个1后面有100个0。意在表现该引擎“搜集和驾御浩

13、瀚无穷的网络信息”的宏图。,3.搜索引擎检索技术,谷歌一般搜索技术 默认模糊搜索、默认拆分语句和过长的短语 如何精确搜索(短语搜索) 通配符*用法 点号匹配任意字符:. 布尔逻辑 与:空格、AND 或:OR、| 非:-(减号) 约束条件:+ 同义词: 数字范围: 括号:(),3.搜索引擎检索技术,默认模糊搜索、默认拆分语句和过长的短语,3.搜索引擎检索技术,如何精确搜索(短语搜索),3.搜索引擎检索技术,通配符*用法 如:检索【”市场*研究报告”】,3.搜索引擎检索技术,点号匹配任意字符(也可不用引号) 与通配符星号“*”不一样的是,点号“.”匹配的是字符,不是字、短语等内容。保留的字符有、(

14、、-等 。如:【“大全.中国”】,3.搜索引擎检索技术,布尔逻辑 布尔逻辑是许多检索系统的基本检索技术,在搜索引擎中也一样适用,在谷歌网页搜索中需要注意的是:谷歌和许多搜索引擎一样,多个词间的逻辑关系默认的是逻辑“与”(空格)。当用逻辑算符的时候,词与逻辑算符之间需要用空格分隔,包括后面讲的各种语法,均要有空格。 “或”OR必须大写,“非”是特例,即减号必须与对应的词连在一起。 对于复杂的逻辑关系,可用括号分组。 如:逻辑与:【电子行业 AND 研究报告】,用空格和AND 以及小写搜索结果差别不大。此例是搜索电子行业的研究报告。 逻辑或:【电子行业 AND 研究报告 AND (人才 | 风险)

15、】此例是搜索电子行业的人才或风险方面的研究报告。 逻辑非:【电子行业 AND 研究报告 AND (人才 | 风险) -2007】此例是搜索电子行业的人才或风险方面的研究报告,但不要2007年的。,3.搜索引擎检索技术,约束条件 加号“+”用于强制搜索,即必须包含加号后的内容。一般与精确搜索符一起应用,如:【研究报告 +“学术信息资源开放目录“】,3.搜索引擎检索技术,同义词 仅限于英文搜索。一般来说,加符号会比不加搜索出来的多一些。总体来说效果不是很明显。如:搜索【PC】能搜索出Computer、windows等内容。,3.搜索引擎检索技术,数字范围 用两个点号“”表示一个数字范围。一般应用于

16、日期、货币、尺寸、重量、高度等范围的搜索。用作范围时最好给一定的含义。 如:【格力空调 20002800 元】搜索价格区间。本例仅仅搜索格力空调 的价格在2000元到2800元之间的信息。 【格力空调 2800 元】2800元以下的。 【格力空调 2800 元】2800元以上的。,3.搜索引擎检索技术,括号分组 逻辑组配时分组,避免逻辑混乱。括号“()”是分组符号。 如:【(格力空调 | 海尔空调 )元 2800】2800元以上的格力空调或者海尔空调。,3.搜索引擎检索技术,谷歌高级搜索语法 intitle、allintitle:搜索范围限制在网页的标题 例:intitle:以德服人 inte

17、xt,allintext:搜索范围限制在网页中的正文中搜索 inurl、allinurl:搜索范围限制在URL 可以查找某些特定内容,比如音乐或视频。例:最炫民族风 inurl:mp3 filetype:根据文件后缀搜索特定文件类型 define :谷歌网页搜索中搜索定义的语法 site:搜索范围限制在某网站或顶级域名中。 例:台湾 site: 凤凰网关于台湾的网页,3.搜索引擎检索技术,intitle:搜索范围限制在网页的标题,3.搜索引擎检索技术,intext:搜索范围限制在网页中的正文,3.搜索引擎检索技术,inurl :限定搜索网址的语法。是In-系指令中最强大的一个,换句话说,这个高

18、级指令能够直接从网站的URL入手挖掘信息,只要略微了解普通网站的URL格式,就可以极具针对性地找到你所需要的资源甚至隐藏内容。 搜索图片【inurl:photo】,搜索所有网络地址中包含“photo”的关键词的 页面结果。指令中的photo也可以替代为picture、image等 搜索音乐【inurl:mp3 毕业生】,在所有网络地址中包含“mp3”的页面中 搜索“毕业生”。这个时候返回的“毕业生”肯定是音乐,而不是关于“毕业生”的其它话题。Google中搜索音乐的另一有效方式是MP3可以替换为wma/rm等。 搜索软件【inurl:download qq】,直接查找QQ软件的下载页面。 搜索

19、电子论文【inurl:eprint “Information Retrieval”】 搜索有关Information Retrieval的电子论文(通常这类搜索结果能直接下载全文)。 搜索特定网站中的内容【inurl: 讲座】搜索http:/ 网 站中有“讲座”的内容,3.搜索引擎检索技术,filetype:根据文件后缀搜索特定文件类型 这个语法非常有用,我们在网上常常要找一些范文或参考资料的时候常用这个语法。filetype是根据文件后缀搜索特定文件类型,比如支持的文档有:pdf、ppt、doc、xls等;网页文件:htm、asp、php等。 如:【市场研究报告 filetype:doc】,

20、 搜索有关市场研究报告的WORD文 档。,3.搜索引擎检索技术,define :谷歌网页搜索中搜索定义的语法 用于搜索定义或解释。在阅读、学习、研究或撰写论文中,遇到陌生的词或缩写,可以用该语法得到确切的定义或解释。而且可以了解多种语言的定义情况。 【define:文献】得到关于文献的多个定义来源。,3.搜索引擎检索技术,site:搜索范围限制在某网站或顶级域名中。 如:【医药 site:】搜索我国教育科研网中关于“医药”的信息,医药院校或专业的信息等。这样能排除很多医药领域的公司信息。,3.搜索引擎检索技术,混合使用搜索技术 混合搜索实例:查找产业报告类的全文资料。 当然,可以直接用【产业报

21、告】搜索,如果你掌握了一定的搜索语法知识,你可以这样搜索:【产业报告 filetype:doc】,能搜索到word格式的许多行业的产业报告文档。 而且,你还可以近一步进行限定,搜索仅2005年以来的相关内容:【产业报告 filetype:doc 2005】。这样搜索到的信息资源并不逊色于专门的数据库。,3.搜索引擎检索技术,有趣的谷歌应用 谷歌每逢节假日、纪念日或重大事件,会更改首页图标以示纪念。谷歌假日图标从1999至今的链接:http:/ 网址:http:/ 2000年1月由李彦宏、徐勇两人创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式 “百度”二字源于中国宋朝词人辛弃疾

22、的青玉案诗句:“众里寻他千百度” 中国领先的搜索技术提供商 2011年中国搜索引擎市场份额占有率中,百度占有率为:77.7%,谷歌中国占有率18.3%。,3.搜索引擎检索技术,一搜就体验,精彩无极限 (视频) http:/ 搜索一下,想知道就知道(视频) http:/ 轻松一点,网络音乐随我听(视频) http:/ 上网查一查,出行问题全解决(视频) http:/ ”、“ - ”, 可指定查询串中各关键词间“与”、“或”、“非”的关系。百度不支持AND”、“ + ”等符号的使用。,3.搜索引擎检索技术,其它搜索工具: 在线翻译工具: CNKI翻译助手:http:/ 金山词霸:在线和下载版 爱词

23、霸 : 海词:http:/ 中文搜索引擎指南 http:/ 搜索研究院 http:/ 恰当选用数据资源 恰当选用数据资源(检索工具) 对于信息检索而言,重要的是在检索前正确的选择数据资源。只有如此,才能保证最终检索结果在一定程度上的查全率、查准率。 正确地了解、认识、熟悉各类检索系统,是恰当选用数据库的前提。,4.网络信息检索技巧,网络信息检索的基本技巧之二: 利用系统检索提示 大多数计算机检索系统、网站都提供一些介绍文件,如about us(关于我们)、Help(帮助)和 FAQ(经常提问的问题)、 Search Tip(检索提示)等,仔细阅读这些文件,对于了解系统的设计、数据库覆盖的范围、

24、检索的具体要求都非常重要。 不要因为追求检索的速度而忽视了这一环节。,4.网络信息检索技巧,网络信息检索的基本技巧之三: 充分利用检索条件 在使用大型期刊文献数据库时,由于有完善的检索功能,应充分应用布尔逻辑检索方法,选择利用各种检索入口,设计合理完善的检索式。 有些信息检索系统,常常提供检索的表达条件或检索限制,使用时只需从给定的条件中选择需要的项目即可,如查找的年代、资料的类型、是否需要全文等。 正确选择各项内容,让计算机较好地理解用户的检索意图是十分必要的。通过这些选项,计算机会更加精确地把检索结果呈现出来。,4.网络信息检索技巧,网络信息检索的基本技巧之四: 选择恰当的检索词 选择查询

25、词是一种经验积累,在一定程度上也有章可循: 表述准确:网站或数据库会严格按照您提交的查询词去搜索,因此,查询词表述准确是获得良好搜索结果的必要前提。一类常见的表述不准确情况是,脑袋里想着一回事,搜索框里输入的是另一回事。另一类典型的表述不准确,是查询词中包含错别字。 查询词的主题关联与简练。 目前的搜索引擎并不能很好的处理自然语言。因此,在提交搜索请求时,您最好把自己的想法,提炼成简单的,而且与希望找到的信息内容主题关联的查询词。 如某三年级小学生,想查一些关于时间的名人名言 他的查询词是“小学三年级关于时间的名人名言”。 这个查询词很完整的体现了搜索者的搜索意图,但效果并不好。可改为:“时间

26、 名人名言”或“时间名言”。,4.网络信息检索技巧,网络信息检索的基本技巧之五: 恰当选用搜索引擎 了解和掌握主题式、目录式搜索引擎,独立、多元搜索引擎的不同检索功能,而后根据自己的检索需求,选择恰当的搜索引擎,以期得到满意的检索结果。,4.网络信息检索技巧,网络信息检索的基本技巧之六: 掌握扩检和缩检方法 信息检索过程是不断调整检索策略的过程,也是进行扩检或缩检的过程。当检索结果中相关信息或所需要的信息太少或没有时,需要进行扩检,反之就需要进行缩检。,4.网络信息检索技巧,扩检主要方法(一) 多搜索引擎、多库检索 据有关资料介绍,目前国外大型搜索引擎在Web上仅能收录覆盖1/3的公开Web页

27、面,任何大型搜索引擎也不可能将公开网页全部收录。因此对于难检资料或有高查全率要求情况下,必须进行多搜索引擎查询检索。对于产品的科技查新检索,至少要分别使用google、百度、一搜三个以上搜索引擎进行搜索,用上述集成搜索引擎可以高效满足这一要求.,4.网络信息检索技巧,扩检主要方法(二) 在布尔检索式中,增加布尔“或”相连的关键词,减少 “与”相连的关键词,即扩大搜索的主题。 采用上位词检索,扩大概念范围。如飞机是直升飞机的上位词。 另外,为了得到较多的检索结果,应用循环法不断扩大检索范围,利用减少限制、热链、站点推荐、模糊检索扩大检索范围。,4.网络信息检索技巧,缩检主要方法(一) 在检索式中

28、,增加逻辑“与”相连的关键词,或利用二次检索功能,逐次附加新的检索条件,进行概念限制,缩小检索范围。 对检索结果中反复出现的无关重复信息,利用逻辑“非”去除,即在不需要出现的关键词前加“-”排除一些不相关概念。,4.网络信息检索技巧,缩检主要方法(二) 使用短语检索,即使用双引号进行精确检索。 使用一些专指度较强词汇和专业术语。 在分类目录相关分类中检索。 限定字段、时间、网域、语言(文字)等等。,4.网络信息检索技巧,网络信息检索的基本技巧之七: 利用相关检索、快照功能,课后作业,1.自拟课题,检索该课题近三年的国内学术论文,选择其中一篇并打开论文全文,复制题名、作者、作者单位、中英文关键词和摘要。 2.用CNKI检索本院系某位学科带头人近5年发表论文情况及被他人引用情况,复制或截图作者、题名。 3.用西文数据库查找篇名是*的文章,写出作者、作者单位、发表时间、出版物名称、文章信息(包括期刊名或会议名、年、卷、期、页码)、文章被引次数。 4.网络教学作业 请列出我校发展的校史,历届校长情况。 请查找新版金庸天龙八部小说与前版的区别。 “全北京向上看”这句话说的是北京什么地方?请找出其在地图上的具体位置 注:答案做成一个word文档,文件名为学号+名字 请各班学习委员收齐全班作业后打包发至:,谢谢大家!,Thanks!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1