第五讲网络信息检索.ppt

上传人:本田雅阁 文档编号:2625741 上传时间:2019-04-22 格式:PPT 页数:66 大小:2.74MB
返回 下载 相关 举报
第五讲网络信息检索.ppt_第1页
第1页 / 共66页
第五讲网络信息检索.ppt_第2页
第2页 / 共66页
第五讲网络信息检索.ppt_第3页
第3页 / 共66页
亲,该文档总共66页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第五讲网络信息检索.ppt》由会员分享,可在线阅读,更多相关《第五讲网络信息检索.ppt(66页珍藏版)》请在三一文库上搜索。

1、第四讲 网络信息检索 导言:网络社会 l 在现在的网络信息环境下,网络信息资源是我们 学习、工作、生活中利用率最高的信息资源之一 。对网络信息资源和网络的利用是终身学习的需 要,也是个人信息素质中的重要内容。相对与图 书馆纸本文献信息资源和数字资源的检索利用, 其对人的影响更为深远。 l 今后的社会,网络是一个基本要素,它将对社会 经济、科技教育、国防乃至政治产生决定性的影 响。 目录 网络信息资源概述 1 2 4 3 网络信息检索工具 搜索引擎检索技术 网络信息检索技巧 网络信息资源概念 信息资源以电子数据的形式存放在非印刷型的 介质中,并通过网络通信手段,在计算机等终端 上再现的信息的总和

2、。 1.网络信息资源概述 网络信息资源类型 按信息内容的表现形式和内容划分可分为: 全文型信息:直接在网上发行的电子期刊,网上报纸,印刷型期刊的 电子版,网络学院的各类教材,政府出版物,标准全文等; 事实型信息 天气预报,节目预告,火车车次,飞机航班,城市或景 点介绍,工程实况、IP地址等; 数值型信息:主要是指各种统计数据; 数据库类信息:如CNKI,万方等,是传统数据库的网络化; 微信息(web2.0特征):如博客、播客,BBS,聊天,邮件讨论组, 网络新闻组等; 其它类型:投资行情和分析,图形图象,影视广告等。 1.网络信息资源概述 1.网络信息资源概述 按所采用的网络传输协议可分为:

3、WWW网络资源: 因特网信息资源的主流,它使用http协议,使用简单, 功能强大,能方便迅速的浏览和传递分布于网络各处的文字、图象、声 音和多媒体超文本信息。 FTP信息资源:它使用ftp协议,该协议主要用语连网计算机之间传输文件 。FTP相当于在网络上两个主机之间复制文件。目前仍是发布、传递软件 和长文件的主要方法。 TELNET信息资源:telnet是远程登陆协议。telnet信息资源包括硬件资源和 软件资源。许多机构都提供远程登陆的信息系统,如图书馆的公共目录 系统,信息服务机构的综合信息系统等。 用户服务组资源:包括新闻组,电子邮件组等。 1.网络信息资源概述 网络信息资源特点 信息资

4、源丰富、种类繁多 超文本、超媒体、集成式提供信息,图表、图形、图像、声音、动画 等 信息来源分散、无序,没有统一的管理机构,没有统一的发布标准 价廉,但质量良莠不齐 正式出版物和非正式信息交流交织在一起 共享程度高 是信息资源的宝库 1.网络信息资源概述 网络信息资源的评价与选择 网络信息资源的评价与选择主要是针对信息源 l 内容因素:内容是评价与选择的核心和重点,从中可以反映网络信息 资源的本质。评价网络信息资源的内容因素主要有:权威性、完备性 、可靠性、原创性、新颖性、稳定性等。 l 形式因素:形式指标反映了外部特征以及操作使用等方面,是为提示 内容服务的,主要包括:美观性、条理性、查检性

5、、帮助性、快捷性 、低耗性等。 l 定量的评价:Google的pagerank;星数评价等级。 1.网络信息资源概述 网络检索的类型 按搜索的目标分类,可分为 l 站点搜索 普通搜索引擎、新浪、搜狐、Yahoo等 l 图书资料 网上图书馆、电子图书、网上商店 l 专业文献 专业数据库(中外文期刊、专利、图书) 1.网络信息资源概述 寻找因特网上的任何一 个网页,其中的环节不 会超过十九个页面 六度空间理论? 搜索的六度空间理论? 寻找世界上任何一 个人其中的环节不 会超过六个人 1.网络信息资源概述 附:人肉搜索 l 请通过百度百科中的“人肉搜索引擎”词条了解人肉搜索 http:/ l 人肉搜

6、索,其实是情报学中的信息分析和情报调研过程,是信息检索 技能、信息分析方法和情报调研过程的集中应用。其最大的特点是应 用web2.0的思路,网聚人力,虚拟与现实结合。 2. 网络信息检索工具 当已经知道地址时,直接通过地址访问。 当不知道地址时,需要借助检索工具。 搜索引擎 网络资源目录 信息门户 搜索软件 2. 网络信息检索工具 l 当别人问你一个问题,而你10秒内无法想出答案时,你是否会回答去 网上搜索一下? l 当你需要编写一个格式报告(如毕业论文、年终总结)时,你是否会 先搜索一些范例并参照编写? l 如果你马上要和别人就一个你不熟悉的领域进行讨论时,你是否会赶 紧先搜索一把,储备足够

7、的背景知识,然后出动? l 你是否经常有这样的感觉,凡是我想到的,别人都想到了;凡是我想 知道的,一定有人知道答案? l 当你即将前往一个陌生的地方,你是否会先打开搜索引擎页面,查阅 当地的地理人文、风俗习惯,然后再启程? 2. 网络信息检索工具 搜索引擎 搜索引擎搜索引擎 自动从因特网搜集信息, 经过一定整理以后, 提供给用户进行查询的系统 Google baidu yahoo 除此之外,还有哪些? 2. 网络信息检索工具 中文常用搜索引擎 国内搜索引擎 百度(Baidu) 国内唯一商业化的全文搜索引擎,提供搜狐、新浪、263、Tom等站 点的网页搜索服务。 国内目录索引 搜狐(Sohu)

8、国内三大门户之一,最早在国内推出搜索引擎收费登录服务 新浪(Sina) 最大的中文门户网站,同样也推出了搜索引擎收费索引项目 网易(Netease)网易旗下搜索引擎,主要提供网页、图片、热闻、视频、 音乐、博客等传统搜索服务,同时推出海量词典、阅读、购物搜索等创新型 产品。 2. 网络信息检索工具 英文常用搜索引擎 Google 以搜索精度高、速度快成为最受欢迎的搜索引擎,搜索界的 领军人物。 Yahoo 最著名的目录索引,搜索引擎开山鼻祖之一. 2. 网络信息检索工具 搜索引擎只是一个索引数据库,一般没有自己的信息资源 ,信息的可获得性与搜索引擎无关。不过搜索引擎有时也 会在数据库中存储某些

9、信息的内容。 baidu google 2. 网络信息检索工具 水平搜索引擎(综合搜索引擎) l 水平搜索引擎索引几乎所有可能内容, 包括多种类型、大量领域。在 内容类型和领域方面表现出综合性。 l 水平搜索引擎强调信息的宽广、面对的是广泛用户的信息需求。 l 典型的水平搜索引擎有: n 百度中文搜索引擎:http:/ n Google中文搜索引擎:http:/.hk/ 2. 网络信息检索工具 垂直搜索引擎 l 垂直搜索引擎 即专业或专用搜索引擎,它专门用来检索某一主题范围 或某一类型信息,追求专业性与服务深度是它的特点。 l 垂直搜索引擎不但可保证此领域信息的收录齐全与更新及时,而且 检索深

10、度和分类细化远远优于综合搜索引擎。 l 垂直搜索引擎的检出结果虽可能较综合搜索引擎少,但检出结果重复 率低、相关性强 、查准率高,适合于满足较具体的 、针对性强的检 索要求 。 l 目前已经涉及到购物,旅游,汽车,工作,房产,交友等行业。 2. 网络信息检索工具 找工作的搜索引擎:http:/ http:/ google学术搜索:http:/ google图书搜索:http:/ 比价购物搜索引擎:http:/ 论坛搜索引擎:http:/ 旅行TripAdvisor http:/ 图像搜索引擎:http:/ 2. 网络信息检索工具 综合搜索引擎的专门化趋势 l 搜狗(Sogou) 人物、音乐、购

11、物、图片、地图 http:/ l GOOGLE 学术搜索: http:/ l GOOGLE 图书搜索 http:/ http:/ l AllTheWeb 能专门对图像、多媒体信息。 http:/ 2. 网络信息检索工具 元搜索引擎 l 元搜索引擎(matesearch)又称集合型搜索引擎,将多个单一搜 索引擎集成在一起,提供统一的检索界面,将用户的检索提问一次搜 索多个搜索引擎,并将结果返回给用户。 优点:能同时搜索多个搜索引擎,能在一定程度上提高查询的广度。 缺点:因为有时后并不能对一个搜索引擎全部查完,有时后也会漏掉一些重 要信息。 例如:搜魅网(someta)、马虎聚搜 2. 网络信息检

12、索工具 网络资源目录 l 由人工采集网上信息,然后按照一定分类标准,比如学科类型、主题 等,建立网站分类目录,并将筛选后的信息分门别类放入各类目中供 用户进行浏览。 1 .信息组织的专题性较强,满 足族性检索要求 2.使用简单,只要选择相关类 目,依照页面之间的超链接指 引很快就能到达目的信息,适 于检索不熟悉的领域或建议不 熟悉网络的用户使用. 优点 1.人工采集信息的收录 范围小,更新慢; 2.受主观因素影响,类 目设置不够科学,缺少 规范。 缺点 2. 网络信息检索工具 l 搜索引擎目录目录索引:新浪目录http:/ l 开放目录ODP http:/dmoz.org/ 、http:/ 中

13、国艺术开放目录 http:/ http:/ l 专题网址 如搜索引擎的专题网址:http:/ 2. 网络信息检索工具 信息门户 学科信息门户 http:/ 政府信息门户 http:/ 商业信息门户 公司信息门户 导航库 一些疑问? l 搜索引擎到底有什么搜索技术? l 搜索引擎技术都有哪些应用? l 是不是也有应用实例演示? l l 我们将进入本次课程下一个部分的学习 3.搜索引擎检索技术 一、Google 二、Baidu 三、其他 3.搜索引擎检索技术 3.搜索引擎检索技术 3.搜索引擎检索技术 谷歌 l 网址:http:/.hk l 谷歌宣传动画:http:/ l “ Google ”取自

14、数学术语googol ,意思是一个1后面有100个0。意在表 现该引擎“搜集和驾御浩瀚无穷的网络信息”的宏图。 3.搜索引擎检索技术 谷歌一般搜索技术 默认模糊搜索、默认拆分语句和过长的短语 如何精确搜索(短语搜索) 通配符*用法 点号匹配任意字符:. 布尔逻辑 n 与:空格、AND n 或:OR、| n 非:-(减号) 约束条件:+ 同义词: 数字范围: 括号:() 3.搜索引擎检索技术 默认模糊搜索、默认拆分语句和过长的短语 3.搜索引擎检索技术 如何精确搜索(短语搜索) 3.搜索引擎检索技术 通配符*用法 l 如:检索【”市场*研究报告”】 3.搜索引擎检索技术 点号匹配任意字符(也可不

15、用引号) 与通配符星号“*”不一样的是,点号“.”匹配的是字符,不是字、短语 等内容。保留的字符有、(、-等 。如:【“大全.中国”】 3.搜索引擎检索技术 布尔逻辑 l 布尔逻辑是许多检索系统的基本检索技术,在搜索引擎中也一样适 用,在谷歌网页搜索中需要注意的是:谷歌和许多搜索引擎一样, 多个词间的逻辑关系默认的是逻辑“与”(空格)。当用逻辑算符的 时候,词与逻辑算符之间需要用空格分隔,包括后面讲的各种语法 ,均要有空格。 l “或”OR必须大写,“非”是特例,即减号必须与对应的词连在一起。 l 对于复杂的逻辑关系,可用括号分组。 如:逻辑与:【电子行业 AND 研究报告】,用空格和AND

16、以及小写搜 索结果差别不大。此例是搜索电子行业的研究报告。 逻辑或:【电子行业 AND 研究报告 AND (人才 | 风险)】此例是搜索 电子行业的人才或风险方面的研究报告。 逻辑非:【电子行业 AND 研究报告 AND (人才 | 风险) -2007】此例 是搜索电子行业的人才或风险方面的研究报告,但不要2007年的。 3.搜索引擎检索技术 约束条件 l 加号“+”用于强制搜索,即必须包含加号后的内容。一般与精确搜索 符一起应用,如:【研究报告 +“学术信息资源开放目录“】 3.搜索引擎检索技术 同义词 l 仅限于英文搜索。一般来说,加符号会比不加搜索出来的多一些。 总体来说效果不是很明显。

17、如:搜索【PC】能搜索出Computer、 windows等内容。 3.搜索引擎检索技术 数字范围 l 用两个点号“”表示一个数字范围。一般应用于日期、货币、尺寸、 重量、高度等范围的搜索。用作范围时最好给一定的含义。 如:【格力空调 20002800 元】搜索价格区间。本例仅仅搜索格力空调 的价格在2000元到2800元之间的信息。 【格力空调 2800 元】2800元以下的。 【格力空调 2800 元】2800元以上的。 3.搜索引擎检索技术 括号分组 l 逻辑组配时分组,避免逻辑混乱。括号“()”是分组符号。 如:【(格力空调 | 海尔空调 )元 2800】2800元以上的格力空调或 者

18、海尔空调。 3.搜索引擎检索技术 谷歌高级搜索语法 intitle、allintitle:搜索范围限制在网页的标题 例:intitle:以德服人 intext,allintext:搜索范围限制在网页中的正文中搜索 inurl、allinurl:搜索范围限制在URL 可以查找某些特定内容,比如音乐或视频。例:最炫民族风 inurl:mp3 filetype:根据文件后缀搜索特定文件类型 define :谷歌网页搜索中搜索定义的语法 site:搜索范围限制在某网站或顶级域名中。 例:台湾 site: 凤凰网关于台湾的网页 3.搜索引擎检索技术 intitle:搜索范围限制在网页的标题 3.搜索引擎

19、检索技术 intext:搜索范围限制在网页中的正文 3.搜索引擎检索技术 inurl :限定搜索网址的语法。是In-系指令中最强大的 一个,换句话说,这个高级指令能够直接从网站的URL入 手挖掘信息,只要略微了解普通网站的URL格式,就可以 极具针对性地找到你所需要的资源甚至隐藏内容。 l 搜索图片【inurl:photo】,搜索所有网络地址中包含“photo”的关键词的 页面结果。指令中的photo也可以替代为picture、image等 l 搜索音乐【inurl:mp3 毕业生】,在所有网络地址中包含“mp3”的页面中 搜索“毕业生”。这个时候返回的“毕业生”肯定是音乐,而不是关于“毕业生

20、”的 其它话题。Google中搜索音乐的另一有效方式是MP3可以替换为wma/rm等。 l 搜索软件【inurl:download qq】,直接查找QQ软件的下载页面。 l 搜索电子论文【inurl:eprint “Information Retrieval”】 搜索有关Information Retrieval的电子论文(通常这类搜索结果能直接下载全文)。 l 搜索特定网站中的内容【inurl: 讲座】搜索http:/ 网 站中有“讲座”的内容 3.搜索引擎检索技术 filetype:根据文件后缀搜索特定文件类型 这个语法非常有用,我们在网上常常要找一些范文或参考资料的时候 常用这个语法。f

21、iletype是根据文件后缀搜索特定文件类型,比如支持 的文档有:pdf、ppt、doc、xls等;网页文件:htm、asp、php等。 如:【市场研究报告 filetype:doc】, 搜索有关市场研究报告的WORD文 档。 3.搜索引擎检索技术 define :谷歌网页搜索中搜索定义的语法 用于搜索定义或解释。在阅读、学习、研究或撰写论文中,遇到陌生 的词或缩写,可以用该语法得到确切的定义或解释。而且可以了解多 种语言的定义情况。 【define:文献】得到关于文献的多个定义来源。 3.搜索引擎检索技术 site:搜索范围限制在某网站或顶级域名中。 如:【医药 site:】搜索我国教育科研

22、网中关于“医药”的信息, 医药院校或专业的信息等。这样能排除很多医药领域的公司信息。 3.搜索引擎检索技术 混合使用搜索技术 l 混合搜索实例:查找产业报告类的全文资料。 当然,可以直接用【产业报告】搜索,如果你掌握了一定的搜索语法 知识,你可以这样搜索:【产业报告 filetype:doc】,能搜索到word格 式的许多行业的产业报告文档。 而且,你还可以近一步进行限定,搜索仅2005年以来的相关内容:【 产业报告 filetype:doc 2005】。这样搜索到的信息资源并不逊色于专 门的数据库。 3.搜索引擎检索技术 有趣的谷歌应用 谷歌每逢节假日、纪念日或重大事件,会更改首页图标以示纪

23、念。谷 歌假日图标从1999至今的链接: http:/ 3.搜索引擎检索技术 百度 l 网址:http:/ l 2000年1月由李彦宏、徐勇两人创立于北京中关村,致力于向人们提 供“简单,可依赖”的信息获取方式 l “百度”二字源于中国宋朝词人辛弃疾的青玉案诗句:“众里寻他千 百度” l 中国领先的搜索技术提供商 l 2011年中国搜索引擎市场份额占有率中,百度占有率为:77.7%,谷 歌中国占有率18.3%。 3.搜索引擎检索技术 l 一搜就体验,精彩无极限 (视频) http:/ l 搜索一下,想知道就知道(视频) http:/ l 轻松一点,网络音乐随我听(视频) http:/ l 上网

24、查一查,出行问题全解决(视频) http:/ 百度支持“与”、“或”、“非”。在关键词之间插入“空格” 、“| ”、“ - ”, 可指定查询串中各关键词间“与”、“或 ”、“非”的关系。百度不支持AND”、“ + ”等符号的使用。 3.搜索引擎检索技术 其它搜索工具: l 在线翻译工具: CNKI翻译助手:http:/ 金山词霸:在线和下载版 爱词霸 : 海词:http:/ l 中文搜索引擎指南 http:/ l 搜索研究院 http:/ 4.网络信息检索技巧 网络信息检索的基本技巧之一: 恰当选用数据资源 l 恰当选用数据资源(检索工具) l 对于信息检索而言,重要的是在检索前正确的选择数据

25、资 源。只有如此,才能保证最终检索结果在一定程度上的查 全率、查准率。 l 正确地了解、认识、熟悉各类检索系统,是恰当选用数据 库的前提。 4.网络信息检索技巧 网络信息检索的基本技巧之二: 利用系统检索提示 l 大多数计算机检索系统、网站都提供一些介绍文件,如 about us(关于我们)、Help(帮助)和 FAQ(经常提问 的问题)、 Search Tip(检索提示)等,仔细阅读这些文 件,对于了解系统的设计、数据库覆盖的范围、检索的具 体要求都非常重要。 l 不要因为追求检索的速度而忽视了这一环节。 4.网络信息检索技巧 l 网络信息检索的基本技巧之三: 充分利用检索条件 l在使用大型

26、期刊文献数据库时,由于有完善的检索功能, 应充分应用布尔逻辑检索方法,选择利用各种检索入口, 设计合理完善的检索式。 l有些信息检索系统,常常提供检索的表达条件或检索限制 ,使用时只需从给定的条件中选择需要的项目即可,如查 找的年代、资料的类型、是否需要全文等。 l正确选择各项内容,让计算机较好地理解用户的检索意图 是十分必要的。通过这些选项,计算机会更加精确地把检 索结果呈现出来。 4.网络信息检索技巧 网络信息检索的基本技巧之四: 选择恰当的检索词 l 选择查询词是一种经验积累,在一定程度上也有章可循: 表述准确:网站或数据库会严格按照您提交的查询词去搜 索,因此,查询词表述准确是获得良好

27、搜索结果的必要前 提。一类常见的表述不准确情况是,脑袋里想着一回事, 搜索框里输入的是另一回事。另一类典型的表述不准确, 是查询词中包含错别字。 查询词的主题关联与简练。 目前的搜索引擎并不能很好的 处理自然语言。因此,在提交搜索请求时,您最好把自己 的想法,提炼成简单的,而且与希望找到的信息内容主题 关联的查询词。 l 如某三年级小学生,想查一些关于时间的名人名言 他的查询词是“小学三年级关于时间的名人名言”。 这个查 询词很完整的体现了搜索者的搜索意图,但效果并不好。 可改为:“时间 名人名言”或“时间名言”。 4.网络信息检索技巧 l 网络信息检索的基本技巧之五: 恰当选用搜索引擎 l

28、了解和掌握主题式、目录式搜索引擎,独立、多元搜索引 擎的不同检索功能,而后根据自己的检索需求,选择恰当 的搜索引擎,以期得到满意的检索结果。 4.网络信息检索技巧 l 网络信息检索的基本技巧之六: 掌握扩检和缩检方法 l 信息检索过程是不断调整检索策略的过程,也是进行扩检 或缩检的过程。当检索结果中相关信息或所需要的信息太 少或没有时,需要进行扩检,反之就需要进行缩检。 4.网络信息检索技巧 l 扩检主要方法(一) 多搜索引擎、多库检索 据有关资料介绍,目前国外大型搜索引擎在Web上仅能收 录覆盖1/3的公开Web页面,任何大型搜索引擎也不可能 将公开网页全部收录。因此对于难检资料或有高查全率

29、要 求情况下,必须进行多搜索引擎查询检索。对于产品的科 技查新检索,至少要分别使用google、百度、一搜三个以 上搜索引擎进行搜索,用上述集成搜索引擎可以高效满足 这一要求. 4.网络信息检索技巧 l 扩检主要方法(二) 在布尔检索式中,增加布尔“或”相连的关键词,减少 “与” 相连的关键词,即扩大搜索的主题。 采用上位词检索,扩大概念范围。如飞机是直升飞机的上 位词。 另外,为了得到较多的检索结果,应用循环法不断扩大检 索范围,利用减少限制、热链、站点推荐、模糊检索扩大 检索范围。 4.网络信息检索技巧 l 缩检主要方法(一) 在检索式中,增加逻辑“与”相连的关键词,或利用二次检 索功能,

30、逐次附加新的检索条件,进行概念限制,缩小检 索范围。 对检索结果中反复出现的无关重复信息,利用逻辑“非”去 除,即在不需要出现的关键词前加“-”排除一些不相关概念 。 4.网络信息检索技巧 l 缩检主要方法(二) 使用短语检索,即使用双引号进行精确检索。 使用一些专指度较强词汇和专业术语。 在分类目录相关分类中检索。 限定字段、时间、网域、语言(文字)等等。 4.网络信息检索技巧 l 网络信息检索的基本技巧之七: 利用相关检索、快照功能 课后作业 1.自拟课题,检索该课题近三年的国内学术论文,选择其中一篇并打开 论文全文,复制题名、作者、作者单位、中英文关键词和摘要。 2.用CNKI检索本院系某位学科带头人近5年发表论文情况及被他人引用情 况,复制或截图作者、题名。 3.用西文数据库查找篇名是*的文章,写出作者、作者单位、发表 时间、出版物名称、文章信息(包括期刊名或会议名、年、卷、期、 页码)、文章被引次数。 4.网络教学作业 l 请列出我校发展的校史,历届校长情况。 l 请查找新版金庸天龙八部小说与前版的区别。 l “全北京向上看”这句话说的是北京什么地方?请找出其在地图上的具 体位置 注:答案做成一个word文档,文件名为学号+名字 请各班学习委员收齐全班作业后打包发至:

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1