第七章网络信息检索.ppt

上传人:本田雅阁 文档编号:3505555 上传时间:2019-09-04 格式:PPT 页数:119 大小:9.87MB
返回 下载 相关 举报
第七章网络信息检索.ppt_第1页
第1页 / 共119页
第七章网络信息检索.ppt_第2页
第2页 / 共119页
第七章网络信息检索.ppt_第3页
第3页 / 共119页
第七章网络信息检索.ppt_第4页
第4页 / 共119页
第七章网络信息检索.ppt_第5页
第5页 / 共119页
点击查看更多>>
资源描述

《第七章网络信息检索.ppt》由会员分享,可在线阅读,更多相关《第七章网络信息检索.ppt(119页珍藏版)》请在三一文库上搜索。

1、第七章 网络信息检索,广州中医药大学图书馆 网络信息获取与管理课程 雷蕾,第三节 开放存取,4.,第二节 搜索引擎,3.,第一节 网络信息资源,1.,主要内容,什么是网络资源 网络信息资源的类型 网络信息资源的特点,第一节 网络信息资源,第一节 网络信息资源,什么是网络资源 也称“电子信息资源”、“数字资源”、“因特网信息资源”等。 以电子数据的形式将文字、图像、声音、动画等形式的信息存放在光碟等非印刷纸质的载体中,并通过网络通信,计算机或者终端等方式再现出来的信息资源。,网络信息资源的类型 按付费情况分 按所对应的非网络信息资源划分,第一节 网络信息资源,网络信息资源的特点 信息量大,信息来

2、源广泛 信息层次众多,品种多样 信息内容广泛,质量不一 信息资源分散无序 资源的时效性强,变化迅速 交互性强 信息检索快捷、方便,第一节 网络信息资源,第三节 开放存取,4.,第二节 搜索引擎,3.,第一节 网络信息资源,1.,主要内容,什么是搜索引擎 搜索引擎的工作原理 搜索引擎的分类 通用搜索引擎 Google 其他医学搜索引擎,第二节 搜索引擎,什么是搜索引擎 定义: 搜索引擎是广泛收集网络信息,对采集来的信息进行标引、组织建立索引库,并提供检索的工具。,第二节 搜索引擎,搜索引擎的工作原理 从互联网上抓取网页 建立索引数据库 在索引数据库中搜索排序,第二节 搜索引擎,搜索引擎分类 全文

3、搜索引擎 目录索引类搜索引擎 元搜索引擎,第二节 搜索引擎,12,全文搜索引擎是名副其实的搜索引擎,它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。 国外具代表性的有Google,国内著名的有百度Baidu。,全文搜索引擎,13,目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。 目录索引中最具代表性的是Yahoo,国内的搜狐、新浪、网易搜索也都属于这一类。,目录索引类搜索引擎,14

4、,元搜索引擎,亦称为“集成搜索引擎”,在一个网页上链接若干个独立的搜索引擎,检索式需点选或者指定搜索引擎,一次检索输入,多引擎同时搜索,搜索结果由各搜索引擎分别以不同页面提交,其实质是利用网站链接技术形成的搜索引擎的集合,而并非真正意义上的搜索引擎。 典型的集成搜索引擎有搜索之家、国际瑞士军刀、生物谷等多引擎搜索系统。,15,Google http:/ Baidu http:/ Yahoo http:/ http:/,通用搜索引擎,http:/.hk,Google,通用中英文搜索引擎 Google创建于 1998 年 9 月,创始人为 Larry Page(拉里佩奇)和 Sergey Brin

5、(谢尔盖布林) ,他们开发的 Google 搜索引擎屡获殊荣,是一个用来在互联网上搜索信息的简单快捷的工具。 作为目前互联网上功能最强大的搜索引擎之一, Google 的索引目录中已经储存有近百亿个网页。用户可以使用多种语言文字进行搜索。现在, Google 平均每天接受的搜索次数达2 亿人次, 几乎占全球所有搜索量的1/3, 而且这一数字还在不断上升。,Google,18,Google的特色,最大的搜索引擎(收录的网页最多) 可检内容丰富: 网页、图像、网上论坛 排序技术最好的(按相关度高低排列) 支持多语种 检索功能强大 个性化设置 随着节庆更换图标,Google检索技巧,支持布尔逻辑运算

6、。将空格默认为“与”,大写“OR”表示“或”,用“-”减去无关资料(如:bass 贝司); 支持截词符“*”(如:阿兹海默*) 同义词检索“”(如:蛀牙) 数字范围搜索,在搜索关键词后添加两个数字,并且将两个数字用两个英文句号分开。(如:英语六级考试试题 20052011) 字典定义“define”。如(define:高血压) 用双引号限定词组检索,Google一般检索功能,网页搜索 视频搜索 图片搜索 购物搜索 地图搜索 音乐搜索 翻译,23,Google 特殊检索功能,检索指定类型的文献(filetype) 搜索URL链接中含有指定关键词的(inurl) 搜索的关键词包含在网页标题中(in

7、title) 在指定的网站范围搜索(site) 搜索有哪些链接到某个网址的网页(link),24,Google 特殊检索功能,检索指定类型的文献(filetype) a)可检索的类型包括:PPT、PDF、DOC、XLS、SWF、RTF、JPG、GIF b) 格式:filetype:文件类型 关键词 或:关键词 filetype:文件类型 c)选择“网页”搜索模式,其中JPG、GIF选择在“图片”搜索模式。 例如:搜索关于“肺癌”的PDF文件、关于肺癌的JPG图片 在“网页”搜索模式,搜索框中输入:filetype:pdf 肺癌 在“图片”搜索模式,搜索框中输入:filetype:JPG 肺癌,

8、搜索URL链接中含有指定关键词的(inurl) 格式:inurl:关键词 例如:inurl:library 搜索图书馆的网页 inurl:edu 搜索教育网网页 inurl:gov 搜索政府部门的网页,Google 特殊检索功能,29,搜索的关键词包含在网页标题中(intitle) 格式:intitle:关键词 例如:intitle:广州中医药大学 intitle:广州中医药大学图书馆,Google 特殊检索功能,32,在指定的网站范围搜索(site) 格式:site:网址 关键词 例如:site: 邓铁涛 site: 会议,Google 特殊检索功能,搜索有哪些链接到某个网址的网页(link

9、) 格式:link:网址 例如:link:,Google 特殊检索功能,如何用Google查找 “肺癌”的有关信息?,Google 检索示例,38,39,检索策略调整技巧 1. 限定语种:所有中文 2. 选择更专业的提问词:肺癌肺肿瘤 3. 利用搜索引擎的高级检索模式 限定提问词在“搜索结果”中出现的形式;指定检索以某一语言编写的网页;限定要查询的网页更新的日期;指定查询字词位置;限定搜索某一网域的网页(gov、edu、com);“类似网页”:自动搜索某一网页的类似网页;“链连”:搜索与某一网址建立了链接的网页。,Google 检索示例,41,Google高级检索模式,42,检索策略调整技巧

10、4.增加查询条件 查找泰素治疗肺癌的网页文章 泰素治疗肺癌:122,000 5.使用双引号,实现精确短语匹配 “泰素治疗肺癌”:4,900 6.查找英文网页 taxol lung cancer:135,000,Google 检索示例,43,检索策略调整技巧 7.利用Google高级检索语法 1)将文献类型限定为“pdf”, 可获取免费全文 “filetype:pdf 肺癌”(结果34,400) 或“ filetype:pdf taxol lung cancer ”(结果15,900) 2)将文献类型限定为“doc”,获取WORD文档 “filetype:doc 肺癌”(7,330),Googl

11、e 检索示例,44,获取PDF全文,45,获取PDF全文,46,获取PDF全文,推出时间:2004年11月 口号:站在巨人的肩膀上Stand on the shoulders of giants 服务对象:主要是科学家和各类从事学术研究的人士 搜索范围:涵盖几乎所有知识领域的高质量学术研究资料,包括论文、专业书籍以及技术报告等 网址:http:/.hk/ 界面类似于普通搜索引擎,但返还的结果是学术性较强的论文和图书,Google scholar,简单检索 高级检索 查找文章 作者 出版物(名称) (文献出版)日期,Google scholar检索方法,简单检索,2004年,Google启动“G

12、oogle Print”项目。 Google这样介绍自己的Print计划:“Google的使命是将世界上所有信息都组织起来,但很多信息并不存在于网络上。Google Print的目标就是将那些存在于书本上的内容,让你以最容易的方式看到也就是出现在Google搜索结果中。” Google Print包含两个子项目:Publisher Program(出版商计划)和Library Project(图书馆计划) 将图书分成三类:公共领域的图书(已经无版权限制的书籍)、出版商提供的图书,以及仍在著作权保护期内的图书馆的图书。 http:/.hk,Google PrintGoogle图书,Google

13、Print 检索方式,浏览图书 简单检索 高级检索,Google Print 检索方式,Google Print 检索方式,第二节 医学搜索引擎,Medical Matrix(http:/www.medmatrix.org/index.asp) Medscape(http:/ Medical World Search(http:/ My OptumHealth(http:/ 眼科搜索 (http:/) 搜医医疗信息搜索网(http:/),由美国医学信息学会主办,1994年创建,是目前最重要的医学专业搜索引擎。它是一种由概念驱动和免费全文智能检索工具,包括4600多个医学网址。 可免费进入但第一

14、次要注册 特色:收集的内容专业、全面,对每一内容均有简明扼要的评论,并且对链接的网址按一到五个星进行分级。 http:/www.medmatrix.org/Index.asp,Medical Matrix,检索方法: 1)关键词检索:一般检索和高级检索两种 2)分类目录检索:分为专业、疾病种类、临床应用、文献、教育、健康和职业、医学计算机和Internet技术、市场等8类。 每一大类下再根据内容的性质分为新闻、全文和多媒体、摘要、参考书、主要网址、操作手册、实用指南、病例、影像学和病理切片、患者教育、教育资源等亚类。,Medical Matrix,1)简介:共收藏了近20个临床学科2.5万篇文

15、献,是Web 上最大的免费提供临床医学全文文献和继续医学教育资源的网点 2)特点:可检索图像、声频、视频资料。提供MEDLINE免费检索,查阅Merriam-Websters医学词典、查询药物的使用等内容 3)需注册一个ID号即可免费使用 4)http:/ (1)先选择数据库再输关键词进行检索。可选择Clinical content, Medline, Drug Info, AIDSL, Whole Web, News, Medical Images, Dictionary等数据库,同时还可浏览每日医学新闻等。 (2)其主页界面可以根据访问者的需要进行选择,在more specialty pa

16、ges选择特殊的主题方式,方便进入用户感兴趣的界面,如设为以“Transplantation”为主题方式即显示与移植相关的界面。 (3)可直接进行关键词查询,在关键词查询框内键入关键词。,MedScape,目前尚没有较权威的中文医学搜索引擎,要查询医学信息,可通过以下几种方法进行: 借助像google、百度等综合性搜索引擎 某些综合性Internet网络信息资源 国内政府医疗机构网站 国内各医科院校网站 国内各医药学会机构网站 某些专业医学网站 一些医学人士的个人网页,国内医学信息搜索,第三节 开放存取,4.,第二节 搜索引擎,3.,第一节 网络信息资源,1.,主要内容,什么是开放存取 开放存

17、取的意义 开放存取资源,第三节 开放存取,什么是开放存取,开放存取 开放存取文献是指Internet上公开出版的,允许任何用户对其全文进行阅读、下载、复制、传播、打印、检索或连接,允许爬行器对其编制索引,将其用作软件数据或用于其他任何合法目的,除网络自身的访问限制外不存在任何经济、法律或技术方面的障碍的全文文献。 布达佩斯开放存取先导计划BOAI,开放存取产生的背景,传统出版商对学术期刊出版和控制导致学术危机 网络技术使学术期刊的出版和传播成本大大降低 大学和科研机构开始谋求新的学术交流机制,开放存取的意义,学术信息免费的向公众开放,打破了价格障碍 学术信息的可获得性,打破了使用权障碍。,开放

18、存取基本特征,资源使用的无限性 有质量上的控制而无处理上的限制 学术交流的高效性 自动化与互动性较强 开放存取资源的多样性 常见的图书、期刊、书目、论文、音像及影像制品、电子教学资料、开放百科全书,还有开放源代码等资源 内容格式多样:图、文、影像、Hyperlink、PDF、XML等。,开放存取资源的类型,开放存取期刊(Open Access Jourals) 开放存取仓储(OA archive or repositories) 电子预印本 其他特殊资源,开放存取期刊,定义:是一种论文经过同行评审的、网络化的免费期刊,全世界的所有读者从此类期刊上获取学术信息将没有价格及权限的限制,编辑评审、出

19、版及资源维护的费用不是由用户,而是由作者本人或其他机构承担。 包括新创办的开放获取期刊,及将原有期刊改造为开放获取的期刊。,Directory of Open Access Journals,http:/www.doaj.org/ 是由瑞典兰德大学图书馆整理的一份开放期刊目录。该项服务涵盖了免费的、可获取全文的、高质量的科学和学术期刊(This service covers free, full text, quality controlled scientific and scholarly journals)。他们的目标是涵盖所有学科和语言的开放期刊,目前一共有7000余种开放期刊被收录到

20、了该目录中。,HighWire Press,http:/www.highwire.org/lists/freeart.dtl HighWire Press是全球最大的提供免费全文的学术文献出版商之一,于1995年由美国斯坦福大学图书馆创立。目前已收录的文章总数已达674万多篇,其中超过211万篇文章可免费获得全文;这些数据仍在不断增加。通过该界面还可以检索Medline收录的4500种期刊中的1200多万篇文章,可看到文摘题录。 HighWire Press收录的期刊覆盖以下学科:生命科学、医学、物理学、社会科学。 部分全文可免费访问,并不是全部。,BMC The Open Access Pu

21、blisher,http:/ The Open Access Publisher(BioMed Central)生物医学中心开放获取期刊 目前BMC已经拥有165种开放存取期刊,收录的期刊范围涵盖了生物学和医学的主要领域,包括麻醉学、生物化学等57个分支学科。部分被MEDLINE收录。,PMC Open Access List,http:/www.pubmedcentral.nih.gov/about/openftlist.html 由美国国家卫生研究院(NIH)下属的美国国立图书馆(NLM)的国家生物技术信息中心(NCBI)于2000年创建的生命科学期刊文献(由NIH收藏)的数字化存档库,与

22、BioMed Central不同,PubMed Central并不是出版商。PMC目前收录有199种期刊,其中有153种是开放存取的。 其数据来源: Blackwell Online Open Springer Open Choice,PMC Open Access List,PMC Open Access List,更多,Dialog Open Access http:/ Public Library of Science Journals http:/www.plos.org/journals/index.html J-STAGE E-Journal http:/www.jstage.js

23、t.go.jp/browse/-char/en Scientific Electronic Library Online http:/www.scielo.org/index.php?lang=en FreeMedicalJournals http:/ Social Science Research Network http:/ 有两种类型:一种是由机构创建的机构资料库(机构内工作人员将各种数字化对象以特定格式存储到机构服务器上),另一种是按学科创建的学科资料库(以学科为主线对某个学科领域各种类型的资源进行收集整理、描述、组织、索引,实现长期保存和广泛传播)。,香港科技大学OA仓储,http:

24、/repository.ust.hk/dspace/ 是由香港科技大学图书馆用Dspace软件开发的一个数字化学术成果存储与交流知识库,收有由该校教学科研人员和博士生提交的论文(包括已发表和待发表)、会议论文、预印本、博士学位论文、研究与技术报告、工作论文和PPT演示稿全文。 浏览方式有按院、系、机构(Communities & Collections)、按题名(Titles)按作者(Authors)和提交时间(By Date) 检索途径有任意字段、作者、题名、关键词、文摘、标识符等。,厦门大学学术典藏库(机构仓储),http:/ 用来存储厦门大学教学和科研人员的具有较高学术价值的学术著作、期

25、刊论文、工作文稿、会议论文、科研数据资料,以及重要学术活动的演示文稿等。 可以用来长期保存厦门大学的学术成果;方便校内外及国内外同行学者之间的学术交流、评议、知识共享等;展示厦门大学学术成果,加快学术传播,提高学术声誉。,更多,麻省理工 http:/dspace.mit.edu/ 澳大利亚国立大学科研成果库 http:/eprints.anu.edu.au/ 加州工学院的开放数字文档收集项目http:/library.caltech.edu/digital/ Digital Library and Archives http:/scholar.lib.vt.edu/,电子预印本(e_print

26、),指科研工作者的研究成果还未正式出版发表,而出于和同行交流目的自愿先在学术会议上或通过互联网发布的科研论文、科技报告等文章。 e_print是开放获取的另一种方式,对加快科学研究成果的交流与共享,帮助研究者追踪本学科的最新研究进展,避免研究工作的重复等方面都有重要作用,对科学研究者有很高的参考价值。,电子预印本特点,作者自愿提交:作者按照一定的格式将论文进行排版后,通过网络、E-mail等方式,按学科类别上传至相应的目录或数据库中。 文责自负:送入预印本库中的论文是不经过任何审核的,也没有任何先决条件决定某一论文能否送入库中。只要作者所投论文遵守国家相关法律,有一定学术水平,符合系统的基本投

27、稿要求。涉及到具体期刊的预印本相对严格一些。 共享性:任何人在尊重作者版权的基础上都可利合理用。 交互性:有些系统允许对论文进行评论和交流。 多载体性:作者可发表到正式的刊物或其它载体形式上。 交流速度快、利于学术争鸣、可靠性高的特点。,中国科技论文在线,http:/ 是经教育部批准,由教育部科技发展中心创建的科技论文网站,每日更新,可为在本网站发表论文的作者提供该论文发表时间的证明,并允许作者同时向其它专业学术刊物投稿,以使科研人员新颖的学术观点、创新思想和技术成果能够尽快对外发布,并保护原创作者的知识产权。 目前已经有纸本期刊出版.文章的来源从网站中选择。,奇迹文库预印本,http:/ 是

28、由一群中国年轻的科学、教育与技术工作者创办,非盈利性质的网络服务项目。 其目的是为中国研究者提供免费、方便、稳定的eprint平台,并宣传提倡开放获取(Open Access)的理念。 可使用分类浏览的方法或用关键词查询的方法查找所需资料。,中国预印本服务系统,http:/ 由中国科学技术信息研究所与国家科技图书文献中心联合建设的以提供预印本文献资源服务为主要目的的实时学术交流系统,是国家科学技术部科技条件基础平台面上项目的研究成果。该系统由国内预印本服务子系统和国外预印本门户(SINDAP)子系统构成。 国内预印本服务子系统主要收藏的是国内科技工作者自由提交的预印本文章,可以实现二次文献检索

29、、浏览全文、发表评论等功能。,其他资源-专利,中国国家知识产权局 http:/ Google专利搜索 http:/ 可搜索美国专利。,其他资源-电子图书,图书搜索引擎搜索的图书大部分可以浏览其中一定的页数,通常大约占全书的20%。但是对于公版书(属于公众领域并且已不受版权法保护)确可以阅读全文。 谷歌在2007年3月份推出中文图书搜索业务。中文版还加入了国学书籍的搜索,而且国学方面的内容是能够全文预览的,其高级搜索很有特色,可限度搜索“有限预览”、“全书浏览”、“国学图书”、“图书馆目录”。已与20多家出版社达成合作协议。 2007年4月,百度推出图书搜索服务,首批10家合作伙伴中,有图书馆(

30、如北大图书馆、中科院图书馆、中山图书馆)、电子书数据库(超星、方正等)和网上书店(如卓越、蔚蓝等)。,谷歌图书搜索中文 http:/.hk/ 百度图书搜索 http:/ 读秀图书搜索 http:/ 读秀允许上网用户阅读部分无版权限制图书的全部内容,对于受版权保护的图书,可以在线阅读其详细题录信息、目录及少量内容预览。 珠江三角洲数字图书馆http:/ 网络中国电子图书搜索引擎 http:/ 提供数万本电子图书(E书)免费下载.分为综合类、科教类、小说类三大类,每个大类下又分为若干小类别。搜索方式包括书名和作者二种。,其他资源-电子图书,在线课程(开放课程) 课件资源 学习资料 精品课程,其他资源-教学资源,练习题,试着用Google的几种特殊检索功能进行网络信息检索 检索指定类型的文献(如:filetype:pdf 关键词) 搜索URL链接中含有指定关键词的(inurl:关键词) 搜索的关键词包含在网页标题中(intitle:关键词) 在指定的网站范围搜索(site:网址 关键词) 搜索有哪些链接到某个网址的网页(link:网址) NSTL的开放存取资源,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1