第二讲信息检索基础及资源保障.ppt

上传人:本田雅阁 文档编号:2618616 上传时间:2019-04-20 格式:PPT 页数:105 大小:12.37MB
返回 下载 相关 举报
第二讲信息检索基础及资源保障.ppt_第1页
第1页 / 共105页
第二讲信息检索基础及资源保障.ppt_第2页
第2页 / 共105页
第二讲信息检索基础及资源保障.ppt_第3页
第3页 / 共105页
亲,该文档总共105页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第二讲信息检索基础及资源保障.ppt》由会员分享,可在线阅读,更多相关《第二讲信息检索基础及资源保障.ppt(105页珍藏版)》请在三一文库上搜索。

1、陈晓红 Email: ,第二讲 信息检索基础 及资源保障,回 顾 讨 论,下一讲,本讲主要内容,1 信息检索的概念及基本原理 2 信息检索工具及选择 3 信息检索技术、方法及检索途径 4 信息检索步骤及检索技巧 5 图书馆与图书资源检索 6 文献保障与文献提供体系,一、引言,信息时代已经到来,翻开历史,人们从来没有像现在这样利用信息和生产信息。如何从这浩如烟海的信息中找出所需信息,是信息检索的重任。,信息检索,1.1 信息检索的概念 将信息按照一定的方式组织和存储起来,并根据用户的需求找出有关信息的过程。(Information Storage and Retrieval ) 。,分析,形成,

2、检索工具将用户的请求与信息集合中的信息进行匹配运算,再将命中信息反馈给用户。,2 检索工具及选择,2.1 检索工具的定义及类型 2.2 检索工具选择原则,2.1 检索工具的定义及类型,按著录信息的特征划分 1)目录型:主要揭示出版、收藏信息,如馆藏目录等 2)题录型:著录篇名、作者、出处等信息。 3)文摘型索引型:揭示篇名、作者、出处以及内容提要。 4)全文型:如全文数据库SDOS 、CNKI 以及 搜索引擎Baidu 、Google等 5)参考工具书:如字词典、百科全书、年鉴等,检索工具是人们用来存储、报道和查找各类信息的工具,2.2. 检索工具选择原则,考虑学科范围、信息类型和数据量 【实

3、例】用_检索关于“数据挖掘”的英文学术性文献。 A. EBSCO数据库 B. ACM数据库 C. Lexisnexis数据库 D. ASCE数据库 了解收录的文献类型和范围 【实例】已知参考文献:国际会计学.中国人民大学出版社.1999. 要找原书,使用_检索国际会计学。 A. CNKI中文科技期刊数据库 B. 中国人民大学报刊全文数据库 C. 国研网 D. 图书馆馆藏查询,考虑收录信息的时间范围 同一个数据库版本不同,时效性也不一定相同。 例如图书馆收藏的工程索引(EI)各种载体及馆藏的简况比较: 印刷版(EI)月刊,年度更新,收录文献源2600种,馆藏年限1968-1996。 光盘版(Ei

4、 Compendex)季度更新,收录文献源2600种,馆藏年限19701997年。 网络版(Ei CompendexWeb)包括光盘版(Ei Compendex)和Ei PageOne两部分,半月更新,收录文献源5000种,馆藏年限1970至今。,考虑检索工具的检索功能 【实例】分别利用德温特专利创新索引 DII、欧洲专利局专利检索数据库(espcenet)两种检索工具检索有关“信息处理器(information processor)”的美国专利,比较其检索功能的不同。 相同主题检索式(information processor)的检索结果,DII要远远多于espcenet。因为DII提炼的主

5、题有深度,而且自动遵守德温特“标题词”规范,如标题词“Page”、 “Pager”、 “Paging”等,会被转换成其首选词形“PAGE”,使得名称或摘要字段与检索条件并不完全一致的信息也能被检索出来。 DII支持由布尔逻辑运算符连接的最多50个检索词条,espcenet的每个检索项则最多支持四个条件,否则便会出错,这使espcenet只能进行相对简单的检索,且不支持无限截词符。,考量检索工具的检索费用 【实例】要查找期刊、学位论文等文献原文,如何选择便宜的服务? 考虑检索者的信息需求(出发点),3 检索技术、方法及检索途径,3.1 检索技术、方法 3.2 检索途径,3.1 信息检索常用技术,

6、信息检索常用技术,(一)布尔逻辑: 用布尔逻辑算符来表达检索词间的逻辑组配关系,是最基本、最常用的检索技术。 -逻辑或(+,OR, 或者):表达检索词间的并列关系。可扩大检索范围,提高查全率。如:A+B,表明结果中含有A或B都为检索命中。在搜索引擎中输入“计算机OR机器人”则查询至少包含“计算机”、“机器人”两者之一的信息。,A,B,-逻辑与(*,AND,并且):表达检索词间的交叉关系。可缩小检索范围,提高查准率。如:A*B,表明结果必须 同时含有A和B才为命中。搜索引擎中习惯用空格代替“and”。如检索“中国人民政府”这个网站,可输入“中国 政府”等。 -逻辑非(-,NOT,不包含):表达检

7、索词间的排除关系。可缩小检索范围,提高查准率。如:A-B,表明结果是A中不包含B的那部分。在搜索引擎中输入“电视台 -中央电视台”,查询结果不包含“中央电视台”,【实例】检索篇名中有“金属材料”但关键词中不包含“铝合金”的文章。,(二)截词检索(常用于西文检索) 又称词干检索、模糊检索。检索时,只需用词干加截词符号,凡是含有与该词干相同的文献均能被检出。该方法能很好避免漏检现象的出现。 检索系统不同,截词符也不同,常用的截词符号有:?,* , #等。 分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。 按截断的位置来分,截词可分为后截断、前截断、中截断等类型。,

8、(三)位置检索,常用的位置算符有以下几种: 1)邻近位置算符(w) 【实例】optical(w)fiber 只能检索到optical fiber、optical-fiber等。 2)邻词位置检索算符(nw) 【实例】Fluidized bed reactor(流化床反应器)可用Fluidized(1 w)reactor检索,中间可存在1个词。 3)句子位置检索算符(s)/(n) S是“sentence”的缩写。A(s)B表示A和B必须同时出现在记录的同一个句子或短语中,但次序可能随意改变,A与B之间可以有若干个其他的词。有的数据库用“(n)” 表示(s),有的用“near”表示(s)。 【实例

9、】optic* near fiber 可检索光纤文献,包含下列任何词组:optical fiber、 fiber optic、 fiber optics等。,(四)限制检索,常用的字段代码有: TI(题名) AU(作者) AB(文摘) JN(刊名) PY(年代) LA(语种) 如: information science/TI LA=english 文摘=网络信息资源,3.2 信息检索途径,检索途径: 又称为检索点。 依据文献的外部特征(题名、责任者、 著者、出版者等) 和内容特征(分类号、主题词或关键词 等)来确定,是信息检索的入口点。,责任者/著者途径,翻译的规则:分为音译和意译。中国著者

10、姓名和团体机构名称的音译,一般用汉语拼音。 【实例】西南交通大学在欧洲专利数据库的写法:Southwest Jiaotong University 工程索引中西南交通大学的写法:,【实例】要检索关于研究鲁迅的论文,输入“鲁迅”时必须选择途径为 ,不能选择为 途径。这是因为“鲁迅”在这里是被研究的对象而不是论文的 。,题名或者关键词等,作者,作者,拼写形式:沈院士姓名翻译(仅考虑姓全称、姓前名后的七类三种情况),通常光盘版数据库中姓与名之间用“-”号;网络版中可用“-”号“,”或空格;其它版本往往是空格。“张建国”一般拼写为“Zhang JG”,偶尔用“Jianguo Z”。 “李岩”一般拼写为

11、“Li-Y”、“Yan-L”。 【实例】在英文数据库检索作者“金长青”的论文,作者名除了“Jin, ChangQing”还有其他拼写形式,填写一种如下_。,分类途径,包括分类号途径(图书分类号)和分类名途径 图书分类法有中国图书馆图书分类法(中国科学院图书馆、中国人民大学图书馆除外)、美国国会图书馆图书分类法、杜威十进分类法等。,【实例】通过分类途径检索“会计检查和监督”的期刊论文,(1)分析课题属于经济大类,具体是会计学。 (2)时间要求一般是10年。 (3)选择检索工具维普中文科技期刊数据库(具有完整的中图分类表) (4)确定检索途径 通过维普中文科技期刊数据库的“分类检索”可以更快捷地检

12、索分类号 F23 会计 F230 会计学 F231 会计簿记方法 F231.1 资产负债表 F231.2 复式记帐和帐户 F231.3 会计凭证和财产清查 F231.4 帐簿和记帐技术 F231.5 会计报表 F231.6 会计检查和监督 (5)检索,1)分类名途径,2)分类号途径 获取分类号、主题词的技巧,图书的版权页可以找到在版编目里面的分类号码和主题词;或者在图书馆的馆藏数据找到主题词。例如查找C+ Builder5程序设计/基础教学篇一书的版权页可以找到主题词是“C语言程序设计”等,常用检索方法,从机检系统划分 简单检索(basic search):是一种单项检索。一般只需输入一个检

13、索词,辅以相应的途径即可进行检索。 二次检索(refine search) :在原有检索的结果基础上,再进行检索。可反复使用,不断扩大或缩小检索范围。 高级检索(advanced search):是一种多项组合检索,一般输入多个检索词进行组配。有的检索系统也称为复杂检索或扩展检索。 专家检索(expert search):用多个检索词与各种运算符组成检索 式,功能与高级检索相似。 文献信息检索划分 a.正文法:从题名、主题、分类、作者等途径查找。 b.引文法:又叫追溯法,即着眼于文献所附的参考或引用文献目录。 c.交替法:正文法和引文法交替使用。,检索技巧,信息检索评价最重要的两个指标:,(一

14、)提高检准率的方法,使用高相关度的检索入口/途径 题名/关键词 _主题_文摘 _(全文) 使用限制检索 如:在GOOGLE、百度中可以进行多种限制: 网页格式;网页位置;限定搜索网站等。 使用二次检索/“精确检索” 如:百度中的“”(双引号)与(书名号)等 维普与CNKI中的“精确检索” SDOS等中的“refine search” 规范限定同义词、近义词、多义词或使用下位词 如WTO (World Trade /Tourism Organization), 杜鹃(动物/植物),(二)提高检全率的方法,使用同、近义词(or) 使用上位词 使用“模糊检索”和“截词检索”等 利用文献后所附“参考文

15、献”进行检索 用“全文”等低相关度的检索途径进行检索,文献检索的基本步骤,(1)分析信息需求,确定检索方向。 (2)确定检索工具。 根据学科专业、语种等,选择一种或多种检索工具。 (3)确定检索方法。 (4)确定检索途径。主题、分类或作者 (5)拟定检索式。 (6)实施检索。 注意检出一批结果后,应浏览题目和文摘,判断是否满足要求,并加以筛选,若感到不满意,应及时修改检索策略,加以调整,再行检索,直到满意为止。,文献检索的基本步骤,(7)获取原始文献 (直接浏览) 就近借阅 馆际互借与文献传递 当检出结果是文献线索,而不是原始文献时,需求助于图书馆馆际互借/文献传递,电话:87600537,邮

16、箱:lib_,即可通过借阅、复制或网上传送等途径获得文献。,考研阶段:信息文献储备,招生单位、招生专业、招生数量、 考试课程、指导教师等,读研阶段:知识能量储备,参考资料(课程) 、 期刊(学位论文)数据库、 专业门户,可归纳为学习考研和就业两大方向 (考公务员和创业除外),大学生的信息需求,科 学 流,学习考研,就业,技 术 流,信息资源结构体系,口语信息资源,数字信息资源,文献信息资源,实物信息资源,个 人 交 流,会 议,电 话,广 播 电 视,高技术实物,实物样品,图 书,期 刊,会 议 文 献,专 利 文 献,科 技 报 告,标 准 文 献,学 位 论 文,档 案 文 献,产 品 资

17、 料,政 府 出 版 物,网 络 信 息 资 源,数 据 库,5 图书馆与图书资源检索,5.1 图书排架与获取 5.2 图书线索检索 5.3 网上免费图书资源,国内大多数图书馆图书排架的依据是中国图书馆分类法,只有中国科学院系统和中国人民大学例外。,5.1 图书排架与获取,A 马克思主义、列宁主义、 毛泽东思想、邓小平理论 B 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理,中国图书馆分类法22个基本大类(1),N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医学、卫

18、生 S 农业科学 T 工业科学 U 交通运输 V 航空、航天 X 环境科学、安全科学 Z 综合性图书,示例:高等数学的分类 查中图法: O 数理科学和化学 O1 数学 O13 高等数学,1 选择文献类型,图书分类号/排架号,5.2.1 图书线索检索的第一个思路: 通过联合目录查找线索 (1)馆藏目录 (2)Calis 联合书目 (3)OCLC 的WorldCat,联机目录 (现在使用) 联机目录 是图书馆 馆藏的电 子目录, 能反映文 献资料的 在馆情况, 提供馆藏 位置等。,点击,图书馆印刷型图书目录检索,选择图书,馆藏信息,图书排架号、索书号,图书馆主页 数据库OCLC WorldCat,

19、5.2.2 图书线索检索的第二个思路: 网上书店 出版社,亚马逊 A 是全球最大的互联网书店。可检索310多万种书目,在亚马逊网站上读者可以买到近150万种英文图书、音乐和影视节目等20多个门类的商品。 当当网上书店 http:/ 是全球最大的中文网上书店。,超星数字图书网之免费图书馆 在超星阅读器中直接点击阅读 书生网 http:/ 的免费资源栏目 北极星书库 http:/ 清韵书院 http:/ 中国青少年新世纪读书网http:/ 网上免费图书资源,利用GOOGLE等的图书检索 http:/ 首选馆藏资源,包括电子图书; 通过浏览网上免费资源阅读电子书 通过联合书目或网上书店查找线索进行

20、馆际互借或原文传递等;,6、文献保障与提供体系(国内),图书馆,情报所(信息中心),中国图书馆(北京图书馆),中国科技情报所(信息),高校系列,省市系列,科技系列,军队 系列,省市系列,科技系列,社会系列,1)、文献保障与提供体系-公共图书馆,中国国家图书馆,县级图书馆,市级图书馆,省级图书馆,公共图书馆主要收藏大众化和地域性读物,以书籍为主.比如:一些地方性图书馆收集的县志、书画等。 公共图书馆由文化部牵头建设与管理。,中国国家图书馆 http:/ http:/ Old yet ever new Eternal voice and inward word,But above all thin

21、gs Truth Beareth away the victory.,中国国家图书馆新址,耶鲁大学图书馆,2)、文献保障与提供体系-大学图书馆,特色:大学图书馆是学术资源最集中的地方,当然每个图书馆都有自己的特色收藏,中国高等教育文献保障系统则是将国内主要重点高校图书馆的资源与服务集成起来。 大学图书馆由教育部牵头建设与管理。,中国高等教育文献保障系统(CALIS)http:/ http:/ 总统府般的风格,英国牛津大学图书馆 中世纪的建筑风格,海德堡大学图书馆是德国最古老的大学图书馆,藏书260万册,其中拥有6000多册珍贵的手稿和古代印刷本,和极为珍贵的14世纪手本。,亚洲高校最大的图书馆

22、 (北大),3)、文献保障与提供体系-科学图书馆,特色:科学图书馆是科研与企业用资源最集中的地方,国家科技图书文献中心 则是将国内主要科学与部委图书馆的资源与服务集成起来。 科学图书馆由科技部牵头建设与管理。,国家科技图书文献中心 http:/ http:/ 1、源头发布网站 2、大型综合 3、专业性网站 如一条财经信息:可能来自中国人民银行。它会在以下网站出现: 1、中国人民银行 2、新浪、网易 3、证券网,政府上网工程 http:/ http:/ /,5)、文献保障与提供体系-专业信息,专业类信息可以从以下几个方面来查询: 1、专业科研机构网站 2、专业生产企业网站 3、专业协会网站 4、

23、专业性商业网站 5、主管部门网站 6、资源导航 如查找“铁道建筑”方面的资料,铁道部科学研究院 http:/ http:/ http:/ http:/www.china- 2常见的逻辑运算符号和位置运算符号是哪些? 3检索步骤是哪几步? 4. 在中国国家图书馆检索到一篇期刊论文,但是无法查看全文,而我馆的馆藏中又没有,该如何解决?,5 如果你作为信息用户,具有以下的信息需求,你会如何展开检索活动? 周杰伦的菊花台 有关某一本图书(如我的名字叫红)、某部DVD越狱的介绍及评论 一家企业是否申请了专利 某种特定商品价格的搜索和比较 软件的下载 关于“网络信息交流”的研究论文,书生网 http:/

24、的免费资源栏目 北极星书库 http:/ 清韵书院 http:/ 中国青少年新世纪读书网http:/ 图书馆主页 数据库OCLC WorldCat,4、图书线索检索网络资源 网上书店 出版社,亚马逊 A 是全球最大的互联网书店。可检索310多万种书目,在亚马逊网站上读者可以买到近150万种英文图书、音乐和影视节目等20多个门类的商品。 当当网上书 http:/ 是全球最大的中文网上书店。当当经营20万种图书。,本讲小结,明确自己的信息需求 知道信息获取途径 广义的信息检索包括存储和检索两个过程,狭义的信息检索就是指用户查找出所需信息的过程(Information Search) 。,2.1.2

25、 信息检索类型及特点,依据数据格式和检索技术的层次 文本信息的检索方式 多媒体检索 超媒体及超文本检索 P2P检索 网格检索 依据用户使用信息的目的 撰写论文的信息检索 学科建设和科学研究的信息检索 生产开发的信息检索 回答或解决单一问题的信息检索 对已知文献的查找,中图法将所有图书分为5大基本部类(马列毛思想、哲学、社会科学、自然科学、综合性图书 ),22个大类。 CASHL收录了北大、复旦、武大、吉大、中大、南大、川大、北师大、人大、华东师大和清华等17所大学图书馆7534种人文社会科学外文期刊。 全国性的唯一的人文社科外文期刊文献保障体系,信息检索的要点,分析信息需求、明确课题信息类型及

26、学科属性等 确定检索工具 印刷型、数据库型、搜索引擎,等等 选择检索途径 题名、作者、关键词、分类等 选择检索技术 布尔逻辑、位置、截词等算符,信息检索的步骤,分析研究课题 制定检索需求描述 调整检索策略 索取原始文献,检索语言的概念和作用,检索语言是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。 检索语言是人与计算机对话的基础。检索时的匹配运算就是通过检索语言的匹配来实现的。存储信息时,赋予信息特征标识,如题名、作者、分类号等;检索信息时,用检索语言表达用户的需求。,2.检索语言的分类,自然语言 从信息内容本身自动抽取的。如题名、关键词、文摘、作者所在机构等。 人工语

27、言 根据检索的需要由人工规定的,采用规范词或代码来专指某个概念或网罗与之相应的概念。可以将同义词、近义词、相关词、多义词及缩略词规范在一起,由人工控制,包括分类检索语言和主题检索语言。,分类检索语言,按照学科范畴及知识之间的关系列出类目,并用数字、字母符号对类目进行标识的一种语言体系,也称分类法。 目前常用的分类法有中国图书馆图书分类法(简称中图法)、 美国国会图书馆分类法、 杜威分类法、 国际专利分类表。,中国图书馆分类法样例,1.6 信息检索原理,原始信息,检索课题,主题概念分析,课题内容分析,检索语言(主题法、分类法等),信息标引标识,检索标识,检索工具和系统,检索结果,信息存储过程,信

28、息检索过程,(1)输出篇数过多时,此时多数是由误检造成的,原因主要有以下几点: 1)没有对检索词进行限制。包括字段限制,时间限制,分类限制等。如在cnki中进行全文检索,结果肯定多很多。 2)主题概念不够具体或具有多义性导致误检。例如,仅使用mathematics进行检索结果很多,就需要整检索策略,将概念具体化。 如:mathematics and economic 再如,检索世界贸易组织仅输入“WTO”,系统可能会检索出“World Tourism Organization”(世界旅游组织) 3) 对所选的检索词截词截得过短。例如, 使用math? 将有太多的检索结果。,(2)输出篇数过少时,此时多数是由漏检造成的,原因可能有以下几点: 1)选用了不规范的主题词或某些产品的俗称、商品名作为检索词。 例如,没有使用学名“马铃薯”而使用了俗名“土豆” 又如,没有使用“表面活性济”而使用了商品名称“迪恩普”,都会造成漏检。 2)同义词没有充分考虑。 例如,“检索物理化学”,没有考虑到“物理有机化学”,“物化”等同义词,导致漏检。 3)上位概念或下位概念没有完整运用。 例如,“燃料”是上位概念,下位概念可以有“固体燃料”、“液体燃料”、“气体燃料”,甚至还有“煤”、“油”、“煤气”、“天然气”等,这些概念在检索“燃料”时都应该加以考虑。,EI中的词表功能diodes,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1