信息检索方法与工具.ppt

上传人:本田雅阁 文档编号:2844250 上传时间:2019-05-27 格式:PPT 页数:35 大小:1.78MB
返回 下载 相关 举报
信息检索方法与工具.ppt_第1页
第1页 / 共35页
信息检索方法与工具.ppt_第2页
第2页 / 共35页
信息检索方法与工具.ppt_第3页
第3页 / 共35页
信息检索方法与工具.ppt_第4页
第4页 / 共35页
信息检索方法与工具.ppt_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《信息检索方法与工具.ppt》由会员分享,可在线阅读,更多相关《信息检索方法与工具.ppt(35页珍藏版)》请在三一文库上搜索。

1、信息检索的方法与工具,云南农业大学图书馆 黄体杨,广义的理解是指将信息按照一定的方式组织和存储起来,并能根据用户的需求检索出其中相关信息的过程,其全称叫做“信息存储与检索”、“信息组织与检索”等。,信息检索,狭义的理解就是用户根据其需要,选择一定的信息检索工具,从中获取所需信息资源的过程。,一、信息检索语言,信息检索语言是用来描述信息资源特征和进行检索的人工语言,可分为规范化语言和非规范化语言(自然语言)两类。 简单地说,就是用来对信息资源进行组织、整理和有序化的标准、规范。,介绍三类信息检索语言:分类语言、主题语言和自然语言。,一、信息检索语言分类语言,分类是指依据事物的属性和特征进行区分和

2、类聚,并将区分的结果按照一定的次序予以阻止的活动,而信息资源分类是指根据信息资源的内容属性和其他特征,将信息资源分门别类地、系统地组织和揭示的方法。,分类语言是一种按学科范畴和体系来划分事物的语言,它是以数字、字母符号对类目进行标识的一种语言体系,也称分类法。主要包括体系分类语言和组配分类语言。,中国图书分类法,中国图书分类法,一、信息检索语言分类语言,索书号:分类号+书次号,中国彝族医学基础理论 ,云农索书号为:R291.7/2;云南省图索书号为:R291.7/1042/01 生物多样性信息管理概论云农索书号 Q16/5;云南省图索书号Q16/4403;昆工索书号为:Q16/6。,如:知识交

3、流与交流的科学,索书号为:G250-53/20 种群动力学,索书号为:Q145/3,一、信息检索语言主题语言,主题语言又称主题法,是指直接以表达主题内容的词语作检索标识、以字顺为主要检索途径的标引和检索信息资源,并用参照系统显示概念之间相互关系的信息处理方法和信息检索方法。,国内外著名的主题表:美国国会标题表医学标题表汉语主题词表化工汉语主题词表中国分类主题词表机械工业主题词表国防科学技术叙词表工程索引叙词表中国档案主题词表,一、信息检索语言主题语言,在信息检索领域所指的自然语言,是指直接使用不经过控制的自然语言中的词语作标识,进行信息资源的标引和检索。 其实质就是使用信息资源作者原来所用的词

4、语,或文摘编写者原来所用的词语,或标引人员自拟的而不是取自词表的词语作为信息资源的检索标识。,如期刊论文的“关键词”、“主题”检索; 我们发布博客时候需要填写关键词等。,二、信息检索技术布尔检索(1),逻辑与(AND)算符可用“*”代替,其含义是:检索出的记录必须同时含有所有的检索词。例如,“A AND B”或“A*B”的含义是检索出的记录中必须同时含有“A”和“B”。,二、信息检索技术布尔检索(1),逻辑或(OR)算符可用“+”代替,其含义是:检索出的记录中至少含有两个检索词中的一个。例如,“A OR B”或“A+B”的含义是检索出的记录中至少含有“A”和“B”。,二、信息检索技术布尔检索(

5、1),逻辑非(NOT)算符可用“-”代替,其含义是:检索出的记录只能含有NOR算符前的检索词,但不能同时含有其后的词。例如,“A NOT B”或“A-B”的含义是检索出的记录中必须含有“A”但不能含有“B”。,二、信息检索技术截词检索(2),截词检索主要是利用检索词的词干或者不完整的词形进行检索。也就是把检索词截断,取其中一部分片段检索,用截词符“?”或“*”代替。它可以起到扩大检索范围,提高检准率,减少检索词的输入量等作用。尤其是使用英文检索系统进行检索时,若遇到名词的单复数形式、词的不同拼写方法、词的后缀变化等情况,均可采用此方法。,二、信息检索技术截词检索(2),按截词数量可划分为有限截

6、词和无限截词。 有限截词。主要用于词的单、复数,动词的词尾变化等。将n个截词符放在检索词的词干或词尾可能变化的位置上,检索词的词干后加一个或多个(最多4个)“?”,空格后再加上一个“?”,则空格前的“?”个数表示词干后允许有的最多字符数。如“apple? ?”,只能替代apple、apples、applet,而不能替代applejack。,二、信息检索技术截词检索(2),无限截词。检索词的词干后(前)加一个“?”(有的系统加“*”),表示词干后(前)可以有任意个字符。 当通配符在词干后方时,称为前方一致或右截断,如“apple?”可替代“apple + apples + apple-pie +

7、 applesauce”等。通配符在词干前方时,称为后方一致或左截断。如“?economics”可替代“economics + micro economics + macroeconomics”等。,二、信息检索技术截词检索(2),同时采用以上两种方式称为复合截断,如“?count?”可替代“count + account + counter + accounting”等。也可以截去中间部分,使词的两边一致,称为两边一致。如“wom?n”可替代“women + woman”。 按截词的位置,可划分为后截词(前方一致或右截断)、前截词(后方一致或左截断)、中间截词(两边一致)和左右截词(复合截断

8、)。,二、信息检索技术位置检索(3),位置检索是用一些特定的位置算符来表达检索词与检索词之间的关系,并且不依赖叙词表而直接使用自由词的检索方法。位置算符又称临接算符,适用于两个检索词以指定的间隔距离或者指定的顺序出现的场合,比如,以词组形式表达的概念,彼此相邻的两个或两个以上的词,被禁用词或特殊符号分隔的词等。,二、信息检索技术位置检索(3),位置算符是调整检索策略的一种重要手段,按照两个检索词出现的顺序和距离,可以有多种位置算符,而且对同一种位置算符,检索系统不同,规定的位置算符也不同。以美国DIALOG检索系统使用的位置算符为例,位置算符主要有以下几种:,二、信息检索技术位置检索(3),(

9、1)with(W) (W)表示在此算符两侧的检索词必须按照此前后顺序排列,顺序不许颠倒,而且两个检索词之间不许有其他的词或字母,但允许有空格和标点符号。例如information(W)retrieval可检索出information retrieval 和information-retrieval等。,二、信息检索技术位置检索(3),(2)nWord(nW) (nW)表示在此算符两侧的检索词之间允许插入n个(最大数量)实词或虚词(非用词),两个检索词的词序不能颠倒。例如electronic(1W)resources可检索出electronic resources 和;electronic in

10、formation resources等。,二、信息检索技术位置检索(3),(3)Near(N) 由(N)连接的检索项在记录中出现的顺序可以调换,即查找两个连接在一起的单词。例如junior(N)high可检索出junior high和high junior。,二、信息检索技术位置检索(3),(4)nNear(nN) (nN)表示两个词的位置可以颠倒,两个词间插入词的最多数目是n个。例如,information (3N) retrieval可检索出information retrieval,retrieval information,retrieval of information,retri

11、eval of law information,retrieval of Chinese law information等,information和retrieval两个词之间最多可插入3个词。,二、信息检索技术位置检索(3),(5)Sentence(S) (S)表示在此算符两侧的检索词只要出现在文献记录的同一个子字段内(例如在文摘中的一个句子就是一个子字段),此文献即被命中,两个词词序不限,而且两个词中间可间隔若干个词。,二、信息检索技术限制检索(4),限制检索又称字段检索,组成数据库的最先单位是记录,一条完整的记录中的每一个著录事项为字段。文献书目型数据库的记录基本包括下列字段:存取号(a

12、ccess number,AN)、篇/题名(Title,TI)、文摘(Abstract,AB)、著/作者(Author,AU)、著/作者机构、刊名(Journal,JN)、出版年(Publication Year,PY)、文献类型(Document Type,DT)、语种(Language,LA)、分类号(Classification,CC)等。,二、信息检索技术限制检索(4),在限制检索中,可以使用多个字段综合限制,不同字段之间用OR、AND和NOT进行连接。如“检索云南大学周平先生发表在政治研究上的学术论文”,检索表达式(中国知网)应该是:,SU=民族政治 and AU=周平 and JN

13、=政治学研究 and AF%云南大学,当然,使用中国知网的高级检索足以实现上述表达式,二、信息检索技术限制检索(4),二、信息检索技术限制检索(4),二、信息检索技术限制检索(4),二、信息检索技术精确检索(5),精确检索分为精确匹配检索和区分大小写两种。 精确匹配检索,即只能检索出与一词语完全一致的资源,通常采用以括号括起的短语检索。 区分大小写,即在英文检索中区分字母大小写。,注意区分精确检索与模糊检索,三、信息检索工具,按照依据的标识特征,信息检索工具有两种类型: (1)以信息资源的外部特征为检索依据,提供从资源形式出发进行检索的途径,常见的这类标识包括:责任者、题名、机构名、出版地、出版社、标准书号、专利号、档案号、文献登录号等。 (2)以表达信息资源主题内容的标识为依据,提供从内容角度进行检索的途径。主要有分类法和主题法两种。,三、信息检索工具,(1)题录(书目)检索系统,(2)全文检索系统,(3)搜索引擎,(4)特种文献检索工具,云南农业大学图书馆书目查询系统,中国国家图书馆书目查询系统,云南省图书馆书目查询系统,worldcat书目检索系统,(1)书目检索系统,超星读秀(),以图书最为突出,中国知网(),维普数据( ),万方数据( ),(2)全文检索系统,(3)搜索引擎,http:/ http:/ http:/ http:/

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1