第二章计算机文献检索策略.ppt

上传人:本田雅阁 文档编号:2260472 上传时间:2019-03-12 格式:PPT 页数:65 大小:1.10MB
返回 下载 相关 举报
第二章计算机文献检索策略.ppt_第1页
第1页 / 共65页
第二章计算机文献检索策略.ppt_第2页
第2页 / 共65页
第二章计算机文献检索策略.ppt_第3页
第3页 / 共65页
亲,该文档总共65页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《第二章计算机文献检索策略.ppt》由会员分享,可在线阅读,更多相关《第二章计算机文献检索策略.ppt(65页珍藏版)》请在三一文库上搜索。

1、第二节 计算机文献检索策略,计算机文献信息检索包含制定检索表达式、制定合理的检索策略、检索策略的调整三个过程,一、检索表达式及构成要素 二、计算机检索策略的制定 三、调整计算机检索策略,检索表达式的基本含义:检索表达式是一个既能反映检索课题内容、又能为计算机识别的式子,是进行计算机文献信息检索的依据,它主要是运用各种逻运算符号、逻辑位置符号及逻辑限制符号,把检索词连接组配起来,确定检索词之间的关系,准确表达检索课题的内容,构成检索表达式的基本要素 (一)检索词 (二)运算符,检索词:表达检索课题主题概念的名词术语,包括叙词和自由词。叙词是规范词,大型数据库都有自己专用的词表,检索者可以从选择合

2、适的词进行检索。,关键词:是未经过规范化的人工语言,往往是各学科通用的专业名词术语、惯用语及新出现的专有名词,所以在检索时应从有关专业文献或专业词典中选取关键词。,构成检索表达式的基本要素 (一)检索词 (二)运算符,1.布尔逻辑算符 常用的布尔逻辑算符有三种,分别是逻辑或OR,逻辑与AND,逻辑非NOT。下面分别简释它们各自的含义与用法。,(1)逻辑或“OR” 逻辑或“OR”可以扩大信息的检索范围,使用它相当于增加检索词主题的同义词与近义词,能提高检索的查全率。,(2)逻辑与“AND” 逻辑与“AND”可以缩小信息的检索范围,提高检索的查准率。,(3)逻辑非“NOT” 逻辑非“NOT”可以用

3、来排除不希望出现的检索词,它与逻辑与“AND”的作用类似,能够缩小命中信息的范围,提高检索的查准率。,新浪的使用(http:/ 位置检索也叫全文检索、邻近检索。所谓全文检索,就是利用记录中的自然语言进行检索,词与词之间的逻辑关系用位置算符组配,对检索词之间的相对位置进行限制。,这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检索系统其位置算符的表示方法不尽相同,美国DIALOG 检索系统的位置算符的用法意义如下:,(1)(W)With (W)表示该算符两侧的检索词相邻,且两者之间只允许只有一个空格或标点符号,不允许有任何字母或词,顺序不能颠倒。(W)也可以简写为( )。 例

4、如: Aircraft( )design 可检索出含有Aircraft design 的文献记录。 Computer( )aided( )design 可检索出含有Computer aided design 的文献记录。,(2) (nW)nWords (nW)表示在此算符两侧的检索词之间最多允许间隔n 个词(实词或虚词),且两者的相 对位置不能颠倒。 例如:laser(1w)printer 可检出含有laser printer 和laser color printer 的文献记录。,(3) (N)Near (N)表示该算符两侧的检索词相邻,但两者的相对位置可以颠倒。 例如:computer(N

5、)network 可检出含有computer network、network computer 形式的文献记录。,(4)(nN)nNear (nN)表示此算符两侧的检索词之间允许间隔最多n 个词,且两者的顺序可以颠倒。 例如 computer(2N)system 可检出含有computer system,computer code system, computer aided design system,system using modern computer 等形式的文献记录。,(5)(S)Subfield (S)表示其两侧的检索词必须是在文献记录的同一子字段中,而不限定它们在该子字段中的相

6、对次序和相对位置的距离。在文摘字段中,一个句子就是一个子字段。,例如computer( )control(s)system 可检出文摘中含有“This paper is concerned with an application of the computer control technique in a intelligent system for testing inner walls of pipes.”这样一句话的文献记录。,这样的文献记录也是可以被检索到的“Design of a System for Data Acquisition and Computer Control of

7、a Pulmonary Physiology Lab”,(6)(F)Field (F)表示其两侧的检索词必须是在文献记录的同一字段中,而它们在该字段中的相对次序和相对位置的距离不限。 例如:water( )pollution(F)control 表示在同一个字段中(如篇名、文摘、叙词等)同时含有water pollution 和control 的文献记录均可检索出来。,3截词检索 截词检索是计算机检索系统中应用非常普遍的一种技术。由于西文的构词特性,在 检索中经常会遇到名词的单复数形式不一致;同一个意思的词,英美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词等等。,所谓截

8、词,就是指在检索词的适当位置截断。不同的检索系统其截词检索的表示是不同的。 例如,美国Dialog 系统用“?”表示截词符。有以下截词方式:,1) 后方截词 后方截词,也称前方一致。它是将截词符放在一串字符的后面,用以表示以相同字符串开头,而结尾不同的所有词。 后方截词又分为词尾的有限截断和词尾的无限截断两种情况。,(1)词尾的有限截断 相同字符串后可能变化一个字符时,则在其后使用一个“?” 例如用system? 可以查出sytem 和systems 的 文献。,相同字符串后可能变化两个以上字符时,则在其后连续使用若干个“?”代替可能变 化的字符。例如,?表示两个字符,?表示三个字符,以此类推

9、。,(2)词尾的无限截断 相同字符串后可能变化任何字符串时,则在其后使用一个“*”。这种方法可以查找出含有相同字符串的所有检索词。 例如, comput* 可查出compute , computer ,computing,computation,computerisation 等等。,2) 中间截词 中间截词又称中间屏蔽, 是一种用截词符屏蔽词中不同字符的方法。 例如:“ woman ” 和“ women ” , 可用“ wom?n” 代替; “ defence ” 和“ defense ” 可用“defen?e”代替。 截词符具有“OR”运算符的功能,能够扩大检索范围,而且减少了输入检索词的

10、时 间,节约了机时。,4字段限制检索 1)检索系统中的限制检索 在检索系统中,使用缩小和限定检索范围的方法称为限制检索。限定检索条件多种多样,主要和常用的是字段限制。,通常数据库中可供检索的字段分为主题字段和非主题字段。其中,主题字段如题名(Title)、叙词(Descriptor)、标识词(Identifier)、文摘(Abstract)等,非主题字段如作者(Author)、文献类型(Document Type)、语种(Language)、出版年份(Publication Year)等。,2)搜索引擎中的限制检索 搜索引擎中的字段检索多表现为前缀符限制形式。 其中,表示内容特征的主题字段有T

11、itle,Keywords,Subject,Summary等,表示外部特征的非主题字段限制有image,text等。,此外,搜索引擎还提供了带有典型网络检索特征的字段限制类型,如主机名限制(host),URL限制(url),E-mail限制(from),新闻组限制(newsgroups),Link限制(link),网址限制(site)等。这些字段限定了检索词在记录中出现的位置,用来控制检索结果的相关性。,5短语检索 短语用“”表示,检索出与“”内形式完全相同的短语,以提高检索的精度和准确度,因而也有人称之为“精确检索”(exact search)。,6括号检索 用于改变运算的先后次序,括号内的

12、运算优先进行。,7自然语言检索 即直接采用自然语言中的字、词、句进行提问式检索,同一般口语一样。如“布什是谁?流星是什么?”这种基于自然语言的检索方式又被称为“智能检索”(intelligent search),特别适合不太熟悉网络检索技术的人士使用。支持自然语言检索的又中文的baidu,英文的google、AltaVista、Excite、Infoseek、HotBot、Ask Jeeves等。,8多语种检索 提供多种语言的检索环境供用户选择,系统按用户选定的语种进行检索并反馈结果,支持多语种检索的如中文天网,英文AltaVista等。,9模糊检索 又称概念检索。当我们输入一个检索词时,搜索

13、引擎不仅反馈包括了该关键词的网址,同时也发来与关键词意义相近的内容。,例如,我们查找“查询”一词时,模糊检索会反馈来包含了“查询”、“查找”、“查一查”、“寻找”、“搜索”等内容的网址。反馈网址的排列,一般是完全符合关键词的在最前边,其次是相近的。现在大多数搜索引擎都有这种功能,只是模糊的程度不同。,10区分大小写的检索 输入时,如果用户的检索式用小写字母表示,搜索工具既匹配大写又匹配小写,如china,将检索出china(瓷器),China(中国):但如果用大写字母表示,搜索工具认为用户指定了只要大写,就只会查找那些与用户键入的输入形式完全相同的结果,如China,只检索出China。,以上

14、十种检索方法中,自然语言检索、模糊检索、多语种检索和区分大小写的检索是网络检索所特有的。,在实际的检索中,往往将上述多种检索技术混合使用,如要查找标题中含有“网络营销”的资料,可以利用布尔逻辑运算符AND、OR和截词检索、区分大小写检索,并将检索结果限制在题名字段:ti:(Web OR Internet OR WWW) AND market*。,一、检索表达式及构成要素 二、计算机检索策略的制定 三、调整计算机检索策略,计算机检索策略,又称计算机检索提问逻辑,是对计算机检索的全面规划。 在操作上主要指检索系统和文献数据库的选择和检索表达式的编制。,1.分析检索课题,明确检索目的 2.选择检索系

15、统和文献数据库 3.确定检索词及检索途径 4.制定检索表达式和检索顺序,一、检索表达式及构成要素 二、计算机检索策略的制定 三、调整计算机检索策略,调整策略之间,首先分析造成检索结果不理想的原因,对于检索出文献数量较多的情况,应分析是否可能是如下原因造成: a选用了多个多义性的检索词 b 截词截得过短 c输入的检索词 d应该使用“与”(AND)却使用了“或”(OR) e优先运算符“()”使用错误,对于检索出文献数量较少的情况,应分享是否是如下原因造成: a 检索词输入错误 b 遗漏重要的同义词或隐含概念 c 检索词过于具体 d 没有使用截词算符 e位置算符和字段算符号使用的过多 f使用过多的“与”(AND)算符,针对上述原因,如果属于需要扩大检索范围,提高检索结果检全率的,调整策略的方法有: a 减少“与(AND”算符,增加同义词用逻辑或“+”将他们连接连接起来,b 在词干相同的词后使用截词符(?) c去除已有的字段限制、位置符限制(或者改用限制程度较小的位置算符号),如果需要缩小检索范围,提高检准率,调整策略的方法有: a 减少同义词或同族相关词 b 增加限制概念,用逻辑与(AND)将他们连接起来,c使用字段限制,或者限制检索词在制定的基本字段中出现,限制检索结果的类型、语种、出版国家 d 使用适当位置算符 e使用“逻辑非(NOT)”算符,排除无关概念,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1