计算机检索技术概述.ppt

上传人:rrsccc 文档编号:8871335 上传时间:2021-01-21 格式:PPT 页数:53 大小:1.13MB
返回 下载 相关 举报
计算机检索技术概述.ppt_第1页
第1页 / 共53页
计算机检索技术概述.ppt_第2页
第2页 / 共53页
计算机检索技术概述.ppt_第3页
第3页 / 共53页
计算机检索技术概述.ppt_第4页
第4页 / 共53页
计算机检索技术概述.ppt_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《计算机检索技术概述.ppt》由会员分享,可在线阅读,更多相关《计算机检索技术概述.ppt(53页珍藏版)》请在三一文库上搜索。

1、计算机检索技术概述,3.1 计算机检索简况 3.2 计算机检索的相关概念 3.3 检索式的拟订 3.4 检索步骤,3.1 计算机检索简况,计算机检索指利用计算机及相关设备进行的文献信息检索。 信息检索技术正向两个方向迅速发展: 一是在深度上提高管理和组织信息的能力 传统信息检索向全文文本、多媒体、多载体、多原理等新型信息检索的发展. 二是在广度上提高管理和组织信息的能力 文献资源的网络化和分布化,面向Internet中浩瀚无垠的资源。,1检索系统 信息检索系统包括两个子系统:存储子系统和检索子系统。 2联机检索 利用与检索系统或信息中心的主机连接,在中央处理机控制下查询系统内的数据库,并能够与

2、系统实时对话,随时调整检索策略。 3数据库 是在计算机存储设备上按一定方式存储的相互关联的数据集合。,3.2 计算机检索的相关概念,字段(field):如在数据库中题名、作者、作者单位、期刊名、摘要、全文等等均是字段;一条记录由多个字段值组成;对计算机检索来说字段相当于检索入口。,字段(Field),记录(Record),文档(File),数据库,常用字段缩写: TITitle 文章题目 ABAbstract 文章摘要 KWKey Word 关键词 AUAuthor 作者 AFAffiliation 作者单位 SOSource 文章来源(刊名信息等) ISSN(ISBN) Internatio

3、nal standard Serial (book) Number PYPublication year 出版年 LALanguage 语种,记录(Record)由若干字段组成的文献单元,在全文数据库中,一条记录相当于一篇完整的文献,在书目数据库中,一条记录相当于一条文摘或题录。 文档(File)由若干个逻辑记录构成的信息集合,是数据库的基本内容,分为顺排文档和倒排文档。顺排文挡是数据库的主体内容,倒排文档是将记录中的一切可检字段或属性值提取出来,按某种顺序重新加以组织所得到的文档。 顺排文档(记录) 倒排文档(索引) 数据库(database)由计算机进行处理的一定数量同类信息的有序集合,是

4、用来存储和查找文献信息的电子化检索工具。,数据库的类型,3.3 检索式的拟订,3.3.1布尔逻辑检索算符 3.3.2位置检索算符 3.3.3截词检索算符 3.3.4字段揭示及限制算符 3.3.5其它符号 3.3.6注意事项,精确与模糊检索,基本技术,词间位置检索,加权检索,布尔逻辑检索,限定字段检索,限定范围检索,截词检索,1,2,3,4,5,6,7,1.逻辑 “与” (AND),表示为 A and B 或 A * B 2.逻辑 “或”(OR),表示为 A or B 或 A + B 3.逻辑 “非”(NOT),表示为 A not B 或 A - B,3.3.1 布尔逻辑检索算符,逻辑“与” 用

5、“and”、“*”或者空格表示。在网络搜索引擎中习惯用空格代替“and”。表示检出的记录必须同时包含所有的检索词,可以缩小检索范围,减少命中文献量,提高查准率。,A,B,A and B,例:检索“太阳能”文献,太阳,能源,【实例】检索“中国人民政府”这个网站,可以输入“中国*政府”、“中国 and 政府”、“中国 政府”等。 【实例】检索课题“中国外汇储备规模的研究”不是一篇文章,需要检索有关的期刊文章,其检索式宜表达为“中国 and 外汇 and 储备 and 规模”,逻辑“或” 用“or”、“”或逗号表示。在网络搜索引擎中习惯用逗号代替“OR”。表示检出的记录中至少含有多个检索词中的任何一

6、个,可以扩大检索范围,增加命中文献量,防止漏检。常用于连接同义词,相关词等。,A,B,A or B,例:检索“光盘和磁盘”文献,光盘,磁盘,【实例】在搜索引擎中输入“计算机OR多媒体OR Windows98”则查询至少包含“计算机”、“多媒体”、“Windows 98”三者之一的信息。,逻辑“非”(NOT) 表示检索结果中排除含有某些词的记录,可以缩小检索范围,减少文献输出量,但并不一定能提高查准率。,A,B,A not B,例:检索“除核能以外有关能源”文献,能源,核能,【实例】输入“automobile not car”,就要求查询的结果中包含automobile(汽车),但同时不能包含c

7、ar(小汽车)。 【实例】在搜索引擎中输入“电视台-中央电视台”,查询结果不包含“中央电视台”。,相同的检索词在不同的字段中检索到的结果不同。,【实例】用中文科技期刊数据库检索机械产品采用计算机辅助设计的论文。 用不同字段作为途径,如下所示: 选择”u=任意字段” 输入“计算机辅助*产品”,查出2902篇; 选择”m=题名或关键词” 输入“计算机辅助*产品”,查出626篇; 选择“t=题名”输入“计算机辅助*产品”,查出139篇; 选择“k=关键词”输入“计算机辅助*产品”,查出545篇; 检索入口 选择“c=分类号”输入“机械产品”的分类号“TH122”年限设定,查到11206条。,也叫“邻

8、接检索”, 表示两个或多个检索词之间的关系检索方式,常用的位置算符有: 1. w (with) 表示两个检索词前后次序固定,二者之间只能间隔连字符、空格或者是逗号。 【实例】在OCLC中输入communication w satellite; 2 . wN (with N) 表示两个检索词前后次序固定,二者之间最多间隔N个字符。 【实例】在EBSCO中输入communication w3 satellite;,3.3.2 位置检索算符,3. n( Near)表示两个检索词可以互换顺,二者之间只能间隔连字符、空格或者是逗号。 【实例】在OCLC中输入communication n satelli

9、te; 4. nN( Near N)表示两个检索词可以互换顺,二者之间最多间隔N个字符。 【实例】在EBSCO中输入communication n3 satellite; 比较:在EBSCO中输入source and law、source w2 law,3.3.3 截词检索算符,检索color 检索computer、microcomputer、minicomputer 截词符(通配符)提高查全率,防止漏检的有力手段,也可以简化输入,包括有限截词和无限截词,常用的截词符有:*, ?, #,!,$,有限截词一个符号表示一个字符,一般使用“?”(英文半角问号)代表0-1个字符。 比如: chip?

10、可检索出:chips(右截断) 无限截词一个符号表示任意多个字符,标准符号是“*”,代表0-n个字符,也称为通配符。 比如:comput* 可检出:compute, Computer, computers, computing, Computerize等. 注:不同的数据库所用的截词符不一样,使用应先查一下各数据库的帮助加以确认,3.3.3 截词检索算符,后截断,无限截断,如:physic?,截词检索与截词检索算符,Physic,physics,physicst,physicalism,Physic,physics,physicst,如:physic*,有限截断,中文数据库里面习惯称为“前方一

11、致”,中截断,前截断,如:m?n,man,men,如:*computer,minicomputer,computer,microcomputer,中文数据库里面习惯称为“后方一致”,Title (ti): computer Py=2008 La=english 限定网站:site: link:whitehouse.gov 限定网页:inurl:midi 沧海一声笑 限定文件类型:filetype:,3.3.4 字段限制检索,3.3.5 其它符号,1括号 括在其中的操作符先起作用。 三聚氰胺*(农产品 +鸡蛋+牛奶 +大米) 2引号 引号内的检索项以整体形式出现。如:information re

12、trieval 表示information AND retrieval 而 “information retrieval ” 则表示一个词组 3个别数据库使用的特殊符号 某些搜索引擎使用加号(+)表示该单词必须出现。 在某些搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。 个别数据库例如“国研网”、山东标准网使用“ 英语中的a about also and any as at be between by both for some so not this with等介词或冠词等,检索策略是对检索的全面策划,在操作上主要指检索式的编制和数据库

13、的选择。 检索策略在计算机检索中直接决定检索结果的准与全。,3.3.6检索策略,确定检索词 切分:是对课题的语句以词为单位进行切分,转换为检索的最小单元。 例:检索“吸烟与肺癌的关系研究”相关文献。 例:检索“肺气肿病人的血氧测定法”方面的相关文献。 注意:应保持词意义的完整。 删除:对不具有检索意思的虚词或过分宽泛的限定词应予以删除。,替换:是对表达不清晰或容易造成检索误差的词用更明确、更具体的词予以替换。如公交公共交通,绿色包装-环保包装等 增加:针对一词多义或者在检索结果中有很多干扰信息时,可采用增加检索词达到“限义”的手段。,例:神经网络在旋转机械故障诊断中的应用研究 1.本课题包含“

14、神经网络” “旋转机械” “故障诊断”三个概念,“应用”和“研究”属于意义过于宽泛的词,不应该作为检索词。 2.扩展 神经网络:相关的上位词有人工智能 旋转机械 故障诊断:相关词有故障定位、故障检测,上位词有容错技术 3.检索式: (神经网络 OR 人工智能)AND(旋转机械)AND (故障诊断 OR 故障定位 OR 故障检测 OR 容错技术),检索式示例,1.检索关于研究鲁迅的论文,应选择什么检索字段。 【题解】必须选择标题或者关键词,不能选择为作者途径。 2. “知识产权”一词还可析出哪些隐含概念。 【题解】“专利权”、“版权”、“著作权”等概念。 3.用中文科技期刊数据库检索著名经济学家

15、胡鞍钢在公共管理学报 上面发表的论文。 【题解】“A=胡鞍钢*J=公共管理学报 ” 。 4.写出“研究法律与经济和政治的关系“的课题的检索式。 【题解】“法律*(经济+政治)” 5.检索有关“中国国内商业银行的信贷管理或信贷风险的研究”方面的相关文献。 【题解】(商业银行-外资银行)*(信贷管理+信贷风险),3.4检索步骤,1检索准备 2选择合适的检索工具 3选择检索途径 4拟订检索式 5实施检索 6筛选文献 7索取原文,1.弄清课题学科属性、专业范围及其相关内容 首先明白是单一学科还是涉及多学科或跨学科。 当课题涉及多学科时,以主要学科为检索重点,次要学科为补充。 例:超声波技术在兽医上的应

16、用。,3.4.1检索准备,2.弄清检索课题的信息类型和时间要求 时间要求上,研究层次低、学科发展快的,则检索的时段可以适当缩短。 例如:查“超声波技术在医学上的应用”和查国内外研究社会保障制度的文章。 3.考虑课题的特殊要求 4.明确用户自身的信息需求,.要从概念入手,而不是从字面意思入手; .概念扩展时要考虑同义词、相关词、上位词/下位词等(既词表中提到的用、代、分、属、参、族),还要注意中英文混用的现象 ; 3.当课题比较生疏时,应当首先利用百科全书、图书等弄清楚概念,了解课题的有关专业知识,弄清楚课题的内容和要解决的问题以及解决该问题的初步设想等,进而确定检索的主题范围。 4.人文社会科

17、学的检索,如果是回溯检索,应该熟悉不同年代所使用的概念和术语 5.忽略那些意义过于宽泛、通用的词,比如:“研究” 、“应用” “探讨”等。,分析课题时须注意的问题,明确检索要求,选择数据库,选择数据库要考虑以下因素: 1.检索目的:检索的时间范围、文献类型、检索深度为题录、文摘还是全文等等 2.检索结果:对于研究生做学位论文来说,做课题前应充分了解一下本课题国内外的研究现状(即论文的综述部分),这时应对该课题进行较全面的检索,包括综述性的文章,要求全面;对于该课题的核心部分,即该课题所要解决的具体问题,创新的地方,则需要准,技术细节越细越好。 3.检索内容所属学科,对与自己相关的数据库要有一个

18、全面的了解.,3.4.6筛选文献,应当根据课题的科学技术要点,将检索结果分为密切相关文献和一般相关文献。对相关文献情况及对相关文献的主要论点进行对比分析。,1网上下载原文 2就近借阅 3文献传递,收获,3.4.7获取原文,【例题】华中科技大学学生已知一些理工科类大学学位论文题目,如何获得原文?,【题解】 方法1:使用华中科技大学图书馆的馆藏目录查询到图书形式的学位论文,直接借阅: 方法2:使用图书馆购买的学位论文数据库检索,可以直接查看近年来的原文。 方法3:本地没有的则通过网上检索得到题目后,再从高校图书馆、国家科技图书文献中心(NSTL)通过馆际互借寻找全文,收费较低,时差也短。 方法4:

19、外文图书可以通过OCLC获取。,检索效率 查全率和查准率是判定检索效果的主要指标。,查全率: (Recall Ratio) 指系统在进行某一检索时,检索出的相关文献量与系统文献库中相关文献总量的比率。用公式表示为: 检出的相关文献量 系统数据库中的相关文献总量,R=,X100%,扩大检索范围,提高查全率的方法 1、跨库检索 2、选择较大检索范围的字段如摘要 3、外文单词使用截词符 4、使用上位词(如飞行器 _航天飞机 _载人航天飞机) 5、考虑同义词或近义词(使用布尔逻辑符or连接) 6、逐步扩大算符的检索范围,逐步提高查全率的算符依次是:位置算符w wnnear 逻辑算符and or,查准率: (Precision Ratio)指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率。用公式表示为:,检出的相关文献量 检出的文献总量,P=,X100%,缩小检索范围,提高查准率的方法 1、选择专业性检索工具如使用产品数据库、特种搜索引擎。 2、选择检索范围较小的字段 3、逐步缩小算符的检索范围,逐步提高查准率的算符依次是:逻辑算符or and 位置算符near wn w;使用算符not排除干扰信息。 4、使用二次检索 5、使用下位词,OCLC检索结果,EBSCO检索结果,OCLC检索结果,EBSCO检索结果,EBSCO检索结果,EBSCO检索结果,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1