数据库检索基本原理和方法.ppt

上传人:本田雅阁 文档编号:3484405 上传时间:2019-09-02 格式:PPT 页数:77 大小:1.22MB
返回 下载 相关 举报
数据库检索基本原理和方法.ppt_第1页
第1页 / 共77页
数据库检索基本原理和方法.ppt_第2页
第2页 / 共77页
数据库检索基本原理和方法.ppt_第3页
第3页 / 共77页
数据库检索基本原理和方法.ppt_第4页
第4页 / 共77页
数据库检索基本原理和方法.ppt_第5页
第5页 / 共77页
点击查看更多>>
资源描述

《数据库检索基本原理和方法.ppt》由会员分享,可在线阅读,更多相关《数据库检索基本原理和方法.ppt(77页珍藏版)》请在三一文库上搜索。

1、文献检索,彭志勤 材料与纺织学院 材料工程系,Information Retrieval,第六讲 数据库检索基本原理和方法,信息资源数据库简介 数据库的构成 数据库系统的主要功能 数据库系统检索的原理和方法,数字图书馆的概念,数字图书馆又称: Digital Library Electronic Library(电子图书馆) CD Library(光盘图书馆) Virtual Library (虚拟图书馆) Nowall Library (全球图书馆) 定义:一个收集、组织、管理,并提供数字化信息服务的大系统 特点: 数字化资源、网络空间、多媒体、多语言、智能检索、全文检索,The conce

2、pt of a “digital library“ is not merely equivalent to a digitized collection with information management tools. It is rather an environment to bring together collections, services, and people in support of the full life cycle of creation, dissemination, use, and preservation of data, information, an

3、d knowledge.(http:/www.si.umich.edu/SantaFe/Introduction.html) 数字图书馆的概念不仅仅是数字化馆藏及其信息管理工具的等价词,而是一种环境。它将馆藏、服务和人整合成一个环境,以支持数据、信息乃至知识的创造、传播、使用和保存,数字图书馆的本质 是一种环境 又是一种服务 也是一个过程 使任何人,在任何时间,从任何地点,获取其所需的任何知识(5A:All the citizens anywhere anytime can use any Internet-connected digital device to search all of h

4、uman knowledgePITAC, 2001.) 既然数字图书馆是一种服务,所以在进行数字图书馆建设时,一定要以用户服务为导向,以用户需求为驱动,以用户满意度为指标,一、信息资源数据库简介,按收录文献的类型划分,图书文献数据库,期刊文献数据库,专利文献数据库,会议文献数据库,按提供信息的详略划分 1、文摘数据库 2、全文数据库 3、数值数据库,文摘数据库(bibliographic database)是指存储某个领域的二次文献(如文摘、题录、目录等)书目数据的一类数据库,属于参考数据库中的一种 其数据主要来源于期刊论文、会议论文、研究报告、学位论文、专利文献、报纸等各种不同的一次文献信息

5、源,(1)文摘数据库,引文索引思想最早在1955年由美国学者加菲尔德提出 -从文献之间的引证关系着手,去揭示科学文献之间(包括学科之间)的内在联系 撰写论文称为“来源文献”,或“引证文献”,其文后的“参考文献”则为“引文”或“被引文献”(Citation) 文献的引证关系,比较深刻地反映了科学文献之间的内在联系 可以找到一系列内容相关的文献以及某一学术观点的发展脉络。这样不但可以看出某一学科的研究动态、研究情况,而且可以看出这一学科的核心作者群,还可以根据某一名词、某一方法、某一概念、某一理论的出现时间、出现频次、衰减情况等,分析出学科研究的走向和规律,中国中文社会科学引文索引 “Chines

6、e Social Sciences Citation Index”,缩写为CSSCI。是由南京大学中国社会科学研究评价中心开发研制的数据库,用来检索中文社会科学领域的论文收录和文献被引用情况 中国科学引文数据库 Chinese Science Citation Database,简称CSCD。1996年由中国科学院文献情报中心首次在国内推出基于引文索引理论和方法建立的引文数据库。它收录了国内出版的中英文科技核心期刊582种,1997年采用来源文献近6.6万篇。CSCD的研制成功,为我国的科学研究工作增添了一个极为重要的工具 科学引文数据库 Science Citation Database,简

7、称SCD。武书连研发的我国第1个涵盖自然科学、工程与技术、农林科学、医药科学、人文科学、社会科学等全部非保密学科的大型引文数据库。作为中国大学评价、中国大学研究生院评价源期刊数据库,用于评价中国普通本科高校和以创新为主的科研机构的群体创新能力。,全文数据库是一种源数据库(source database),通常存储有文献的全文或其中的主要部分 全文数据库最早出现于法律领域 自1970s末期以来,尤其1980s中期CD-ROM商用化以后,全文数据库大量涌现。继法律领域之后,经济、新闻、文学、医学、化学及专利等领域先后推出了各种全文数据库,(2)全文数据库,中国知网(CNKI) 清华同方公司的全文数

8、据库产品 重庆维普公司的全文数据库产品 中文科技期刊全文数据 万方数据公司的全文数据库产品 数字化期刊群 E读学术搜索引擎 超星电子图书 书生之家数字图书馆,著名中文全文数据库产品,专门提供以数值方式表示的数据(或包括其统计处理表示法)的一种源数据库。例如,各种统计数据库,财务数据库,科学技术数据库等 与文献数据库相比,数值数据库是人们对信息进行深度加工的产物,它可以直接提供解决问题时所需要的数据,是进行各种统计分析、定量研究、管理决策等的重要工具,(3)数值数据库,指南型数据库(Directory Database),存储能够提供用户参考、给予用户指南的各类信息,如商业、企业等机构的名称、联

9、系地址、项目内容、人物等简要描述的一类数据库,也称指示性数据库。例如:公司名录数据库、人物传记数据库、技术标准数据库、产品目录数据库等都属于这一类数据库,类型,统计数据库、市场行情、调查分析数据库等,这类数据库的出现,已成为科学研究、工程设计、管理决策、定量分析等的重要工具 术语数据库(Terminological Database)指专门存储名词术语、词语信息的一种源数据库,如各类电子字词典 图像数据库(Graphics Database)指用来存储各种图像或图形信息及有关文字说明资料的一种源数据库,例如:主要用于建筑、广告设计、装潢、产品目录等方面的图像数据库 数值型数据库(Numeric

10、al Database) 其存储的信息为数据,专门提供数值方式表示的一类数据库,计算机检索系统中数据库主要有文档、记录、字段三个层次构成。 (1)文档(File) 若干个逻辑记录构成的信息集合称为文档(或称文献数据库),它是组成文献检索系统的基本单元。 有些文档因规模庞大,被分成若干个文档。如在DIALOG系统中,CA SEARCH数据库被分为: 308号(19671971)、 309号(19721976) 310号(19771981)、 311号(19821986) 312号(19871991)、 313号(19921996) 314号(1997)等7个文档。 用户可以根据自己的需要,选择一

11、个或多个文档(或数据库)进行检索。,二、数据库的构成,一个数据库至少包含一个顺排文档和多个倒排文档 顺排文档是将数据库的全部记录按照记录号的大小排列而成的,它是数据库的主体内容,类似印刷型的正文部分。 倒排文档是将记录中一切可检索字段(如著者、主题词、叙词等)抽取出来,按其在文档中的位置和所在文档的序号重新加以组织,这样可以按不同字段组成不同的倒排文档(如著者倒排文档、主题词倒排文档等),也可以组成 一个不同字段的混合倒排文档,加快检索速度。相当于印刷型检索工具的索引部分,(1)文档(File),记录是文档的基本单元,一个记录相当于一篇文献,在全文数据库中,是一篇完整的文章,而在文献型数据库中

12、,则是一条文摘或题录,(2)记录(Record),字段是记录的基本单元,每条记录由若干字段组成,字段一般对应信息的著录项,可分为基本字段和辅助字段两种 基本字段是用来表达文献内容特征的字段,如题名字段、文摘字段、叙词字段等 辅助字段用来表达文献外表特征的字段,如作者字段、出版年份字段等,(3)字段(Field),数据库中常见字段和缩写,字段说明1,All fields: 全部著录项目,默认字段。 Subject/Title/Abstract: 主题词、文摘、标题 Author: 作者或编者 该字段检索输入时姓在前名在后,需要输入作者名的所有可能形式:如:ma,jingdi or ma, jin

13、g-di or jingdi, ma or jingdi m or ma,j.d. 作者名后可以使用截词符。如:ma, j* or jingdi, m* 用作者字段检索时可参考索引表。,Author affiliation: 作者机构。70年代以前机构名称用全称表示,80年代使用缩写加全称,90年代用缩写 Publisher:出版者 Serial title: 期刊、专著、会议录、会议文集的名称 Title: 文章的标题 Ei controlled term: Ei 受控词。来自Ei叙词表,它从专业的角度将同一概念的主题进行归类,因此使用受控词检索比较准确,SU=主题 TI=题名 KY=关键词

14、 AB=摘要 FT=全文 AU=作者 FI=第一责任人 AF=机构 JN=文献来源,RF=参考文献 PT=发表时间 YE=年 FU=基金 CLC=中图分类号 SN=ISSN CN=统一刊号 IB=ISBN CF=被引频次,中文数据库检索常见的字段缩写,1、布尔逻辑检索功能 单独的检索词不能满足课题的语法要求,因此需用逻辑算符加以组配。布尔逻辑是由19世纪英国数学家乔治布尔提出来的, 其逻辑算符有 OR(或)、 AND (与)、 NOT (非)三种,三、数据库系统的主要功能,(1)逻辑“与”AND(*), 表示两个概念的交叉,用来组配不同的检索概念,其含义是检出的记录必须同时含有所有的检索词。

15、(2)逻辑“或”OR(+), 表示几个概念相加,用来组配具有同义词、相关词等,在实际检索中,同一组面中含义相同的词,相互之间都使用OR运算符,用于扩大检索范围,提高查全率。 (3)逻辑“非”NOT(), 表示概念的排除,即检出的记录中只能含有NOT算符前的检索词,但不能同时含有其后的检索词。 AB AB AB,例 Solar*Energy 例 www + internet + network 例 EnergyNuclear 除核能以外的有关能源方面的文献才被命中,A 逻辑提问式: 用逻辑符号将提问特征(主题词、分类号、作者等等)连接起 来的式子叫逻辑提问式。 例: A and B(A*B):表

16、示同时包含A和B A or B(A+B):表示包含A、B中的任何一个即可 A not B(A-B):表示包含A但不包含B。 B 编写逻辑提问式应注意: a: 全面准确选词以反映提问的实际内容 b: 当用户提问中的主题找不到准确的主题词时,可以 先用自由词检索,必要时用上位主题词和相关词检索。 C: 提问式尽量简化,如(1)*(2)+(1)*(3)应为 (1)*(2)+(3),2、截词检索功能 截词是检索相同词干的所有单词的一种联机检索方法。使用截词算符,可减少检索词的输入,扩大检索范围,提高检索效率。 一般检索系统用“?”和“*”表示截词符。 分类: 根据截词位置可以分为 后方截词、前方截词和

17、中间截词三大类。 按截词字符数又可分为有限截词和无限截词。,前方截词: 将截词符放在词根的前边,后方一致,表示在词根前方有无限个或有限个字符变化。例如: Software(软件)Hardware(硬件),可用 “?ware” 代替。 ?Computer 那么microcomputer及minicomputer就不会漏掉了。 后方截词: 将截词符放在词根后面,前方一致。例如: comput?可检索出compute、computer、computerized、 computerization等。 data? 则database, data system, data handling都会检出。 中间

18、截词: 将截词符号置于检索词的中间,而词的前、后方一致。 例如:colo?r 包含colour(英)和color(美)两种拼写方法。,非限制性截词: “?”加在词干或不完整的词上,对词的完整意义进行检索。例: computer? 代表 Computer, computers, computerized等 限制性截词: analy?er 命中记录中将出现analyzer 和analyser;work? 命中记录中将出现,work, works, worker, workers, working,3、常用算符位置算符 布尔算符中的逻辑“与”只要求两个检索词必须同时出现在同一篇文献中,而没有限定算符

19、两侧检索词之间的位置关系,有时难免造成误检 例如,查找“细菌对染料破坏”方面的文献, 检索词:细菌、破坏、染料 逻辑“与”组配 检索结果:命中同时用这三个词标引的文献 有“细菌对染料的破坏”方面的文献, 也会有“染料对细菌的破坏”方面的文献, 要排除后一部分的文献,就需用位置算符限定词与词之间的位置关系,在DIALOG检索系统中使用的位置算符主要有: (With)算符: (W)或(nW) 词序不许颠倒 两词必须紧挨在一起,词之间不许插词,只许空格或连字符号 A(W)B 例: CD(W)ROM 将命中 CD ROM 或 CD-ROM solar ( ) energy 检出 solar energ

20、y,A(nW)B 表示A、B之间最多可插入n个单词(n为整数),词序不变 (nW)算符:“n words”的缩写 (nW)是从(W)算符引伸出来 检索词之间允许插入0n个词 词序不许颠倒 例 anticorrosion (1W) paint 可检出 anticorrosion paint 和 anticorrosion of paint 例 检索“材料磨损”(WEAR OF MATERIALS)方面的文献, 检索式: WEAR (1W) MATERIALS, (N)算符:“Near”的缩写 A(N)B 词序可以颠倒 两词之间不许插词 例 cross (N) section 可检出 cross

21、section 和 section cross (nN)算符:A(nN)B (nN)是从(N)算符引伸出来 检索词之间允许插入0n个词 词序可以颠倒,(F)算符:“ Field”的缩写 A(F)B 算符两侧的检索词必须在同一字段内 词序及两词间插入的词数不限,但使用此算符时必须指定所要找的字段 例: digital (F) computer / TI, AB 注意: 在不同的检索系统中,所采用的位置算符是不同的,功能也有差异, (S)算符:“Sentence”和“ Sub-field”的缩写 A(S)B 算符两侧的检索词必须在同一句子 词序及两词间插入的词数不限,上述位置算符可以混合用于同一检

22、索式中。由于检索系统是按从左到右的顺序处理检索式,因此,应将限制最严的算符放在最左边,1、文献在计算机内的存在形式 1)顺排文档: 是将文献的各种特征(如顺序号、著者、出处、分类号、主题词等)按一定的格式、一定的规则输入计算机排列起来的文献库。可供顺序查找。顺序号:是每篇文献在数据库中位置的代号,有时按照它们进入计算机数据的顺序编号,有时也叫文摘号 2)倒排文档: 是以文献中具有检索意义的字段为依据建立起来的文档,可与印刷型检索工具串的“索引”相对应。如有: 主题倒排文档 关键词倒排文档 著者倒排文档 分子式倒排文档 专利号倒排文档,四、数据库系统检索的原理和方法,2、文献数据库检索步骤,分析

23、课题,确定检索要求和目标,拟定检索词,检索式,选择数据库 确定检索途径,实施检索并显示检索结果,用检索技术优化检索结果,选择输出(打印、拷贝或发送至电子邮箱),1)审清主题 2)确认检索方向 3)选择合适的信息源 4)用好检索策略 5)评价检索结果 6)调整检索策略,分析课题是实施检索最重要的一步,是检索效率高低或成败的关键 面对一个课题需要找出它的研究范围,国内外研究现状以及将要达到的目的。找出 课题所涉及的主要内容和相关内容,形成主要概念和次要概念,选取主题词 将课题需求概念转换成检索概念 查阅书刊,寻找综述性文章,1)审清主题,主题分析要充分,使课题主要特点不遗漏 析出的主题与课题实际内

24、容要一致,如表示的概念过大,必然造成误检;表达的概念过小,则会发生大量漏检 简化逻辑关系,减少概念数。有些用户却误认为选取的概念越多、逻辑组配越细致,检索出来的结果针对性越强。其实不然,过多过严的概念逻辑组配,很可能导致大量的漏检,甚至结果为零 忌望词生义,审题要求,突出重点,去掉次要 隐性主题显性化 抽象概念具体化 排除非关键概念和重复概念,主题概念提取方法,经过对课题的详细分析,比较完整、准确地了解了检索课题的主题内容后,利用前面介绍的布尔逻辑运算符、位置运算符、截词符和字段符,对各检索词进行逻辑和位置组合,列出检索式 当检索式输入检索系统后,有时检索结果不一定能满足课题的要求,例如: (

25、1)输出的篇数过多,而且不相关的文献很多(调整方法:核对主题词、截词不易过短、用逻辑与限制概念等) (2)输出的文献太少(调整方法:核对主题词、考虑同义词、选取上位概念、位置算符不易用得过严等),编制检索提问式,例:“利用稻米皮糠提取天然食品色素” -粗看有7个概念,即利用、稻米、皮糠、提取、天然、食品、色素,若都作为逻辑“与”的概念组配,检索结果可能为零。 -实际上,只要取两个关键概念:稻米与色素。因为稻米包括了皮糠,只要把“稻米”与“色素”这两个概念组合进行组配,有关提取、制造、利用等方面的文献都会带出来,而从稻米中提取的色素一定是天然的,而不会是人工合成的 例:“化妆品辐射灭菌” -粗看

26、有三个概念,即:化妆品、辐射、灭菌; -仔细一分析,对化妆品进行辐射就是为了杀菌,一篇文献只要谈到化妆品的辐射,一般就是讲灭菌的了。因此,应将灭菌这一概念排除掉,排除非关键概念和重复概念,所谓隐性主题,就是在题目中没有文字表达,经分析、推理得到的有检索价值的概念 如,课题“高温下使用的不锈钢”,其显性主题为“不锈钢”,而隐性主题概念为“耐热钢” 如,课题“丙酮丁醇制造中的纤维酶的应用”,“发酵”这个概念就为隐性概念 如,课题“酸洗废液的处理”,“处理”一词就隐含着“回收”和“再生”等概念,隐性主题显性化,课题中往往只列出了表达抽象概念的词,而忽略了那些表达具体概念的词。例如,查找“煤灰利用”方

27、面的文献 以为只要提出“煤灰”和“利用”这两个概念词,就能把所有“煤灰利用”方面的文献检索出来 实际上,根据标引规则,那些论述煤灰的具体利用的文献,如利用煤灰制造“砖”、“水泥”、“鱼礁”、“肥料”、“骨料”、道路的“路基”以及回收“金属”等等,都是具体的概念进行标引的,抽象概念具体化,“代理母亲”(surrogate mothers)一词,就误以为是指“保姆、养母、奶妈或继母”等,而实际上用户要查找的是“以替其他妇女怀孩子为职业的妇女”的有关社会道德与法律问题; 见到“麦饭石”(bakubanseki)就误以为是“麦饭”+“石头”(麦饭石是一种中药材); 见到“热管”(heat pipe)就

28、误以为是“热水”+“管道”(热管是一种新型的节能技术),忌望词生义,主题分析后提取重点 标题(直接涉及项目中心思想) 领域(直接所属或直接应用领域) 目的(要解决的技术问题) 技术方案(实现目的的手段,创新性)、 效果(技术指标),目的技术方案,如: 汽车用镀锌钢板:汽车钢板锌 技术方案,如: 含配方,检索;没有,检索、;没有,分别检索、 目的领域,如: 采用变频技术的节能空调:节能空调 目的部分技术方案,2)确认检索方向,例:“高效清洗血渍洗涤剂” “开发出一种清洗血渍的洗涤剂配方,含有、成份,经多次使用统计,洗净率达80%” 分析: 标题:“高效清洗血渍洗涤剂” 领域:洗涤剂 目的:洗掉血

29、渍 技术方案:、配方 效果:洗净率达80%,检索策略 、技术方案目的 血渍 、技术方案 、目的领域 血渍洗涤剂 、部分技术方案目的 ()血渍,检索结果: 策略出现两种情况 检索到文献,结论: 国内已有含有A、B、C配方的用于清洗血渍的洗涤剂。 未检索到文献,结论: 国内未发现含有A、B、C配方的用于清洗血渍的洗涤剂。 策略2出现两种情况 检索到文献,进一步查看原文,发现其用于头发清洗。结论: 国内已有含有A、B、C配方的洗涤剂,用于头发清洗,但未见用于血渍的清洗。 未检索到文献,结论: 国内未发现含有A、B、C配方的洗涤剂。 策略3出现两种情况 检索到文献,结论: 国内已有X配方和Y配方的洗涤

30、剂,可用于血渍清洗,洗净率分别为50%和60%,而该课题采用A、B、C配方有显著创新 未检索到文献,结论: 国内未发现含有A、B、C配方的用于血渍清洗的洗涤剂。 策略4出现两种情况 检索到文献,结论: 用于血渍清洗的洗涤剂,有含A、B或B、C配方的,但未见含有A、B、C配方的 未检索到文献结论: 国内未发现含有A、B、C配方的用于血渍清洗的洗涤剂。,理想的检索策略是同时包含上述种 最终结论: 国内已有含有A、B、C配方的洗涤剂,只是用于头发清洗;用于洗涤血渍的洗涤剂,有含A、B或B、C配方的,洗净率分别为50%和60%;而该课题采用A、B、C配方制成用于血渍清洗的洗涤剂,有显著创新,洗净率达8

31、0%,达到国内领先水平。,丰富的数据库及国内外文献资源支持,是检索文献资料的基础,对各种文献数据库的存贮信息的内容及范围必须充分了解,灵活应用 确定检索数据库的依据和原则,主要是根据所查课题的内容,使课题相关的信息都包括在被选用的数据库中,以重点专业数据库为主,一般数据库为辅 检索范围要求全面性、系统性和连续性(资源有效性),3)选择合适的信息源,选择与检索课题密切相关的专业类数据库 选择专利类数据库,了解前沿信息 选择大型、知名的综合类数据库 选择检索途径丰富的数据库 选择全文数据库 选择适合自己语言的数据库,数据库的选择要点,(A)选对检索词 (B)用好运算符 (C)构好检索式 (D)选择

32、检索途径,4)用好检索策略,全面了解课题内容,从中找到合理的检索词。要分析、对比找到正确的主题,删除不合适的检索词 明确研究对象涉及到的内涵和外延以外,应了解采用的方法、路线,深刻领会课题实质内容,将其转化成检索概念,并查找主题词表,树状结构表,确定主题词 不要整个课题输入作为检索词,(A)选对检索词,题目大、内容窄(针对窄) -例1:汽车用钢板的开发与应用研究,实际汽车镀锌钢板 -例2:现代大型温室标准化栽培技术体系研究与产业化示范,实际现代温室黄瓜和番茄标准化栽培 题目小、内容宽(拆). 题目与内容交盖(取交盖部分),选择检索词(从题目和内容),(1)选择专用词(低频词),不用“研究”、“

33、开发”等泛词,越专越好; (2)考虑同义词、学名、别名、俗名、商品名等,如“电脑”的同义词“微机”、“计算机”; (3)考虑近义词,如“制备”、“制造”、“合成”、“生产”等,每一个关键词下均能找到文献,但若采用其中一个关键词去检索,往往只能找到其中的一部分文献; (4)缩略语、元素符号; (5)上、下位词的互代,如“果树病虫害的防治”中的“果树”是概念过大的词,不一定能代替“苹果树”、“梨树”等下位词;又如“草菇的工厂化栽培”中的“草菇”概念过小,不能代替“食用菌”这一上位词; (6)相似性质词的借代:如“上海综合防灾体系的研究”,“上海”可以考虑“城市”、“北京”、“东京”、“纽约”等,检

34、索词要求,(1)学名与俗名。如大豆与黄豆、马铃薯与土豆、乙酰水扬酸与阿斯匹林或阿斯匹灵、氢氧化铵与氨水 (2)意译与音译。如电动机与马达、激光器与莱塞、镭射 (3)新称与旧称。如狗与犬、杜鹃与子规和杜宇、索引与通检、硅与矽 (4)异地称。如撰稿与方案、助产妇与稳婆、小偷与三只手 (5)不同领域或行业的异称。如智囊在政界多称幕僚、军界则称参谋 (6)小时称与大时称。如小马称驹、小牛称犊、小人称孩,异称词的选取,检索词确定后,根据课题内容,组配检索词,确定各个检索词之间的合理的逻辑关系,构成正确的检索式 要注意检索的逻辑组配关系,要考虑检索式与检索词之间以及检索式之间的可能组配,扩展与限制检索 把

35、握概念的网罗度与专指度的关系 因数据库而异,(B)构好检索式,一般来说,每个数据库都有多个检索途径,常用的有:篇名、作者、关键词、摘要、全文、出处、分类等 检索前用户要告诉计算机,以什么检索途径来进行检索。如果要查找篇名中含有某个词的文献,则检索途径选择“篇名”;如果要按文献的分类来检索,则检索途径选择“分类”,(C)选择检索途径,文献量适中 文献量太多 文献量太少(甚至0) 造成检索结果为“0”的原因,可能是在检索过程中,由于检索词选择不当或组配不正确,检索工具确定不恰当和检索途径单一等,而导致检索结果的错误,(5)评价检索结果,检索途径限制 掌握各种方法 标引深度限制 减少检索词 文献种类

36、限制 选用合适信息源,检索系统限制,1)选词不当 2)组配不当 3)逻辑算符选用不当 4)系统选用不当 5)时段估计不当,漏检和误检的原因分析,在检索时为了防止漏检,应采用广种薄收的方法,检索多达815个数据库,在检索时应先选择专业库,后选综合库 在“维普”中查找 “变频空调”,扩检(提高查全率) 降低检索词的专指度,用上位词或相关词放宽检索 使用关键词索引时,可通过增加同义词、近义词等增加命 中文献数,也可通过截断符减少由于拼法不同或词尾不同 而造成的漏检 增加待检的检索工具与数据库,多种索引配合使用 缩检(提高查准率) 提高检索词的专指度 用逻辑乘连结一些进一步限定主题概念的相关检索项 用

37、逻辑非排除一些无关的检索项 利用文献的外表特征(文献的类型、语种、出版年代等) 限制输出的检索结果 限制检索词出现的可检索字段,并指定邻接和优先关系,(6)调整检索策略,审题把握重点 查综述性文章把握宏观和理解内容 检索词和数据库宜专 检索式先紧密后松散 主题放在标题中 检索词不要太多,特别是可能在原文中出现的检索词 找出一篇最相关的文献,进一步斟酌检索策略,检索技巧总结,检索系统进行检索时产生的有效结果 它直接反映了检索系统性能的好坏 衡量检索效果的指标 查全率(recall ratio) 查准率(precision ratio),3、检索效率,检索出的相关文献量,数据库中的全部相关文献,查

38、全率R=,x100%,检索出的相关文献量,检出的文献总量,查准率P=,x100%,最理想的检索结果是查全率和查准率都达到100。 R100表示数据库中收录的全部相关文献都被检索出来 P100表示检索出来的文献全部都是相关文献 但事实上,检索中有许多因素使这个指标很难达到。,R,0,P,查全率R与查准率P的关系曲线,C,A,D,B,C.W.Cleverdon(英)进行 Granfield试验,得出 查全率R与查准率P曲线 RP之间存在着互逆关系 A点 检索词数量多,泛指性强, 查全率较高但查准率却非常低 B点 检索词专指性较强,查准率就高 查全率因此降低 C,D两点 两种极端的折衷。 查全率一般

39、在6070 查准率一般在4050 无论怎样调整检索策略和改进系 统效率,都无法使P和R同时接近100。,找出满足需要的文献 核心查准 兼顾查全 正确把握查全率和查准率的关系。在准的基础上尽量求全,以便比较、借鉴和参考,合法用户:通过IP地址控制,所有校园网用户均为合法用户 适度下载 一个帐户连续不断下载同一数据库全文不超过30篇 确有需要,可以分时进行,尊重知识产权,合理利用数据资源,禁止用智能下载工具恶意下载 “恶意下载”具体指三种行为: 整本下载电子图书或者整卷、整期下载期刊论文; 在下载过程中,使用了智能下载工具; 短时间内大批量集中下载同一数据库的文献,全文网络数据库的使用许可协议书明

40、文规定,严格禁止使用任何自动下载软件、智能机器人下载工具(如 NetAnt,Flashget(Jetcar),DLExpert, Getright等) 数据库厂商一般都实行每天24小时、每周天不间断对用户使用情况进行监控,当一个IP在一分钟内发出下载请求超过45次篇时,将被监控系统视为使用了自动下载工具进行违规操作,违规使用并恶意下载的后果,停止违规使用IP的使用权; 停止我校所有IP的使用权; 大幅度涨价; 诉诸法律。,1、用维普、万方、EI 、Springer、EBSCO等数据库检索自定课题相关文献,请注明: 检索入口(检索词)、检中文献数、有无全文,若有全文,则说明打开全文的方法 2、利用各种运算符,列出该课题的检索式(以DIALOG系统为例),习 题,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1