信息检索技术PPT课件.ppt

上传人:夺命阿水 文档编号:54984 上传时间:2025-07-09 格式:PPT 页数:61 大小:800.51KB
下载 相关 举报
信息检索技术PPT课件.ppt_第1页
第1页 / 共61页
信息检索技术PPT课件.ppt_第2页
第2页 / 共61页
信息检索技术PPT课件.ppt_第3页
第3页 / 共61页
信息检索技术PPT课件.ppt_第4页
第4页 / 共61页
信息检索技术PPT课件.ppt_第5页
第5页 / 共61页
点击查看更多>>
资源描述

1、第二章第二章 信息检索技术信息检索技术第一节第一节 信息检索的概念信息检索的概念第二节第二节 信息检索数据库信息检索数据库第三节第三节 检索语言和检索效果评价检索语言和检索效果评价第四节第四节 科技信息检索的基本流程科技信息检索的基本流程 第五节第五节 原文获取原文获取第一节第一节 信息检索的概念信息检索的概念v1、检索的意义v信息具有共享性,信息资源共享(information resource sharing)是当今社会的一个热点问题。为了分享人类共同的知识财富、研究成果,人们必须通过一种科学的方法从取之不尽的信息源中去识别和获取所需要的那部分信息,这个过程就是检索(searching)。

2、v信息的检索、利用和创造是一个循环和增值的过程,人们通过工具(数据库)检索获得信息,经过处理筛选出需要的部分,在利用信息的过程中又创出新的信息,这些信息经过核准后又被标引、组织进检索工具(数据库),再提供人们使用,信息在这个循环的处理过程中不断得到扩充,它的增长是没有穷尽的。2、检索的基本原理 信息检索基本原理的核心是用户信息需求与文献信息集合的比较和选择,是两者匹配(match)的过程。一方面是用户的信息需求,一方面是组织有序的文献信息集合,检索就是从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中找出(search,locate,hit)相关的信息

3、匹配有其匹配标准,这里涉及到两者一致性、相关度等问题,按一定的标准筛选出符合要求的信息。信息检索的过程往往需要一个评价反馈途径,多次比较匹配,以获得最终的检索结果。其图示如下:3、检索点 检索点(检索点(access point)是检索的出发点,以)是检索的出发点,以前常用前常用“检索途径检索途径”(approach)这一术语。这一术语。每件文献均有内部的(信息内容)特征及其相关每件文献均有内部的(信息内容)特征及其相关的外部特征,在检索系统中检索点是标目的总称。的外部特征,在检索系统中检索点是标目的总称。从文献的特征出发,将其特征值与检索系统中标从文献的特征出发,将其特征值与检索系统中标目

4、数据进行计算比较,通过匹配达到检索目的。目数据进行计算比较,通过匹配达到检索目的。反映文献信息内容特征:分类检索和主题检索;反映文献信息内容特征:分类检索和主题检索;反映文献外部特征:作者、名称和号码检索等。反映文献外部特征:作者、名称和号码检索等。1)分类检索(classification)分类检索是从文献内容所属的学科类别出发来检索文献,分类检索是从文献内容所属的学科类别出发来检索文献,它依据的是一个可参照的分类体系(它依据的是一个可参照的分类体系(classification system)。)。分类体系按文献内容特征的相互关系加以组织,并以一分类体系按文献内容特征的相互关系加以组织,并

5、以一定的标记定的标记(类号类号)作排序工具,它能反映类目之间的内在联系,作排序工具,它能反映类目之间的内在联系,包括从属、并列、交替、相关等。包括从属、并列、交替、相关等。较权威的图书分类法有:中国图书馆图书分类法美国国会图书馆分类法(Library of Congress Classification)杜威十进分类法(Dewey decimal Classification system)2)主题检索 主题(subject)检索是从反映文献内容的有关主题词出发来检索文献,主题是检索点,它对应文献主题概念。检索按主题词的音或形的字顺进行,其方式如查字典、词典。主题词有多种类型:有规范词和自由词

6、有单元词和多元词,有先 组结构和后组结构等。主题词的合理选择与使用对检索结果的优劣直接相关。3)作者检索 作者(author)检索是从文献的作者姓名出发来检索其文献。“作者”广义上还应包括:汇编者(compiler)、编者(editor)、主办者(sponsoring body)、译者(translator)等 此外,还有代表机构、单位的团体作者(corporate author),包括作者所在单位(authors affiliation)。4)名称检索 名称(title)检索点是从各种事物的名称出发来检索文献信息。这些名称包括:书名、刊名、资料名、出版物名、出版社名、会议名、物质名称等等,

7、也包括人名和机构名。检索的对象既包括对应的文献,也包括有关的信息、事项等。比如个人电话簿(white pages)或公司电话簿(yellow pages),查找的是号码信息。5)号码检索 号码包括文献的编号(number)、代码(code)等,它们是文献信息的一些特有的外部标识,号码检索点以号码特征来检索文献信息。号码多种多样,通常用数字、字母或用它们结合的形式或以分段的方式来表示其各部分的含义。比如科技报告有报告号,还有其合同号、拨款号等,比如专利文献有专利号、入藏号、公司代码等;比如分类号也是号码(特殊的号码检索),等等。它们各自按号码顺序,或以数序、或以字序、或以混合序列检索。图书期刊的

8、号码国际标准书号ISBN:InternationalStandardBookNumber国际标准刊号ISSN:InternationalStandardSerialNumberISBN号:号:十位分四段构成,例如:047181086x其中:0:组号(语种、地区),组号有:0(英、美、加拿大、南非等英语区),1(其它英语区),2(法语区),3(德语区),4(日本),5(俄语区),7(中国),8(印度等),9(新加坡等东南亚地区)。471:出版社编号81086:图书序号x:一位效验码(x代表10)。ISSN号:ISSN有八位数字组成,例如:10058230其中:1005-823:前七位为出版物序号

9、0:最后一位为校验码。由于文献加工的细化,计算机标引的介入,新型电子文献出现等情况,形成了更多的可检索点,比如:文献类型、文献属性、参考文献、语种、出版年份等检索点,它们提供了更多的检索途径。EI的检索实例4、检索手段 从技术手段上分:手工检索(手检)和计算机检索(机检)手工检索(manual retrieval)使用的多为印刷型或书本型检索(paper-based retrieval)工具,早些有检索卡片,现在使用最多的是检索刊,它们定期地将最新收集到的信息、文献加以汇总、组织和报道。手检的技术要求不高,以人的劳动为本,由人来翻阅,由人来进行比较、选择,完成匹配。手检工具能提供的检索点十分

10、有限,检索结果往往不尽人意。计算机检索(computer-based retrieval)它通过数据库系统来实现的。检索系统包括:计算机主机设备、外部存贮器、输入输出设备、终端设备、通信设备等硬件设施,还需要控制、提供检索的软件系统,包括:通信软件、操作系统、应用程序等,以实现对数据库的信息存取。检索过程是在人与机器的合作、协同下完成的,它们经常用实时的(real time)、交互的(interactive)的方式从计算机存贮的大量数据中自动分拣出用户所需要的信息。计算、比较、选择的匹配任务是由机器来执行的,而人则是整个检索方案的设计者和操纵者。计算机检索的优势计算机检索明显优于手工检索,主要

11、表现:检索的信息量大、数据更新快、检索功能强、检索结果输出的多样性。第二节第二节 信息检索数据库(工具)信息检索数据库(工具)v检索工具(数据库)的功能 v检索工具(数据库)的分类v检索工具(数据库)的构成检索工具(数据库)的功能事实检索、目录检索、文摘索引检索。其关联关系如下图:1)事实检索事实检索是对包括事实(fact)、数值(numeric data)与全文(full-text)的检索,提供原始信息,给出直接、确定性的答案。它回答的问题诸如:“我国最近一年在SCI上被收录的文献量是多少?”“有哪些海外华人得过诺贝尔奖?”工具:字典、词典(dictionary)百科全书(encyclope

12、dia)年鉴(annual,yearbook,almanac)手册(handbook,manual)名录(biography)和书目指南(directory)数据库属于源数据库:全文数据库、数值数据库、文本数据库属于源数据库:全文数据库、数值数据库、文本数值数据库、术语数据库、图象数据库、多媒体数据库数值数据库、术语数据库、图象数据库、多媒体数据库2)目录检索:)目录检索:目录检索是间接的、相关性检索,给出来源文献线索,指引原始文献。按性质:登记书目(出版、馆藏情况)、科学通报书目等;按所涉的学科范围:综合书目、专科书目、专题书目等;按所涉的时间范围:回溯书目、在版书目、新书书目等;按收录的文

13、献类型:图书目录、报刊目录、来源目录等;按所涉的地域:国家书目、联合目录和馆藏目录等;按其媒体:卡片目录、书本目录、磁带目录和机读目录等。目录检索系统数据库属参考数据库。经常使用的目录有:馆藏目录、联合目录、机读目录等 3)文摘索引检索 文摘索引检索是一种参考型、相关性的检索,提供相关参考文献的线索,包括文献来源出处(source),也常带有文献的内容摘要,但不是文献原文。EI、SCI、INSPEC等文摘索引检索是能揭示到文章、论文级(article-level)的检索,这些文章大量的是来自期刊及会议论文集。按其报道的学科范围:综合性和专业性检索工具;按其取材范围:多种出版物类型和单一出版物类

14、型工具;按其著录方式:题录型和文摘型检索工具;按其媒体:书本型、电子型检索工具等。3、检索工具(数据库)的构成第三节第三节 检索语言和检索效果评价检索语言和检索效果评价v检索语言检索语言 检索语言(检索语言(retrieval language)概念)概念 检索语言的分类检索语言的分类 人工语言和自然语言人工语言和自然语言 分类语言和主题语言分类语言和主题语言 v检索效果评价检索效果评价 检索效果(检索效果(retrieval effectiveness)查全率和查准率查全率和查准率 提高检索质量的措施提高检索质量的措施 检索语言的概念检索语言的概念 语言是一种人们用以交流沟通的重要工具。人与

15、计算语言是一种人们用以交流沟通的重要工具。人与计算机对话,需要有计算机语言,人与检索系统对话来实施机对话,需要有计算机语言,人与检索系统对话来实施检索,则需要有检索语言(检索,则需要有检索语言(retrieval language)。)。检索语言是用于描述检索系统中信息的内部检索语言是用于描述检索系统中信息的内部及外部特征和表达用户信息提问的一种专门语言,及外部特征和表达用户信息提问的一种专门语言,检索的匹配正是通过语言的比较匹配来实现的。检索的匹配正是通过语言的比较匹配来实现的。检索语言也称索引语言,后者是从检索系统的标检索语言也称索引语言,后者是从检索系统的标引角度出发的,而前者是从用户的

16、信息检索角度引角度出发的,而前者是从用户的信息检索角度出发的。出发的。检索语言的分类按文献信息的特征:描述信息内容特征的语言和描述信息外部特征的语言;按检索工具编排体系:分类语言和主题词语言;按词汇的类型:关键词语言、单元词语言、标题词语言和叙词语言。按其规范的情况:人工语言(规范语言)和自然语言(非规范语言);按检索语言的词汇组配方式:先组式语言和后组式语言。不同的检索语言构成不同的标目及其索引系统,提供各种检索点。人工语言(规范语言)和自然语言(非规范语言)artificial language:受信息检索的控制,使用控制、规范词(controlled term)。人工语言的规范处理重在两

17、个方面:一是使一个概念只用一个词汇来表达,这样就避免了多词一义的情况;二是使一个标引词只能表达一个概念,这样就排除了一词多义现象。natural language:自然语言是取其自然形态,不受控,使用非规范词(uncontrolled term)或称自由词(free term)。自然语言极其丰富、复杂和多样,存在着一词多义、多词一义及词义交叉的现象。常见的有同义词、近义词、同型异义词等。分类语言和主题语言分类语言和主题语言分类语言分类语言也属于主题语言。分类语言是按学科范畴划分而构成的一种语言体系,它集中反映学科的系统性、反映它们的相关、从属、派生等关系,从总体到局部分层、分面展开,形成分类体

18、系。由类目号码及名称作为检索语言,构成分类类目表,如前述图书分类表、专利分类表用的都是分类语言。主题词语言主题词语言包括:关键词语言、单元词语言、标题词语言、叙词语言等,它们有不同的主题词表。主题词表达概念本身,在主题词表中通过参照系统来指示词汇之间的关系。常用的检索技术常用的检索技术2、检索效果评价、检索效果评价检索效果(retrieval effectiveness)是指检索系统检索的有效程度,它反映检索系统的能力,这是对机检提出,有些指标对手检也有意义。技术效果技术效果主要指系统的性能和服务质量,它是由检索系统实现其功能的能力所确定的;经济效果经济效果主要指检索系统服务所花费的成本和时间

19、它是由检索系统完成其检索服务的代价所确定的。6项评价检索效果的指标:项评价检索效果的指标:收录范围、查全率、查准率、响应时间、用户负担、收录范围、查全率、查准率、响应时间、用户负担、输出形式。输出形式。查全率查全率 R(Recall ratio)查准率查准率 P(precision ratio)检索结果涉及四个方面:相关文献、非相关文献、检索结果涉及四个方面:相关文献、非相关文献、被检出的文献和未被检出的文献。被检出的文献和未被检出的文献。实验结果表明查全率与查准率之间存在互逆实验结果表明查全率与查准率之间存在互逆关系关系 提高检索质量的措施提高检索质量的措施提高检索系统的质量:提高检索系统

20、的质量:对用户而言,则要选择适合课题的学科覆盖范围的、优质的检索工具,包括其收录的全面、著录的清楚、标引的准确、完善等等。提高用户使用检索系统的能力:提高用户使用检索系统的能力:充分发挥检索系统的功能。这里涉及到下一章要讨论的检索策略问题。检索语言、检索技术、方法的正确、灵活的使用,以使检索者(用户)能更好地与检索系统协调、配合。另外,要根据不同的检索课题的需要,适当调整对查全率和查准率的要求,比如要求查全率很高的查新工作,就要放弃对查准率的苛刻要求。当代科技信息检索系统能达到的查全率和查准率分别是6070和40 50。第四节第四节 科技信息检索的基本流科技信息检索的基本流程程信息检索课程信息

21、检索课程目的目的:让你让你以最有效的方法以最有效的方法收集及收集及筛选筛选所需所需数据数据以提高以提高科学研究能力科学研究能力检索的程序检索的程序1、明确检索的目的、明确检索的目的2、检索前的准备工作、检索前的准备工作3、选择检索系统和数据库、选择检索系统和数据库4、规划检索程序、规划检索程序5、分析检索结果、分析检索结果1 1、明确检索目的、明确检索目的目的目的的确定的确定 n课题分析确定检索主题课题分析确定检索主题n确定检索的范围:地理、时间确定检索的范围:地理、时间段、文献类型等段、文献类型等n预期所需文献信息数量预期所需文献信息数量2、检索前的准备工作、检索前的准备工作 n明确学科通用

22、的关键检索词明确学科通用的关键检索词n是否对特定的作者、专家学者的研是否对特定的作者、专家学者的研究感兴趣?究感兴趣?n是否有特定的出版机构的文献与你是否有特定的出版机构的文献与你的研究主题相关?的研究主题相关?n其它其它?检索要求:新、准、全新、准、全 如要了解科技的最新动态、学科的进展、了如要了解科技的最新动态、学科的进展、了解前沿、探索未知,则强调一个解前沿、探索未知,则强调一个 新新 字字;如要解决研究中的具体问题,则要强调一个如要解决研究中的具体问题,则要强调一个 准准 字字;如要了解一个全过程、写综述、作鉴定、报如要了解一个全过程、写综述、作鉴定、报成果,就要回溯大量文献,要求检索

23、的全面、成果,就要回溯大量文献,要求检索的全面、详尽、系统,则要强调一个详尽、系统,则要强调一个 全全 字。字。3、选择检索系统和数据库、选择检索系统和数据库n掌握数据库资源所覆盖的学科范围掌握数据库资源所覆盖的学科范围n掌握各种数据收录文献的类型掌握各种数据收录文献的类型n查看数据库的详细介绍和说明查看数据库的详细介绍和说明n请教图书馆员要求介绍检索的最佳数请教图书馆员要求介绍检索的最佳数据库据库检索点与检索词的选择 4、规划检索程序、规划检索程序4 规划你的检索程序规划你的检索程序n n 选定检索主题词选定检索主题词n n 建立检索表达式建立检索表达式n n 调整相关设定:年代、类型等调整

24、相关设定:年代、类型等选定检索主题词选定检索主题词v利用关键词的上下位词、特有名词及同义词,查利用关键词的上下位词、特有名词及同义词,查阅工具如字典、分类表等。阅工具如字典、分类表等。建立你的建立你的检索检索n n 使用逻辑算符使用逻辑算符使用逻辑算符使用逻辑算符(AND,OR,NOT)(AND,OR,NOT)(AND,OR,NOT)(AND,OR,NOT)n n 限制检索条件:作者限制检索条件:作者限制检索条件:作者限制检索条件:作者,刊物或年代刊物或年代刊物或年代刊物或年代.调整相关设定调整相关设定n n决定检索结果的显示方式:决定检索结果的显示方式:决定检索结果的显示方式:决定检索结果的

25、显示方式:以以以以 日期日期日期日期,关联性排,关联性排,关联性排,关联性排序序序序 或或 即时检索即时检索n n以快速方式进行初步检索以快速方式进行初步检索n n如果可能如果可能的的话,可利用手头已找话,可利用手头已找到一篇及一些评论性综述文献到一篇及一些评论性综述文献 进进 行行 检检 索索5、分析检索结果、分析检索结果不满意不满意满满 意意不不满意满意 非目标性结果 重新檢索重新檢索n检查检索词的拼写检查检索词的拼写 n检查检索词的准确性检查检索词的准确性-查阅词典、查阅词典、字典、词表,删除错误名词字典、词表,删除错误名词 n调调查查被检索的数据库被检索的数据库 数据库说数据库说明、期

26、刊列表确定是否覆盖你所明、期刊列表确定是否覆盖你所需要检索的主题需要检索的主题不不满意满意 结果太多结果太多 v设定限制条件、特定的检索字段设定限制条件、特定的检索字段及年代及年代 v增加检索名词的准确性增加检索名词的准确性查阅工具:主题查阅工具:主题词表、词表、字典字典、分类表等、分类表等 v修改检索策略修改检索策略增加使用增加使用AND,减少使用减少使用OR。重新檢索重新檢索不不满意满意 结果太少结果太少v检查检索词的正确性、准确性检查检索词的正确性、准确性 v增加检索词的普遍性增加检索词的普遍性查阅工具:主题词表、查阅工具:主题词表、字典字典、分类表等、分类表等 v拓宽检索策略拓宽检索策

27、略减少使用减少使用ANDs;使用使用OR连连接增加的同义我词和近义词接增加的同义我词和近义词 v增加检索数据库增加检索数据库确定其他数据库是否覆盖确定其他数据库是否覆盖你所需要的检索主题你所需要的检索主题 重新檢索重新檢索满满 意意v是否获得全部所需是否获得全部所需?打印打印、Email或存档或存档v是否需要获取全文是否需要获取全文?连接全文连接;图书馆期刊、资料;原文连接全文连接;图书馆期刊、资料;原文传递服务(传递服务(8641463786414637郁鸿老师)郁鸿老师)检索技巧和提示检索技巧和提示(1)广泛浏览数据库广泛浏览数据库(2)选择合适的数据库试查选择合适的数据库试查(3)调整策

28、略的考虑调整策略的考虑(4)利用检出文献的信息,拓宽检索利用检出文献的信息,拓宽检索(5)充分利用各种资源充分利用各种资源各种导航工具、虚拟图书馆各种导航工具、虚拟图书馆(网络专题资源的有序集合网络专题资源的有序集合)第五节第五节 原文获取原文获取v馆际互借与文献传递馆际互借与文献传递 v网络环境下的资源共享网络环境下的资源共享 v我国主要文献服务中心我国主要文献服务中心馆际互借与文献传递馆际互借:馆际互借:ILL(Interlibrary Loan)是馆与馆之间的图书信息资料共享合作,是图书馆(文献信息服务中心)开放服务(open service)的一个重要方面。文献传递:文献传递:DD(Document Delivery)是利用各种通信手段、从各种文献服务中心获取文献信息的有效手段。其服务模式多样,比如:邮递(mail),快递(express mail),电子邮件(E-mail)等。http:/202.118.250.135/ywcd/index.htm86414637郁鸿老师郁鸿老师网络环境下的资源共享联机检索中心的服务 提供多种方式的订购、传递服务 提供全文数据检索网络化图书馆的合作 中国高等教育保障体系CALIS:http:/上海高校网络图书馆SCIUT:http:/202.120.13.100/index.htm

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

宁ICP备18001539号-1