第二章信息检索理论基础.ppt

上传人:本田雅阁 文档编号:3504957 上传时间:2019-09-04 格式:PPT 页数:137 大小:485.55KB
返回 下载 相关 举报
第二章信息检索理论基础.ppt_第1页
第1页 / 共137页
第二章信息检索理论基础.ppt_第2页
第2页 / 共137页
第二章信息检索理论基础.ppt_第3页
第3页 / 共137页
第二章信息检索理论基础.ppt_第4页
第4页 / 共137页
第二章信息检索理论基础.ppt_第5页
第5页 / 共137页
点击查看更多>>
资源描述

《第二章信息检索理论基础.ppt》由会员分享,可在线阅读,更多相关《第二章信息检索理论基础.ppt(137页珍藏版)》请在三一文库上搜索。

1、第二章 信息检索理论基础,第一节 信息存储与检索基本原理 第二节 信息存储与检索的发展 第三节 信息存储与检索语言,细心的同学可能已经发现,在涉及“检索”内容时,有时提到“信息检索”,而有时又提到“文献检索”。那么,它们到底有何区别?其本质及内涵是什么?检索的基本原理又是怎样的呢?下节将回答这些问题,也是要求同学们重点理解和掌握的主要内容。,第一节 信息存储与检索基本原理,一、基本概念,信息存储与检索概念的起源,信息存储与检索的含义,1、信息检索概念的起源,信息检索 (Information retrieval) 起源于原文献检索、情报检索,在1998年设置的专业目录中得以改变。,不同的称谓产

2、生于不同的历史背景,在20世纪中叶以前,信息存储传播主要以纸质为载体,信息检索活动也围绕文献的获取和控制展开。因此,信息检索研究关注的是如何检索利用文献中记录的信息,从而导致“文献检索”成为“信息检索”的同义词,早期的研究文献中几乎不使用“信息检索”这一概念。,20世纪50年代以后,社会信息传播与存储载体呈现多元化,人们不再拘泥于载体研究信息检索,于是开始使用“情报检索”一词。由于汉语中“信息”一词较“情报”一词含义更为宽泛,加之英语词汇“Information”具有“情报”、“信息”的含义,因此,近年来人们越来越倾向于将“文献检索”、“情报检索”转变为“信息检索”这一更具兼容性的概念,以便对

3、信息检索实践起到更全面的指导作用。,目前的现状是,上述几个概念同时使用,因为它们的目的是获取信息。由“信息检索”改为“信息存储与检索”是为了更好地明确“信息存储”与“信息检索”的关系,从而更有效地进行信息的获取。,2、信息存储与检索的含义,信息存储是指将大量无序的信息集中,根据信息源的外表特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的工具或检索系统,供人们检索和利用。而信息检索是指运用编制好的检索工具或检索系统,查找出满足用户要求的特定信息。,信息检索的概念有狭义和广义。 狭义的信息检索则仅指上述过程的后半部分,即从某一信息集合中

4、找出所需的信息的过程,相当于人们通常所说的信息查询(Information Search)。,广义的信息检索包括信息的存储和检索两个过程(Storage and Retrieval)。全称又叫“信息存储与检索”(Information Storage and Retrieval)。 目前广义的信息检索和狭义的信息检索概念被同时使用着。,第一节 信息存储与检索基本原理,二、基本原理,信息存储基本原理,信息存储与检索基本原理,1、信息存储基本原理,书本式文献的传统存储方法是主要指印刷型检索工具的编制,包括图书、期刊、专利、科技报告、政府出版物、技术标准、会议论文、学位论文、产品样本、档案十大信息源

5、的分类存储,由这套系统决定的手工检索体系使文献分类等描述文献内容的特征处于核心地位,文献篇名、作者名等描述文献外表特征则是天然的补充要素,加上主题,构成手检时按分类、主题、号码、作者名检索的四大途径。,机读信息则以数据库(Database)形式存储。信息被分类、编码、标识且以数据形式存入数据库后,计算机就能按电子数据方式进行处理并检索。,2、信息存储与检索基本原理,信息检索的基本原理就是,为了文献信息的充分交流和有效利用,让信息用户能准确、全面、及时地获取满足特定需要的信息,通过对广泛、大量、分散、无序的文献信息进行搜集、加工、组织、存储,建成各种各样的检索系统,在统一存储过程和检索过程所用检

6、索语言和名称规范的基础上,将用户表达检索课题的标识与检索系统中表达文献信息内容和形式特征的标识进行相符性比较(匹配),凡是双方标识一致(完全一致或部分一致)的,就将具有这些标识的文献信息按要求从检索系统中输出。检索系统输出的文献信息既可能是用户需要的最终信息,也可能是用户需要的中介信息(比如文献线索),用户依此中介信息的指引,可进一步获取需要的最终文献和信息。,输出,标引著录,信息存储与检索过程,文献信息,检索课题,文献信息标识(标引词),检索提问标识(检索词),文献信息特征,检索提问特征,检索语言和名称规范,检索系统(标识匹配),检索结果,分析,分析,选用,形成,形成,检索提问特征,检索语言

7、和名称规范,第一节 信息存储与检索基本原理,三、相关概念,检索系统,检索系统的评价,检索工具,1、检索系统 检索系统是指拥有特定的存储和检索技术设备,存储有经过加工的信息资源,供用户检索所需信息的工作系统。 信息检索系统通常应是一个拥有选择、整理、加工、存储、查找信息的设备与方法,并能向用户提供信息服务的多功能开发系统。一般情况下指的是计算机检索系统。,计算机检索系统通常由计算机硬件、软件、数据库和通讯网络构成。,计算机硬件,计算机硬件是系统采用的各种硬设备的总称,主要包括具有一定性能的主计算机、外围设备以及与数据处理或数据传送有关的其他设备。,计算机软件,软件由系统维护软件与检索软件构成。

8、系统维护软件,如数据库管理程序、词表管理程序等,其作用是保障检索系统的高效运转。 检索软件是用户与系统的界面,用户通过检索软件进行检索,检索软件功能的强弱直接影响着检索效果。检索软件可以分为指令式、菜单式和智能接口等。,通讯网络,由于现代通信技术的发展,公共数据传输技术为信息的传递提供了保障,信息检索逐渐发展成为网络检索,通过数据传输网将各个计算机连接起来。每个计算机成为网络中的一个节点,每个节点可含一个或多个数据库,网络上的每个节点和其终端只要有授权均可对网络中的数据库进行访问,实现资源共享。随着空间技术的发展,信息检索已进入了信息传递-卫星通讯-计算机技术三位一体的新阶段。,数据库,具体内

9、容见第一章第四节,2、检索工具 广义检索工具是指用以报道、存储、查询文献信息的一切工具和设备。它以各类型原始文献为素材,在广泛收集并进行严格筛选后,通过特定的信息工作方法,分析和提示文献的外形特征和内容特征,用选定检索语言进行描述和标引,形成文献信息单元款目,再将这些款目按特定规则组织编排而成。它是一个综合的概念,可以分为手工检索工具、计算机检索工具。 在此,广义检索工具和检索系统的含义是一致的。,狭义检索工具是指用以报导、存贮和查找文献线索的工具。它是附有检索标识的某一范围文献条目的集合,是二次文献。,2.1检索工具的条件,一般说来,检索工具应具备以下五个条件: 明确的收录范围(语种、文献类

10、型、时间等) 完整明了的文献特征标识(?) 每条文献条目中必须包含有多个有检索意义的文献特征标识 全部条目科学地、按照一定规则组织成为一个有机整体 有索引部分,提供多种必要的检索途径,2.2检索工具的类型,检索工具因其内容、用途和编制体例等方面的特征,自然形成许多不同的类型。 按加工文献和处理信息的手段不同可分为:手工检索工具和机械检索工具,按出版形式不同可分为:期刊式检索工具,单卷式检索工具,卡片式检索工具,胶卷式检索工具,按载体形式不同可分为:书本式检索工具,磁带式检索工具,卡片式、缩微式、胶卷式检索工具。,按著录格式的不同可将检索工具分为:目录型、题录型、文摘型、索引型检索工具。,目录型

11、检索工具,目录型检索工具是记录具体出版单位、收藏单位及其他外表特征的工具。它以一个完整的出版或收藏单位为著录单元,一般著录文献的名称、著者、文献出处等。 目录的种类很多,国家书目、联合目录、馆藏目录等尤为重要。,题录型检索工具,题录型检索工具是以单篇文献为基本著录单位来描述文献外表特征(如文献题名、著者姓名、文献出处等),无内容摘要,快速报道文献信息的一类检索工具。 它与目录的主要区别是著录的对象不同。目录著录的对象是单位出版物,题录的著录对象是单篇文献。,文摘型检索工具,文摘型检索工具是将大量分散的文献,选择重要的部分,以简炼的形式做成摘要,并按一定的方法组织排列起来的检索工具。,索引型检索

12、工具,索引型检索工具是根据一定的需要,把特定范围内的某些重要文献中的有关款目或知识单元,如书名、刊名、人名、地名、语词等,按照一定的方法编排,并指明出处,为用户提供文献线索的一种检索工具。 在检索工具中,常用的索引类型有分类索引、主题索引、关键词索引、著者索引。,3、检索系统的评价 检索系统的质量影响着检索系统的使用效果,根据检索课题选择检索系统时需要考虑检索系统的质量。 一般从下述几个角度对检索系统进行评价。,3.1检索效率 检索效率是指检索过程和检索结果具有便、快、全、准、省等特点,即用检索方便性、检索速度、查全率、查准率、检索成本与效益等指标来衡量。,3.2收录全面性 检索系统的全面性是

13、指它收录的文献信息是否全面。一般用三个指标来衡量。 覆盖面:指检索系统收录范围所覆盖的学科面和出版物类型及数量。 摘储率:是指检索系统收录的文献信息数量与其覆盖面内全部文献信息数量的比率。 报导数:是指一定时间内报导文献信息的数量,如文摘或题录的条数、全文篇数等。,3.3报导及时性 检索系统的及时性是指它报导新出现文献信息的速度,一般用“时差”来衡量。时差是指文献信息从其发表到检索系统提供给用户的这段时间间隔。在社会、经济、科技飞速发展,用户又希望及时获得新的文献信息的今天,检索系统报导的及时性显得非常重要。,第二节 信息存储与检索的发展,一、信息存储的发展,二、信息检索的发展,一、信息存储的

14、发展,1、早期书目检索工具的编制 信息检索活动是以信息检索工具为依托的。信息检索工具是信息资源生产者和用户之间的中介。公元前26年,我国第一部综合性书目检索工具七略问世,这也是世界上第一部印刷型的书目检索工具。此后,我国先后编制了七志、七录、中经新簿、四库全书总目等著名的书目检索工具,为人们查询图书、了解图书流传情况提供了极大方便。,英语“书目”(bibliography)一词是由希腊文 “biblion”(书)和“graphein”(抄写)两个单词融合而成的,其含义是“图书的抄写”(the writing of books)。其词义后来演变成“关于图书的描述”(writing about b

15、ooks)。 希腊学者加伦(Galen,129-199)在公元2世纪就编纂了一些专科书目。,8世纪盎格鲁撤克逊学者比德(Bede,673-735)的著作宗教史(Ecclesiastical history)也附有书目。 中世纪印刷术的传播和出版业的兴盛,书目编制工作也随之得到迅速发展,不但书目类型增多,在编制方法上也有一些创新。,1545年格斯纳(Konrad Gesner, 1516-1565)编制了万国书目:拉丁文、希腊文和西伯莱文全部书籍的目录(Bibliotheca universalis),几乎包括当时全部已故和在世的拉丁语、希腊语、希伯来语作家的著作共15000种,占当时欧洲出版物

16、的2025%,这个数字在当时欧洲交通不发达、藏书分散、学术交流相对困难的时代,是十分难能可贵的。格斯纳因此被称为“书目之父”,17世纪许多学者都尝试着编制能反映各国出版物的“万国书目”,这一努力一直持续到20世纪。虽然最终没有出现真正意义上的“万国书目”,却促进了各国国家书目的诞生,在收录范围、分类方法、检索途径、所提供的书目信息以及编目技术等方面都有较大的发展。,随着科学技术的发展,教育的普及以及图书贸易的兴起,书目的功能从单纯记录图书发展到推广和宣传新版图书,于是营业书目的数量大大增加,其种类、载体形式趋于多样化,定期报道和评价新书的书评刊物也出现了。,2、检索刊物体系的形成 随着大众传播

17、时代的来临,期刊的出现,出现了以文摘和题录为主的检索刊物。,国外检索刊物出现于19世纪末,但形成较完整体系并被大量使用则在二战以后。 经过一百多年的发展,目前我们经常使用的国外检索刊物有几十种,其中除了俄罗斯、日本有全国统一编写的大型检索刊物以外,其它大多数为专门的出版公司、学术团体编辑出版。,根据报道内容的深度、专业范围、文献类型、使用的检索语言,可以将常用的国外检索刊物作如下的划分和情况总结:,按照报道内容的深度划分 国外检索刊物文摘型的多于题录型的。文摘型的检索刊物,具有报道内容详细、检索途径多、使用方便等特点,如化学文摘、科学文摘等。而题录型检索刊物以出版快、索引多采用关键词索引、使用

18、方便等特点,如科学引文索引等。,按照报道内容的专业划分 国外检索刊物专业性的多于综合性的。专业性的检索刊物除常用的化学文摘、医学文摘等以外,多数刊物因为报道范围的限制,文献量少而较少被国内使用。综合性的检索刊物,因为历史悠久、报道内容质量高、检索途径多、使用更为普遍。,按照报道文献类型划分 多数检索刊物对期刊论文、图书、会议文献、学位论文、科技报告、技术标准等作全面报道,如工程索引、科学文摘等;少数检索刊物专门报道单种文献类型,使用方法比较特殊,如世界专利索引、科技会议录索引等。,按照检索语言划分 大多数检索刊物的正文部分按刊物自编的分类体系编排,一般都附有主题索引、著者索引。大型的综合性或专

19、业性检索刊物的主题索引通常采用叙词语言,如工程索引、科学文摘等;题录型检索刊物的主题索引通常采用关键词语言,如科学引文索引、生物学文摘等。大多数检索刊物都提供多种检索途径,以满足读者多方面的需求。,1934年,中国化学学会会刊上开辟一个“中国化学摘要”的栏目,开启了我国文摘型检索工具的先河。国内文献检索刊物创办于1958年,经过几十年的发展,目前拥有100余种检索刊物,已形成了具有自己特色较为完整的体系。,大型、综合性的检索刊物全国报刊索引(哲社版、科技版)、复印报刊资料系列内容丰富、出版形式多样、具有权威性受到广泛欢迎,在国内外学术界具有很大影响。,3、数据库的建设 中国数据库建设取得了很大

20、成绩,尤其是20世纪90年代中后期,各类文献数据库、事实型和数值型数据库的比例不断增大,图像数据库日益受到重视,全文数据库、多媒体数据库有了很大的发展。数据库内容也由科技领域为主向经济和社会领域转变。数据库的容量明显扩大。数据库的分布由以国务院各部门为主向全社会扩展。在实际应用方面呈现如下特点: 一是数据库的应用领域不断扩大 二是国产数据库逐渐进入国际市场,近年来,随着光学技术、网络技术与计算机硬件、软件技术的发展,中国在多媒体数据库、全文数据库、超文本数据库、网络数据库等数据库技术开发和应用推广方面取得了相当大的进步,数据库作为信息资源的一种存在形式已经具有了一定的基础,在社会信息资源的构成

21、中占据了相当重要的位置。并且数据库开发的深入,推动了信息网络的建设,促进了数据库与信息网络的结合。,二、信息检索的发展,早期的信息检索,人们主要根据文献的内、外表特征,用手工方式实现。 任何事物的产生都是由社会的需求来决定的,当信息增多到信息用户无法浏览每一篇文章时,便产生了检索刊物;信息时代的到来,信息数量和更新频率的不断增加,使信息用户难以在浩瀚的文献海洋中迅速找到适合自己的文献时,便产生了计算机信息检索。,以计算机技术为核心的信息技术,使信息处理与信息检索进入了一个新时期。从电脑处理数字信息发展到处理字符信息,到处理静、动态图像信息、声音信息等。这一过程不仅拓展了检索的领域,丰富了检索的

22、内容,提高了检索的速度。,由于计算机检索具有速度快、效率高,数据内容新、范围广、数量大,操作简便,检索时不受国家和地理位置的限制等特点,已成为人们获取信息的主要手段。,计算机信息检索与手工检索,其基本原理是一样的,只不过是计算机信息检索采用现代化的设备(计算机)和通信技术,以数字化资源(数据库)作为检索对象来进行信息检索。,计算机检索是在计算机技术和通信技术发展的基础上建立起来的。它产生于20世纪50年代,发展于80年代中期,90年代后随着国际互联网技术的发展而进入了一个崭新的时期。 回顾计算机信息检索的发展历程,大致可以概括为脱机批处理检索、联机检索、光盘检索、网络化联机检索四个阶段。,1、

23、脱机检索(1954-1964)。传统意义是指系统根据用户需求在机读磁带上顺序扫描寻找匹配的文献,常常是分批处理用户提问,又称批式检索。 1954年美国海军军械中心应用第一代电子管式计算机,建立了世界上第一套计算机情报检索系统。1958年美国国立图书馆首先将美国人卢恩研究成的计算机自动标引技术,应用于编制最新医学文献目录。,1961年该图书馆研制了影响颇大的医学文献分析与检索系统,即MEDLINES,编制机读磁带,并于1963年提供检索服务。机读磁带形式文献数据库的发展,为开发联机情报检索创造了条件。 这一时期的计算机检索系统的特点,是属于脱机组处理系统,用磁带作为存储介质,并且一般都是连续检索

24、。系统主要提供过期文献的回溯检索服务,也可以提供新文献的定题服务。,在网络通信迅速发展的今天,脱机(off-line)检索又常常被称为离线检索,作为在线(on-line)检索或联机检索的补充,如光盘检索就是一种典型的脱机检索,它使80年代后期濒于消失的传统的脱机检索又有了新的生命。,2、联机检索(1965),检索终端通过通信线路与系统的主机连接,在中央处理机控制下查询系统的几十个甚至上百个数据库,并能够与系统实时对话,随时调整检索策略。(详见第七章),在脱机组处理式信息检索过程中,用户的信息需求不能即时得到回答,也不能通过检索结果的反馈随时修改检索提问式,因此这种检索存在着很大的不便。,196

25、5年洛克希德导弹与空间公司为美国航空航天局设计了可以检索20万篇NASA文献的第一个对话式联机情报检索软件RECON。洛克希德公司利用同一软件与1972年建立提供商业服务的DIALOG联机对话检索系统。用户通过办公室的终端即可访问计算机内的数据库。1972年美国系统发展公司(SDC)研制的联机检索系统ORBIT提供商业检索服务。欧洲航空航天局引进RECON软件于1969年建立了ESAIRS联机检索。,总之在机读文献数据库发展的基础上,计算机硬件和软件的进展,推动联机情报检索在70年代进入广泛的实用阶段。,3、网络信息检索,通过网络接口软件,用户可在任一终端查询各地上网的信息资源。网络检索也是一

26、种广义的联机检索,如使用远程登录(Telnet)通过Internet连接用户所指定的远程计算机,共享该主机上的资源,这个过程也称为联机,但后者更适宜用连网或网络检索这一概念。(详见第八、九、十章),网络化联机检索,在联机检索系统中,计算机与用户终端之间的通信最初是通过公共电报、电话线路进行的。但是因这些通信线路工作繁忙、价格昂贵,远程联机信息检索和信息资源共享仍受到地域的限制。直到70年代,随着计算机通信网络的发展,建立了专用数据库传输网后,情报检索逐渐发展成为网络化检索系统。国际卫星通信技术的应用,使联机走向世界,达到国际联机信息检索的新阶段。,1970年和1975年两个美国通信卫星TYMN

27、ET和TELNET先后投入商用。他们对联机信息检索服务产生了极大的影响。1972年美国MEDLINE系统率先进人TYMNET网,然后又进入TELNET网。随后DIALOG和ORBIT系统也都进入上述网络。这些网络逐渐延伸到加拿大、欧洲和中国,使信息检索成为一种国际性业务,在世界范围内实现了信息资源共享。在欧洲,从1980年2月起欧洲共同体的EURONET网开始服务。目前联机信息检索正通过电话网深入到家庭之中。,从1995年起全球进入了真正的Internet时代。信息服务机构、科研机构以及一些大的数据库生产商纷纷加入到Internet上,为信息需求者提供各种各样的信息服务。 Internet为获

28、取文献信息提供了前所未有的方便,它彻底打破了信息检索的局域性和局限性,用户足不出户就可以获取文献,而且信息形式图文并茂。,第三节 信息存储与检索语言,一、检索语言基础,二、检索语言分类及其应用,一、检索语言基础,1、检索语言含义 2、检索语言的基本要求 3、检索语言的作用 4、检索语言与检索效率,1、检索语言的含义,信息存储与检索语言(简称检索语言),检索语言是应文献信息的加工、存储和检索的共同需要而编制的专门语言,是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。,从不同角度检索语言又被称为情报语言、情报存储与检索语言、文献语言、标引语言等等。 简言之,检索语言

29、是用来描述信息源特征和进行检索的人工语言,可分为规范化语言(用词表来规范)和非规范化语言(自然语言)两类。,目前世界上有一千多种检索语言。例如中国图书馆图书分类法、汉语主题词表、国际十进分类法、杜威十进分类法、NASA叙词表等,都是检索语言的一个语种。有数千万计的信息机构和检索刊物的工作人员和读者正在使用着这类语言。,2、检索语言的基本要求,表达性 简洁性 经济性 动态性 对于规范化语言的唯一性 对于非规范化语言,用自然语言也可作为检索语言,但唯一性比较差,用于计算机检索还可以,因为运行速度非常快。,3、检索语言的作用,检索语言在信息检索中起着极其重要的作用,是检索系统的重要组成部分,是信息存

30、储人员和检索人员都要使用的语言工具,是沟通信息存储与信息检索两个过程的桥梁 1)标引文献信息内容及其外表特征,保证不同标引人员表征文献的一致性。,2)对内容相同及相关的文献信息加以集中或揭示其相关性。 3)使文献信息的存储集中化、系统化、组织化,便于检索者按照一定的排列次序进行有序化检索。,4)便于将标引用语和检索用语进行相符性比较,保证不同检索人员表述相同文献内容的一致性,以及检索人员与标引人员对相同文献内容表述的一致性 5)保证检索者按不同需要检索文献时,都能获得最高的查全率和查准率。,4、检索语言与检索效率,检索语言与检索效率有着密切的关系,它在信息检索过程中起着十分重要的作用。如前所述

31、,检索语言起着沟通信息的存储和检索两个过程的桥梁作用。,当存储信息时,文献标引人员首先要对各种文献进行主题分析,即把它所包含的信息内容分析出来,使之形成若干能代表文献主题的概念,并用检索语言的语词(标识)把这些概念标示出来,然后纳入检索工具或检索系统。,当检索信息时,信息检索人员也首先对检索课题进行主题分析,即把它所涉及的检索范围明确起来,使之形成若干能代表信息需要的概念,并把这些概念转换成检索语言的语词(标识),然后从检索工具或检索系统中查找正是用该语词标引的文献,从而找到包含有所需信息的文献。,由此可见,检索语言是信息存储和检索系统的重要组成部分,在检索系统中起着语言保证作用,直接关系着检

32、索效率。如果没有检索语言作为标引人员和检索人员的共同语言,就很难使标引人员对文献信息内容的表达(标引用语)和检索人员对相同内容的信息需要的表达(检索用语)取得一致,信息检索也就不可能顺利实现,甚至根本不能实现。,二、检索语言的分类,按照不同的标准,检索语言可以被分为不同的种类。各种检索语言的基本原理是一致的。但是,它们在表达各种概念及其相互关系和在解决对它们提出的那些基本要求时所采用的方法不同,因而形成了不同的类型和语种。,检索语言的类型,目前代表性的分类,按规范方式分为规范检索语言和自然语言。 按操作方式分为人工语言和机器检索语言。 按表现方式分为专有型、代码型和语词型。 按受控方式分为前控

33、检索语言和后控检索语言,或完全控制检索语言和部分控制检索语言。 按检索对象分为网络检索语言、档案检索语言等。,按照构成原理分为分类检索语言、主题检索语言、代码检索语言。 分类检索语言(分类法),用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列。分类检索语言包括等级体系型分类检索语言(体系分类法)和分析一综合型分类检索语言(组配分类法)。,主题检索语言(主题法),用语词来表达各种概念,将各种概念不管其相互关系完全按字顺排列。主题检索语言包括标题词型检索语言(标题法)、叙词型主题检索语言(叙词法)和关键词型主题检索语言(关键词法)等。,主题语言的类型,标题词语言最早使用的一种主题语言

34、。它以规范化的自然语义作为标识,来表达文献涉及的主题概念,并将全部标识按字母顺序排列。表达主题的词语称为标题词。 单元词语言是从文献内容中抽选出来的最基本的词汇,将代表最一般、最基本的、不可再分割的概念单元的词作为单独标引文献的单位。,叙词语言从自然语言中优选出来并经过规范化处理的名词术语。叙词语言是采用表示单元概念的规范化语词的组配来对文献内容主题进行描述的检索语言,也是目前使用最广泛的主题语言。 关键词语言直接从文献题名、文摘或正文中抽取出来的未经规范化处理的词。是一种用自然语言做标识的检索语言。,代码检索语言,一般只就事物的某一方面特征,用某种代码系统加以标引和排列。例如,依据化合物的分

35、子式这种代码语言可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及相关文献信息。,分类语言、叙词语言和关键词语言是常用的检索语言。,三、分类法,分类法是一种先组式检索语言,即按一种预先行为构造的规范模式直线序列展示类目之间的分层等级关系。 它作为检索语言能较好体现概念的族性关系的一面。,分类法在揭示和组织文献过程中的线形序列可以采用以下方法: 根系法() 关系法 缩行法() 字形法 字号法 参照符号,1、分类法的优缺点,优点: 1)体现学科的系统性,反映事物的派生、隶属与平行的关系 2)从学科专业的角度检索资料,比较方便,便于族性检索,尤其适合于鸟瞰本学科的全貌 3)扩大、缩小检

36、索范围方便 4)简单明了,缺点: 1)特性检索功能较差,从主题的角度要检查某一特定主题内容的文献不容易查全 2)更新、修改不方便 3)边缘学科、交叉学科的出现,用直线序列的分类法难以反映多元性的知识空间 4)不能使文献得到多方面的标引 5)不适合于专指度高的即狭窄主题的文献检索,例如学科体系分类 根据科学学科之间的逻辑归属关系,采用层次型或树杈型结构,列举人类所有的知识类别,并对每一知识分别标以相对固定的类码,从而形成类表。,学科体系分类分类表通常指一种从总到分、从一般到具体、层层划分、逐级展开并具有某种符号代码体系的知识体系表。,学科体系分类是以数字、字母或字母与数字结合作为基本字符,采用字

37、符直接连接并以圆点(或其它符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念。,O 数理科学与化学 O1 数学 O11 古典数学 . O15 代数、数论、组合理论 151 代数方程式论、线性代数 151.1 代数方程式论、 151.2 线性代数 再如: 英国科学文摘的分类 6000 COMMUNICATION 6100 INFORMATION AND COMMUNICATION THEORY 6110 Information theory 6120 Modulation methods 6120B codes,Dewey Decimal Classificatio

38、n(DDC),第一级类目是10大类 000总论 100哲学 200宗教 300社会科学 400语言学 500 自然科学 600技术科学 700美术 800文学 900史地,中国图书馆图书分类法(第四版),简称中图法,是我国信息机构和数据库开发商普遍使用的一部综合性的分类法。,A 马克思主义、列宁主义、毛泽东思想、邓小平理论 B 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交

39、通运输 V 航空、航天 X 环境科学、安全科学 Z 综合性图书,中国图书馆图书分类法的基本大类:,2、分类语言的应用,1)分类编排手工检索工具的正文(主体)部分。 分类目录:我国文献信息机构用于从内容角度提示所藏书刊的目录。不管所藏文献是印刷型,还是数字型,均习惯以分类目录为主。依照分类号或书次号来排列文献著录款目就形成了分类目录。 检索工具正文的分类编排:大多数文摘型或题录型检索工具的正文(文摘、题录)部分是按分类编排的。大多数检索工具用来编排正文的分类体系和类号都较为简单。,2)检索工具中的分类索引 由于大多数检索工具的正文已按分类编排,因此,检索工具的辅助索引中,提供分类索引的不多。但是

40、在专利文献的检索工具中,用特定专利分类法(如国际专利分类法)编制的专利分类索引是一个重要部分。例如美国生物学文摘的“生物分类索引”和“类属索引”,就是按生物分类体系编制的。,3)计算机检索数据库的分类号字段 在一部分供计算机检索的数据库记录中设有分类号字段,提供分类途径检索。,3、类目学的研究,文献分类体系是以科学分类体系为基础,然后再结合文献本身的特征,以逻辑划分与概括为基本方法构建而成。因而采用何种科学分类体系对文献分类体系的构建至关重要。 科学分类与分类检索语言的关系探讨一直是信息检索领域的研究重点。,科学分类,即知识分类,是科学学研究的主要内容。 我国著名科学家钱学森用系统观点分析知识

41、现象,断定人类知识的总体系统,由四部分组成:不成文的实际感受、实验经验知识库、各门科学技术和哲学。,科学技术子系统只是人类知识总系统的小部分,大部分属于前两种,统称为前科学知识。 这些子系统之间密切相关,社会实践不断产生前科学,前科学在发展中不断上升为科学技术,科学技术的更高概括产生了哲学。,钱学森将现代科学技术体系归纳为3个层次、10大部分、10个桥梁、1个核心,形成了一个严密的科学技术体系。 1个核心:马克思主义(辨证唯物主义)-人 认识和改造世界的思维。 10个桥梁:自然辨证法、唯物史观、数学哲学等,4、网络分类体系的研究,网络分类体系对分类法的贡献 分类搜索引擎相关问题,搜索引擎网络信

42、息分类特点,分类表、用户界面、后台系统三位一体 面向各自的信息 一个分类体系为主,多个分类体系辅助配合 较高的动态性,以适应网络信息的变化 突破传统的逻辑分类,建立立体结构 知识分类和主题分类结合,按信息内容列类和信息形式列类结合 分类表语词的通用性 类目和信息排序 以用户需求为中心,注重实用性和易用性,搜索引擎分类法的贡献,分类搜索引擎建立了一种以主题对象为中心的实用分类体系 分类搜索引擎探索和发展了电子环境下分类体系组织的一系列新的处理方法 网络分类法的编制使得人们对分类法编制原理和影响要素有了更充分的了解,传统分类法基本上以学科为中心建立的,这种方式符合人们的知识结构 综合性分类搜索引擎

43、多数以主题对象为中心的组织方式,按事物对象和学科分别设置类目,可以集中一个主题对象的有关信息资源,必要时以事物为中心揭示两者之间的关系。对事物对象的揭示形象直观,符合普通用户按对象或问题检索的习惯。,在类目体系纵向展开上,采用多维划分和多元展开的形式 在横向关系的揭示上,通过重复反映的方式,充分揭示相关主题,包括多属性主题和相关主题 探索了超文本链接在分类检索系统中的灵活使用形式 发展了适合计算机环境展示的类目显示形式,形成了适合用户使用的一种新的展示形式,网络信息分类体系的问题,多种体系不统一 类目排列的系统性和逻辑性比较差,类列的完整性被忽视 缺少分类和主题结合的搜索功能 对网页信息的组织

44、能力低,雅虎分为18个大类,再下分二三四级类目.子类目总数达到目5万多个。,传统分类法对网络信息分类的适应性,处理的对象、内容不同:成熟、系统化、稳定的知识;动态、零散、非正式信息 服务对象不同:稳定有一定层次的用户群;面向一切网络用户 信息处理目的和使用手段的不完全相同:对物理型文献进行有效管理,建立严密的检索系统满足精确检索需求;浏览式的网络分类系统与网络文献无关,组织的是网络上的各知识、信息节点,是一个实用、粗略的检索系统,难以进行分类的精确检索,中图法搜索引擎版的研制,研制背景:搜索引擎分类体系百花齐放,传统的文献分类法无法满足网络信息组织的需求。,中图法搜索引擎版设计的理念、思路及实

45、现途径,总体目标:建立一个多功能的信息分类体系,满足互联网上各类信息分类组织的需要,包括数字图书馆以及各种文献信息数据库对建立精确检索系统的需要; 满足互联网各类公共信息分类导航系统的需要(网站和网页的分类); 满足电子政务和电子商务中信息分类的需要,四、主题语言 主题语言是以语词作为概念标识,按字顺编排的检索语言。,以主题词来描述和表达信息内容,主题词是表征文献主题内容特征的名词术语或词组、短语,用以标识文献。 一般按照主题词的字母顺序进行排列,主题法与以学科概念体系为中心的分类法不同,是以揭示事物对象及其特征为出发点的。 主题法的词语是以规范化为基础的,如同义词的优选、近义词的合并、多义词

46、的注释、反义词的联系等就是一系列的规范化措施。,常用的主题语言有关键词语言、叙词语言 1)关键词语言:是一 种自然语言。关键词是出现在文献标题、文摘、正文中,对表征文献主题内容具有实质意义的语词。分为简单关键词、词对式关键词、带上下文的关键词等 2)叙词语言:是一种人工语言 。经过规范化和优选处理的语言。被选叙词具有概念性、描述性、组配性及语义的关联性、动态性、直观性。,1、主题法的优点,1)直接、直观。直接利用反映主题内容的词进行检索 例:轴承 可直接用其检索。如果用分类语言,则应考虑“轴承”属于“机械”大类下的“机械零件”小类,再下属的“旋转机械零件”小小类,2)准确、灵活。是建立在文字基

47、础上的,不像分类号是个代码;最新的学科也能表达出来;专指度高,可以减少漏查 例:激光焊接视网膜,3)更新容易,随着新学科的产生,可以很容易地添加新词或减少新词,4)特性检索能力较分类语言强,专指度高,可以提高查准率。所有该主题词有关的内容都集中在该主题词下,适合特定的课题检索 例:橡胶 如果用分类它属于化学物质中的聚合物类,同时还属于电工材料类,要两个类都查才能查全有关橡胶的文献。 如果用主题语言则直接用其检索即可,5)有一定的族性检索能力,用倒置标题、参见等方法来克服因字顺序列而造成的内容分散问题 主题法的缺点 族性检索能力不如分类语言,浏览一个学科的文献不如用分类。,2、叙词语言、关键词语

48、言的应用,文献信息机构的图书主题目录。 用于编排检索工具的正文。这种使用方式不多见,但工程索引(Ei)正文编排是使用这种方式的典型。 用于编制检索工具的辅助主题索引、关键词索引。,在计算机检索的数据库记录中构成主题、关键词字段,提供主要检索途径。此时,每个叙词都可以成为检索入口;表达同一主题的不同叙词之间可以响应这些叙词的不同组配方案的检索课题。这是越来越普遍的使用方式。 总之,叙词语言、关键词语言既适用于手工检索系统,又适用于计算机检索系统,是目前检索效率较高的检索语言。,3、自然语言在信息检索中的应用,关键词法 文本检索 单汉字检索 自动赋检索词或分类号 自动聚类法 自由标引,信息检索研究

49、的核心问题,信息检索作为一个学科的历史可以追溯到20世纪中期,其代表人物如Granfield所确立的标引语言及系统评价方案;Salton提出的矢量空间模型(用于测定文本与检索式之间类似度的余弦公式)与文献聚类技术;Roberson及Van Rijisbergen、Sparck Jones等人研制的概率模型;Sparck Jones及Smeaton关于计算机语言学上的检索技术开发等。这些研究与实验对信息检索领域的研究对象、原则和方法都产生过重要影响。,尽管其研究成果和设计思想基本上是在一个模拟信息检索作业的人工或虚拟环境中进行的,甚至在一定程度上还常带有物理学、机械工程、程序化和假说性,但其研究成果却奠定了文献检索基于“提问检索”模式为核心的相关理论与方法基础。 规范化检索语言、线性的书目数据库结构、预定的检索策略、以检索提问为

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1