信息检索 第二章检索语言.doc

上传人:PIYPING 文档编号:11559328 上传时间:2021-08-23 格式:DOC 页数:9 大小:74KB
返回 下载 相关 举报
信息检索 第二章检索语言.doc_第1页
第1页 / 共9页
信息检索 第二章检索语言.doc_第2页
第2页 / 共9页
信息检索 第二章检索语言.doc_第3页
第3页 / 共9页
信息检索 第二章检索语言.doc_第4页
第4页 / 共9页
信息检索 第二章检索语言.doc_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《信息检索 第二章检索语言.doc》由会员分享,可在线阅读,更多相关《信息检索 第二章检索语言.doc(9页珍藏版)》请在三一文库上搜索。

1、23分类检索语言分类检索语言:又称分类法,是将许多类目根据一定的原则组织起来,通过标记符号(分类号)来代表各级类目和固定器先后顺序的分类体系。体系分类法:基于概念的划分与概括,以学科分类为基础,把概括文献内容与事实的各种类目组成一个层层隶属、详细列举的等级结构体系。组配分类法:基于概念的可分析性和可综合性,将一个复杂的文献主题概念用若干个表达简单概念的标识组配来表达的一种文献分类法。一、体系分类法(一)结构 分为微观结构和宏观结构。微观结构指分类法中类目的构成结构。按照类目之间关系建立起来的类目集合称为类目体系。类目体系的建立涉及到。1、类目的划分 是把一个类目分成若干小类,从而揭示类目外延的

2、逻辑方法。类目划分的标准有分类标准、内容标准、形式标准。类目划分的过程通常是由大到小、由属到种、有整体到部分、由总论到各论、有全面到各方面。2、引用次序 在体系分类法中表现为分类标准的使用次序。合理的引用次序应满足逻辑性原则、符合检所需要原则、表达性原则。3、类目的排列 直接影响到分类法的质量应体现出系统性、整体性、等级性、逻辑性、连续性、一致性。4、类名的确定 类名的作用是表达类目含义应坚持科学性、确切性、简洁性。5、类目之间相关关系的处理 分类法是依赖于类目之间的相关关系建立起来的。类目之间的基本关系有从属关系(类目体系中母类与子类的关系,构成分类法类目的纵向排列)、并列关系(在分类法中体

3、现为同位类)、交替关系(使用类目和交替类目之间的关系)、相关关系(在分类法中体现为相关类目)。宏观结构是按功能分体系分类法的结构。有以下四部分组成。1、类目体系 按照类目之间关系建立起来的类目集合。由主表和复分表组成。主表是由基本部类、基本大类、简表、详表逐级展开而成的类目表。复分表是供主表有关类目进一步细分用的类目表,有通用复分表和专用复分表两种。2、标记系统 是分类语言所有标记符号的集合。分类语言的标记符号即分类号,有单纯式号码和混合式号码两种。标记制度是由标记符号构成分类标记的基本方法,可分为顺序制、层累制、混合制、分面标记制。为了增强标记符号的容纳性、表达性、简明性,采用了一些特殊的标

4、记方法,有八分法、双位法、借号法、组配法、空号法。顺序制:对全部类目不分等级给予顺序号码的编号方法。优点:号码简短明了、便于排检、容纳性强。缺点:表达性、助记性差。层累制:一种分类号位数与类目等级相对应的标记制度。优点:表达性、助记性强,便于扩检和缩检,便于文献排架和目录组织。缺点:简短性差。混合制:将顺序制与层累制结合起来使用的一种标记制度。分面标记制:一种显示类目组配结构的标记制度。优点:表达性、灵活性强。缺点:号码成分复杂,冗长难记,标记的排序能力差。八分法:用1-8来标记同位类,当同位类超过8个时,不用9,而用91、9298来标记。是解决同位类超过10个时的一种方法。双位法:当同位类超

5、过18个时,直接用双位数表示一次划分。是解决号码扩充问题。借号法:灵活借用上位类或下位类号码的配号方法。被借的号码常是8或9。组配法:将两个表示简单概念的类号用组配符号组合成一个符合类号。用来表示分类表中没有列出的复杂概念。空号法:为了适应新类目的增加而采用的一种预留一定数量空号码的编号方法。空号也有可能是原有类目被删除或调整而出现的。3、说明与注释 是对分类表结构及使用方法的揭示,主要包括编制说明、大类说明、类目注释。4、类目索引 从类目名称子顺查找相应分类号的类表辅助工具。分为直接索引、相关索引、主题分类对照索引。(二)特点优点:1、按学科专业属性构建类目体系,形成按学科专业集中文献的知识

6、概念系统,直接满足用户从学科专业出发检索课题的需求,查全率较高。2、采用等级列举式的概念标识系统来揭示概念之间的相互关系,便于用户“触类旁通”“层层深入”的查找学科专业的信息;便于用户通过一定类目下的浏览查到相关领域的信息。3、采用分类号作为主题标识,不受语种限制。缺点:1、 修订不便,无法及时增加反映新知识主题的类目。2、分类表不可能永无止境的细分下去,遇到主题狭窄的文献,难以找到相应的类目和分类号。3、体系分类法采用先组定组式标识,难以进行组配检索,检索途径单一,检索效率不高。4、采用分类号作为主题标识,缺乏直观性。5、按学科专业属性集中文献信息以及线性的分类体系,难以反映客观实际中多维的

7、知识空间结构。(三)主要体系分类法介绍中国图书馆分类法其标记制度采用阿拉伯数字与拉丁字母相结合的混合号码制。基本上遵循层累制。杜威十进分类法依据培根的知识分类思想,被称为倒转培根法。采用纯阿拉伯数字作为标记符号,基本上遵循层累制。二、组配分类法(一)组配分类表组配分类表是由编制说明、基本类表、分面类表和分面公式以及通用辅表组成,它的建立主要采用了分面分析法。分面分析法是将整个知识领域或某一知识领域按其不同属性分解为若干个分面,每个分面再分解为若干个亚面,每个亚面再分为更小的子面,面内列出所属各子目的一种编制分类表的方法。在组配分类表的编制过程中,需要考虑到分面的引用次序与排列次序,标记符号与标

8、记制度等方面的问题。1、分面的引用次序与排列次序 分面的引用次序:组配表达主题概念时,各分面被引用的先后次序,即各分面中有关类目的组配次序。分面的排列次序:组配分类表中各分面以及分面内各类目的排列先后顺序。2、标记符号与标记制度 分面标记制:用分面符号把类目分成若干段,使每一段的号码代表主题的一个方面,以实现类目组配结构的一种标记制度。回归标记制:将分类表中位于前面的分面类目号码直接加在位于后面的分面类目号码之后,组配表达复杂主题概念的标记制度。(二)特点优点:1、通过简单主题概念的组配,一方面可简化分类表,缩小类表体积;另一方面能表达各种复杂主题概念和专深主题概念;并且能够揭示主题概念之间的

9、相互关系。2、可以对信息所表达的主题概念进行多方面标引,实现多途径检索。3、可以较为及时的增补新的主题概念,类表修订灵活方便。缺点:1、类目体系不如分类法直观。2、标引和检索有一定难度,使用不太方便,非专业人员使用难度较大。3、不适合图书馆、资料室组织文献分类排架。(三)主要组配分类法介绍最早提出分面组配思想的是比利时的奥特莱。系统的分面分配理论是由印度图书馆学家阮冈纳赞提出,在其专著图书分类导论中有系统阐述。冒号分类法是阮冈纳赞编制的一部分面分类法。提出了五个基本范畴的理论,依次为:本体、物质、动力、空间、时间。创立了分面标记制度,广泛采用八分法、双位法。冒号分类法的优点:标记表达性强。类表

10、简练、容纳性强、适应性好。易于揭示复杂主题。对今天的知识组织产生了一定的影响。缺点:类目体系不够直观标记符号种类繁杂、规则繁多使用起来比较复杂。虽然在理论上对分类语言的发展做出了巨大贡献,但在实践中没有得到广泛应用。2.4主题检索语言主题检索语言:又称主体法,采用语词直接作为文献主题标识,按字顺排列主题标识,提供各种检索词语的途径。从描述事物特性角度出发,按文献所论述的事物(即主题)集中文献,用规范化的名词术语标引和表达文献主题概念,用参照系统显示事物概念主题词之间的关系。主题检索语言与分类检索语言的相同点:表现文献内容特征的检索语言描述和揭示的对象是各种各样的文献都是建立在概念逻辑、知识分类

11、、术语学基础之上。一、 类型:标题词语言、单元词语言、叙词语言、关键词语言二、 特点:主体法是直接使用语词标识的检索语言,能较好的按事物集中文献,便于从事物出发检索文献。优点:1、专指性高:主题语言以规范化的名词术语为基础,着眼于事物及事物的各个方面。任何一个语词标识都能表达一个或大或小,不受学科影响,基本上是独立完整的事物概念。2、直观性好:直接采用主题词做标识,可直呼其名,依名查检,易读易记易理解主题标识按字顺排列,更突显了其直接优点。3、灵活性强:主题语言根据需要对主题词进行灵活组配,特别适合计算机的逻辑检索功能。主题语言对于从事物出发的比较狭小的检索提问,以及关于新学科新事物新概念的检

12、索提问,检索效果特别好。缺点:由于按字顺排列,同一学科的文献易被分散在别处,族性检索不及分类检索语言。三、标题词语言标题词:从自然语言中选取的,未经规范化处理的,表示事物概念的词、词组、短语。标题词语言:一种先组定组式语言,选择标题词作为文献内容的标识和检索依据,具体表现为标题词表的利用,标题词按字顺排列,词间关系用参照系统显示。优点:词表直接用事物名称列举出表达事物的主题,直观性强采用先组定组式方法,词表中标题结构固定,含义明确用参照系统显示主题之间的关系。缺点:采用先组定组式方法,标题词表检索途径单一,无法实现多途径检索词表一般收词量大并且专指度相对不足,修订量大。标题词一般分为主标题和副

13、标题两级,通过其固定组配来构成检索标识,所反映的主题概念有限,无法实现多途径多因素检索。目前已较少使用。典型的标题词表有工程标题词表。四、单元词语言单元词:又称元词,从自然语言中选取,经过规范化处理,表达主题概念最小的最基本的字面上不能再分的名词术语。单元词语言:是一种后组式语言,选择单元词作为文献标识与检索的依据,在标引时不组配单元词,在检索时才对单元词下的文献号进行组配。优点:通过单元词的组配可表达大量专指概念和新概念,适应性强不存在词序问题,每一个单元词都可作为检索入口;通过对单元词的增减,可自由扩大缩小改变检索范围词表体积较小,编制修订工作量较小。缺点:单元词的字面分拆和字面组配容易造

14、成语义失真缺乏完善的参照系统,难以满足族性检索的需要直观性系统性较差。单元词语言目前已发展成叙词语言。五、关键词语言关键词语言:直接从原文的标题摘要全文中抽选出来,具有实质意义的,未经规范化处理的自然语言词汇,是信息存储和检索依据的一种检索语言。是适应目录索引编制过程自动化的需要而产生的。原理:运用关键词语言编制的关键词索引,其关键词按字顺排列构成索引款目,所抽选的关键词都可以作为标引词在索引中进行轮排,作为检索入口词进行检索。优点:直观性强。直接采用自然语言进行标引和检索,直观性强符合普通用户的检索习惯检索途径多。关键词法采用轮排方式,可实现多途径检索标引简单。关键词法使用计算机直接抽词进行

15、标引,节省人力,对人员水平要求低表达事物概念直接准确,不受词表控制,能及时反映新事物新概念。缺点:不揭示关键词之间的等级关系和相关关系,容易导致漏检影响查全率难以进行族性检索关键词采用机械抽词和轮排,可能导致不少关键词款目失去检索作用而徒增篇幅。关键词语言只有与计算机相结合才能发挥其独特优势。并通过编制禁用词表和关键词表的方式,提高关键词抽取的准确性和对词间关系的控制,提高检索效率。类型:1、题内关键词索引:上下文关键词索引,以文献篇名中的关键词做索引款目的标目,以关键词的上下文做说明语。缺点:标引词仅仅来自篇名,数量有限来源不充分个别篇名不一定能真正反映文献内容2、题外关键词索引:关键词不局

16、限于从文献篇名中抽取,可根据需要从其他地方抽取;将关键词作为独立标目排在题目前头。3、词对式关键词索引:将篇名的关键词相互组配,从某一篇名所含的全部关键词中每次取两个作为一个索引款目的标目。六、叙词语言(一)原理叙词语言:以表示单元概念的规范化语词为基础,以概念组配为基本原理,对文献主题进行描述的后组式检索语言。叙词:一些以概念为基础的,经过规范化的,具有组配功能的并可以显示词间关系和动态性的词或词组。叙词的特点:直观性。叙词标识比较直观,按字顺排列序列明确。规范性。包括词形、词义、词类的规范。组配性。可灵活自由的组配在一起,表达各种复杂概念,适于计算机检索,在检索中科充分采用布尔逻辑检索法、

17、加权检索法。 叙词语言吸收了其他多种检索语言的原理与方法吸纳了体系分类法的基本原理,编制了叙词范畴索引和词族索引,反映主题词之间的等同关系、等级关系、相关关系吸纳了标题词语言对语词进行严格规范的方法,保证了词与概念的一一对应;采用并完善了标题词语言的参照系统吸纳了单元词的组配原理,采用组配分类语言的概念组配代替单元词的字面组配,并取代了单元词吸纳了关键词的轮排方法,编制了各种叙词索引。(二)叙词表的编制叙词表是叙词语言的核心体现。叙词表一般由一个主表和若干个附表构成。主表:叙词字顺表,将叙词完全按字顺排列,并有标注事项和参照系统。附表主要包括:叙词分类索引、词族索引、轮排索引、双语种对照索引、

18、专有叙词索引。叙词表编制过程中需要注意的问题:1、 主题词的选择与规范主题词:在叙词表中它是表达一定意义的最小词汇单元。包括普通主题词和专有主题词。主题词的选择要以所编叙词表所规定的专业或职能范围为依据要考虑文献检索的具体要求,以及被标引文献的数量和增长速度要考虑被选词的使用频率和检索意义基本词汇要完备而精炼,要注意选用词义明确,符合科学性和通用性的词作为主题词主题词的规范化处理词形规范:对自然语言中存在的同义不同形的词语的规范词义规范:对自然语言中多义词、同形异义词进行规范词类规范:对主题词选定范围进行控制先组度规范:对主题词先组程度的规范。叙词语言虽是后组式检索语言,但如果叙词表采用适当的

19、先组词,可提高标引的一致性,加快标引速度。2、 主题词之间关系的显示叙词表按主题词字顺排列,不能直接显示主题词之间的关系,为此,叙词语语言除采用词族索引,范畴索引,轮排索引外,最主要用参照系统。参照系统通过制定各种符号来揭示主题词间的语义关系。具体体现在:同义关系:等同关系,代用关系,两个或多个主题词所表示的概念相同或相近,并且可以互换的关系。用“用”“代”表示。属分关系:等级关系,专深度深浅不同的两个主题词之间的关系。用“属”“分”表示。相关关系:类缘关系,主题词之间除同义关系和属分关系外的某种比较密切的关系。用“参”表示。3、 主题词的组配叙词语言的组配吸收了组配分类法的分面组配原理,采用

20、了单元词法的后组方式,超越了单元词的字面组配,实现了概念组配。主题词的组配可分为:交叉组配:两个或两个以上具有交叉关系的同性质的主题词组合表示一个复合概念的组配限定组配:方面组配,将表示某一事物的主题词与表示事物某一方面某一性质的主题词所进行的组配。在概念组配中占大多数联结组配:表示两个概念之间的联系,其组配不形成新概念,只用于揭示概念之间的某种联系。(三)叙词语言的性能叙词语言继承和发展了体系分类语言、组配分类语言、标题词语言、单元词语言、关键词语言等多种检索语言的思想原理优点,成为当今互联网时代应用最广泛的人工检索语言之一。体系分类语言通过类目的层层划分所形成的等级结构、标记制度、编制说明

21、与注释来解释类目之间的相关关系,叙词语言参考了这一思想,建立了词族索引、范畴索引、参照系统来揭示主题词之间的相互关系继承了组配分类语言分面组配的思想,形成了概念组配思想借鉴了标题词语言的先组方式,将一些专称俗语专指作用很强的词组以先组词的方式直接收入叙词表中吸收了单元词语言用组配来表达主题概念的方法,但摒弃了单元词字面分拆和字面组配容易造成语义失真的缺点,形成了概念组配借鉴了关键词语言的轮排技术,通过编制轮排索引,加强叙词语言的族性检索功能,增加了检索途径。缺点:叙词表的编制工作难度较大标引复杂标引速度慢族性检索功能不够强使用人员需要较多的专业知识七、主要主题词表介绍美国国会图书馆主题词表、汉

22、语主题词表结构体系比较全面,由主表(字顺表)、附表、词族索引、范畴索引、英汉对照索引组成。2.5分类-主题一体化检索语言一、概述分类-主题一体化检索语言:又称分类-主题一体化词表,指在一个检索语言系统中,对它们的分类表部分和叙词表部分的术语、参照、标识、索引实施统一的控制,使两者有机地融合为一体,从而能够同时满足分类和主题标引检索的需要,发挥其最佳的整体效应。二、原理分类检索语言与主题检索语言的区别主要表现在形式、结构、应用不同等方面。分类检索语言:按学科专业集中文献信息,以分类号作为主题概念的标识,经过类目的层层划分与排列,形成等级式的学科及逻辑体系。主题检索语言:按事物来集中文献信息,以受

23、控的主题词直接作为主题概念标识,通过词族索引、范畴索引、参照系统来揭示主题词关系的字顺系统。一体化检索语言的原理是建立在两者相通的原理的基础上:两者都建立在概念逻辑、知识分类、术语学的理论基础上,都应用了概念的划分与概括、概念的分析与综合两者表达文献信息主题概念的标识在本质上是相同的,只是表现形式不同,分类检索语言用分类号作标识,主题检索语言以主题词作标识两者处理对象都是语义单元,所类集的内容相同,表达的都是主题概念三、功能单独具有分类检索语言和主题检索语言的功能外,还有以下功能: 1、标引人员可同时完成分类标引和主题标引,通过标引数据之间的对应转换,节省人力物力,减少标引错误,减少标引不一致

24、性。2、用户既可以从学科专业出发进行分类检索,也可以从事物主题出发进行主题字顺检索,并可以加以比较,较大程度提高查全率查准率。3、可以为进行过分类标引未进行过主题标引的书目数据库通过主题词与分类号的转换而提供主题标引;也可以为进行过主题标引未进行过分类标引的数目数据库通过主题词进行分类标引。四、类型按兼容互换的方式,分为:1、分面叙词表:一般由分类表和叙词表两大部分组成通过分类号相联系,有的还附有轮排索引和英汉对照索引。2、分类表-叙词表对照索引:由分类号与主题词对应表,主题词与分类号对应表两部分组成,前者为每个类目列出其对应的一个或多个主题词,后者为每个主题词列出对应的一个或多个分类号。3、

25、集成词表:将某些特定主题领域的若干叙词表和分类表汇编而成的一种词表,可用于联合分类标引和主题标引,用于实现分类表和主题表的兼容互换。五、中国分类主题词表简介第一卷分类号-主题词对应表是从分类号到主题词的对照索引体系。以中图法的类目体系为基础,将汉语主题词表的全部主题词及增加的主题词兼容对应与各级类目之下,起着;类目注释的作用。第二卷主题词-分类号对应表是从主题词到分类号的对照索引体系。按主题词字顺排列,其后列出分类号。主题词款目结构与汉语主题词表大致相同。中国分类主题词表是分类与主题、先组式检索语言与后组式检索语言相结合的一体化检索语言体系。优点:使分类标引和主题标引一次完成降低主题标引的难度

26、,提高标引一致性有利于在检索系统中实现分类号与主题词之间的相互转换,提高检索效率缺点:没有编制主题词轮排索引和英汉对照索引标引组配不够灵活分类号与主题词对照过程中,受主观因素影响,难以做到完全的科学准确。2.6网络检索语言一、检索语言面临的网络环境1、信息类型的变化:传统环境下,检索语言所面对的信息类型主要表现为文献资料,并且基本上是纸质文本型信息。网络环境下,信息类型多样化,有电子化的传统文献资料,还有许多新的类型如联机数据库软件博客,既有电子文本型信息也有多媒体信息。2、信息数量与质量的变化:传统环境下信息固然庞大,网络环境下信息数量极其庞大,网络信息以网页形式存在,内容范围极其广泛。传统

27、环境下信息在传播之前要经过较为严格的规范和控制,信息质量较高,网络环境下任何人都可自由发布信息无需经过规范和控制,信息参差不齐。3、信息检索技术变化:传统环境下信息检索依靠目录、索引、年鉴、工具书、图书馆书目卡片,只能检索文本信息,检索范围狭窄检索效率低。网络环境下全文检索技术、多媒体检索技术、超文本和超媒体检索技术、可视化检索技术、联机检索技术,方便了用户的检索,提高了检索效率。4、信息用户的变化:传统环境下信息用户主要为专业性情报检索人员或受过专业培训的人员,目的多为科学研究的需要。网络环境下信息用户扩大为普通用户,不受年龄身份等限制,目的不仅仅为学习和科研而是呈现多样化个性化。二、网络环

28、境下的分类检索语言(一)形式上,实现了电子化和体系结构的多维化1、分类法的电子化:直观方便的浏览显示功能,超文本链接功能,完善的检索功能,提高了标引检索的速度与效率,减少了标引成本,修订较为方便,更新周期缩短是实现文献信息组织与检索自动化的基础2、分类体系结构的多维化:传统分类法的体系结构是一种典型的线性结构来揭示类目之间的关系,表现出明显的单维特征。网络环境下,超文本技术在分类语言中的应用,为多途径多角度浏览检索提供了技术支持,更好的揭示类目之间的多维联系,使分类法体系呈现多维化。新型的网络分类目录在类目划分标准,横向关系揭示,类目设置方面表现出明显的多维化趋势。(二)内容上,编制方法做了很

29、大调整,主要表现为聚类标准的主题化,类目划分的随意性,类目排列的非逻辑性,类目的通俗化等。1、聚类标准的主题化:传统分类检索语言以学科属性为聚类标准,网络分类检索语言以信息的主题为聚类标准,更加符合普通用户的习惯。2、类目划分的随意性:传统按逻辑层层划分形成严密科学的等级结构体系,网络根据用户的习惯划分,没有严格要求,注重开放性可变性类目之间隶属关系较模糊划分层次比传统分类语言少得多3、类目排列非逻辑性:传统同位类的排列注重类目之间的内容关系和逻辑联系,按逻辑顺序,事物发展顺序,时间空间顺序排列。网络同位类的排列不局限于逻辑排列法,为了方便快捷自动排列,而使用字顺排列,按重要性排列。4、类目的

30、通俗化:传统类名的确定有严格的规范,科学统一准确规范,并且稳定性高。网络从用户角度出发,力求简单通俗易懂,并且随着社会发展用户检索习惯的改变而改变,稳定性不强。新的网络环境下,分类检索语言的发展方向有两个:1、一个方向是积极调整传统分类法自身,满足信息资源数量的迅速增长。同时对原来的类目进行了必要的调整,对类目级别的深度进行了适当控制。2、另一个方向是抛开传统分类法,重新建立新的分类体系,即网络分类目录。它遵循传统分类法层层划分从总到分逐级展开的基本思路,但不遵循以学科分类为基础的分类原则,而是主题与学科相结合,不再使用分类号作为信息标识的依据,而直接使用语词来作为依据。类目体系体现科学性的同

31、时,更追求实用易用通用灵活。三、网络环境下的主题检索语言(一)传统主题检索语言在网络信息检索系统中的应用主要表现在标题语言、叙词语言、关键词语言在网络信息检索系统中的应用。采用标题语言和叙词语言的网络检索系统一般是学术性较强的专业网站,查全率查准率较高。采用关键词语言的是搜索引擎,具有易用性和良好的检索性能,是最流行的检索方式。(二)辅助此表的应用后控词表:词间关系表,利用受控语言的基本原理和方法编制的自然语言检索用词表。特点词汇只用于检索不用于标引词汇控制不如先控词表严格,一般只对同义词近义词等进行控制收词丰富,包括同义词近义词俗称缩写流行俚语动态性强,能及时更新和增补主题概念有较强的灵活性

32、和自由度,标引编制简单文献保障和用户保障能力强。后控词表只对系统的输出阶段进行控制,展现了比较完整的语义关系,作为自然语言与受控语言相结合的产物,有利于提高查全率查准率。禁用词表:停用词表,禁用词典,禁用单元词,将一些单独使用使无检索意义,或者出现频率过高的词作为检索系统的非检索用词,以对检索词的有效性进行控制。按收入词的类型分为两类。普通禁用词表:由在任何情况下都无实际检索意义的词构成的词表。综合性网络信息检索系统。条件禁用词表:由在一定条件下才成为禁用词的词汇构成的词表。除收录条件禁用词外通常包括普通禁用词。专门性网络信息检索系统。同义字词典和反义字词典:自然语言中存在大量同义词近义词反义

33、词,用户检索时不可能将其全部作为检索标识进行检索,若将用户的检索标识转换成规范化叙词,并进一步扩展出所有可能出现的同义词近义词反义词,就会提高查全率。这两种词典就是基于这一目的编制的。四、自然语言在信息检索中的应用自然语言:直接取自文献本身,不经加工和规范的语言,包含词词组或句子,没有繁琐规则的约束,不添加任何人工色彩。优点:1、自然语言检索方便,不受人工语言的种种限制,不需复杂的检索规则,使用者能较快适应,易用性突出。2、自然语言从文献中直接抽词,避免了人工标引中的失真现象。3、自然语言非常容易吸纳新词语新概念。受控语言信息检索系统:在文献信息和检索提问输入系统之前进行控制,控制的工具是人工

34、编制的词表或分类表,需对检索课题进行主观思考分析,检索结构的优劣很大程度上取决于用户对规范化词表或分类表的掌握程度及经验技巧。前控后控采用同一词表程度相同。自然语言信息检索系统:在输入系统之后,在系统内部进行控制,文献信息输入时基本不做处理主要依赖后控,即将自然语言转换成系统提问,并对有同义近义反义等关系的词进行组织。同时,与计算机自动标引和自动分词等技术紧密相连。自然语言在信息检索中的应用主要体现在使用关键词的全文检索。全文检索:不经过任何标引,直接通过计算机以自然语言的形式在文本中进行匹配查找。文本中任何字符和字符串均可作为检索入口。特点:直观性、详尽性、广泛的适应性优点:方便易用查全率高。对文本任意字符进行检索,不受标引限制;用户可方便查看文本的任何章节段落,不只是索引或摘要。检索功能强大。一般的全文检索都能进行布尔检索截词检索位置检索相关检索等。 9

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1