1、信息检索教程一、信息的含义广义:指自然界和一切人类活动所传达出来的信号和消息,是事物表现的一种普遍形式。从本质上说,信息是事物自身(显示其存在方式)的属性,是客观存在的现象。狭义:指经过搜集、记录、处理和存储的可供检索的文献,数据和事实。它是人类对客观事物认识,是实践经验的总结,是认识的结果,是我们检索的对象。二、 信息的特征信息的两种基本状态:可存储性和可传递性1. 可存储性:人们可以有意识地将流动的信息以某种方式存储在物质媒介上,使信息和物质媒介构成一种依附性很强的、相对稳定的关系,从而有效地避免信息流失,也使信息检索有源可寻2. 可传递性:指信息可以通过一定的传输工具和载体进行传递,从而
2、形成信息联系,被人们感受和接收。信息传递有空间传递和时间传递等不同类型,需要依赖一定的物质载体,具有动态性和方向性的特征。3. 可转换性:表现在两个层面:信息在一定条件下可转化成物质,能量,金钱等其它东西,这种转换主要依靠人类对信息的正确利用。信息可以从一种形态转换成为另一种形态,自然信息可转换为语言,文字和图像,也可转换为电磁波信号或计算机代码。4. 可处理性:信息可通过分类,整序,分析,综合,压缩,扩充等加工处理,而达到便于识别,效用更高的信息5. 可共享性:同一种信息可以同时被许多人共同享用,这是信息不同于物质和能量的一个非常重要特征。信息可以广泛地扩散和传播,信息交换的双方不会失去原有
3、的信息,而且还会增加新的信息。6. 可识别性:信息做为表现事物特征的一种普遍形式,反映了事物的运动状态和存在方式,人类可以通过自身的器官去直接感觉和知觉信息,通过比较去认识信息,借助于先进的信息技术和手段去识别信息。7. 依附性:信息无法脱离物质而独立存在,在其存储和传递过程中必须依附于一定的物质载体,信息与物质载体构成一个整体。8. 普遍性:信息是物质的基本属性,普遍存在于自然界和人类社会之中,也存在于人类的思维或精神领域之中。只要有物质存在的地方,就有信息的存在。三、 信息的功能物质和能源分别为生产提供材料和动力,信息刚为生产提供智力1. 传承人类文明,推进社会发展信息记载着人类文明发展的
4、轨迹,信息的积累与传播,成为人类承上启下的纽带。信息作为人类了解自然及人类社会的凭据,与物质、能源共同奠定了社会发展的基础。2. 提供决策依据,提高决策效益信息能帮助人们减少应对决策时的不确定性和风险,降低由于缺乏足够准备而造成的损失。社会活动的日趋复杂化,增大了决策难度,需要全面、正确的信息作为决策的支持。3. 保障有效控制,保证系统秩序控制是保障各个社会组织有利和高效地获得和利用其资源的监控及实施调节行为的过程。控制的整个过程离不开信息,信息是实现有效控制的灵魂。各种社会成员只有在信息交流通畅及时的情况下,依据所获得的准确信息来行使各自的职责,才会使整个系统处于有序状态。4. 发挥参考作用
5、失去知识创新信息是知识的源和生产发展的催化剂,信息中包含有大量人类实践活动的成果和教训,人们对各种客观事实和社会现象的解释,论证和总结,比较集中的反映了人类的研究成果。因为信息对我们的科学研究和社会实践均有着广泛参考作用。通过相关信息,可对所选项目是否具有创新性做出判断,避免重复选题,并参考他人的研究方法,加快科研的进程。四、 信息的类型广义(信息是对客观事物存在方式和运动状态的反映):1. 依据信息的产生,可分为社会信息(在社会实践活动中为生存、生产和社会发展而产生、处理和利用的信息)和自然信息(自然界中的事物变化特征以及事物之间的内在关系的反映)2. 依据信息的运动状态,可分为自在信息(
6、没有进入人的认识领域,未被反映和把握的纯自然状态信息),自为信息(指人这个认识主体所感知的信息,是已被把握的自在信息)和再生信息(是主体对自为信息经过加工制作后,向外界输出的信息,是主体反映客体而形成的观念性信息和思维信息)狭义(信息是经过搜集、记录、处理和存储的,可供检索的文献、数据和事实)1. 按照信息的媒体类型,分为印刷型,缩微型,视听型和机读型a 印刷型信息:以纸张为媒介,纸质文献在便携,阅读方便,可长期反复使用上显示其特有优势。b 缩微型信息:以感光材料为媒介,以缩微照相为记录手段,优点:信息存储密度高,文献体积小,便于收藏,保存和传递,能安全储存资料。缺点:必须借助于辅助设备才能阅
7、读,不方便携带,保存条件要求严格,难于普及。c 视听型信息:也称声像型信息,以磁性材料和感光材料为存储介质。优点:声情并茂,形象逼真,直观性强,动静交替。缺点:需要借助一定设备才能使用。d 机读型信息:通过编码和程序设计,以机器语言存储在磁盘,光盘等介质上,并依赖于计算机输出的信息。优点:存储量大,查找快速方便。网络信息是一种机读信息。2. 按信息的加工处理程度,可分为零次信息、一次信息、二次信息和三次信息a 零次信息:在人际交流中口头携带和传播的信息。产生于交流过程。优点:选择性和针对性较强,交流速度快,反馈及时。缺点:带有很大的偶然性,而且未经记录与加工,不便于积累与检验,获取难度大。b
8、一次信息:也称原始信息,指未经加工或粗加工的原始信息资源。是人们在实践活动中直接产生或得到的各种数据、概念、知识、经验和总结。优点:价值高,数量大。是最基本的信息,具有重要的参考和使用价值。c 二次信息:是以一次信息为依据进行加工整理而形成的信息,是对一次信息浓缩或有序化的产物。(包括目录、文摘、索引等)也称二次信息为检索工具。具有传递、报道信息的功能,和系统性、工具性的特点。D 三次信息:在对零次信息、一次信息、二次信息进行分析研究、加工提炼和概括综合而形成的信息,具有信息量大,综合性强和系统性好的特点。(包括综述,述评、进展报告、学术年度总结等)综述:将大量分散的有关特定课题的文献,事实和
9、数据进行归纳、分析、综合、筛选,以简练的文字扼要叙述出来,内容十分概括,“述而不作”是撰写综述的一般要求,综述要客观全面地整理,分析。述评:指针对某一学科或者某一问题,全面系统地总结各种情况,观点和数据,并给予精辟的分析评价。“有述有评”是述评最为突出的特点。3. 按照信息内容,可分为经济信息,科技信息,政务信息,文化信息,教育信息,军事信息4. 根据信息的出版发行特点,可分为正式出版信息和非正式出版信息正式出版信息指公开出版发行的信息,包括图书、期刊、报纸等非正式出版信息,又称为特种文献或灰色文献,指不经过公开出版物流通渠道,不大量发行,为一部分用户使用的内部文献信息资料,具有信息量大,形式
10、多样,载体不固定等特点。包括:会议文献、学位论文、政府出版物、研究报告、档案、专利文献、标准文献等五、 互联网对信息的影响互联网是全球性的,最具影响力的计算机互联网络,也是世界范围的信息资源宝库,它造就了我们新的工作与生活方式,对整个社会信息交流方式和信息组成结构产生了巨大影响1. 互联网引发了信息新的出版形式网络出版。2. 形成了新型的网络信息资源,网络出现以来,人们捕捉和获取信息的方式发生了根本性的变革。3. 互联网使人类传统的信息交流方式发生了根本变化。表现:a. 互联网的信息交流呈现出明显的开放性和广泛性。B. 信息交流方式显现比较强的交互性和实时性。互联网是一种双向式的信息交流活动,
11、用户不仅是网络信息资源的消费者,同时也是生产者和提供者。4. 互联网推动了信息处理技术的发展。使信息易于存储、分析和传输,并可以进行无限量复制。并对多种信息形式进行综合处理,给人类的思想表达、记录、交流、传播带来了比较深刻的影响。六、 网络环境下信息的新特点1. 信息类型多样化。形成印刷型信息,磁光介质信息和网络型信息鼎立互补的新格局2. 信息的数量和内容都得到了极大的丰富。信息发布的自由性和任意性3. 信息在分布上呈现出明显的分散性。信息网络技术使信息的收集、编辑、分析、发布在世界范围内进行,互联网中任何一个服务器上都存储有供用户利用的信息。4. 信息共享程度提高。七、 信息检索的概念广义:
12、信息检索包含信息存储和信息获取两个过程。信息存储指通过对大量无序信息的选择和收集、著录和标引等方法,建成各种各样的信息检索工具或信息检索系统,使之成为有序化信息集合的过程。信息获取是存储的逆过程,其实质是根据特定的需求,运用已组织好的检索系统,将特定的信息查找出来。狭义:指信息获取的过程,即通过一定的方法,从已存储的信息中检索出与用户提问相关的文献、数据和事实的过程。八、 信息检索的原理信息检索原理就是将特定的信息需求与存储在检索系统中的信息标识进行异同的比较与匹配,选取两者相符或部分相符的信息予以输出。检索系统对所要存储的信息按照其外部特征和内部特征进行描述,并赋予特征标识,然后存入系统,检
13、索时将所需信息特征标识与所存信息的特征标识进行比较。如果两边标识一致的,就将具有这些标识的信息从检索系统中输出。九、 信息检索的类型1. 文献检索:以特定的文献为检索对象,是一种相关性检索,不直接回答用户所提技术问题的本身,只提供有关的文献供参考。2. 数据检索:以特定的数据为检索对像,是一种确定性检索,能直接回答用户所提问题的本身。3. 事实检索:以特定的事实为检索对象,是一种确定性检索。十、 信息检索的意义1. 信息检索是有效利用信息资源,实现其最大价值的科学方法信息资源管理与开发水平已成为衡量一个国家信息文明程度的重要标志之一,信息检索为我们提供了一套比较完整的利用和开发信息的方法。信息
14、检索是信息分析和科技创新的基础。现代信息技术的发展,推动了信息检索手段的日益现代化,这将大大加快加深社会信息资源的开发速度和程度。2. 信息检索是再学习的工具,是获取知识的有效途径我们生活在一个知识经济社会,知识老化周期变短,产品换代加速,是知识经济会一个非常明显的特征。这就要求我们每一个人都必须不断学习新东西,获得新情报,运用新方法,更新自身的知识结构,以适应社会快速发展的步伐。人们通过各种途径获取信息,完成知识更新,适应社会的发展。而信息检索正是人们获取知识的有效途径。3. 信息检索能有效地提高科研工作的效率,节省人力物力及时间对科学研究工作者来说,信息检索更为重要。高效的信息检索可以起到
15、事半功倍的效果,使科研人员掌握相关的进展,避免重复研究,将精力和时间集中于创新工作,多出成果,出好成果。十一、 信息检索的历程信息检索的发展与人们信息需求的增长以及现代信息技术的进程紧密相关。追溯时间发展的脉络,信息检索的发展经历了手工检索和计算机检索阶段手工检索阶段:发源于图书馆的参考咨询工作和文献索引工作。在这一阶段,信息检索逐渐形成一个独立的领域,走向专门化。纸本工具书是这一时期信息检索的主要工具。一方面19世纪下半叶,美国的公共图书馆和大专院校图书馆的参考咨询工作有了很大进展。20世纪初,多数图书馆设立了参考咨询部门,另一方面,检索刊物体系逐渐形成,检索工具书日趋完善。计算机检索阶段:
16、20世纪50年代初,人们开始研究计算机在信息检索和信息管理领域的运用。1954年,美国海军兵器中心首先在IBM701型电子计算机上成功建立了世界第一个计算机文献检索系统,标志着人类开始步入利用计算机进行信息检索的新的历史时期。计算机检索速度快、效率高、及时、全面,突破了地理上的限制。计算机检索经历了随机检索,联机检索,光盘检索和网络检索四个阶段。十二、 信息检索系统的概念信息检索系统是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统。其主要目的是为人们提供信息检索服务。(包括工具书、数据库或搜索引擎等)信息检索系统包括信息的存储(输入)和获取(输出)两部分信息检索
17、系统的输入端是针对信息。即依据特定的目标,按照一定的标准和方法对采集到的信息进行组织和管理。以便信息能够易于识别和理解,便于回答用户的各种提问。其中标引是信息的组织和管理过程中的重要环节,即通过对信息的分析,选用确切的检索标识(类号、主题词、叙词、关键词、人名、地名等)用以反映该文献内容的过程。标引过程一旦完成,信息就进入某种形式的信息库,而标引记录则进入二次信息数据库。在二次信息数据库中,按便于检索的方式,对标引记录加以组织。信息检索系统的输出端是针对用户的提问。即接受服务的用户群向信息中心送交各种提问。中心的工作人员则为其提问编制检索策略,也可以由用户自己直接对信息检索系统进行提问,编制检
18、索策略。检索策略的编制包括概念分析和转换两个步骤:第一步是对用户提问进行分析确定用户实际上要找什么。第二步把概念分析转换成词汇,转换成系统语言的提问,并将地检索提问以系统认知的检索式表达出来。(这是检索策略的核心)检索策略出来后,就以某种方式将其同事先存储好的数据库进行匹配,再将得到的结果返回给提问者。如果提问者对检索结果满意,该过程即告结束,如不满意,则需要修改检索式,调整检索策略,进行再次检索,直到得到提问都满意的结果。信息检索流程图示标引编制检索策略输出信息数据库系统用户群提问 概念分析 检索策略转换输入标引记录转换信息著录数据库概念分析入选信息信息十三、 信息检索系统的构成1. 信息选
19、择子系统根据系统的特点和服务的用户群体来搜集相关的信息资源,为系统提供充足而适用的数据来源。2. 信息索引子系统在分析和选取信息的内容和形式特征基础上,根据具体的词表和名词规范,来选择准确的信息标识。3. 信息管理子系统又名检索语言和名称规范子系统。管理维护系统中已有的词表使基与索引等子系统相连,支持用户的各种词汇查询操作,从提问、对话或其他文本中采集新的词汇信息,以及输出各种形式的词汇数据或词表产品。4. 检索子系统:承担接收用户提问,提问校验和进行检索等功能。5. 用户同系统之间交互子系统与用户进行交流,以便真正明确用户的真实信息需求,明确检索提问,并准确表述等功能。6. 匹配子系统:将信
20、息标识与检索提问进行相符性比较的子系统。十四、 信息检索系统的分类1. 手工检索系统:以印刷型检索工具为基础,可直接利用,无需任何辅助设备。分为书本式的手工检索系统(包括目录,索引,文摘,年鉴,百科全书,手册等)和卡片式的手工检索系统(卡片式目录)优点:是经过大脑的判断来实施和完成检索,面对的是印刷型载体,符合人们的阅读习惯,可根据需要及时调整检索策略,达到满意的效果。缺点:手工检索系统收录的范围有限,更新速度慢,检索效率远不及计算机检索系统2. 计算机检索系统:依赖于计算机进行信息检索的系统。由硬件、软件和信息数据库构成A 硬件:以计算机为中心的一系列机器设备(包括计算机、外围设备以及数据处
21、理或数据传送有关的其他设备)B 软件:又称计算机程序,是指挥和控制计算机各部分协调工作并完成各项功能的程序和各种数据。(分为操作系统软件、语言编译软件、应用软件、用户软件等)C 数据库:是依照某种数据模型组织起来,并存放于计算机存储设备中的数据集合,是计算机信息检索系统最重要的组成部分。一般分为参考数据库和源数据库两种。参考数据库指为用户提供信息线索的数据库,它可以指引用户获取原始信息,包括:书目数据库和指南数据库。源数据库指能直接提供原始资料或具体数据的数据库,包括数值数据库、文本-数值数据库、全文数据库、术语数据库(电子词典)、图像数据库、多媒体数据库计算机检索系统主要包括:光盘检索系统、
22、联机检索系统和网络检索系统优点:速度快、效率高、数据内容新、范围广、数量大、操作简单、在网络环境中检索不受时空限制。十五、 信息检索方法1. 直接浏览法:指检索者不依靠任何检索工具或检索系统,从本专业最新核心期刊或其它文献中直接阅读原文或浏览最新目次而获取文献的方法。优点:可及时获得最新文献。缺点:查找的信息不全面,不系统且局限性较大。2. 常用法:指利用检索系统来查找信息的方法。包括顺查法、倒查法和抽查法。A 顺查:由远及近地顺赶时间查找,从问题产生的时间查起,直到最新的文献。优点:查全率较高。B 倒查:由近及远地逆时间查找,重点放在近期信息资源上。优点:可最快获得新资料,新信息,这种方法投
23、入劳动较小,省时省力,检索效率高。C 抽查:抽取其中某段时间查找,关注有关课题的文献信息最可能出现或最多出现的时间段。能获得相对集中,具有代表性且能反映该课题发展水平的文献信息。优点:检索效率高,检索效果好。缺点:要求用户基本了解该课题的大概情况。3. 追溯法:指从已有的文献信息后所列的参考文献入手,逐一追查原文,从这些新查到的原文后面所附的参考文献再逐一追查,不断扩大检索范围的检索方法。优点:在没有检索工具或检索工具不齐全时,用这种方法可查到一批有关文献。缺点:原文作者引用的参考文献是有限的,而且有的引用文献与原谅关系不大。(美国科技引文索引)4. 综合法:先利用检索工具查出一定时期内的一批
24、有用文献,然后依据这些文献后所附的参考文献,利用追溯法查出前一时间的文献,如此分期分段地交替使用常用法和追溯法两种查找方法,直到满足要求。优点:兼有常用法和追溯法的优点,可查到全面而准确的信息,适合于查阅那些过去文献量较少的专业资料。十六、 信息检索效果评价指运用科学的方法,按照设定的指标体系,对用户对检索结果的满意程度进行评价。(核心问题:建立一套切实可行的评价指标)1. 检索结果有效性评价:以查全率和查准率为评价标准2. 检索系统实用性的评价:系统对用户是否需要是否实用,有多大的实用效果。那检索的社会效果评价,需应用社会学方法。3. 检索费用 效率评价:即检索的经济效果的评价,包括完成检索
25、服务的成本及时间消耗,需应用经济学方法。十七、 信息检索效果评价的意义是信息检索系统不断趋于完善的重要依据。获得让客户满意的检索效果是每一个信息检索系统追求的目标。而系统本身又无法完成自我调节。需要外在环境的监督和指引。通过检索效果评价,可以准确地掌握系统的各种性能和水平,找出影响检索效果的各种因素,从而有的放失的改进系统性能,提高系统的信息检索能力。十八、 查全率和查准率由美国佩里和肯特于20世纪50年代中期提出,确定查全率和查准率最常用的方法是2 X 2表系统相关性测报 用户相关性判断相关不相关合计已检出A(查准)B(误检)A+B未检出C(漏检)D(无关)C+D合计A+CB+DA+B+C+
26、D查全率指检出的相关文献信息量与检索系统中相关文献信息问题的比率,它反映出信息检索系统检出相关文献信息的能力。 A / ( A + C ) X 100%查准率指检出的相关文献信息量与检出文献信息总量的比率,它反映出信息检索系统的精确度,说明系统排除干扰,减少噪声的能力。 A / ( A + B ) X 100%局限性:首先在计算查全率时,一个检索系统中总共有多少相关文献难以确切计算,只能大概估算。其次,在计算查准率时,用户对文献的相关性估计与系统的相关性判断不一定是完全吻合的。而且,不同用户对相关文献的认识也可能不一致,存在着太多的主观成分和一些模糊概念。因此,用上述方法求得的查全率与查准率并
27、不是绝对的,而只能是相对近似地描述检索效果。查全率与查准率的关系:一般为逆变关系。当由于检索策略的变化,使得检索到的相关记录的变化量与全部命中记录的变化量之比小于/大于/等于相关记录与命中记录数之比时,查全率-查准率呈现逆变关系/顺变关系/查全率可能变化,查准率不变。十九、 漏检率与误检率漏检率指漏检相关文献信息量与检索系统中相关文献信息总量的比率。与查全率对应。 C / ( A + C ) X 100%误检率指误检文献总量与检出文献信息总量的比率,与查准率对应。 B/ ( A + B ) X 100%二十、响应时间指在一次检索过程中,用户从开始向信息检索系统提问到系统输出检索结果的全部时间。
28、响应时间越短,查全率和查准率越高,那么信息检索的效果越好。在手工检索阶段,响应时间爱检索者主观因素的影响比较大,主要取决于检索者制定的检索策略的优劣,以及对检索工具的选择和对检索工具使用方法的熟悉程度。响应时间一般比较长。在计算机检索阶段,响应时间大大缩短,主要由系统对信息处理速度决定,对网络信息检索而言,用户所处的网络条件和利用的相关设备也在很大程度上影响着响应时间,随着智能检索的发展,响应时间将更依赖于信息检索系统的检索速度和运行效率。二十一、其它与检索效果相关的指标1. 检索系统的收录范围:用来揭示数据库的涵盖范围,直接影响用户信息需求的满足程度,是衡量查全率的重要指标。2. 输出形式:
29、系统检索出文献信息的展示形式(如文献号、题录、文献或全文),影响用户对检索结果的选择与利用。输出形式越多,且便于浏览,用户越容易做相关性评价。3. 系统的易用性:也称可存取性,是用户选择信息检索系统的重要因素之一。4. 用户负担:是用户在检索过程中所物力,财力乃至精力的总和。5. 结果的重复链接率和死链接率二十二、影响信息检索效果的因素1. 标引的质量它对信息检索的查全率和查准率有直接影响。信息标引的结果是赋予文献信息相关的检索标识,这对于信息存储的质量至关重要。检索标识是组织检索工具和数据库,进行检索的依据,正确的标引可以使同一主题的信息准确而全面地被检索出来。标引的误差主要来自主题分析误差
30、查准率)和标引深度误差(查全率)。2. 检索语言的性能检索语言是将信息标引和检索提问联系起来的重要桥梁,是沟通信息存储和信息检索的纽带。对于特定信息需求和信息检索系统中信息集合的准确匹配具有直接的影响。词表结构对检索有很大影响,影响标引词的选择,影响信息存储和查找的准确性。较好的词表参照系统和等级结构关系能够提高查全率3. 检索途径的数量主要依据信息的内容特征和外部特征来确定。内容特征有分类、主题和全文途径。外部特征有题名、著录、文献编号途径等。检索途径的数量越多,越便于检索人员对信息的查找和获取。4. 检索策略的优劣是进行检索的规划和方案,是影响检索效果的重要因素。检索策略涉及检索人员对检
31、索目的、范围、检索系统、途径等一系列问题的思考与定位,检索人员应根据具体的信息需求制定相应的检索策略。5. 检索人员的素质人是信息检索过程中的主体。检索人员应具备一定的信息检索知识,能够正确地分析检索课题,准确地表达信息需求,掌握信息检索的基本方法,了解计算机操作的基本知识,熟悉有关的信息检索工具和检索系统。二十三、检索语言的概念广义:泛指信息检索过程中涉及人工语言和自然语言狭义:指根据信息检索的需要,按照一定的规则对自然语言进行规范,并专门用于信息标引和用户检索的人工语言。人工语言:是根据一定的规则人为编制而成的检索语言,可用于表述文献主要的内容,建立信息检索系统自然语言:是人类交流时使用的
32、语言,不受任何限制,未经加工和规范,更符合用户的日常表达习惯检索语言由词汇和语法组成。词汇是登录在类表、词表中的全部标识。语法是指如何创造和运用那些标识来正确表达信息内容和信息需要,以有效地实现信息检索的一整套规则。二十四、检索语言的功能1. 标引信息内容特征及某些外表特征,保证不同标引人员表达信息的一致性。信息标引是一个群体行为,只有共同,依据检索语言,才能保证标引信息的一致性。2. 对内容相同及相关的文献信息加以集中或揭示其相关性。采用等级结构,参照系统,轮排聚类法,范畴聚类法等显示概念之间关系的方法,来实现此功能。3. 使信息的存储集中化、系统化、组织化、便于检索人员按照一定的排列次序进
33、行有序化检索。排列信息标识的方法包括:分类排列法、字顺排列法、分类/字顺排列法4. 便于将标引用语和检索用语进行相符性比较二十五、检索语言的分类1. 按描述文献的特征:分为描述文献外表特征的检索语言和描述文献内容特征的检索语言A 描述文献外表特征的检索语言:题名索引,著者索引,报告号索引、合同号索引、存取号索引,引文索引。B 描述文献内容特征的检索语言:分类语言(体系分类语言、组配分类语言)主题语言(标题词索引、关键词索引、单元词索引、叙词索引)代码语言(分子式索引、结构式索引、专利号索引)2. 按结构或原理,可分为分类语言、主题语言、代码语言和引文语言A. 分类语言用分类号来表达各种概念,包
34、括等级体系分类语言(体系分类法)和分析综合分类语言(组配分类法)B. 主题语言是采用表达某一事物或概念的名词术语,用于标引,存储,检索的一种检索语言。包括标题词语言(标题法),单元词语言(单元词法),叙词语言(叙词法)和关键词语言(关键词法)C. 代码语言一般只是就事物的某一方面特征,用某种代码系统来加以标引和排列。D. 引文语言是利用文献之间的相互引证关系而建立的一种自然语言,其标引词来自文献的主要著录项目。3. 按信息标识的组合使用方法,可分为先组式语言、后组式语言和散组式语言A. 先组式语言指表达信息主题概念的标识在编制词表时就已固定组配好。主要有体系分类法和标题词法。优点:标识明确,系
35、统性较好,适用于传统的文献单元方式的目录索引缺点:表达专指概念和新概念较困难,灵活性较差,容易造成词表体积庞大,检索途径少。B. 后组式语言指在词表编制和标引信息时不规定表达主题标识的组配关系,在检索时再根据需要将各个标识进行组配,来表达较为复杂的主题概念。主要有叙词语言和单元词语言优点:能够以较少的词语来表达较多的概念和较为专指的概念,可以比较及时地表达新概念,概念容纳能力强。同时,可以实现概念的多向成族,多途径检索,能够灵活地扩大和缩小检索范围,因为其检索的灵活性好。采用后组式语言所编制的词表体积相对较小。缺点:编制和使用的难度较大,组配语义的明确性较差。C. 散组式语言是指对于复杂的主题
36、标识,在词表中不组配,而是在标引阶段将表达主题概念的若干个标识,根据一定的的规则组配在一起的检索语言。包括冒号分类法如果检索标识能够分段轮排,散组式语言就兼有先组式和后组式语言的主要优点。如果检索标识不轮排,性能和先组式语言差不多,只是其专指概念和新概念表达能力有所增强。4. 按语言的规范程度,可分为人工语言和自然语言人工语言有主题法(标题词、单元词、叙词、关键词)、分类法(体系分类法、组配分类法)和某些代码等种类自然语言是直接取自文献信息本身,不经加工或规范的词语或句子。5. 按包括的学科或专业范围,可分为综合性检索语言、专业性检索语言和多学科检索语言6. 按所用语言文字,可分为单语种检索语
37、言和多语种检索语言。二十六、检索语言的理论基础1. 概念逻辑检索语言不论是语词的还是符号的,都是表达一系列概括信息内容的概念及其相互关系的概念标识系统。因此,它们都是建立在概念逻辑的基础上。概念逻辑通过明确各种概念及其相互关系而揭示事物的本质属性及各种事物之间的联系与区别。检索语言在建立词汇、显示概念关系以及在文献标引和检索中,都离不开概念逻辑。概念是事物本质属性的概括。任何概念都有其内涵(反映事物的本质属性)与外延(反映事物的范围)。它们之间存在反变关系。“被定义的概念(种概念)= 种差(与其它属概念的本质的差别) + 邻近属概念(包含被定义者的最小的属概念)”概念间的关系:相容关系和不相容
38、关系相容关系:同一关系、属种关系、交叉关系、整体与部分关系、全面与某一方面关系、不相排斥的并列关系。不相容关系:互相排斥的并列关系(同一属概念下,两个以上外延完全不同的种概念之间的关系)、矛盾关系(外延完全不同,其外延总和等于其上位概念全部外延的概念之间的关系)、对立关系(是指外延完全不同,其外延总和小于其上位概念全部外延的概念之间的关系)概念逻辑方法:概念的划分与概括(分类)和概念的分析与综合(组配)2. 知识分类是对千差万别的事物做系统研究的重要方法,是对各种事物之间的区别和联系从本质上,原理上进行揭示的重要手段,对信息的系统化具有重要的价值,其实质是划分知识单元、组织知识体系。包括学科分
39、类(主体)和事物分类(基础)。知识分类需要遵循的两条基本原则:客观性和发展性检索语言要能适合实践应用和科学研究的需要,除了依据概念逻辑的理论基础外,还须利用知识分类的成果,把各种概念之间的关系建立在知识分类的基础上。如果说概念逻辑是检索语言的基础,那知识分类就是概念逻辑的基础。检索语言反映当代知识分类的程度是其质量的重要标志之一。只有较充分反映知识分类的检索语言,才能保证检索语言在信息检索工作中得到有效运用,并达到较好的效果。3. 术语学术语是在特定学科领域用来表示概念的称谓的集合。研究概念、概念定义和概念命名基本规律的学科即术语学。检索语言是由概念标识系统组成的,而概念是由术语来表达的,因此
40、术语是分类表、词表的基本组成要素,检索语言其实就是一个经过精细组织的术语集。检索语言的创制是以术语学的研究成果为基础的。在编制分类表、词表而采用术语时,应以术语学对科学术语的研究成果为依据。在检索语言创制、发展和完善过程中,更多地吸收术语学的研究成果,是提高检索语言质量的要求和重要途径二十七、分类检索语言概述分类检索语言也称分类法,是将许多类目根据一定的原则组织起来,通过标记符号(分类号)来代表各级类目和固定其先后次序的分类体系。它是直接体现知识分类的概念系统,是对概括文献信息内容及某些外表特征的概念运用逻辑的方法进行系统排列而构成的。分类法按学科、专业集中文献信息,并从知识分类角度揭示各类
41、文献信息在内容上的区别和联系,提供从知识分类检索文献信息的途径。分类检索语言主要包括体系分类法和组配分类法两种。二十八、体系分类法体系分类法也称等级列举式分类法。是基于概念的划分与概括,以学科分类为基础,把概括文献内容与事物的各种类目组成一个层层隶属、详细列举的等级结构体系。代表: 杜威十进分类法、美国国会图书馆分类法、中国图书馆分类法、中国人民大学图书馆图书分类法。体系分类法的结构分为微观结构和宏观结构。微观结构:指分类法中类目的构成结构。类目是表达文献信息内容或主题范围的概念,是构成分类法的细胞。表示类目概念的名称称为类名,类名规定了类目的含义和内容范围,它可以由单词或词组构成。按照类目之
42、间的关系建立起来的类目集合称为类目体系,类目体系是分类法的核心,它的建立涉及类目的划分、引用次序、类目的排列、类名的确定、类目之间的相互关系的处理等。1. 类目的划分:是把一个类目分为若干个小类,从而提示这个类目外延的逻辑方法。类目的划分是按照一定的分类标准来进行的,分类标准指用来作为划分依据的事物属性。可分为内容标准和形式标准。在现代分类法中,类目划分一般以内容标准为主要标准,以形式标准作为辅助标准。类目划分的过程通常是由大到小、由属到种、由整体到部分、由总论到分论、由全面到各方面。2. 引用次序:在体系分类法中表现为分类标准的使用次序,当某一类事物连续划分需要采用几种分类标准时,分类标准的
43、使用次序是否合理,直接影响分类体系,决定着类目体系展开方式 。因为首先被采用的分类标准,将能使在该属性上相同的信息或文献得到最大程度的集中,依据该属性检索信息或文献也最容易,并且越在后面采用的分类标准,在该属性上相同的信息或文献就会越容易被分散,其被检索的难度也就会越大。合理的引用次序应该满足逻辑性原则、符合检索需要的原则和表达性原则。在编制分类表时,应力求做到:优先使用该学科、该事物的主要分类标准;优先使用具有科学认识意义的分类标准;优先使用具有较高检索意义的属性作为分类标准。3. 类目的排列:它直接影响到分类法的质量。类目的排列应该体现出系统性、整体性、等级性、逻辑性、连续性和一致性。其中
44、同位类的排列次序反映了客观事物本身发展和联系的排列次序、4. 类名的确定:类名是体系分类法的“语词”,起着表达类目含义的作用。类名的选择和确定应坚持科学性(采用比较通行的科学名词术语作为类名)、确切性(要能准确地、恰当地反映类目的实际内容范围)、简洁性(所用的类名要尽量概括、精练、简短)。5. 类目之间相互关系的处理:分类法是依赖于类目之间的相互关系建立起来的。在体系分类法中,类目间的基本关系主要有从属关系、并列关系、交替关系和相关关系。A. 从属关系:包括属种关系、整部关系(整体与部分的关系)、方面关系(全面与某一方面关系)B. 并列关系:又称同位关系,在分类体系中体现为同位类的关系。C.
45、交替关系:指使用类目和交替类目之间的关系。有的学科或事物分属两个门类,编制分类法时确定归入一个门类,同时在另一个门类设交替,以适应学科的交叉关系,集中同一主题的相关文献。交替类目不用来类分文献,只起到指向使用类目的作用。D. 相关关系:有些类目之间存在着密切的关系,而这些类目又不属于一个类系,这种类目之间的关系称为相关关系。相关类目也称参见类目或参照类目。宏观结构:按功能分,体系分类法的宏观结构一般由以下四部分构成:类目体系、标记系统、说明与注释、类目索引。1. 类目体系:是按照类目之间关系建立起来的类目集合。大多数体系分类法的类目体系由主表和复分表组成。A. 主表是指由基本部类、基本大类、简
46、表、详表逐级展开而形成的类目表。基本部类:是为了便于各种类目的展开而对人类全部知识与事物所做的最基本、最概括的划分,但它不是分类表的类目。基本部类的排列次序称为基本序列。中国图书馆分类法采用“五分法”其基本序列为:马克思主义、列宁主义、毛泽东思想、邓小平理论;哲学;社会科学;自然科学;综合性图书。基本大类:是在基本部类的基础上,根据学科发展和文献出版情况所列出的第一级类目,代表着较大的学科或领域。简表:是由基本大类直接展开的一、二级类目所形成的一种类目表,又称基本类目表。作用:对基本大类和详表起承上启下的作用,便于用户查找所需要的详细类目;供中小型图书馆或资料室,或者只需要对信息进行粗略标引时
47、分类标引使用。详表:由简表展开的各种不同等级的类目所组成的类目表,是分类表的正文,也是分类标引的实际依据。详表又称为分类表的主表。B. 复分表:又称辅助表或者附表,是将详表中按相同标准划分某些类所产生的一系列相同子目抽出来,配以特定号码,单独编列,供主表有关类目进一步细分用的类目表。分为通用复分表(附在主表之后,供整个分类表有关类目作进一步区分用的表)和专用复分表(插在主表中的相关位置,供分类表中的某些类目做进一步区分)两种。2. 标记系统:是分类语言所有标记符号的集合。分类语言的标记符号即分类号,是用于标记某一分类体系各类目的序数系统。一方面是作为类目的代号,固定类目的先后次序,便于标引和组织文献。另一方面,可以显示类目之间的相互关系,便于作相符性比较。理想的分类标记应符合简短性、容纳性、灵活性、表达性、助记性和适应性等要求。分类号分为单纯式号码(纯数字)和混合式号码(字母和数字结合使用)。标记制度是指标记符号构成分类标记的基本方法,可以分为顺序制、层累制、混合制和分面标记制四种A. 顺序制:对全部类目不分等级给予顺序号码的编号方法。具有号码简短明了、便于排检、容纳性强的优点,便它不表达类目之间的关系,所以表达性和助记性差。代表:美国国会图书馆分类法B. 层累制:是一种分类号位数与类目等级相对应的标记制度。具有较强的表达性和助记性,便