文献信息检索基础知识_理论部分讲义.doc

上传人:李主任 文档编号:3316839 上传时间:2019-08-11 格式:DOC 页数:21 大小:154KB
返回 下载 相关 举报
文献信息检索基础知识_理论部分讲义.doc_第1页
第1页 / 共21页
文献信息检索基础知识_理论部分讲义.doc_第2页
第2页 / 共21页
文献信息检索基础知识_理论部分讲义.doc_第3页
第3页 / 共21页
文献信息检索基础知识_理论部分讲义.doc_第4页
第4页 / 共21页
文献信息检索基础知识_理论部分讲义.doc_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《文献信息检索基础知识_理论部分讲义.doc》由会员分享,可在线阅读,更多相关《文献信息检索基础知识_理论部分讲义.doc(21页珍藏版)》请在三一文库上搜索。

1、文献信息检索基础知识一基本概念1文献:定义:文献是记录有知识或信息的一切载体。具体地说文献是以文字、符号、图形、声频、视频等手段将信息、知识记录在各种载体上所形成的物质实体。即记录有信息、知识的纸张、胶片、磁带、磁盘、光盘及一些网络资源都可以称之为文献。文献的主要功能是存储信息、传递信息。文献的特征:包括文献的内容特征和文献的外表特征两个方面。2信息:定义:信息是事物运动的状态与方式的反映。简言之,信息就是事物发出的消息。人与人间传递信息可通过:肢体语言、口头语言、书面语言等。信息的特征:普遍性;时效性;客观性;可加工性;共享性;可变换性;传递性;可转化性3知识:关于知识的定义亦有种种,西方2

2、0世纪60年代以来一直流行的说法是经济合作与发展组织(OECD)在以知识为基础的经济专题报告中所提的知识定义:“4个W”: Know what (知道是什么) 关于事实方面的知识。 Know why(知道为什么) 关于自然原理和规律方面的知识。 Know how(知道怎么做) 关于技能或能力方面的知识。 Know who(知道谁有知识) 关于到哪里寻求知识的知识。定义:知识是人类认识的成果和结晶,是人类在认识和改造世界的社会实践中获得的对事物本质的认识和经验的总和。这是广义的知识概念。知识具有主观性、抽象性、客观性的特点。二文献的基本类型与特征对文献类型的划分,由于所选标准以及分析方法不同,有

3、各种不同的划分方法,一般可按下面几种情况来划分。1根据载体材料、存储技术和传递方式的不同: 印刷型(又称纸制文献、印本文献)以纸张为载体,用印刷方式(雕版印刷、活字印刷、石印、照相影印、计算机排印)记录知识的文献,是传统的文献形式,也是现代的文献信息资源的主要形式之一。印刷型文献因方便实用,直观性强,是人类交流和传播信息的主要形式。缺点:存储的信息密度低,占据空间大,难以实现加工和利用的自动化,不便于对其进行长期管理和长期保存。主要类型有:期刊、图书等。缩微型以感光材料为载体,用缩微照相的方式,将文字、图形、影像等信息按比例缩小后存储在感光材料上,并借助于专用阅读器而使用的文献。目前最常用的是

4、缩微胶卷(microfilm)和缩徽平片(microfiche)。声像型又称音像型文献或视听型文献,以磁性材料、光学材料等为载体,记录声音信息和图像信息的文献。它是人们最容易而且乐于接受的信息形式,主要特点:存储信息密度高,内容直观、真切,表现力强,易于理解,尤其是适用于难以用文字、符号描述的复杂信息和自然现象。但需要专门设备对其进行制作和阅读。主要类型:如唱片、录音带、录像带、电影胶片、幻灯片、激光视盘等。 机读型 又称电子型文献、数字信息资源,即用计算机阅读的文献,并以光、电、磁性材料为存储介质,采用计算机等高新技术为记录手段,将信息存储在磁带、磁盘、光盘等载体中而形成的多种类型的电子出版

5、物。机读型文献包括计算机文档、光盘数据库、电子图书、电子期刊、电子报纸、电子邮件和电传文本等。其优点是存贮密度高,存取速度快、查找方便,信息共享性好、易复制,原有记录可以改变、更新。除具有与印刷出版物相当的文献文本之外还可以提供多维的、有序化的可操作的功能。除检索之外,还可以对文本进行有目的的抽取、排序、重新组合,从而产生新的信息产品。第一类文献又称纸质文献或纸版文献,后三类文献统称为电子文献,当前人们通常说的电子版文献,大都指机读型文献。2按照文献的出版形式划分图书定义:图书:是指具有独立的内容体系、相当篇幅和完整装帧形式的文献。 图书往往是以原始记录为素材,对某领域进行系统阐述,或对现有研

6、究成果、技术和经验进行归纳、概括而成,多为总结性。特点:内容比较成熟、全面、系统、可靠且具有一定的新颖性。不足之处:出版周期长,传递信息速度慢。通过它可以全面、系统地了解一个学科或专门领域的研究历史与现状,在调查显示的科研人员利用文献的比重中,图书只占15%左右。从信息检索的角度看,图书不构成主要对象。科研人员一般不把它列为首选的使用对象。连续出版物(1)期刊:定义:又称杂志,是定期或不定期连续出版的、有统一的名称、固定的开本、版式、有连续的序号、汇集了多位作者分别撰写的多篇文章,并由专门的机构编辑出版的连续性出版物。期刊的种类很多,有学术性刊物,普通的快报、消息性刊物,数据性刊物、检索刊物亦

7、以期刊的形式出版。较图书更新迅速、反映研究动态与前沿。目前,全世界每年出版的各类期刊中,科技期刊约占2/3。我国现有的期刊中,科技期刊占54%以上。据统计,科研人员从期刊中得到的信息约占65%以上,是十分重要的情报源。特点:内容新颖、信息量大、出版周期短、传递信息快、传播面广、时效性强用途:获取最新研究成果和动态核心期刊:某学科(或某领域)的核心期刊,是指那些发表该学科(或该领域)论文较多、使用率(含被引率、摘转率和流通率)较高、学术影响较大的期刊。(2)报纸:有统一的名称,定期连续出版,每期汇集许多篇新闻、报道、消息、评论等,多为对开或四开,以单张散页形式出版。以传播新闻和评论、提供娱乐或生

8、活服务为主要内容。具有时事性、普及性、大众性、服务性和传递信息迅速、信息量大的特点,是一种十分重要的信息来源,有人称之为“第一传媒”。报道快、及时、新颖、发行量大,是图书、期刊等无法比拟的。特种文献通常指那些出版发行方式或获取途径比较特殊的文献,非书非刊,形式多样。(1)科技报告:也称技术报告、研究报告,是科学研究工作和开发调查工作成果的记录或正式报告。按研究阶段可分为进展报告和最终报告。特点:信息新颖、叙述详尽、保密性强、每份报告单独成册、有独立的编号、有固定的机构名称和较严格的陈述形式,是获取最新信息的重要信息来源。科技报告内容新颖、专业性强,技术数据具体详尽,完整可靠,信息含量高,有数据

9、、图表、实验记录等相关资料,涉及领域十分广泛。对于了解某项技术的研制试验和评价结果,某项科学技术问题的现状和发展,非常重要。科技报告的数量很大,在全世界的科技报告中,美国占了80%以上。如:美国政府四大报告:PB、AD、NASA、DOE报告,都有各自的检索工具。(2)会议文献:是了解有关领域发展情况的重要资源,有会前文献、会中文献、会后文献之分(会议论文等:正式出版物)。(3)专利文献:专利制度的产物,是实行专利制度的国家,在接受申请和审批发明过程中形成的有关出版物的总称。包括专利说明书、专利公报、专利分类表、专利检索工具以及与相关的法律性文件。 目前全世界有130多个国家建立了专利制度,我国

10、的专利法是1984年3月通过,1985年4月开始实施的,它的目的在于通过保护发明人的合法权益推动技术的发展。目前专利制度已进入国际合作阶段。各个国家的专利审批机构、国际性专利组织都是获取专利文献的重要来源(另:专利网站、数据库)。(4)技术标准:标准化的产物,是经过公认的权威机构(标准化组织或有关机构)以特定的文件形式出现的标准化工作成果。由技术标准、管理标准及其他具有标准化性质的类似文件所组成,是从事生产和建设的一个共同依据。特点:具有权威性、规范性、法律性、时效性、陈旧性。目前,各个领域都在标准化的影响范围之内。技术标准按内容可分为基本标准、产品标准、方法标准、安全卫生标准。技术标准是各国

11、推行技术政策的工具,一个国家的指标文献可以反映其经济、技术政策、生产水平、资源情况和标准化水平。先进的标准可供研制新产品,改进工艺、操作水平提供参考;进口设施的组装、维修、零部件的配制需要标准文献在对外贸易中,技术标准常常构成非关税壁垒。(5)学位论文:是指高等学校或研究机构的学生为取得某种(博士、硕士及学士)学位时,在导师的指导下撰写并呈交的体现其学术研究水平,并供审查答辩用的研究论文。特点:具有一定的独创性;一般不公开出版;质量参差不齐。(6)政府出版物: 各国政府及其设立的专门机构所颁发行政文件和科技文献的总称。就其性质可分为行政性文献和科技性文献两大类。行政性文献包括国企记录、政府法令

12、、方针政策、规章制度、决议指示、调查报告、统计资料等;科技性文献包括科技研究报告、科普材料、技术政策文件等。政府出版物具有正式性、权威性的特点。(7)技术档案:是指科研生产活动中形成的,有具体事物对象的技术文件、图纸、图表、照片和原始记录等的总称。(8)产品样本:产品样本是对定型产品的性能、构造原理、用途、使用方法和操作规程等所作的具体说明。 3按加工的深度划分:零次文献信息:(non-printed Document)指未经出版发行的或未进入社会交流的最原始的文献。如:私人笔记、底稿、书稿、手稿、实验记录、会议记录、个人通讯等。具有内容新颖、不成熟不定型不公开交流、难以获得的特点。零次文献在

13、内容上有一定的价值,而且能弥补一般公开文献从信息的客观形成到公开传播之间费时甚多的弊病,其新颖程度颇受关注。一次文献信息:(Primary Document)又称原始文献,通常是指著者以自己的研究成果为基础创作或撰写的,已公开发行进入社会流通使用的文献,如:专著、学术论文、专利说明、科技报告等。具有新颖性、创造性的特点,是科技人员参考得最多的基本材料,有很高的直接参考价值和借鉴使用价值,但数量庞大,储存分散,不易直接查找利用。二次文献信息:(Secondary Document)二次文献的生成过程即是对知识信息有序化的二次加工过程。是把大量的、分散的、无序的文献收集进来,按照一定的方法进行加工

14、、整理、提炼、浓缩,使之系统化,便于查找而形成的文献。如文摘、题录、书目、索引等检索工具。在现代社会信息量激增的形势下,人们为了快速而经济地传递信息、搜集和利用信息,更加关心和重视使用文摘杂志,具有浓缩性、汇集性、有序性的特点。三次文献信息:(Tertiary Document)是选用大量有关的文献,经过综合、分析、研究而编写出来的文献。通常是围绕着某个专题,在利用二次文献的基础上,选用大量相关的一次文献,采用科学的方法,对文献的内容进行深度加工、编写而成的。如综述、述评、字典、词典、辞典、百科全书、类书、政书、手册、年鉴、指南等。现代技术的发展,使文献的这种划分界线变得模糊,大部分数据库集文

15、献线索检索与原文献获取为一体。四者的相互关系从零次文献、一次文献、二次文献到三次文献,它是一个由分散到集中,由无序到有序,由博而略地对知识信息进行不同层次的加工过程。零次和一次文献是最基本的信息源,是文献信息检索和利用的主要对象;二次文献是一次文献的集中提炼和有序化,是文献信息检索的工具;三次文献是把分散的零次、一次、二次文献按照专题或者知识的门类进行综合分析加工而成的成果,是高度浓缩的文献信息,它既是文献信息检索和利用的对象,也可作为检索文献信息的工具。它主要有两大类型:一是系统阐述某个领域的内容、意义、历史、现状和发展趋势的综述性学科总结,如综述、评论、述评、进展、动态、教材等;二是把大量

16、的定理、原理、数据、公式、方法等知识进行浓缩和概括,编写成便于查阅的参考工具书,如百科全书、手册、年鉴、指南等。三次文献内容更集中,针对性更强,系统性好,并有一定的检索功能,有较高的参考价值。4根据出版形式和内容公开程度划分白色文献 白色文献是指一切正式出版并在社会成员中公开流通的文献,包括图书、报纸、期刊等。这类文献多通过出版社、书店、邮局等正规渠道发行,向社会所有成员公开,其蕴涵的信息大白于天下,人人均可利用。是当今社会利用率最高的文献。灰色文献 灰色文献指非公开发行的内部文献或限制流通的文献。因从正规渠道难以获得,故又被称为“非常见文献”或“特种文献”。这类文献出版量小,发行渠道复杂,流

17、通范围有一定限制,不易收集。其收录和获取成本较高,但是价值却很大。黑色文献 包括两方面的情况:其一,人们未破译或未识别其中信息的文献,如考古出现的古老文字、未经分析厘定的文献;其二,处于保密状态或不愿公布其内容的文献,如未解密的档案、个人日记、私人信件等。这类文献除作者及特定人员外,一般社会成员极难获得和利用。三、文献信息检索基础知识1信息检索的相关概念:信息检索:即信息查找,是人们利用特定的检索技巧与方法,从信息集合中对目标资源进行快速定位、获取与信息需求相关的那部分信息的过程。也就是:将信息按照一定的方式组织和存储起来,并根据用户的需求找出有关信息的过程。有广义,狭义之分。完整的信息检索概

18、念包括两项工作:(1)信息存储过程,即搜集、筛选、整理、积累现有信息及检索工具,建立信息检索系统;(2)信息检索过程,即利用信息检索工具查找所需要的信息。狭义的信息检索即利用信息检索工具查找所需要的信息。则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查询。4著录:也称标引。所谓“标引”,是给这些文献信息一个标识,引导我们使用这些标识把文献纳入到检索系统或者利用这些标识检索文献。比如说我们图书馆的目录,就是把图书的书名,著名,分类号等项目著录下来,并按分类号排列形成分类目录,或按书名顺序排列形成书名目录。2文献信息检索的类型根据检索方式(即依赖的检索工具与

19、检索系统)来划分:手工检索是利用检索工具与工具书进行的,在检索之前,要对检索工具的编排、检索方法,包含的内容进行全面了解。计算机检索是利用数据库或检索系统进行的,输入指令由计算机自动匹配完成。因此拟定的检索式应该便于系统识别。3 文献信息检索系统31检索系统的概念信息检索系统:又称情报检索系统,是指按某种方式、方法建立起来的,以提供信息检索为目的一种有层次的信息存储与检索系统,是表征有序的信息特征的集合体。其中二次或三次文献信息是文献信息系统的核心和概括。信息检索系统的建立是以对所收录信息的组织为基础的,是一定范围文献、信息的全部记录的有序集合。功能:报道文献信息、存储文献信息、检索文献信息3

20、2文献信息检索系统的主要类型严格地说,信息检索系统是作为检索工具存在的信息源集合,其功能侧重于检索。所以,在这里,我们把信息检索系统的类型也称作检索工具的类型。1目录型目录也称书目,是以一件或一种完整的出版物(如一本书、一种期刊等)作为著录基本单位的检索工具。按一定次序编排,仅提供检索线索。主要描述文献的外部特征。常见的目录型检索系统(检索工具):国家书目:系统记录一个国家某时期所出版的全部书籍的一种目录,可以反映出一个国家书籍出版的现状和历史。比如:全国总书目。馆藏目录:主要提示某一图书馆或若干图书馆收藏书刊的信息。联合目录:是汇总若干图书馆或其它收藏单位所藏书刊的目录。出版社目录:根据出版

21、社出版的图书或书店发行的图书馆编制而成的目录。2索引型索引:是根据一定的需要,把特定范围内的某些重要文献中的有关款目或知识单元(如书名、刊名、人名、地名、语词等),按照一定的方法编排,并指明出处,为用户提供文献线索的一种检索工具。索引是一种常见的检索工具,有些网络数据库便是以索引命名的,如十三经索引、科学引文索引(SCI)等。3题录型:题录是以单篇或单份文献为著录的基本单位的检索工具,以文献的题名、著者等特征信息为描述对象,提供对文献出版的检索工具。主要揭示、报道文献的外表特征。4.文摘型文摘亦称提要、内容摘要等,是指在题录的基础上,在每条著录款目后边用简练的语言文字,对文献的内容所做的简略、

22、准确的描述。不包括对原文的补充、解释或评论。它不仅报道文献的外部特征,也报道文献的内容特征,是二次文献的核心,检索工具的主体。著名的文摘有新华文摘、科学文摘等,工程索引虽以索引命名,却是著名的文摘型检索工具。5全文是一种面向全文、提供全文的新型检索技术。它可以使用原文中任何一个有实际意义的词作为检索入口,得到的结果是源文献而不是文献的线索。四文献信息检索语言 1检索语言的概述定义:检索语言(information retrieval language)是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。也称标引语言、索引语言、信息检索语言。检索语言独立于具体的检索工具或检索

23、系统之外,作为一种软件被若干检索工具或检索系统所利用。检索语言的作用:对文献的外部征和内容进行多层次描述,提供多种检索途径,以方便用户从不同角度检索查找。主要有以下两种作用:加工与组织:对文献中包含的知识内容与外部特征进行规范化标引,对文献的外部特征进行规范化描述。匹配检索:提供对标引用语和检索用语的相符性比较。2检索语言的主要类型按检索语言的结构与产生原理分:分类语言、主题语言、代码语言。1分类语言相关概念:分类语言:按知识门类的逻辑次序对信息进行组织与检索的语言,是从文献内容的学科属性对文献进行描述与揭示,建立在对文献、信息所属内容的特征基础上的检索语言。按分类语言对检索系统进行组织,具有

24、按学科组织与检索相关文献信息的作用,这就是分类语言的族性检索(从学科门类)功能。具有极好的扩检与微检功能。类目:是分类语言的基本语汇。一个特定类目由分类号与类目名称共同构成。分类号的主要功能是组织文献与提供检索。分类号的标记制度:纯数字(如:科图法)、字母与数字共同组成的混合制(如:中图法)两种。 类目名称是用来说明特定类目所聚集的文献、信息的学科范围的一组文字。如“I247 中国现代长篇小说”(中国图书馆分类法)中的“I247”为分类号,“当代作品(1949-)”为类目名称。 索取号或索书号:是文献在目录或书库中的地址号,也就是图书排架的号码。由分类号+种次号(或著者号)构成。如:I247.

25、5/4-1。分类语言的类型:等级体系分类语言(等级体系分类法)、分析综合型分类语言(组配分类语言)与混合分类语言。其中最常见的是等级体系分类语言。最常见的等级体系分类法:国内:中国图书馆图书分类法(国家标准)简称中图法,中国图书资料分类法,简称资料法,中国科学院图书馆图书分类法,简称科图法。国外:杜威十进分类法(国际上使用范围最广的)、国际十进分类法、美国国会图书馆图书分类法。目前各搜索引掣的网页目录采用的是等级体系结构,也就是采用了分类语言对网络信息进行组织的通行方法,以便网络用户逐级点击直到锁定目标资源。分类语言的最大特色是它的族性检索功能,使用它比较容易进行扩检与缩检。但这种检索语言的局

26、限亦十分明显,即同一主题的文献、信息常常被分散到不同的类目之下。中国图书馆分类法(中图法)体系分类法是以科学分类为基础,依据概念的划分与概括原理,把概括文献内容与事物的各种类目组成一个层层隶属、详细列举的等级结构体系的一种文献分类法,亦称列举式分类法、枚举式分类法。中国图书馆分类法中图法是国家标准。共分五个基本部类:马列主义、毛泽东思想;哲学;社会科学;自然科学和综合性图书。在五大部类的基础上,社会科学展开为九大类,自然科学展开为十大类,共计22个基本大类,称为一级类目,每个基本大类下又可划分成若干个二级类目,二级类目下再划分出若干个三级类目,这样屡屡划分,逐级展开,类目可细分至七级。1个字母

27、或数字代表一级类目。如:H311.2一共有五级。 由于T类“工业技术”是一个庞大的体系,文献数量巨大,因此又以双字母标记展开了16个二级类,其重要程度不亚于基本大类。2主题语言定义:主题语言是表达文献内容中所涉及的核心事物与概念的检索语言。主题法:用以自然语言中的词语或规范化的词语作为揭示文献主题的标识,并以此标识编排组织和查找文献的方法主题词:指代特定概念与事物的语词。主题词有自然语言中的词语,也有从自然语言中优选出的规范化词语。 主题语言的类型主题法在发展过程中,依选词的不同,先后出现了标题词法、单元词法、关键词法和叙词法等多种文献组织与检索的方法。关键词法:关键词是指那些出现在文献标题(

28、篇名、章节名)、摘要和正文中,对表征文献主题内容具有实质意义的词语。关键词语言是直接选用文献中的自然语言作为基本词汇,并将那些能够揭示文献主题的关键性词汇作为关键词进行标引和检索的一种检索语言。关键词是非规范的,无需查阅标准词表,不受词表控制,快捷简便,适于用计算机组织和检索文献信息。但由于关键词法的词语不规范,影响了文献信息的查全率和查准率。如果你所使用的关键词不规范,随意性太强,就可能查不出相应的文献。所以选取关键词时应尽量考虑周全。首先由于名词与名词术语在取名上的多样性,选词时要对同义词、近义词、学名和俗名、不同译名、简称与全称、不同写法等进行选择;对多义词、同形异义词进行限定说明;其次

29、由于英文构词的多样性,选词时也要注意英语的复合词、派生词、单复数以及英文单词拼写的变体等等,从而避免产生误检和漏检。分类语言、叙词语言和关键词语言是目前检索系统所使用的通用检索语言,是我们认识和使用一种检索工具与检索系统的起点。目前大多数搜索引掣使用的都是关键词语言,而学科信息门户使用的基本是规范语言。五文献信息检索途径1以文献信息外表特征为检索途径:题名途径:是以各种事物的名称为检索点来检索文献信息。主要用于检索图书,期刊与有关资料。著者途径:以文献著者的姓名字顺为检索点进行检索的一种途径。这类检索工具有著者目录、著者索引,机构索引等。号码途径:是以文献信息的号码标识为检索点来检索文献信息的

30、途径。在已知文献代码情况下,利用代码途径检索文献,可谓是一条既快又准的捷径。2以文献信息内容特征为检索途径:关键词途径是以文章作者所列出的、反映自己文章主题内容的关键词作为检索点来检索文献。这是机检中使用频率很高的一种检索途径。分类途径是以文献信息内容所属的学科类别为检索点来检索文献的一条途径。它是检索文献的主要途径之一。常用的工具有分类目录和分类索引。主题途径这是以反映文献内容的有关主题词作为检索点检索文献的一条途径,它也是文献检索的主要途径之一。按主题途径检索的关键是选准主题词,合理选择和使用主题词,对检索结果的优劣直接产生影响。主题检索途径是目前很受用户欢迎的一种文献信息检索途径。引文途

31、径利用被引文献来查找原文献的检索方法。如: CNKI中国期刊网被引用字段,维普中文期刊数据库引文检索途径。 中文社会科学引文索引六、计算机信息检索的基本技术与方法1 计算机文献信息检索的技术查全率(Recall ratio)检出相关文献量/文献库内相关文献的总量 100%查准率(Precision ratio)检出相关文献量/检出文献总量100%11布尔逻辑检索(逻辑组配检索)(Boolean logical)指采用布尔逻辑表达式来表达用户的检索要求,并通过一定的算法和实现手段进行检索的过程。布尔逻辑表达式是采用布尔运算符(逻辑与“and”、逻辑或“or”、逻辑非“not”等)来连接运算检索词

32、,以及表示运算优先级的括号组成的一种表达检索要求的一种算式,简称提问逻辑式。l 逻辑与“ AND ”运算符,也可用“*”表示,用来组配不同的概念的检索词。是一种概念相交和限定关系的组配。例如:“A AND B”或“A * B”其含义是:检出的信息中必须同时含有“A”和“B”两个检索词。基本作用是对检索范围加以限定,逐步缩小检索范围,提高检索结果的查准率。例如,检索“计算机在图书馆中的应用”方面的文献,其提问式可写成:计算机 and 图书馆 或 计算机*图书馆l 逻辑或“ OR ”运算符,也可用“ + ”表示,是用来组配具有同义或同族概念的检索词。如:检索提问式:“A OR B”或“A + B”

33、其含义是数据库记录中任何一条记录,只要含有“A”或“B”中任何一个检索词即为命中的文献。基本作用是扩大检索范围,增加命中文献量,提高文献的查全率。如:“微机 + 电脑 + PC机”、 “微机 or 电脑 or PC机”l 逻辑非“ NOT ”运算符,也可用“-”表示,“NOT”算符是排除含有某些词的记录,其逻辑提问表达式为“A NOT B”或 “A - B”,即检出的记录中只能含有“NOT”算符前的检索词 A,但不能同时含有“NOT”后的检索词 B。基本作用是缩小检索范围,但并不一定能逻辑非提高文献命中的准确性,一般只起到减少文献输出量的作用。在联机检索中可降低检索费用。例如:“计算机 NOT

34、 微机”应注意,由于“NOT”算符有排除掉相关文献的可能,因此,在实际检索中应慎重使用。12截词检索截词检索是在词干的不同位置添加截词符“?”、“*”或“$”,以此代表词的可变部位,以检索一组概念相关或同一词根的词,从而减少相同词干的检索词的输入数量,提高检全率的一种常用检索方法。这种检索方式可以扩大检索范围,提高查全率,主要用于西文数据库检索。中文数据库通常不使用这种技术。主要用于检索词的单复数、词性的词尾变化、词根相同的一类词,以及同一词的拼法变异等。在不同的检索系统里用不同的符号,一般为:*、?、!基本作用是提高查全率,防止漏检。类型: 根据截词的位置不同,分为前截断、后截断、中截断 前

35、截断:又称左截断,截词符放在被截词的左边,可与后截断一同使用。目前这种检索技术应用已经极少,例如:*magnetic。 中截词:把截词符放在词的中间。这种方式查找英美不同拼法的概念最有效。例如:如:wom*n 可检出woman,women 后截断:是前方一致检索,又称右截断,截词符放在被截词的右边,是最常用的检索技术,例如:librar*。 根据截断的数量不同,分为有限截断和无限截断。 有限截断:限制被截断的字符数量,例如输入apple? ? 表示被截断的字符只有两个,可检出apple、applet等结果。 无限截断:不限制被截断的字符数量。例如输入educat?,可以检索educator,e

36、ducators,educated,educating,education,educational,等等。 注:不同的数据库所用的截词符不一样,使用应先查一下各数据库的帮助加以确认。1.3位置算符检索表示两个检索词间的位置临近关系,又叫邻接检索。这种检索技术通常只出现在西文数据库中,在全文检索中应用较多。布尔逻辑运算符表示两个概念之间的逻辑关系,位置算符表示的是两个概念在信息中的实际物理位置关系常用位置算符 W/n(with/n):两词相邻,在一个标引字段中W/n表示两个词不可以互换顺序,二者之间可插入0-n个词。 如:智能机器人(w/3)控制,可检出“智能机器人控制”,“智能机器人行为控制”

37、等 N/n(near/n):两词相邻,N/n表示两个词可以互换顺序,二者之间可插入n个词。 如:智能机器人(n/3)控制,可检出“智能机器人控制”,“控制算法对智能机器人的影响”等 F(field):同字段检索,被f连接的检索词必须出现在同一字段中。 S(sub-field/sentence):同句检索, 要求参加检索运算的两个检索词必须在同一自然句中出现。1.4. 限制检索通过设定相应的检索条件实现对检索的优化。是缩小或约束检索结果的方法,最常用的是对特定字段的限定检索。如:rice in ti(表示只在题目字段中查找文献) rice in de(只在主题词中查找) rice in ab(只

38、在文摘中查找) au = Smith,J.C (查作者为Smith,J.C 的文章) py = 1998(只查1998年的文章) la =Chinese (只查语种为中文的文献)常用的限制检索方式: 字段检索将检索限定在特定字段内进行限制的方法。 字段限制范围的大小顺序是:题名关键词摘要NOTANDOR1.7. 全文检索:全文检索是指对文献全文内容进行字符串匹配检索,包括字符串检索、截词检索和位置检索等技术。全文检索技术是一种面向全文、提供全文的新型检索技术。它可以使用原文中任何一个有实际意义的词作为检索入口,得到的结果是源文献而不是文献的线索。全文检索系统必须具有一个全文数据库。在全文库的基

39、础上,对其字、词、句、段等的加工、检索与编辑。系统除了可以用布尔逻辑运算式进行检索外,还具有文本检索功能,并具有同义词控制、后控词表对检索策略的自动调整等功能。此外,系统还允许用户以自然语言进行检索,直接获取原文中的有关章、节、段、句等。1.8. 扩检:在试探性检索所获取的检索结果过少,还不到检索要求时,应采取扩展检索以扩大检索范围,保证检索率。采用的方法可以是增加检索词:如将原检索词的所有同义词、别名、俗名作为检索词进行组配检索,使用截词技术或扩大检索的年代与文献范围。缩检:亦称二次检索,当检索结果数量过多,评价、筛选困难时,为保证检索精度与检准率,使用缩检,即在原有检索结果中进行筛选,这个

40、措施可反复采用,直到检索结果符合要求。2 文献信息检索的基本步骤与策略采用检索工具检索文献信息一般要经历5个紧密相连的步骤 1.分析研究课题,明确检索要求 分析研究检索课题是整个检索过程的关键,是信息检索成功与否的关键,检索者首先要对课题作综合分析,通过分析明确如下要求,(1)明确课题的专业范围及其关健点,选取主题词。(2)明确所需文献类型。(3)确定所需文献的时间范围与语种范围(4)分析检索目的:以科研攻关,解决具体的技术难题为目的。(5)研究探索:密切跟踪,了解国内外某一研究领域的最新成果与动态。每一项理论或技术都有其发生、发展和形成的过程,检索时就是根据研究课题相关知识发展的形成期、高峰

41、期和稳定期来确定检索的时间范围。检索要求愈明确,检索范围愈具体,已知条件愈多,检索效果愈好。因此,分析研究课题这一步进展得如何,对其后的检索程序至关重要检索者切忌情况不明就贸然开始检索,这会导致走弯路或检索失败。检索的目的与要求及检索范围作为选择检索工具与数据库的依据。不同的数据库其收集的文献类型、学科范围,对文献的回溯期限不同。2选择检索工具(或数据库)与检索手段根据已经明确的检索要求与专业范围,选择合适的检索工具或数据库。确定检索方法:追溯法、工具法(顺查法,倒查法,抽查法)、综合法中外文检索工具与数据库很多,检索者要求对各种检索工具或数据库的性质,内容和特点作深入了解,可借助于各种检索工

42、具指南,学科文献指南或联机数据库目录。机检包括联机检索,脱机检索,光盘检索与网络检索,其中手工检索基本上不花钱,机检速度快,效率高,但费用也高。检索者可根据时时间要求、设备状况与经费条件来选择合适的检索手段。3确定检索途径与拟定检索式采用哪种方法与途径,要结合课题检索要求与检索工具或数据库的特点来确定。就检索途径而言,如果课题检索要求泛指性较强的文献资料,最好用分类途径;如果课题检索要求是专指度较高的文献资料,最好选择主题途径,如果事先巳知文献著者,分子式,专利号,标准号,报告号等条件,则利用著者途径,分子式途径与文献代码等途径为好。必要时将这些途径与分类、主题途径配合使用,将会收到更好的检索

43、效果。检索提问式是计算机信息检索中用来表达用户检索提问的逻辑表达式,由检索词和各种布尔逻辑算符、位置算符、截词符以及系统规定的其他组配连接符号组成。4实施试检索操作用分类法与主题法检索文献时,要选准分类号与主题词,在机检中还要构造机检策略,即用布尔逻辑或其它符号将检索词连接起来,组成一种逻辑运算式。在检索过程中,无论是手检或机检,均需视检出结果,如果试检索的结果与检索需求存在差距,则需要对检索课题进行再分析,不断修改与完善检索策略,以达到检索的合理性与有效性。再分析的过程包括:重新选择检索系统,选择相关检索词,重新拟定检索式,以及在原有检索策略的基础上进行扩检、缩检,设定较长的文献回溯期等。阅

44、读检出结果,决定取舍。在手检中对切题的文献要记录文献资料的篇名(书名),著者,文摘、文种、来源等,尤其是文献来源切不可遗漏。倘若是机检,可选择打印格式,联机或脱机打印输出即可。5检索结果的评价与获取原始文献评价检索结果是结合多种标准对检索结果进行评价、筛选,把真正符合需要的检索结果保留下来。获取原文是文献检索的最后一步,原文获取可以通过多种途径实现。全文数据库的检索与原文获取可以一步完成,是检索时的首选。而题录与摘要信息检索系统只能检索到原文的线索,在这种情形下,应尽可能通过本地资源获取原文。如本地资源无法保障,则可以考虑使用电子文献传递系统从其他图书、情报机构获得原始文献。目前大部分非全文数

45、据库多提供了原文的外链接,用户可以根据需要选择。3 计算机信息检索的策略1分析研究课题,明确检索要求检索误区1过分依赖搜索引擎。Internet资源与专业的网络数据库来比,无论是质量还是数量上都有很大的差距,检索文献目前来说最主要的来源还应是专业数据库,即正规的出版物上发表的文献。检索误区2忽略摘要数据库。摘要数据库的数据量大,范围广,是查找文章线索极好的检索工具。就目前的情况而言,不可能全部都能得到电子版的全文,先找到文章线索再根据线索查找印刷版的全文是一项不错的组合。2选择数据库或网络检索工具选择合适检索工具的前提是对网络资源有一个较全面的、清晰的了解,具体地说要对检索工具的类型、内容特点

46、、时间范围、学科范围、甚至出版商的大体情况都要有一个了解。方法: 注重平时的积累 不要盲目检索,应养成检索前了解一下数据库的习惯 注重与他人的交流 重视图书馆主页的资源3提炼检索词,制定检索式检索词尽可能选用词或词组,然后用布尔逻辑运算符将检索词连接起来,切忌把整个题名输入到检索框中。如:网络数据库的安全性研究要提炼关键的、核心的词作为检索词。去掉意义太泛或“无所谓有”的词,有时不需要死抠字眼,意思匹配就可以了。漏检:忽视了同义词、相似词等。检索中不断调整策略4实施试检索操作检索,再分析,再检索,再分析。5检索结果处理。七参考文献著录标准、范围以及文后参考文献的著录格式1著录标准(1)排列次序:依在正文中被首次引用的先后次序列出各条参考文献。(2)具体要求:项目齐全,内容完整,顺序正确,标点无误。(3)注意事项:只有3位及3位以内作者的,其姓名全部列上,中外作者一律姓前名后; 共有3

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑/环境 > 装饰装潢


经营许可证编号:宁ICP备18001539号-1