信息检索.ppt

上传人:少林足球 文档编号:3592471 上传时间:2019-09-15 格式:PPT 页数:60 大小:1.14MB
返回 下载 相关 举报
信息检索.ppt_第1页
第1页 / 共60页
信息检索.ppt_第2页
第2页 / 共60页
信息检索.ppt_第3页
第3页 / 共60页
信息检索.ppt_第4页
第4页 / 共60页
信息检索.ppt_第5页
第5页 / 共60页
点击查看更多>>
资源描述

《信息检索.ppt》由会员分享,可在线阅读,更多相关《信息检索.ppt(60页珍藏版)》请在三一文库上搜索。

1、信息检索,课程性质,文献信息检索课就其实质来说,是一门方法课, 即通过讲授信息检索基础理论、信息检索方法和各种中外文数据库的使用,提高同学们获取信息的能力,主要是培养学生的情报信息意识和提高检索技能。,一、信息素质,信息素养的概念,To be information literate, a person must be able to recognize when information is needed and have the ability to locate, evaluate, and use effectively the needed information. 具有信息素养的人

2、能够知道什么时候需要信息,能够有效地获取、评价和利用所需要的信息。 美国图书馆协会ALA, 1989,信息素质,信息素质(Information Literacy 简称IL),又称信息素养,简单地讲,信息素养是指个人“能认识到何时需要信息,和有效地搜索、评估和使用所需信息的能力”。 它包含了三个层面: 信息意识、信息能力、信息道德。,信息素质的内涵:,信息意识对各种信息自觉的心理反映 信息能力信息技术的应用能力 信息查询、获取的能力 信息组织加工、分析能力 信息的有效利用、评估、 传播能力 信息道德整个信息活动中的道德 规范,学术道德规范 (学术规范的核心部分,具体包括: ) 学术研究应坚持严

3、肃认真、严谨细致、一丝不苟的科学态度。不得虚报教学和科研成果,反对投机取巧、粗制滥造、盲目追求数量不顾质量的浮躁作风和行为。 学术评价应遵循客观、公正、准确的原则, 如实反映成果水平。 学术论著的写作应树立法制观念,保护知识产权,要充分尊重前人劳动成果 。,信息道德,学术法律规范: 中华人民共和国著作权法 合作创作的作品,其版权由合作者共同享有。 未参加创作,不可在他人作品上署名。 不允许剽窃、抄袭他人作品。 禁止在法定期限内一稿多投。 合理使用他人作品的有关内容。,信息道德,你不可能一夜之间就具备信息素质。象培养阅读、写作能力一样,你需要不断地从信息检索过程中获得经验,在寻找,选择,评价你遇

4、到的信息和思想中,你的信息素质逐渐提高了。 第一层次:知道什么信息在什么地方(熟悉了解信息源) 第二层次:从检索系统中检索出信息(检索技术) 第三层次:信息选取与综合利用(信息增值),如何具备信息素质,如何判断自己已具备了信息素质?,1、能够独立决定所需信息种类和程度。 2、能够高效地获取所需信息。 3、能够根据现有的知识背景和评价标准对信息 及其来源进行评价及遴选。 4、能够有效地利用信息达到某一特定的目的。 5、能够在信息利用过程中遵守相关的法律法规。,二、信息源,信息的来源叫做信息源。 信息源可按不同的方法分类描述,比较常见的分类方法有如下三种: 1、按信息的载体形式划分(电子文献等);

5、 2、按信息加工的级别划分(四次文献); 3、按信息的发布形式划分(十大文献信息源等),(1)、按信息的载体形式划分信息源,1)印刷型(Printed form) 以纸张为载体 2)缩微型(Microform) 以感光材料为载体 3) 声像型(Audio-Visual form) 以声像记录材料为载体 4) 电子型(Machine Readable form) 以计算机信息存储设备为载体,(2)、按信息加工级别划分信息源,信息出版量的急剧增长,信息类型的多样化和信息分布的离散状态,获取相关信息犹如大海捞针。利用信息的可塑性,将信息处理为不同等级。通常文献学上将其称为“三次文献”: 一次文献 p

6、rimary document 二次文献 secondary document 三次文献 Tertiary document 零次文献 最原始的资料,文献,零次文献:普通网页,电子邮件等 一次文献:正式在期刊上发表的论文等 二次文献:数据库中的题录、目录等 三次文献:文献综述、进展报告等,(2)按文献加工深度划分,1)图书(book) 2)期刊(journal) 3)科技报告(report) 4)会议文献(proceeding) 5)专利文献(patent) 6)学位论文 (dissertation) 7)政府出版物 (government publication) 8)标准文献(standa

7、rds) 9)产品资料(product literature) 10)科技档案(scientific and technical archives),(3)、十大信息源按出版形式划分,特种文献,三、网络检索的六大方面,一个原则:选择合适的关键词,制定正确的检索策略。 两类搜索引擎 三大系列中文网站 四次文献 五大多媒体技术 十大文献信息资源,一个原则 两类搜索引擎:全文搜索引擎(FullText Search Engine) 百度搜索引擎 、Google搜索引擎 分类目录( Directory ) 雅虎中国、搜狐、新浪、网址之家、 网易分类目录等 三大系列中文网站 四次文献 五大多媒体技术 十

8、大文献信息资源,一个原则 两类搜索引擎 三大系列中文网站: 三大中文门户网站新浪、搜狐、网易 三大中文期刊数据库清华库、维普库、万方库 三大中文数字图书馆超星、方正、书生之家 四次文献 五大多媒体技术 十大文献信息资源,一个原则 两类搜索引擎 三大系列中文网站 四次文献: 零次文献 一次文献 二次文献 三次文献 五大多媒体技术 十大文献信息资源,一个原则 两类搜索引擎 三大系列中文网站 四次文献 五大多媒体技术:素材下载技术 素材转换技术 多媒体制作技术 素材发布技术 网页制作和网站发布技术 十大文献信息资源,十大文献信息资源 科技图书 科技期刊 特种文献( 科技报告 政府出版物 会议文献 标

9、准文献 专利文献 科技档案 学位论文 产品样本 ),四、信息检索,什么是信息检索?,信息检索(Information Retrieval) 指对文献信息资料的查找与获得。 检: 即查找, 索: 即获得与索取。 也就是说,检索者利用检索工具按照文献编排的特点,采取一定的途径、方法和步骤,将所需文献资料查找出来,并加以利用。 前提:必须有检索工具 其次:途径和方法桥梁、纽带 最后:检索者,信息检索发端于19世纪前期,主要以手工检索方式为主,其发展速度较为缓慢,检索效率普遍不高。到20世纪50年代,1951年世界上出现了最早的计算机系统,这可称得上是信息检索发展史上的一个里程碑。随着计算机技术的不断

10、进步,进入20世纪90年代,网络技术开始进入社会生活各个领域,计算机检索也逐步由脱机检索、联机检索发展到如今Internet环境下网络检索。,信息检索活动的功用,一、利用信息检索工具,全面细致地搜索前人的工作经验与成果,及时掌握事物的最新动态及发展趋势; 二、提高工作效率,提高人们的自学能力、科研能力、鉴赏能力; 三、避免重复劳动,规避风险,维护正当权益;,信息检索活动的功用,四、节省检索文献的时间 文献检索在科研中所占时间的比例: 开展思考计划文献查找科学实验编写科研报告 8% 48% 35% 9% 五、有利于专题文献查准和查全 检索工具原始文献(线索) 六、克服专业语言和自然语言的障碍,五

11、、检索语言,检索语言,是根据检索的需要而创造的人工语言,用于描述检索系统中信息的内部特征和外部特征并能表达用户信息提问的一种专门语言。,标引文献与揭示文献内容的两种基本方法:,、分类法:按照文献资料的学科属性(分类法最有利于查全) 分类法的特征在于知识的系统性,不仅揭示图书的学科知识内容,而且把有关同一学科内容的文献资料集中在一起,使学科临近的文献排在相近的位置,根据各类图书之间的亲疏关系将藏书组织成一个系统 、主题法:按照所论述的事物 将文献所论述的事物按照规范化的语言(主题词)的字顺进行排检,从本质上讲,是用词语来揭示文献所阐释或研究的对象、事物和问题。与分类法相比,从不同角度来揭示文献。

12、,分类法,世界上有代表性的分类法: 1、杜威十进制分类法(Dewey Decimal Classification and Relative Index 简称DDC) 2、国际十进制法(Universal Decimal Classification,简称UDC)(被广泛应用于科学论文的分类 ) 3、美国国会图书馆图书分类法(Library of Congress Classification,简称国会法或LC)(目前广泛应用于北美大中型图书馆,特别是大学等学术性图书馆 ) 4 、中国图书馆分类法,中图法中国图书馆分类法,以学科来组织知 识,将全部知识领域划分为5个基本部类,22大类。 马克思

13、主义、列宁主义、毛泽东思想、邓小平理论 哲学 社会科学 自然科学 综合性图书 在5个基本部类的基础上,按照从总到分,从一般到具体的编排原则进一步展开,组成了22个基本大类:A、B、C、D、E、F、 Z(L、M、W、Y) 这就是俗称的中图法五部二十二大类。,中图法介绍,主 题 法 1、自然语言(非规范语言):信息检索系统中使用的标引词直接来自文献和用户提问而不加控制的一类检索语言,主要有关键词语言。 自然语言的应用以计算机为前提,否则,自然语言检索将难以实现。 2、受控语言(规范语言或人工语言):标引词来自文献或者用户,并受到信息检索系统的控制的一类检索语言的总称,又叫规范化语言。 受控词在检索

14、实践中具体体现为词表。词表在网络检索工具中的应用主要体现在辅助选词以及检索式的扩展。,汉语主题词表,汉语主题词表是我国第一部大型综合性主题词表。1979年出版,自然科学部分年修订收录正式主题词91158条,非正式主题词17410条。 全表共分3卷10分册,由主表、词族索引、范畴索引、英汉对照索引等组成。,六、检索工具,目录型检索工具 目录是图书、期刊等出版物外表特征的揭示和报道。它以完整的出版物(如一本书、一种期刊)作为著录的基本单位,所以也可以说它是按某种顺序编排的文献清单。是指导阅读和科学管理文献的重要手段。 目录的著录对象一般是整本书或整种刊物,全国总书目揭示每年国内图书出版情况 每个图

15、书馆的OPAC(联机公共目录)揭示该馆的馆藏 联合目录揭示许多家图书馆出版物收藏情况。,题录型检索工具 题录的含义 题录是描述文献外部特征的文献条目。文献的外部特征包括题名、著者、出处、卷期、页码、时间、文献类型、语种等著录项目。 题录的著录对象一般是单篇文献。,文摘型检索工具 文摘的定义 我国国家标准GB 3468-1983; 检索期刊编辑总则说明定义:“除题录部分外还对文献内容作实质性描述的文献条目称之为文摘”。 文摘是文献原文浓缩后的产物,是忠实于原文内容的简要记录单元。揭示文献的内容特征,在文摘的编写中不能加入编写人员的主观见解和任何解释性说明,也不能对原文作任何修改。,全文型检索工具

16、 全文也包括内容简短的事实和数据。全文性检索系统集文摘检索和全文提供于一体,是近年来发展较快和前景较好的一类数据库。 优点: 一、可以直接获取全文。 二、多数全文数据库提供全文字段检索,这个有助于文献的查全。,手工检索工具 索引: 将文献中具有检索意义的事项(可以是人名、 地名、词语、概念、或其他事项)按照一定方式有序编排起来以供检索的检索工具。 相对于目录,题录、文摘等类型的检索工具,索引深入到文献的细节,涉及到具体的知识点。 常用的印刷版的工具书都有索引,以便检索。,其他类型的手工检索工具工具书 年鉴查找事实或统计数据 百科全书查找不熟悉的知识 手册成熟稳定的知识,查找参数,公式等 辞书词

17、典或辞典,查找科技词汇的解释,或汉外对照辞典 ,缩略语辞典。还有大量的专门性辞典。 年表查找一些历史大事记录,七、计算机检索,1、机检包括以下几个主要过程:,1、识别用户:帐号密码、IP地址 2、接收提问:接收输入的检索词 3、提问校验:语法检查(布尔逻辑组配)及用词检索 4、转化提问式:将用户的原始提问式 转化成计算机处理的目标提问式 5、检索:进行匹配选择的过程 6、结果输出:按照相关性的大小等顺序 进行排序后输出,1)、分析检索课题(界定问题):分析研究问题,建立背景知识。明确检索目的、学科、年代范围、所需信息类型 开始检索的前提 2)、选择检索系统和数据库(选择信息源):考虑数据库涉及

18、的学科范围、文献类型、数量、时间、更新周期、检索功能和服务方式等选择检索系统和数据库 对检索工具和方法的选择,2、计算机检索步骤:,3.1)、确定检索途径和检索方式(制定检索策略): 许多数据库提供多种检索途径,如初级检索、高级检索、专业检索和分类检索等途径。 检索方式(检索项)的选择: 根据课题已知条件及选定的检索工具所提供的检索途径来定,主要有著者、分类、主题、文献题名、文献代码、引文、文献类型、出版时间、语种等。 有选择地使用,3.2)、确定检索词(拟定主题概念,制定检索策略): 检索词是表达文献信息需求的基本元素,由用户输入,可以组配:优先选用主题词,尽量选用通用的专业术语和数据库词表

19、中的主题词检索,还要考虑同义词、相关词、缩写词,提高查全率 对主题词的提炼,3.3)、构建检索式(制定检索策略): 检索式是计算机检索中用来表达用户检索提问的逻辑表达式,一个课题一般需要用多个检索词来表达,并且运用各种布尔逻辑算符、位置算符、截词符及其他组配连接符号来确定词与词之间的关系,表达一个完整的检索要求。 明确检索词间的组配关系。,4)、检索并调整检索策略(评价信息): 及时分析检索结果,适当调整检索词、检索提问式,能简化的必须简化,多准备几个检索提问式,随时调整使用。一般可以先查找最精准的检索词,然后根据检索出来的结果,逐步扩大检索范围,直到结果满意。 5)、检索结果(分析和利用信息

20、),3、检索策略: 在检索过程中,确定检索范围、选择检索手段、选择检索系统和数据库等,是为实现检索目标而制定的整体方案,是整个检索过程的指导。我们称之为“检索策略”。 对检索的全面策划,4、计算机检索的基本技术: 检索课题时,关键词或主题概念不止一个,它们之间的关系要靠运算符来表达。 (1)布尔逻辑检索 (2)截词检索 (3)位置检索 (4)加权检索 (5)限制检索,4.1)布尔逻辑检索Boolean operators: 把具有简单概念的检索词,组配成复杂概念的逻辑运算符号,主要有逻辑与、或、非。 AND(*):逻辑“与” OR(+): 逻辑“或” NOT(-):逻辑“非”,逻辑“与”AND

21、(*)对交叉概念和 限定关系组配,缩小检索范围,提高 查准率。 逻辑“或”OR(+)对并列关系的组 配,它可以扩大检索范围,提高查全 率。 逻辑“非” NOT(-)排除原来的检索 范围中 不需要的概念,使检索结果更准确。,4.2)截词检索: 用截词符号“*”、“#”、“?” “” 加在检索词的前后或中间,以检索一组概念相关或同一词根的词。这种检索方式可以扩大检索范围,提高查全率,主要用于外文数据库检索。 中文数据库通常不使用这种技术。,后截词检索(前方一致):又称右截断,截词符放在被截词的右边,是最常用的截词检索技术。 中截词检索:也称“通用字符检索法”,把截词符放在词的中间,凡前后方一致的词

22、,均能检出。这种方式查找英美不同拼法的概念最有效。,4.3)位置检索: 就是要求检索词按照用户指定的位置出现,用位置算符规定检索词在文献中的相对位置。,4.4)限制检索 泛指检索系统中提供的缩小或约束检索结果的检索方法。主要有以下方式: 字段检索利用字段进行限制,如题名、摘要、全文等 通常的字段限制范围的大小顺序是: 题名关键词摘要全文 二次检索在前一次检索的结果中进行另一概念的检索,限制检索(Range):将检索词限定在某些字段中,也就是用字段符号,限定检索词出现的字段。常用的字段代码及名称如: AU=作者;LA=语种; TI=篇名;AB=文摘; PY=年代;KW=关键词; SU=主题词;,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1