第三讲基础知识---信息检索语言与技术.ppt

上传人:本田雅阁 文档编号:3146200 上传时间:2019-07-16 格式:PPT 页数:43 大小:297.02KB
返回 下载 相关 举报
第三讲基础知识---信息检索语言与技术.ppt_第1页
第1页 / 共43页
第三讲基础知识---信息检索语言与技术.ppt_第2页
第2页 / 共43页
第三讲基础知识---信息检索语言与技术.ppt_第3页
第3页 / 共43页
第三讲基础知识---信息检索语言与技术.ppt_第4页
第4页 / 共43页
第三讲基础知识---信息检索语言与技术.ppt_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《第三讲基础知识---信息检索语言与技术.ppt》由会员分享,可在线阅读,更多相关《第三讲基础知识---信息检索语言与技术.ppt(43页珍藏版)》请在三一文库上搜索。

1、1,第三讲:基础知识- 信息检索语言与技术,王建涛,2,第二讲回顾:小结NO3,信息源的三大划分标准:载体形式、处理级别、编辑出版形式。其中后两种是极其重要的。 不同的需求选择不同的信息源。 哪些信息源是你撰写学术论文必须的 网络资源和数据库作为涉及到各种类型信息资源。 根据“信息源划分示意图”理解不同信息源划分之间的关系。 根据“信息处理级别示意图”理解不同出版形式的信息源之间的关系。,3,第二讲回顾:小结NO4,检索与查找的区别 信息检索的含义、原理、类型、意义 信息检索工具、方法、步骤 信息检索类型划分示意图 能通过“信息检索原理图”理解信息检索原理 能够借助“信息检索步骤示意图”理解并

2、记忆信息检索五步骤,4,第二讲作业讲评,认识和选择信息源,5,1 信息检索语言,信息检索语言 = 信息组织与存储的方法或规则,6,1 .1 什么是信息检索语言,回顾“信息检索原理图”,作为信息检索的桥梁信息检索语言 含义:是根据信息检索系统存储和检索的需要而编制的人工语言。 语言词汇语法 信息检索语言的词汇:分类号、检索词、代码 信息检索语言的语法:如何正确描述记录和有效地检索记录的一整套规则。,7,1.2 信息检索语言类型示意图,文献信息分类 网络信息分类 数据库信息分类,8,1.3.1 文献信息分类语言,国内 中国图书馆分类法中图法 中国科学院图书馆图书分类法科图法 中国人民大学图书馆图书

3、分类法 人大法 中国图书分类法台湾赖永祥编订 国外 杜威十进分类法DDC 国会图书馆分类法LCC,9,中图法等级分类体系,H1 H2 H3 R1,10,中图法结构示意图,A 马克思主义、列宁主义 毛泽东思想、 邓小平理论 B 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学 Z 综合性图书,U1 综合运输 U2 铁路运输 U4 公

4、路运输 U6 水路运输 U8 航空运输,U41 道路工程 U44 桥涵工程 U45 隧道工程 U46 汽车工程 U48 其他道路 运输工具 U49 交通工程与公路 运输技术管理,U441 结构原理、 结构力学 U442 勘测、设计 与计算 U443 桥梁构造 U444 桥梁建筑材料 U445 桥梁施工 U446 桥梁试验观测 与检定 U447 桥梁安全与 事故 U448 各种桥型 U449 涵洞工程,基本大类 简表 详表,11,中国科学院图书馆图书分类法简表(第三版),00 马克思列宁主义毛泽东思想 10 哲学 20 社会科学(总论) 21 历史、历史学 27 经济、经济学 31 政治、社会生

5、活 34 法律、法学 36 军事、军事学 37 文化、科学、教育、体育 41 语言、文字学 42 文学 48 艺术 49 无神论、宗教学,50 自然科学(总论) 51 数学 52 力学 53 物理学 54 化学 55 天文学 56 地球科学(地学) 58 生物科学 61 医药、卫生 65 农业科学 66 农作物 67 园艺 68 林业、林业科学,71 工程技术 72 能源学、动力工程 73 电技术、电子技术 74 矿业工程 75 金属学(物理冶金) 76 冶金学 77 金属工艺、金属加工 78 机械工程、机器制造 81 化学 83 食品工业 85 轻工业、手工业及生活供应技术 86 土木建筑工

6、程 87 运输工程 90 综合性图书,12,人大法简表,1.马克思主义、列宁主义、毛泽东思想 2.哲学 3.社会科学、政治 4.经济 5.军事 6.法律 7.文化、教育、科学、体育 8.艺术,9.语言、文字 10.文学 11.历史 12.地理 13.自然科学 14.医药卫生 15.工程技术 16.农业科学技术 17.综合参考,13,中国图书分类法(台湾),000 总论 100 哲学 200 宗教 300 自然科学 400 应用科学 600 历史、地理 700 历史、地理 800 语文 900 美术,310 数学 320 天文 330 物理 340 化学 350 地质 360 生物、博物 370

7、 植物 380 动物 390 人类学,410 医学 420 家政 430 农业 440 工程 450 矿冶 460 化学工业 470 制造 480 商业 490 商学,441 土木工程 442 道路工程 443 水利工程 444 船舶工程 445 市政工程 446 机械工程 447 陆空交通 448 电气工程 449 核子工程,14,杜威十进分类法(DDC),000 总论 100 哲学 200 宗教 300 社会科学 400 语言 500 自然科学 600 应用科学 700 艺术 800 文学 900 历史、地理,510 数学 520 天文学 530 物理学 540 化学 550 地球科学 5

8、60 古生物学 570 生命科学 580 植物学 590 动物学,621 应用物理学 622 采矿 623 军事及航海工程 624 土木工程 625 道路工程 627 水力工程 628 卫生及市政工程 629 其它工程 610 医学 620 工程与应用科学 630 农业 640 家政 650 管理科学 660 化学工业 670 制造业 680 特种制造业 690 建筑,15,美国国会图书馆分类法 (LCC),A 综合性类目 B 哲学、宗教 C 历史辅助科学 D 历史与地方志(美洲以外) EF 美洲历史与地方志 G 地理学、人类学 H 社会科学 J 政治学 K 法律 L 教育,M 音乐 N 艺术

9、 P 语言、文字学 Q 自然科学 R 医学 S 农业、矿业 T 工业技术 U 军事科学 V 海军 Z 目录学、图书馆学,QA 数学 QB 天文学 QC 物理学 QD 化学 QE 地质学 TA 工程总论 TC 水力工程 TD 卫生工程和市政工程 TF 铁道工程和运输 TG 桥梁工程 TH 建筑工程,16,1.3.2 网络信息分类,很多情况下并不很清楚自己的信息需求,或者无法清楚表达信息需要,需要通过类目浏览 搜索引擎【目录专题网站】 google网页目录 搜狗目录 学科信息门户 http:/ http:/ 开放目录 http:/dmoz.org/ 特殊资源分类电影分类/软件分类,17,1.3.3

10、 数据库信息分类,如中国期刊全文库,18,小结NO5,文献信息分类特点 方便文献信息的排架,便于索取; 类目的结构严谨,逻辑性强; 适合学术信息资源的组织。 网络信息分类特点 根据网络信息的存在状况和当前上网用户的特点来编制的,科学性、系统性稍差; 适合大众信息资源的组织。 数据库信息分类特点 结合文献信息分类和网络信息分类的优点 方便浏览和检索,19,1.4 主题语言,主题:论述的对象和研究的问题 主题语言:以文献信息内容特征和科学概念的词语为检索标识,并按字顺组织起来的一种检索语言。,20,1.4.1 标题词语言,标题词:从自然语言中选取并经过规范化处理的、表示事物概念的的词、词组或短语。

11、 代表EI中工程主题词表(简称SHE) 电脑-见(see)-计算机 局域网-参见(see also)-计算机网络,21,1.4.2 关键词语言,所谓关键词是指那些出现在文献的标题(篇名、章节名)以至摘要、正文中,对表达文献主题内容具有实质意义的语词,亦即对揭示和描述文献主题内容来说是重要的、带关键性的(可作为检索“入口”的)那些词语。 关键词基本上不作规范化处理。例如,“国际联机检索概论”中的“国际联机”、“联机”、“检索”都是能描述这篇文献的主题的,可以作为检索词。 概括地说,关键词法就是将文献原来所用的,能描述其主题概念的那些具有关键性的词抽出,不加规范或只作极少量的规范化处理,按字顺排列

12、,以提供检索途径的方法。,22,1.4.3 叙词(主题)词语言,叙词是指一些以概念为基础的,经过规范化的,具有组配功能并可以显示词间关系和动态性的词或词组。 如:汉语主题词表、机械工程主题词表 http:/ 有一些英汉对照,23,概念组配是叙词语言的基本原理。 概念组配与字面组配在形式上有时相同,有时不同;而从性质上来看两者区别是很大的。字面组配是词的分析与组合(拆词);概念组配是概念的分析与综合(拆义)。例如:,字面组配 模拟+控制模拟控制 香蕉+苹果香蕉苹果,概念组配 模拟+控制模拟控制 香蕉味食品+苹果香蕉苹果,24,小结NO6,25,2 计算机信息检索技术,机检 回忆“信息检索原理图”

13、 见第二讲PPT50 信息检索系统=硬件+软件+数据库 计算机信息检索的实质就是由计算机将输入的检索策略与系统中存储的文献特征标识及其逻辑组配关系进行类比、匹配的过程,需要人机协同作用来完成。,26,2.1 计算机信息检索的类型,27,2.2 计算机信息检索技术,计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。 由于信息检索提问式是用户需求与信息集合之间匹配的依据,所以信息检索技术的实质是信息检索提问式的构造技术。 目前,计算机信息检索技术已经从基本的布尔逻辑检索、截词检索、邻近检索、限制检索、短语检索、字段检索发展为高级的加权检索、自然语言检索、模糊检索、概念检索和相关检索

14、等多种技术并存。,28,2.2.1 布尔逻辑检索,布尔逻辑组配是现行计算机检索的基本技术,主要通过“与(and,*)”、“或(or,+)”、 “非(not,-)”将检索词联络起来。 AND*&空格 A and B 逻辑与。A和B都为真时,结果才为真 ,即:A*B,逻辑含义用图表示是:,29,OR +| A or B 逻辑或。A或B中只要有一个为真时,结果就为真,即:A+B NOT-! A not B 逻辑非。A为真、B为假时,结果才为真,即:A-B,30,布尔逻辑运算符的运算次序,括号优先与计算机编程中一样 (A OR B) AND C NOT D 不同的系统次序有差别,但总的来说一般次序为:

15、 NOT AND OR 例A:查找有关信息检索的非英文文献 信息information 检索retrieval 英文english (信息 and 检索 ) not 英文 (information and retriever) not english,31,分析实例:,上海零售业的现状与发展趋势 上海 零售业 现状 发展趋势 上海 and 零售业 and (现状 or 发展趋势),32,2.2.2 截词检索,截词包括后截、中截、前截等。用?作为截词符(有些系统用*),主要包括下列情形: 截词符? 中截一字符,后截断n个字符 如 wom?n 可以检索出: woman, women 如 coump

16、ut? 可以检索出Compute, Computer, Computing, computable,33,? 后、中截二字符 如:transplant? 可以检索出:transplant、transplanted、transplanter ?后、中截三字符 如: comput? 可以检索出:compute;computer;computing,34,通配符,无限截断,% ?* 后方一致(前截断): “%国庆” 将检索出所有字段为张国庆、欧阳国庆、国庆等的记录。 前方一致(后截断) : 如:“热电材料% ”将检索出热电材料梯度化、热电材料及其梯度化等的记录。,35,2.2.3 邻近检索,位置算符(W) with,(nW)n with 表示检索算符两侧的词不可以颠倒顺序,n表示两个词中间可以插入=n个的词(如:an in by of the) 如:control(1w)system可以检索出“control system” “control in system”等的信息。,36,位置算符(N) near ,(nN)n near 表示检索算符两侧的词可以颠倒顺序,n表示两个词中间可以插入=n个的词(如:an in by of the)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1