信息检索语言与技术.ppt

上传人:本田雅阁 文档编号:2844268 上传时间:2019-05-27 格式:PPT 页数:97 大小:1.06MB
返回 下载 相关 举报
信息检索语言与技术.ppt_第1页
第1页 / 共97页
信息检索语言与技术.ppt_第2页
第2页 / 共97页
信息检索语言与技术.ppt_第3页
第3页 / 共97页
信息检索语言与技术.ppt_第4页
第4页 / 共97页
信息检索语言与技术.ppt_第5页
第5页 / 共97页
点击查看更多>>
资源描述

《信息检索语言与技术.ppt》由会员分享,可在线阅读,更多相关《信息检索语言与技术.ppt(97页珍藏版)》请在三一文库上搜索。

1、1,信息检索语言与技术,文燕平,2,1 信息检索语言,检索语言,是信息存储与检索过程中 用于描述信息特征和表达用户信息提问的一种专门语言。检索的运算匹配就是通过检索语言的匹配来实现的。检索语言是人与检索系统对话的基础。,3,1 .1 什么是信息检索语言,语言词汇语法 信息检索语言的词汇:分类号、检索词、代码 信息检索语言的语法:如何正确描述记录和有效地检索记录的一整套规则。,4,检索语言的类型,5,1.1.1 文献信息分类语言,分类语言是用分类号来表达文献主题概念,并将文献按学科性质分门别类地系统组织起来的一种检索语言。 利用分类语言编制的分类表主要有中国图书馆分类法(简称中图法)、 美国国会

2、图书馆分类法、美国的十进制图书分类法、 国际专利分类表以及印度的冒号分类法。,6,中国图书馆图书分类法,7,中图法结构示意图,A 马克思主义、列宁主义 毛泽东思想、 邓小平理论 B 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学 Z 综合性图书,U1 综合运输 U2 铁路运输 U4 公路运输 U6 水路运输 U8 航空运输,U4

3、1 道路工程 U44 桥涵工程 U45 隧道工程 U46 汽车工程 U48 其他道路 运输工具 U49 交通工程与公路 运输技术管理,U441 结构原理、 结构力学 U442 勘测、设计 与计算 U443 桥梁构造 U444 桥梁建筑材料 U445 桥梁施工 U446 桥梁试验观测 与检定 U447 桥梁安全与 事故 U448 各种桥型 U449 涵洞工程,基本大类 简表 详表,8,中国科学院图书馆图书分类法简表(第三版),00 马克思列宁主义毛泽东思想 10 哲学 20 社会科学(总论) 21 历史、历史学 27 经济、经济学 31 政治、社会生活 34 法律、法学 36 军事、军事学 37

4、 文化、科学、教育、体育 41 语言、文字学 42 文学 48 艺术 49 无神论、宗教学,50 自然科学(总论) 51 数学 52 力学 53 物理学 54 化学 55 天文学 56 地球科学(地学) 58 生物科学 61 医药、卫生 65 农业科学 66 农作物 67 园艺 68 林业、林业科学,71 工程技术 72 能源学、动力工程 73 电技术、电子技术 74 矿业工程 75 金属学(物理冶金) 76 冶金学 77 金属工艺、金属加工 78 机械工程、机器制造 81 化学 83 食品工业 85 轻工业、手工业及生活供应技术 86 土木建筑工程 87 运输工程 90 综合性图书,9,人大

5、法简表,1.马克思主义、列宁主义、毛泽东思想 2.哲学 3.社会科学、政治 4.经济 5.军事 6.法律 7.文化、教育、科学、体育 8.艺术,9.语言、文字 10.文学 11.历史 12.地理 13.自然科学 14.医药卫生 15.工程技术 16.农业科学技术 17.综合参考,10,中国图书分类法(台湾),000 总论 100 哲学 200 宗教 300 自然科学 400 应用科学 600 历史、地理 700 历史、地理 800 语文 900 美术,310 数学 320 天文 330 物理 340 化学 350 地质 360 生物、博物 370 植物 380 动物 390 人类学,410 医

6、学 420 家政 430 农业 440 工程 450 矿冶 460 化学工业 470 制造 480 商业 490 商学,441 土木工程 442 道路工程 443 水利工程 444 船舶工程 445 市政工程 446 机械工程 447 陆空交通 448 电气工程 449 核子工程,11,杜威十进分类法(DDC),000 总论 100 哲学 200 宗教 300 社会科学 400 语言 500 自然科学 600 应用科学 700 艺术 800 文学 900 历史、地理,510 数学 520 天文学 530 物理学 540 化学 550 地球科学 560 古生物学 570 生命科学 580 植物学

7、 590 动物学,621 应用物理学 622 采矿 623 军事及航海工程 624 土木工程 625 道路工程 627 水力工程 628 卫生及市政工程 629 其它工程 610 医学 620 工程与应用科学 630 农业 640 家政 650 管理科学 660 化学工业 670 制造业 680 特种制造业 690 建筑,12,美国国会图书馆分类法 (LCC),A 综合性类目 B 哲学、宗教 C 历史辅助科学 D 历史与地方志(美洲以外) EF 美洲历史与地方志 G 地理学、人类学 H 社会科学 J 政治学 K 法律 L 教育,M 音乐 N 艺术 P 语言、文字学 Q 自然科学 R 医学 S

8、农业、矿业 T 工业技术 U 军事科学 V 海军 Z 目录学、图书馆学,QA 数学 QB 天文学 QC 物理学 QD 化学 QE 地质学 TA 工程总论 TC 水力工程 TD 卫生工程和市政工程 TF 铁道工程和运输 TG 桥梁工程 TH 建筑工程,13,国际专利分类法(IPC),各部的内容 A-生活需要 B-作业;运输 C-化学;冶金 D-纺织;造纸 E-固定建筑物 F-机械工程;照明;加热;武器;爆破 G-物理 H-电学,14,国际专利分类法(IPC),类目采用字母数字-字母-数字混合标记法:部用字母表示,大类-用数字表示,小类又是字母,组用数字表示,主组和分组间用/分开。 F部 02大类

9、 F小类 1/00主组 1/24分组,15,国际专利分类法(IPC),有些分组与分组之间有从属级别关系,一般用圆点和缩位的办法继续细分。其分组的等级分类法为: 1、其等级完全由类名前的圆点数决定,而不是根据分组的编号来决定 2、为了避免重复,圆点也用来替代那些等级直接比它更高一级的组的类名。,16,国际专利分类法(IPC)举例,分类号F02F1/32的内容是指燃气发动机上的一种具有冷却装置、用于空冷、形状是散热片式的一种顶阀式的汽缸盖。,17,国际专利分类法(IPC)举例,B 作业、运输 分部:交通运输 B64 飞行器、航空、宇宙飞船 B64C 飞行、直升飞机 B64C25/00 起落装置 2

10、5/02 起落架 25/08 非固定的,如:可抛弃的 25/10 可快放的,可折叠的或其他的 25/18 操作机构 25/26 操纵或锁定系统 25/30 应急动作的,部,大类,小类,主组,一点分组,二点分组,三点分组,如果检索的主题涉及飞机的可抛弃的起落架,那么确定的分类号应该是:B64C25/08,18,分类语言的优缺点,优点 以学科和专业集中文献的,有较好的族性检索效果 将概念逐级划分,便于扩大和缩小检索范围,缺点 对新兴学科、边缘学科或交叉学科而产生的类目不能及时体现。 必须了解科学分类体系,否则不容易找到准确的类目。,19,1.1.2 网络信息分类,Internet是一个巨大的信息量

11、丰富的知识库,需要采取有效的信息组织方式和检索方式才能更加有效地利用它获取知识。 网络信息的“爆炸性”增长挑战了等级结构和分面分类的极限,传统分类法因受到其昂贵的维护费用和学习成本、漫长的更新周期和复杂的使用局限,不能很好地满足互联网知识组织的需求,使得非专业用户开始寻求新的分类方式来组织网络信息资源。,20,二.公众分类法的产生与发展 -1,何谓Folksonomy? Folksonomy,是一种新的网络信息分类方法。 Folksonomy是一个创造词,是由社会性书签服务中最具特色的自定义标签(Tag)功能衍生而来。 Folksonomy Folks + Taxonomy,Folks在英文中

12、是表示一群人,一伙人的意思。Taxonomy则是指分类法。而Folksonomy是指“公众”自发定义的标签分类,我们将它称为“公众分类”,也有人称之为大众分类、通俗分类、分众分类、 社群分类等。,21,二.公众分类法的产生与发展 -2,Folksonomy内涵: 简单理解这个概念就是Tags(标签)。Folksonomy就是由网络信息用户自发为某类信息定义一组标签进行描述,并最终根据标签被使用的频次选用高频标签作为该类信息类名的一种为网络信息分类的方法。 在大部分的web2.0网站中,资源都是由用户来自己去标注,可以说并没有专家去对资源进行分类。,22,二.公众分类法的产生与发展 -3,Fol

13、ksonomy示例1:,23,二.公众分类法的产生与发展 -4,Folksonomy示例2:,24,二.公众分类法的产生与发展 -5,Folksonomy与元数据比较:,25,二.公众分类法的产生与发展 -6,Folksonomy应用: 宽公众分类法(Broad Folksonomy) 特点:面向大众,拥有大量异质用户。 这里的异质是指用户在认知能力、知识结构和兴趣领域上具有一定差异,每个用户都可能用自己的语言对社区中现有或尚未添加的内容提供与众不同的标签,每一个内容都存在相当多的标签来描述。它所构建的是一个大众分类体系平台。 其原理如右图所示。,26,二.公众分类法的产生与发展 -7,Fol

14、ksonomy应用: 宽公众分类法(Broad Folksonomy) 如右图的曲线所示: 对于一个网络资源对象,可能 存在5 种标签来描述它,其中 使用最多的是tag2,说明这是 被最广泛接受的词汇,而曲线 的尾端可能会出现很多通用性 较差、较不常用的tags,形成 长尾(long-tail)。 宽公众分类提供了一种工具, 能够了解用户的用词习惯,抽 取准确的受控词。,27,二.公众分类法的产生与发展 -8,Folksonomy应用: 窄公众分类法(Narrow Folksonomy) 特点:用户特质 因为用户在知识结构和兴趣领域上具有很大的同质性。所以窄公众分类的可以用于为某一领域或专业的

15、信息或知识提供共享平台。,28,二.公众分类法的产生与发展 -9,Folksonomy发展趋势: 公众分类法自2005年初被提出以来受到广泛的关注,并在快速演化和升级,随着大众持续的需求和新的技术手段的加盟,它推陈出新的速度要快于目前元数据,成为目前海量网络资源组织的热点研究方向。 Tag正在开始Web环境下对信息“分类”的一种革命性的改变。这是一种广大民众参与信息分类的规模化作业。在用户充分参与的前提下,公众分类法可提高知识组织效率,成为网络资源组织和信息检索的重要辅助手段。,29,三.公众分类法的特点 -1,Folksonomy优点: 与传统分类法相比,这种分类法的特点在于它并没有采用预先

16、制定的信息分类法和词表,而是用户根据个人的使用习惯,以自定义的自由词为数字资源对象进行标注和分类。所以公众分类法比传统的等级分类和分面分类法更接近用户大众并易于被他们接受,自由灵活是其突出的优点。 用户可以对其感兴趣的内容进行标识,提供一个或者多个标签,或什么也不作,仅浏览他人的标签。人们不必了解DCMI修饰符,也不必查询杜威十进制分类法(DDC)。,30,三.公众分类法的特点 -2,Folksonomy优点: 用户对内容进行标注后,他人可立刻看到这些标签,如果认为标签不合适,还可以自行增加新的标签,因此共建共享是其另一重要特色。 常用的标签按字顺排列,形成图1所示的标签云图(TagCloud

17、)。这种TagCloud不同于传统的、针对文字本身的关键字检索,而是一种模糊化、智能化的分类。,31,三.公众分类法的特点 -3,Folksonomy优点: 动态更新是其有别于传统分类法的又一个重要特色。动态更新是随着人们使用不同标签标识内容信息,被使用最多的标签就最能说明这条信息的特点。一些使用频率低的标签逐渐“淡出”人们的视野,而那些使用频率高的标签会在标签云图以字号变大的形式反映出来,这种更新可让人随时发现当前人们关注的“热点”和“走势”。,32,三.公众分类法的特点 -4,Folksonomy缺点: 缺乏层次性(lack of hierarchy) 公众分类法与传统分类法的一个显著不同

18、是:它是一种平面的分类方式,系统在整体信息的组织上,是一个用词构成的平面结构,因而很难使用它来揭示复杂的关系。,33,三.公众分类法的特点 -5,Folksonomy缺点: 表达概念的模糊性 基于公众分类法的数字资源采用的是根据用户自定义的词, 进行描述、分类和检索,这就造成了标签的模糊性,主要表现在以下四个方面: 缺乏语义精确性(lack of semantic precision) 由于用户认知程度不同,对标签词义的理解各异,导致对同一事物的揭示存在很大的差异。比如在同一标签下,可能会发现彼此完全没有关系的内容。 缺乏同义词控制(lack of synonym control) 由于用户用

19、词习惯的不同,会出现大量的同义词,例如不同的词表达同一的概念:土豆/马铃薯,又如一个词的不同写法:web2/web20/web2.0,还有同一个词在英语中用户可能会使用单数或复数形式,等等。 词的多义性问题。比如“china”这个标签,到底指中国,还是指瓷器。 用户标签五花八门,可能会产生大量“噪音”,加重系统负担,降低分类的准确性。 这些都会造成查找的困难。,34,四.几点建议 -1,对于公众分类法在目前的应用中存在的精确性和缺乏层次等问题,如果能与目录分类法(Taxonomy)相结合,然后再对能够用作标签的词汇进行控制,(controlled vocabulary)那将是很好的解决途径。,

20、35,四.几点建议 -2, 对Tag进行排序 除了按照字顺和权重排序之外,还有多种形式,包括动态形式,如结合相关反馈、合作过滤、点击次数等。,36,四.几点建议 -3, 对Tags进行聚类 为了达到更好地揭示资源之间的相互关系,对Tags进行聚类能够帮助用户通过一个tag更快地发现与之相关的内容。 以宾夕法尼亚大学(University of Pennsylvania)图书馆的“PennTag”项目6为例,图6是用户点击“film”这个标签之后,出现的按照字顺排列的与film相关的(related to film)内容。,37,四.几点建议 -4, 对Tag进行层级化 现在的标签是平面结构,不

21、能很好地反映他们之间的层次关系。如果可以与叙词表结合使用,利用已有的叙词表中的层级关系,希望将来可以实现从平面的标签到网状的概念地图(Concept Maps)。,38,四.几点建议 -5, 对Tag进行规范化 由于标签完全由用户自行创建,这种自由导致了标签的表示法不规范,例如:拼写错误,单复数形式混用,另外,由于目前大多数应用系统只支持单个词,用户为了更清楚地表达自己的意思,往往会使用符号来形成复合词,例如:目前一些del.icio.us(即“美味书签 ”,当前网络上最大的书签类站点)的用户使用如下的Tag来表示编程语言:Programming/C+, Programming/Java和Pr

22、ogramming/XHTML等。,39,四.几点建议 -6,右图5是随机抽取的一定数量的 带有连接符号的复合词,显示了用 户使用符号的多样性。 通过图5我们可以发现,最经常 被使用到的是连接符“-”,其次是下 划线“_”。针对标签写法不规范的问 题,应该制定通用的标准表示方法, 并提示用户遵循这些标准对网络资 源进行添加标签的活动。例如,采 用拼写检查机制,当用户输入错误 的或不存在的词时,系统会出现提 示和输入建议;而对于复合词,应 当规定规范的表示方法。,40,四.几点建议 -7,另外,通过使用同义词环方法当用户在添加了tag和数据源之后,系统管理员可以对这些数据,根据统计得到的势曲线进

23、行分析,挑选出相关的同义词,构成同义词环,帮助提高准确性。同时同义词环的方法也可以用于处理同一词的单复数形式,同一词的不同语言表示。不强行要求环中的某一个词被当作“正式词”,而是每一个词都可以作为正式词;同义词环可以一组一组逐步建立,随着检索环境的变化和网站内容的变化而随时增加新的同义词环。,41,1.2 主题语言,主题语言是以主题词来表达信息主题概念的语言。它按事物对文献信息进行浓缩、描述和整序,借用自然语言的词语,作为信息检索的内容标识,又可分为关键词语言、叙词语言、标题词语言及单元词语言等。,42,1.2.1 标题词语言,标题词:从自然语言中选取并经过规范化处理的、表示事物概念的的词、词

24、组或短语。 代表:EI中工程主题词表(简称SHE) 电脑-见(see)-计算机 局域网-参见(see also)-计算机网络,43,1.2.2 关键词语言,所谓关键词是指那些出现在文献的标题(篇名、章节名)以至摘要、正文中,对表达文献主题内容具有实质意义的语词,亦即对揭示和描述文献主题内容来说是重要的、带关键性的(可作为检索“入口”的)那些词语。 关键词基本上不作规范化处理。例如,“国际联机检索概论”中的“国际联机”、“联机”、“检索”都是能描述这篇文献的主题的,可以作为检索词。 概括地说,关键词法就是将文献原来所用的,能描述其主题概念的那些具有关键性的词抽出,不加规范或只作极少量的规范化处理

25、,按字顺排列,以提供检索途径的方法。,44,1.2.3 叙词(主题)词语言,叙词是指一些以概念为基础的,经过规范化的,具有组配功能并可以显示词间关系和动态性的词或词组。 如:汉语主题词表、机械工程主题词表 http:/ 有一些英汉对照,45,主题词语义参照系统,46,正式主题词款目,47,非正式主题词款目,48,词族索引款目,Din z du kng 电子对抗* 通信对抗 通信干扰 脉冲干扰 欺骗性干扰 载波干扰 噪声干扰 扫频干扰 阻塞式干扰 通信抗干扰,49,概念组配是叙词语言的基本原理。 概念组配与字面组配在形式上有时相同,有时不同;而从性质上来看两者区别是很大的。字面组配是词的分析与组

26、合(拆词);概念组配是概念的分析与综合(拆义)。例如:,字面组配 模拟+控制模拟控制 香蕉+苹果香蕉苹果,概念组配 模拟+控制模拟控制 香蕉味食品+苹果香蕉苹果,50,小结NO7,51,信息检索模型(Information Retrieval Model)是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法。 本质上是对相关度建模。 信息检索模型是IR中的核心内容之一。,原始文档,相关度计算,文档表示,原始查询,查询表示,2 信息检索模型,52,信息检索模型,用形式特征可以将信息检索模型表示为一个四元组的模型框架: IR = 。 D是文档表示 Q是查询表示 R(q ,d )是一个

27、排序函数,53,相关概念,标引词(Index Term) 标引词是能代表文档内容的特征,可以是字、词、 短语或者某种语义单元,关键词(key words) 可以看成标引词的一种。 文档表示成多个标引词的集合 标引词的权重(Weight) 不同标引词作用是不同的 通过权重加以区分,54,信息检索模型的分类,从所使用的数学方法上分: 基于集合论的IR模型(Set Theoretic models) 布尔模型 基于模糊集的模型 扩展布尔模型 基于代数论的IR模型(Algebraic models) 向量空间模型 潜性语义索引模型 神经网络模型 基于概率统计的IR模型(Probabilistic mo

28、dels) 回归模型 概率模型 语言模型建模IR模型 推理网络模型 信任度网络模型,55,2.1 布尔模型,布尔模型:查询和文档均表示为标引词(“是否存在”) 的布尔表达式,通常表示成D(t 1,t 2, ,t i)的形式。 布尔操作(关系) :与(AND) 或(OR) 非(NOT) 相似度计算:查询布尔表达式和所有文档的布尔表达式进行匹配,匹配成功的文档的得分为1,否则为0。 类似于传统数据库检索,是精确匹配,56,布尔检索示例,57,真值表(truth table),58,布尔检索的优缺点,“飞碟”AND “小说”:只能检索出D4,无法显现D1,D2,D3的差异 “飞碟”OR “小说”:可

29、以检出D1,D2,D4,但无法显现它们的差异,59,2.2 向量空间模型,文档D和查询Q(不妨统称为文本)都可用向量表示 检索过程就是计算文档向量与查询向量之间的相似度 可以根据相似度值的不同,对检索结果进行排序 可以根据检索结果,进一步做相关检索(relevance feedback),60,向量表示,文档Dj的向量可以表示为Dj(w1j, w2j ,wnj ) ,其中n是系统中的标引词数目,wij 代表了标引词i在文档Dj中的权重。 查询Q的向量可以表示为Q(w1q, w2q ,wnq ) ,wiq代表了标引词i在查询Q中的权重,61,文档-标引词矩阵(Doc-Term Matrix),n

30、篇文档,m个标引词构成的矩阵Am*n, 每列可以看成每篇文档的向量表示,同时, 每行也可以可以看成标引词的向量表示,62,从文本到向量空间(vector space),63,文档的向量表示示例,假定有三个项目: “葡萄”,“美酒”,“夜光杯” 假定以项目在文本中的出现次数为项目的权值,64,计算向量之间的相似程度,向量间相似程度的不同度量方法 Inner product Dice coefficient Cosine coefficient Jaccard coefficient,在上面的例子中,如何度量q跟d1相似还是跟d2相似?,65,夹角余弦:相似程度的度量方法之一,66,夹角余弦计算示

31、例,67,索引项权值的计算(term weight),权值的直观含义: 一个项目对于一个文本的重要程度 即一个项目在多大程度上可以将这个文档与其他文档区别开 计算权值的两种简单方式: (1)项目出现/不出现:1或0 (2)项目出现的次数:0,1,2, 需要更好的加权方法 (3)tf.idf加权法(term frequency inverse document frequency) 项频率 逆向文档频率,68,tf.idf 加权,Term frequency:termi 在文档dj中的出现次数,记做tfi,j tfi,j 越高,意味着termi 对于文档dj 就越重要 比如:一篇谈论乔丹的文章,

32、可以预期“乔丹”、“飞人”的tf值会比较高 Document frequency:含有termi 的文档的数量,记做dfi dfi 越高,意味着termi 在衡量文档之间相似性方面作用越低, 比如“的”的df值肯定非常高,因此不具有区别性,这类词称为“非焦点词” Inverse document frequency:跟dfi 形成“反比关系”, idfi 值越高,意味着termi对于文档的区别意义越大 N为全部文档的数量。如果一个项目仅出现在一个文档中,idf=logN,如果一个项目出现在所有文档中,idf= log1 = 0,69,tf.idf 加权(续),索引项加权:给那些经常出现在一个文

33、档中,而不常出现在其他文档中的项目以更高的权重,即让“特别的词”从“一般的词”中凸现出来。 在这个基本精神指导下,有许多不同的加权公式,70,tf.idf 加权示例,71,tf.idf 加权示例(续),72,停用词表(stop list),表达实际文档所需的term 很多,空间开销很大 有些“词”在query 时很少出现,即不大作为用户的查询目标,比如“常常”,“of”, 有些“词”在每个文档中都会出现,比如“的”,这些词的idf值通常为0 一般把“的”,“of”这类词收集起来,构成一个停用词表 因此,在为文档建索引的时候,可以不考虑停用词表中的词。这样可以节省资源,同时也不至于太影响检索效果

34、,73,文档索引(inverted index),74,2.3 概率模型,检索问题即求条件概率问题 If Prob(R|di, q) Prob(NR|di, q) then di是检索结果,否则不是检索结果,75,概率模型,基本假设前提和理论 a相关性独立原则。文献对一个检索式的相关性与文献集合 中的其他文献是独立的。 b词的独立性。标引词和检索式中词与词之间是相互独立。 c文献相关性是二值的,即只有相关和不相关两种。 d概率排序原则。该原则认为,检索系统应将文档按照与查 询的概率相关性的大小排序,那么排在最前面的是最有可能 被获取的文档 e贝叶斯(Bayes)定理,用公式表示为: P(R I

35、 d)=(d I R)P(R)/P(d),76,概率模型,概率检索模型是通过概率的方法将查询和文档联系起来 将查询Q和文档D根据有没有标引词表示为二值向量,Q=q1,q2,,D=d1,d2, ,di=0或1表示文献中没有或有第i个标引词. 用R表示文献相关, 表示文献不相关.,77,概率模型,条件概率P(R|dj )表示文档 dj与查询qi相关的概率,条件概率P( |dj)表示文档dj与查询qi不相关的概率,利用它们的比值计算文档与查询的相似度。 若P(R I d) P( I d),即比值大于1,则文献相关程度大于不相关程度,认为文献d是相关的,否则认为文献d不相关。在两者相等时,人为地认为它

36、是不相关的。,78,概率模型优缺点,优点 a.采用严格的数学理论为依据,为人们提供了一种数学理论基础来进行检索决策;PubMed的related articles 。 b.采用相关反馈原理 c.在其中没有使用用户难以运用的布尔逻辑方法; d.在操作过程中使用了词的依赖性和相互关系。 缺点: a.计算复杂度大,不适合大型网络 b.参数估计难度较大 c.条件概率值难估计 d.系统的检索性能提高不明显,需与其他检索模型结合,79,3 计算机信息检索技术,信息检索系统=硬件+软件+数据库 计算机信息检索的实质就是由计算机将输入的检索策略与系统中存储的文献特征标识及其逻辑组配关系进行类比、匹配的过程,需

37、要人机协同作用来完成。,80,3.1 计算机信息检索的类型,81,3.2 计算机信息检索技术,计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。 由于信息检索提问式是用户需求与信息集合之间匹配的依据,所以信息检索技术的实质是信息检索提问式的构造技术。 目前,计算机信息检索技术已经从基本的布尔逻辑检索、截词检索、邻近检索、限制检索、短语检索、字段检索发展为高级的加权检索、自然语言检索、模糊检索、概念检索和相关检索等多种技术并存。,82,3.2.1 布尔逻辑检索,布尔逻辑组配是现行计算机检索的基本技术,主要通过“与(and,*)”、“或(or,+)”、 “非(not,-)”将检索词

38、联络起来。 AND*&空格 A and B 逻辑与。A和B都为真时,结果才为真 ,即:A*B,逻辑含义用图表示是:,83,OR +| A or B 逻辑或。A或B中只要有一个为真时,结果就为真,即:A+B NOT-! A not B 逻辑非。A为真、B为假时,结果才为真,即:A-B,84,布尔逻辑运算符的运算次序,括号优先与计算机编程中一样 (A OR B) AND C NOT D 不同的系统次序有差别,但总的来说一般次序为: NOT AND OR 例A:查找有关信息检索的非英文文献 信息information 检索retrieval 英文english (信息 and 检索 ) not 英文

39、 (information and retriever) not english,85,分析实例:,上海零售业的现状与发展趋势 上海 零售业 现状 发展趋势 上海 and 零售业 and (现状 or 发展趋势),86,3.2.2 截词检索,截词包括后截、中截、前截等。用?作为截词符(有些系统用*),主要包括下列情形: 截词符? 中截一字符,后截断n个字符 如 wom?n 可以检索出: woman, women 如 coumput? 可以检索出Compute, Computer, Computing, computable,87,? 后、中截二字符 如:transplant? 可以检索出:transplant、transplanted、transplanter ?后、中截三字符 如: comput? 可以检索出:compute;computer;computing,88,通配符,无限截断,% ?* 后方一致(前截断): “%国庆” 将检索出所有字段为张国庆、欧阳国庆、国庆等的记录。 前方一致(后截断) : 如:“热电材料% ”将检索出热电材料梯度化、热电材料及其梯度化等的记录。,89,3.2.3 邻近检索,位置算符(W) with,(nW)n with 表示检索算符两侧的词不可以颠倒顺序,n表示两个词中间可以插入=n个的词(如:an in by of the)

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1