基于领域本体的文本信息语义检索研究.pdf

上传人:小小飞 文档编号:3581574 上传时间:2019-09-13 格式:PDF 页数:56 大小:1.99MB
返回 下载 相关 举报
基于领域本体的文本信息语义检索研究.pdf_第1页
第1页 / 共56页
基于领域本体的文本信息语义检索研究.pdf_第2页
第2页 / 共56页
基于领域本体的文本信息语义检索研究.pdf_第3页
第3页 / 共56页
基于领域本体的文本信息语义检索研究.pdf_第4页
第4页 / 共56页
基于领域本体的文本信息语义检索研究.pdf_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《基于领域本体的文本信息语义检索研究.pdf》由会员分享,可在线阅读,更多相关《基于领域本体的文本信息语义检索研究.pdf(56页珍藏版)》请在三一文库上搜索。

1、南京理工大学 硕士学位论文 基于领域本体的文本信息语义检索研究 姓名:毛平 申请学位级别:硕士 专业:情报学 指导教师:甘利人;丁晟春 20070707 南京理工大学硕士学位论文基于领域本体的文本信息语义检索研究 摘要 随着I n t e m e t 的快速发展。W e b 已经发展成为全球的信息源,如何在海量信息中 快速、高效的检索出需要的信息,是信息检索所要研究的问题。已有的检索系统主要 是基于关键词的全文匹配或是基于主题分类进行检索,结果往往会返回大量无关的信 息,在查全率和查准率上无法满足用户的检索需求, 伴随着本体( O n t o l o g y ) 概念的提出,研究者对O n t

2、 o l o g y 进行了大量研究,O n t o l o g y 具有良好的概念层次结构和对逻辑推理的支持,具有通过概念之间的关系来表达语义 的能力,能较好的为语义检索和概念检索提供知识基础,所以基于O n t o l o g y 的信息 检索成为一个重要的研究课题。 本文总结了国内外基于本体的信息检索理论研究,在前期研究成果军用飞机 领域本体构建的基础上,尝试基于领域本体的文本信息语义检索研究。重点探讨了基 于领域本体的文本信息标注方法,在此基础上提出了知识片段的提取思想,并从用户 检索出发,研究了基于领域本体的用户查询语义扩展方法以及检索项推荐的实现算 法。最后在理论研究的基础上设计并

3、开发了实验性的语义检索系统O I R S ,实现了基 于语义的文本信息资源的检索功能。 关键字:语义检索领域本体文本标注语义查询扩展 南京理工大学硕士学位论文基于领域本体的文本信息语义检索研究 A b s t r a c t A st h er a p i dd e v e l o p m e n to fI n t e m e t ,W e bh a sb e c o m et h ei n f o r m a t i o ns o u r t o f t h e w o r l d ,h o wt or e t r i e v et h ei n f o r m a t i o nw en

4、 e e de f f i c i e n t l yf r o mt h em a s s i v ei n f o r m a t i o n 8 0 l l r c ei st h ek e yp r o b l e mo fi n f o r m a t i o nr e t r i e v a lr e s e a r c h T h ee x i s t e ds e a r c he n g i n e sa f e f o u n d e db a s e d0 1 1k e yw o r dm a t c ho rt o pt a x o n o m y , w h i c

5、hw i l la l w a y sr e t u r nm u c h i r r e l e v a n ti n f o r m a t i o na n dc a nn o tm e e tu s e r s d e m a n do f r e c a l la n dp r e c i s i o n W h e nt h ec o n c e p to f O n t o l o g yb e i n gp r o p o s e dl a t t e r l y , al o to f r e s e a r c hh a sb e e nd o n e O no n t o

6、 l o g y A st h e c a p a b i l i t yo fr e p r e s e n t i n gm e a n i n go fi n f o r m a t i o nb yac o n c e p t h i e r a r c h i c a ls t r u c t u r eo fo n t o l o g ya n ds u p p o r t i n gr e a s o n i n g , i tc a np r o v i d ek n o w l e d g e f o u n d a t i o nf o rs e m a n t i cr

7、e t r i e v a la n dc o n c e p tr e t r i e v a l , S Oo n t o l o g yb a s e di n f o r m a t i o n r e t r i e v a lh a sb e c o m ea ni m p o r t a n tr e s e a r c ht o p i c T h i st h e s i ss u m m a r i z e st h ed o m e s t i ca n di n t e r n a t i o n a lt h e o r yo nr e s e a r c ho fo

8、 n t o l o g y b a s e di n f o r m a t i o nr e t r i e v a l B a s e do nt h ep r e l i m i n a r yr e s e a r c hr e s u l t s c o n s t r u c t i o no f m i l i t a r ya i r c r a RD o m a i nO n t o l o g yO n t o A v i o n , a t t e m p t st h er e s e a r c ho fd o m a i no n t o l o g y b a

9、s e ds e m a n t i ct e x ti n f o r m a t i o nr e t r i e v a l , F o c u so nt h em e t h o do fo n t o l o g y - b a s e dt e x t i n f o r m a t i o na n n o t a t i o n , p r o p o s e st h et h i n k i n go fe x t r a c t i o no fk n o w l e d g ef r a g m e n tb a s e d 0 nt e x ti n f o r m

10、 a t i o na n n o t a t i o n ;d i s c u s s e st h em e t h o do fs e m a n t i ce x p a n s i o no fu s e rq u e r y i t e m s ;f i n a l l y , O nt h eb a s i so ft h e o r ya n a l y s i s , d e s i g na n dd e v e l o p e da ne x p e r i m e n t a l S e m a n t i cR e t r i e v a lS y s t e mO

11、I R S K e y w o r d s :S e m a n t i cr e t r i e v a lD o m a i nO n t o l o g y l i t e r a t u r ea n n o t a t i o n S e m a n t i cq u e r ye x p a n s i o n 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本 学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发表或 公布过的研究成果,也不包含我为获得任何教育机构的学位或学历而使 用过的材料。与我一同工作的同事对本学位论文做出的贡献均已在论文 中作了明确的说明

12、。 研究生签名: 乏2 互 年7 月l 咱 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或 上网公布本学位论文的部分或全部内容,可以向有关部门或机构送交并 授权其保存、借阅或上网公布本学位论文的部分或全部内容。对于保密 论文,按保密的有关规定和程序处理。 南京理工大学硕士学位论文基于领域本体的文本信息语义检索研究 1 绪论 1 1 问题的提出 随着计算机技术以及I n t e m e t 的迅速发展,人类已经进入了网络信息时代,任何 人都可以在互联网上方便的浏览、获取或者提供信息。I n t e r n e t 是海量信息资源库, 随着时间的推移,信息量正以爆

13、炸性的速度增长,而且信息的组织是异构的,多元的 和分布的,如何准确的在浩如烟海的信息中寻找满足用户查询期望的信息成为信息检 索系统所面临的挑战。然而一般的信息检索系统所基于的原理是字符串匹配的方式, 在查全率和查准率这两大信息检索系统性能指标上无法取得令人满意的结果。自从本 体( O n t o l o g y ) 概念诞生以来,人们开始了对于基于本体的信息检索的尝试,试图利 用本体的语义关系来提高检索系统的语义智能,进而提高信息检索系统的查全率和查 准率,并取得了一定的成绩。 1 2 基于本体检索的意义 互联网的发展大大促进了信息检索技术的发展和应用,一大批搜索引擎产品的诞 生,为网民提供了

14、很好的快速信息获取和网络信息导航工具,目前最著名的搜索引擎 包括G o o g l e ,B a i d u 等。对很多人来讲,生活己经“搜索引擎化”了,信息时代数以 百万计的人们在某种程度上把搜索引擎当成了一种外置“大脑”。可以这么说,是搜 索引擎让互联网的潜力得到了充分的发挥。随着网民对搜索引擎的依赖程度越来越 高,人们发现他们对搜索引擎的满意度却越来越低。虽然今天的搜索引擎看起来已经 非常的强大,但是当我们查询一个确切的信息时,还是会有大量的时间浪费在搜索上, 一个关键词可以搜索出来成千上万的网页结果,但是获得的结果却不能真正令人满 意,无法与自己期望的信息相吻合,这就导致了信息不足与信

15、息过剩的矛盾。前者是 用户的真正信息需求,后者或是冗余或是不当信息。这个矛盾在目前的基于关键词匹 配技术为主导的信息检索系统中还没有得到很好的解决。究其原因,我们不难发现, 在目前常用的信息检索系统主要是基于人工分类目录和关键词匹配的。前者在面对海 量信息时,对信息资源的揭示效率和深度都显得无能为方,后者仅局限在字符形式匹 配的层面上,对信息的语义、语用的揭示极为有限,智能处理的能力非常缺乏。一个 浅显的例子是:在中文申字面匹配的词在语义上表达的意思相差悬殊,反过来,字面 上毫不匹配的词却是表达的同一个意思,如“全球鹰无人侦察机”与“R Q 4 A ”就是 表达的同一个概念。缺乏语义能力的处理

16、导致目前检索工具远远不能满足用户的需 1 南京理工大学硕士学位论文基于领域本体的文本信息语义检索研究 求,因此提高信息利用的效率,成为目前非常重要和迫切的研究课题。 本体( O n t o l o g y ) 作为一种能在语义和知识层次上描述信息系统的概念模型的建 模工具,在提出后迅速成为信息系统与人工智能领域的一个研究热点,并在许多领域 得到了广泛的应用,如知识工程,软件复用,信息系统问异构信息处理,自然语言理 解等。特别是在信息检索领域,O n t o l o g y 提供了一种对信息和知识进行规范化描述和 建模的方法,在构建智能化的检索系统、构建语义w e b 等方面有很重要的意义。 本

17、体( O n t o l o g y ) 具有良好的概念层次结构和对逻辑推理的支持,具有通过概念 之间的关系来表达概念语义的能力,能较好地为语义检索和概念检索提供知识基础, 所以基于本体( O n t o l o g y ) 的信息检索成为一个重要的研究课题。基于本体( o n t o l o g y ) 的智能信息检索优于关键词搜索,因为本体( O n t o l o g y ) 包含机器可以判断的概念的 定义,从而使系统对领域内的概念、概念之间的联系以及领域内的基本公理知识有一 个统一的认识,系统通过分析用户提出的查询中所包含词( 组) 的语义,理解用户的 查询,并准确地映射到信息资源,从

18、而提高了信息检索系统的查全率和查准率。 信息检索作为信息学领域中最活跃的研究分支之一,其涉及到多学科领域的交叉 合作,主要包括:信息的组织、存储,索引,异质数据源的集成和人工智能等技术, 信息检索技术的研究与发展和这些相关领域的发展是息息相关的,同样的,对新型智 能信息检索技术的研究也能推动相关科研领域的发展。因此,基于本体的语义信息检 索技术研究还具有较高的学术理论意义。 1 3 基于本体语义信息检索研究现状 传统的信息检索方法或搜索引擎,无论是关键字匹配还是结合布尔逻辑运算提供 更为复杂的查询表达方式,都是以关键字匹配为基础的,这种方法有两种缺陷: ( 1 ) 检索结果只是在字面上符合用户

19、的要求,实际内容往往偏离用户的需求; ( 2 ) 用户输入的查询稍有偏差,检索系统就无法确定用户的真正需要,因而无 法提供正确的结果。 为了解决这些问题,研究者尝试从语义的角度进行考虑,提出了各种新的方法和 技术,也取得了很多的成果。其中就包括基于本体的思路来实现语义在信息检索中的 集成和应用。 最早在1 9 9 4 年V o o r h e e s 就曾提出基于本体的查询扩展 3 4 】,使用了本体中的概念 进行查询扩展,并得出最有效的方式是利用本体中的同义词和特定的子类关系进行扩 展。此后基于本体的查询扩展研究侧重于两个方面:基于结构化的方法和基于注释的 方法。前者着重从本体的结构信息中抽

20、取出相似度衡量的依据,而后者则通过计算本 体术语的定义中的重叠次数来衡量语义相似度。 2 南京理工大学硬士学位论文基于颁域本体的文本信息语义检索研究 M a k i 在2 0 0 3 年提出了基于本体结构的方法【3 ,】,其基本思想是利用本体中的路径 来进行用户查询的扩展。在本体的结构图中,每一个概念的节点都与其他节点有着连 通的路径,因此对用户查询进行扩展的时候,可以选择与该节点连通的路径上的概念。 在对概念选择的时候,M a k i 提出利用一系列的关系边和概念节点之间相似度的方法 来进行排序,优先选择与被扩展概念相似度大者。而计算相似度的方法依赖于本体的 结构,例如进行比较的概念之间路径

21、的数量、长度以及路径中存在关系种类数、路径 中节点种类等,都可以作为衡量的标准。 P h i l i pN o u r 在2 0 0 0 年使用了基于本体的方法在项目开发经验库中建立关于经验 的索引【3 ”,项目管理者和使用者可以通过该索引在经验库中查找信息,并规划当前的 项目,例如查找关于“测试中等大小软件系统的方法”,将会得到“测试”的子概念 “黑盒测试”和“白盒测试”,以便于经验库中获得以前的经验【3 8 l 。GS o l d a r 在2 0 0 1 年提出了语义检索模型的体系结构,以便于从科学数据中提取语义p g ,K h a n 和 M c L e o d 设计并实现了一个用本体

22、构造的基于概念的模型用于文本检索【柚】。 A T & T 建立了一个应用本体技术的信息检索系统F i n d U R 4 l 】系统,通过使用描述 逻辑系统规定的描述逻辑语法,表达了W o r d n e t 3 2 1 中定义的词汇间的同义、上义和下 义关系,获得简单的背景知识,并调用推理系统来完成推理任务,得到某个词的同义 同集合、上义词集合以及下义词集合,从而可以实现查询扩展。但该系统从本质上仍 然是基于语法的,因其并没有使用本体中的词汇去标记文档,只是强调利用本体来实 现查询扩展,而查询输入的词汇本身也并非是依据本体中的词汇来建立。 宋峻峰【3 3 】提出的基于本体的信息检索模型采用了

23、描述逻辑作为构造本体的本体 语言,使用本体中定义的词汇来标记文档,生成基于本体的文档逻辑视图和用户信息 需求逻辑视图,从而可以实现语义层次的检索,使检索性能大大改善。 1 4 论文研究的内容及创新点 本文基于上述研究现状提出了基于领域本体的文本信息语义检索的相关模型与 方法。在基于领域本体的语义信息检索的框架下,从以下几个方面进行了探讨: ( 1 ) 文档集的获取与语义预处理 搜集获取领域内相关文档,对文档进行预处理,包括对网页等半结构化信息 资源中文本内容的提取。 基于领域本体进行文本信息资源的语义标注:主要完成基于本体对文本信息 资源的半自动标注,如独立的概念词A 1 ,A 2 、独立的概

24、念词B 1 ,B 2 、重要的概念 组合:A i B j ( 名词匹配) 、A i 动词B j ( 谓词匹配) 。 南京理工大学硕士学位论文基于领域本体的文本信息语义检索研究 ( 2 ) 知识内容提取的研究 根据前面的半自动标注进行知识内容提取方法的研究,并以句子和段落形式的知 识片段方式体现,研究标引词和知识片段的存储方式、存储格式。 ( 3 ) 语义检索算法研究 用户查询的语义扩展。如用户检索词的规范化,输入关键词C i ,根据c i 先 到本体同义词库进行规范,转换成本体中正式的概念词,选择基于概念的扩展算法对 用户查询进行语义扩展。 检索算法的设计。本文基于领域本体的三元组语义关系对文

25、档进行标注,通 过词频统计提取出反映文档内容的概念词或概念三元组关系,将文档中包含用户提问 的知识片段提取出来提供给用户,并将知识片段与文档映射,进而提供文档给用户。 推荐检索的研究。推荐检索主要包括两类:一种是扩展检索,根据关键词c i , 推荐出相应的同义词供用户选择。根据关键词C i ,计算词和词之间的距离,推荐出 相关的其他词。另一种是缩小检索,根据关键词C i ,推荐出相应的概念组合A i B j ( 名 词匹配) 、A i 动词B i ( 谓词匹配) 。 ( 4 ) 根据以上提出的基本理论和方法,基于军用飞机领域本体进行O I R S 检索系 统设计与开发。 本文的主要贡献和创新之

26、处在于: ( 1 ) 提出基于领域本体的语义文本信息标注 一般的文本信息标注主要基于文档关键词或是文档外部特征如作者、关键词等, 没有真正意义上实现基于文档内容的标注,本文尝试基于领域本体利用本体的三元组 关系实现基于文档内容的语义标注,获取文档中的知识内容。 ( 2 ) 基于通用词典与领域本体相结合的中文切词及词性标注 引入中文切词工具I C T C L A S ,结合领域本体进行二次开发,基于领域本体生成 用户自定义词典。领域本体由领域内的规范概念以及概念与概念之间的关系组成,因 而基于领域本体所生成的词典能准确反映领域内概念,弥补通用词典对于特定领域的 专业描述的不足,从而提高文本信息表

27、示的语义性,进而增强整个信息检索系统的语 义性,提高查询精度。 ( 3 ) 基于领域本体的用户查询语义扩展 提出基于领域本体的用户查询语义扩展方法,更加准确的理解与反映用户查询意 图,帮助用户明确查询内容。 ( 4 ) 基于领域本体的检索项推荐 提出基于领域本体的检索项推荐,包括扩大检索项推荐和缩小检索项推荐,区别 于一般的基于关键词字符串匹配,在领域本体的帮助下实现语义层检索项推荐。 4 南京理工大学硕士学位论文基于领域本体的文本信息语义检索研究 ( 5 ) 知识片段的提取 在语义标注的基础上,提取包含标注词的知识片段,知识片段的形式可以是句 子或是段落。最终反馈给用户的查询结果就是所提取的

28、知识片段。这样能提高用户查 询的精度。 1 5 本文结构 本文在对传统的信息检索技术的研究基础上,提出了一种基于领域本体的文本信 息资源表示以及推荐检索模型与方法,系统地研究了本体的语义在信息检索技术中应 用的细节。本文将按以下内容进行组织:第一章提出本文所解决的问题。第二章概要 地叙述了基于领域本体的文本信息语义检索的相关技术理论。第三章则着眼于文档预 处理,非结构化( 半结构化) 文本信息的预处理、文档的语义处理,对文档的语义标 注、基于语义标注的知识片段地提取等做出了阐述;第四章提出了基于领域本体的用 户查询扩展的研究。第五章在前文研究的基础上提出了基于领域本体的文本信息资源 语义检索系

29、统的构建思路。第六章对全文进行了总结并提出了后续研究方向以及对未 来的展望。 南京理工大学硕士学位论文基于领域本体的文本信息语义检索研究 2 基础理论概述 基于领域本体的语义信息检索归根究底其实质也是信息检索,只是不同的是基于 领域本体的信息检索引入了领域本体来作为支撑信息检索的重要环节,利用本体的丰 富的语义关系试图实现用户查询的语义理解,进而提高信息检索的查全率和查准率。 因此,在研究之前,有必要对本文所涉及的技术理论知识包括信息检索原理及模型、 本体描述语言以及领域本体做一个概要的了解。 2 1 信息检索概述 人们在信息检索领域的研究由来己久,自人类文明出现时起,知识便开始积累, 人们必

30、须如何有效地检索和使用这些长期积累下来的丰富知识。计算机诞生以后,数 据的管理、组织和利用逐渐从文件系统阶段发展到数据库系统阶段。及至当前,互联 网技术迅猛发展,网络信息与知识不断膨胀,数据仓库、数据挖掘等技术方兴未艾。 这些都表明:信息资源愈来愈丰富,信息量越来越大,并且仍将持续地爆炸性增长, 所以,对信息检索技术的研究日显重要信息检索日益成为信息社会中不可或缺的 一种工具手段。但目前能够普遍或大规模使用的信息检索工具,其应对海量信息的能 力却还很差,用户对其检索质量远不能满意,因而改善检索质量、推出令人满意的检 索工具是信息检索研究的重点。 目前,依据不同的划分标准,可将信息检索划分为几大

31、类,例如,依据检索对象 划分可分为文本检索和多媒体检索:依据检索范围划分可分为全文检索和字段检索: 依据匹配方式划分可分为模糊匹配和精确匹配两种;依据截词方式划分可分为左截 词、右截词和中间截词三种方式:此外,还有布尔逻辑检索,限制检索、嵌套检索、 二次检索、相似检索和邻接检索等【1 1 。 从检索思想的本质入手分析上述各种检索方式,不难发现这些检索方式基本上是 基于字符串匹配手段,即都是属于“关键词检索”的范畴。基于关键词匹配检索的弊 端显而易见,可以假设这样一个极端的情况:一篇以“全球鹰无人侦察机”为主题的 文档通篇没有出现“R Q 4 A ”这个词,根据关键词基于字面匹配的方法,当用户输

32、入 “R Q - 4 A ”这个检索词时,该文档是无法命中的,虽然“全球鹰”与“R Q 4 A ”所表 达的是相同的意思。由此可见,在查全率和查准率这两项指标上,基于“串匹配”的 关键词检索,其检索质量已经很难再有质的飞跃。 既然如此如何能够解决上述的问题,让计算机能够理解用户的查询意图,并从文 档中找到合适的相关词? 如果计算机能够知道“R Q - 4 A ”就是“全球鹰”,即“R Q 4 A ” 6 南京理工大学硬士学位论文基于领域本体的文本信息语义检索研究 和“全球鹰”是同义词,那么就不会出现上面的问题。如果计算机的这种“知识”是 全面的,那么构建于此基础上的检索方法和工具就有了质的飞跃

33、。 2 1 1 传统信息检索基本原理 将大量相关信息按一定的方式和规律组织和存储起来,形成某种信息集合,并能 根据用户特定需求快速高效地查找所得信息的过程称为信息检索。因此信息的存储与 检索就成为了一个完整的信息系统的两个组成部分。信息的存储主要包括对在一定专 业范围内的信息选择基础上进行信息特征描述、加工并使其有序化,即建立数据库或 者说索引库。检索是借助一定的设备与工具,采用一系列方法与策略从数据库或者索 引库中查找出所需信息。存储是检索的基础,检索是存储的逆过程。 传统的信息检索,主要是根据文档的内、外部特征,用手工方式实现。现代以计 算机为核心的信息检索技术,开辟了信息处理与信息检索的

34、新时代。从计算机处理数 字信息发展到处理字符信息,又到能够处理静、动态图像( 形) 信息乃至声音信息等 这一过程不断地拓展信息检索的领域,丰富着信息检索的内容,提高了信息检索的速 度。 在信息检索中,文档( D o c u m e n t ) 表示一个数据单元,文本是它的一种典型的 形式,但是文档也可以包含其它的媒体,例如图像、视频和音频。文档可以是一个完 整的逻辑单元,例如一篇研究论文、一本书或一本手册。它也可以是其中的一部分, 例如一个自然段或多个自然段、字典中的一个条目、一个汽车零件的描述等。通常把 文档看成是一个内容的载体或容器,在信息检索过程中,把文档看成是一个检索单元。 然而,信息

35、检索涉及到用户的信息需求和提交的查询并不总是结构化的,而且具 有语义模糊性,而且检索到的对象可以不太精确,允许有一些小的不明显的偏差。为 了满足用户的信息需求,信息检索系统必须以某种方式“解释”文档中数据单元的内 容,并把检索结果按照与用户查询的相关程度来排序。因此,信息检索的一种规范定 义为:从大量收集的数据或文档集D 中,找到与给定的查询请求q 相关的恰当数目 的数据或文档子集A 。 2 1 2 信息检索模型 信息检索的基本原理和机制是系统对信息集合与需求集合的匹配与选择。要更准 确、更严密地表述、论证这一原理,要有效地实现这一机制,就要依靠数学,即需要 建立信息检索的数学模型,运用数学的

36、语言和工具,对信息检索系统中的信息及其处 理过程加以翻译和抽象,表述为某种数学公式。它被演绎、推理、解释和实际检验, 反过来指导信息检索实践。 7 南京理工大学硕士学位论文基于领域本体的文本信息语义检索研究 经典的信息检索模型使用一组具有代表性的关键词( 索引词) 来描述数据库中的 每一篇文档。关键词由文档中的一些能反映主题的简单单词构成,通过它们可以与数 据库中的文档相联系。大部分关键词都是名词,因为名词的语义易识别,而形容词、 副词和连接词经常以补语形式出现,因此很少被用作关键词。在一组关键词中,并不 是所有的关键词都能用来描述文档的内容,通常需要根据关键词的重要程度来摘要文 档。要说明的

37、是用来描述文档内容的关键词必须是适当的,可以通过为每一篇文档中 的关键词分配一个数组权重,来确定关键词的重要性。经典信息检索模型主要包括布 尔检索模型、向量检索模型及概率模型等【l , 3 1 。 ( 1 ) 布尔检索模型 布尔检索模型是基于集合论和布尔代数的一种简单检索模型,运用布尔代数的方 法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑比较来检索文献。 布尔模型中,每个文献用一组标引词来表示,例如,对于某一特定文献i ,可表示为: D i = ( T 1 ,T 2 ,T 3 。,T m ) ( 2 1 ) 每个提问则表示为标引词的布尔组配。例如,对于特定提问j 可表示为: Q

38、j = ( T IA N D T 2 ) O R ( T 3 A N D ( N O T T 4 ) ) ( 2 2 ) 系统对提问的响应是输出一个包含有该提问式的组配元且符合组配条件的文献 集合。例如,对上述提问Q j 来说,系统的响应必须是这样一组文献:它们都含有T l 和T 2 ,或者包含有标引词B ,但不含有标引词T 4 。 布尔检索模型提供了一个信息检索系统用户容易掌握的框架,具有简单、易理解 且能处理结构化提间等优点,所以在信息检索系统中得到了广泛的实际应用。目前多 数检索系统都支持这一检索形式。但由于布尔检索模型采取过于僵硬的检索策略,没 考虑那些大体能满足提问需要的文献,所以常

39、使检索结果不能令人满意。 ( 2 ) 向量模型 检索系统的向量模型又称代数模型,是检索系统所有数学模型中最有创造性,最 能揭示文献之间的关系,使用最复杂,要求条件最高的模型。2 0 世纪7 0 年代中期, 杰拉尔德索顿提出了检索系统的代数模型,定义了文献向量、提问向量、文献提问 相关系数以及属性文献相关矩阵、属性相关矩阵、文献相关矩阵等概念。 假设系统有n 个记录的文献集合D = ( d l ,d 2 ,d 3 ,d n ) ,用来描述文献集合的m 个属性形成集合A 号( a l ,a 2 ,a 3 ,a 1 1 ) 定义。 用属性向量把一篇特定的文献向量d i 表示为d i _ ( a i

40、l a i 2 ,a 曲) ,其中a i i 表示文 献d i 中有集合A 中属性的程度,这种程度用数值形式表现出来,就是常说的加权。 若d i 具有属性a j ,则a i j = 1 ;否则a 日= o 。用属性向量表示特定提问式,Q ;( q 1 ,q 2 ,q 3 , q m ) ,其中q J ( j = l ,2 ,3 ,m ) 表示提问中含有集合A 中属性的程度,规定Q 包含属 性a j ,则q j = l ;否则q j = 0 ,在检索系统中,每篇文献和每个提问均采用了等长的向量 S 南京理工大学硕士学位论文基于领域本体的文本信息语义检索研究 表示。 文献向量和提问向量的最后形式都

41、变成了属性向量形式,它们在向量空间中就产 生了相对距离,把这个距离称之为文献提问相关系数,用c 表示。一般来说,C 越大, d 与Q 的匹配性就越强,d 就越能作为Q 的命中文献而输出。 索顿最初模型中,C 的计算公式为: 脯 c ,Q ) = d # x q J ( 2 3 ) 1 = 1 这种方法的实质就是计算文献与提问式之间所共有的标引词数量。较常用的方法 是用余弦函数,表示如下: C ( 畦,Q ) = 嘞。g , j = l ( 2 4 ) 这种方法的实质是计算m 维空间中文献向量与提问向量之间的夹角余弦。当两个向 量完全一致时,则夹角为0 ,表示在该空间中他们相互重叠,相关系数最大

42、,当全部 文献向量与某个提问向量相关系数全部计算完毕后,系统就把相关系数超过某一规定 阈值的文献按相关系数大小降序排列输出。 ( 3 ) 概率模型 概率检索模型基于概率排序原理,即文献应该根据自身与提问的相关概率来排序 输出。概率检索理论认为给定检索文献与给定提问之间存在某种相关概率。概率检索 模型就是利用概率论的原理,通过赋予标引词概率值来表示这些词在相关文献集合或 无关文献集合中的出现概率,然后计算某一给定文献与某给定提问相关的概率,最后 系统据此做出检索决策。这种模型基本上是一种基于贝叶斯决策理论的自适应模型, 与前两种模型相比,其提问式是由系统通过相关反馈来构造一个决策函数来表示信息

43、提问。概率标引理论的基础是对标引词加权并利用权值来计算文献的相关值,即满足 给定提问的概率值。 概率模型的一般表达形式为:给定提问Q ,则文献D 的相关概率为P ( t e lD ) 根 据贝叶斯定理,可用下式求值: 爿旭lD ) 一, _ P ( Dr e 1 ) P ( r e l )( 2 5 ) P ( D ) 其中,P ( D ) = P ( D Ir e dP ( r e d + P ( D I n r e l ) P ( n r e l ) ,表示文献D 作为相 关文献或无关文献出现的概率;P ( r e d 和P ( n r e l ) 分别代表某一给定文献相关或不 相关的先验

44、概率;P ( D r e l ) 和P ( D ,I l r d ) 则表示文献D 属于相关文献集合或无关 9 南京理工大学硕士学位论文基于领域本体的文本信息语义检索研究 文献集合的概率。 近年来,人们提出概率推理网络检索模型,由文本网络和查询网络两部分构成。 文本网络由文本节点、文本表达节点和文档概念节点组成,分别对应于抽象文本、某 一实体文本、文本特征表示。查询网络由查询节点和查询概念节点组成,查询节点表 示某一用户查询,是对查询概念节点的相关性描述,而查询概念节点包含了查询概念 对查询概念节点概率相关性描述。检索过程是给定文本节点的先验概率和中问节点的 条件概率,以此计算出查询结点的后验

45、概率。概率推理网络在概率论相关理论的基础 上进行推理,具有较坚实的理论基础,但是文本节点的先验概率较难以确定。 ( 4 ) 模糊逻辑模型 模糊逻辑模型以模糊数学作为理论基础,设置单个的检索词w 在文档d 中的隶属 度u ,t i e 【O ,l 】,u 越大代表w 和文档d 的相关性越高。用户给出查询要求,查询模 块根据模糊逻辑运算给出查询的结果,并能够按照相关度排序。 模糊逻辑模型能够克服布尔逻辑模型检索结果的无序性,但是给查询词设置准确 的隶属度有一定困难。 2 1 3 信息检索系统 随着传统信息检索系统模式的改进和网络系统资源的丰富,出现了越来越多的全 文本数据、事实数据、数值、图像和其

46、他多媒体信息资源。全文检索、多媒体检索、 超媒体及超文本检索、光盘技术、联机检索、网络检索等先进的信息检索技术逐渐地 发展成熟。通常情况下,信息检索系统包括如图2 1 所示的几个部分。 用 户 查 询 接 口 图2 1 信息检索系统结构图 最早的全文检索系统是1 9 5 9 年美国匹兹堡大学卫生法律中心研制的。全文检索 系统地出现为人们获取文献原文而非文献线索信息提供了一条有效途径。近年来,全 文检索的应用范围不断拓展,它与出版技术的结合,使各种科技期刊、专利文献、新 闻报纸等全文数据库应运而生。国外许多著名的报纸的通讯稿都出版了机读全文数据 l O 南京理工大学硕士学位论文 基于领域本体的文

47、本信息语义检索研究 库且每天更新。 多媒体检索技术是把文字、声音、图像( 形) 等多种信息的传播载体通过计算机 进行数字化加工处理而形成的一种综合技术多媒体技术的应用使信息检索系统进一 步满足了社会对多元化信息的需求。 传统文本都是线性的,用户必须顺序阅读。超媒体与此不同,它是一种非线性的 网状结构,用户要沿着交叉链接进行选择性阅读。早期的超文本以文字为主,随着多 媒体技术的发展,开始容纳包括图像( 形) 、视频、声频等各种动、静态信息,统称 为超媒体系统或超级文本系统。超媒体系统主要提供基于浏览的检索方式和基于提问 的检索方式。 以人工智能为代表的信息检索自动化技术是网络信自、检索工具的基本

48、技术。包 括自动标引、自动文摘、自动分类等信息自动化技术极大地促进了检索效率的提高, 而网络信息检索工具在完善自身的基本检索功能的基础上,开始把人工智能更多地引 入网络信息的标引和检索中,在自然语言理解、机器翻译、模式识别、专家系统等方 面取得了相当的进展【1 】。 2 2 资源描述框架( R D F ) 以及O W L 为了让w e b 信息可以被计算机自动处理,达到所谓的机器“可理解”的要求, 需要采用元数据来索引网络上的信息,然后是用R D F 资源描述框架来描述元数据以 及元数据之间的关系,R D F 是处理元数据的基础,为在应用程序之间交换机器可理 解的网络数据提供了互操作的可能1

49、4 】。 R D F 定义了一个简单的数据模型,通过性质( P r o p e r t y ) 和值( V a l u e ) 来描述资 源以及资源之间的关系。在R D F 模型中,如果将资源描述框架的性质看作是资源的 属性,则资源描述框架模型也可以看作传统的 对模型。R D F 性质还可以 用来表示资源之间的关系,因此R D F 模型类似于一个实体关系图,通过给定的性质 和性质的值来描述资源之间的联系。R D F 通过抽象的数据模型为定义和使用元数据 建立了一个框架,元数据可以看成其描述的资源的性质【4 l 。 R D F 还定义了一个简单的概念模型,旨在体现网络资源及其之间的概念结构, 然而其本身并不提供专门的机制来描述资源和资源之间的性质。R D F 没有定义任何 一个特定领域的语义,即没有假定某个领域,它只是提供了一个用于领域无关的概念 建模机制来描述网络资源,如元数据。为了描述领域相关的语义,还需要在R D F 之 上建立描述领域知识的其它工具,这就是R D F 词汇描述语言R D F S ( R D FS c h e m a ) 所要实现的目标。R D F S 是对R D F 的有关性质描述的补充和扩展,定义了类和性

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高中教育


经营许可证编号:宁ICP备18001539号-1