体的Web信息检索系统及其关键技术研究.pdf

资源描述

《体的Web信息检索系统及其关键技术研究.pdf》由会员分享，可在线阅读，更多相关《体的Web信息检索系统及其关键技术研究.pdf（69页珍藏版）》请在三一文库上搜索。

1、西安电子科技大学硕士学位论文基于本体的Web信息检索系统及其关键技术研究姓名：秦春秀申请学位级别：硕士专业：情报学指导教师：赵捧未 20050101 摘要摘要为解决I n t e r n e t 上同益严重的“信息过载”和“信息迷航”问题，智能信息检索和个性化信息服务成为目前信息服务研究的重点。设计合理的智能信息检索系统，基于语义层面表示和组织信息，建立个性化用户兴趣模型，是实现智能信息检索和个性化服务的基础。本文在回顾这方面的研究现状的基础上，提出一种基于本体和多智能a g e n t 的智能W e b 信息检索系统，给出它的体系结构、基本功能和工作流程。该系统利用

2、本体技术和智能a g e n t 技术对I n t e r n e t 上的各类信息进行领域分类，采用本体技术对信息进行语义标引，规范用J 1 。信息检索模式，支持个性化信息检索，以达到快速、准确地找到用户所需信息的目的，另外，系统集成了多种智能a g e n t ，如任务识别a g e n t 、信息收集a g e n t 、信息处理a g e n t 等，使得该系统具有了很多新的特点和优点。给出了一种基于领域本体的语义标引方法，即通过语义分析，建立词汇集合与本体中概念之间的映射关系，然后通过自动词语分析找出文档或文档片断的概念类别及其与其它类别的语义关系，利用这些概念及概念类

3、别进行语义标引。在处理用户查询时，采用概念的同义词表可提高信息检索的查全率，采用上下文语义去除相关度不大的歧义概念，在一定程度上保证信息检索的查准率。通过采用本体标注用户提问和自动收集用户查询历史纪录，构建用户兴趣模型，从而有效提高搜索的准确性，实现用户的个性化查询。关键字：本体W e b 信息检索系统语义标引查询扩展用户兴趣模型 A b s t r a c t I nr e s p o n s et ot h em o r ea n dm o r es e r i o u ss l t u a t m n0 t “i n f o r m a t i o no v e r l o

4、a d ”a n d i n t b r m a i t o nc o n f u s i o n ”o nt h e I n t e m e t i n t e l l i g e n ti n f o r m a t i o n r e t r i e v a la n d p e r s o n a l i z e di n f o r m a t i o ns e r v i c ec u r r e n t i l yb e c o m et h ef o c u so fi n f o r m a t i o ns e Bi c e s t u d i e s ，D e s i g

5、 n i n gr a t i o n a li n t e l l i g e n ti n t b r m a t i o nr e t r i e v a ls y s t e m r e p r e s e n t i n ga n d o r g a n i z i n gi n f o r m a t i o nb a s e do ns e m a n t i cl e v e l ，a n dc o n s t r u c t i n gp e r s o n a l i z e d c u s t o m e ri n t e r e s tm o d e la r et h

6、 eb a s e sf o rr e a l i z i n gi n t e l l i g e n ti n f o r m a t i o nr e t r i e v a la n d p e r s o n a l i z e di n f o r m a t i o ns e r v i c e B a s e do nr e v i e w i n gt h ec n n e n ts t a t u so fs t u d y i nt h e s ea s p e c t s t h i st h e s i sp r e s e n t s a ni n t e l l

7、i g e n tW e bi n f o r m a t i o nr e t r i e v a ls ys t e mb a s e do no n t o l o g ya n d m u l t i p l ea g e n t s g i v e si t sa r c h i t e c t u r e ，p r i n c i p l ef u n c t i o n sa n dw o r kf l o w I nt h i ss y s t e m ，i n f o r m a t i o no n t h eI n t e m e ta l ec l a s s i f

8、i e da n di n d e x e db yu s i n gO fo n t o l o g yt e c h n e M g yr a n di n t e l t i g e n t a g e n tt e d m o l o g y U s e rq u e r i e sa r ea l s on o r m a l i z e dS O a st oa c h i e v et h ep u r p o s eo f f i n d i n gt h er e q u i r e di n f o r m a t i o nq u i c k l ya n da c c

9、u r a t e l y I na d d i t i o n t h es y s t e m i n t e g r a t e sv a r i o u si n t e l l i g e n ta g e n t ss u c ha st a s ki d e n t i f i c a t i o na g e n t ，i n f o m l a t i o n c o l l e c t i n ga g e n t ，i n f o r m a t i o np r o c e s s i n ga g e n t e c t T h e r e f o r e t h e

10、s y s t e mh a sm a n y i l e x 、, c h a r a c t e “s t i c sa n dm e r i t s As e m a n t i ci n d e x i n gm e t h o db a s e do nd o m a i no n t o l o g y i si n t r o d u c e d T h a ti s m a p p i n gr e l a t i o n s h i p sb e t w e e nr e f i l l sa n dc o n c e p t sh io n t o l o g ya r e

11、e s t a b l i s h e dt h r , s u g h s e m a n t i ca n a l y s i s c o n c e p tc a t e g o r y , o fd o c u n l e n to rf r a g m e n to fd o c u m e n ta n di t s s e m a n t i c r e l a t i o n s h i pw i t h o t h e rc a t e g o r y a l ee s t a b l i s h e dt h r o u g ha u t o m a t i ct e r

12、m a n a l y s i s a n ds e m a n t i ci n d e x i n gi sc o n d u c t e db yu s i n gt h e s ec o n c e p t sa n dc o n c e p t c a t e g o r i e s W h e nu s e rq u e r yi sb e i n gp r o c e s s e d e m p l o y m e n to fs y n o n y n 1l i s to f c o n c e p t sc a ni n c r e a s er e c a l Io fi

13、n f o r m a t i o nr e t r i e 、a 1 a n de li m i n a t i o no fl e s sr e l e 、a n t a n dp o l y g a m o u s c o n c e p t st h r o u g hc o n t e x ta n a l 3s i s c a ne n s u r ec e r t a i n e xe lo f p r e c i s i o no fi n f o r m a t i o nm t f i e 、一a l ：B yc o n s t r u c t i n gt l S e r

14、i n t e r e s tm o d e l sb a s e d0 1 1t h c i s e a r c h i n gh a b i t sa t t t o m a t i c a l l yr e c o r d e d T b u ss e a r c h i n ga c c u r a c y ，c a nb ei n c r e a s e da n d p e r s o n a li x e ds e a r c h i n gc a nb er e a l i z e d K e yw o r d s ：o n t o l o 毋, W e bi n f o r

15、m a t i o nr e t r i e 、a l 吖s t e ms e m a n t i ci n d e x i n g q u e r y e x p a n s i o n u s e ri n t e r e s tr o o d e l 声明 Y 6 9 5 8 4 7 创新性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人己经发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均

16、已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切相关责任。本人签名：燮日期驰s 、1 2 - o 关于论文使用授权韵说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后，发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存论文。 ( 保密的论文在解密后遵守此规定) 本学位论文属于保密在一年解密后适用本授权书。本人签名

17、导师签名日期：日期：知岁7 加芴口- 、护襁一第一章绪论第一章绪论 1 1 研究背景及意义 1 1 1I n t e m e t 的现状及信息资源的特点随着I n t e m e t I n t r a n e t 的快速发展与计算机的普及，我们已经进入了网络信息时代。信息的发布与共享不再受时空的限制，网络资源按以指数规律快速增长，特别是W w w 的飞速发展，使I n t e m e t 网络成为全球最大的分布式信息库，为用户提供了一个侠速方便的资源共享和信息共享的平台和前所未有的应用前景与开劈海_ t ? 1 4 ” 当网络规模越来越大，信息越来越多时，信息的查找

18、和获取也变得越来越困难。对于每个纳秒都在扩张的知识资源，人们面临着如何获取和消化的烦恼，而且无用信息和有害信息无处不在。很多时候，面对庞大的信息资源，人们感到无所适从，迷失在I n t e r n e t 这张巨大的信息网中。“信息过载”和“信息迷航”已经成为人们谈论最多的话题之一f J 】。如何迅速、高效地检索和访问各领域的信息资源以促进信息的交流与共享已经成为一个重要的急需解决的问题。人们迫切需要高效、准确的信息查找工具。来快速定位自己的感兴趣的信息和知识，现有的网络信息检索技术还很难满足这种要求，因此研究开发具有语义理解能力的功能强大、覆盖面广、接口友好、智能检索系统已

19、成为当务之急。由于I n t e r n e l 的开放性，W e b 上的信息是既多又广，可索引的网页有十亿以上，数据量则超过几十T B 。概括地说，与传统的信息资源相比，W e b 信息资源具有以下显著的特点：动态筮数据和服务的种类每天都在大量增加、更新，W e b 上的数据时刻处于变化之中，新的页面在不断出现，旧的页面在不断更新和删除。夏复性网络信息分铂在几百万台服务器上，不仪数掂荣A晰m 粥五熏复不同的网站之恻存在人量相同的期页引用。半结构化或无结构化基于本体的W e b 信息检索系统及其关键技术研究 W e b 上的信息通常是无组织的，不具有关系数据库中数据的结

20、构化特性，或者只有有限的结构化特性，这就使得索引起来非常困难，更不用说要计算机能理解其语义信息了。非规范化人人都可以在网上发布信息，信息杂乱无章，不仅有很多的拼写错误和自定义用词，而且信息的质量得不到保证，存在着不稳定性和不可靠性。异构性信息分布在不同的平台上，站点结构各异，通过不同的协议( 如T C P I P 、 H T T P 等) 互相连接，信息结构形式也各不相同，多语种、多类型的信息交织在一起，杂乱无序。 W e b 信息的这些特点要求我们必须在传统的信息检索技术的基础上，利用计算机网络技术、人工智能、机器学习、数据库技术、计算机语言学等多个领域的研究成果开发新一

21、代的W e b 信息检索系统。 1 1 2W W W 的信息检索工具信息检索并不是W e b 特有的研究领域，早先的联机检索系统和现在的搜索引擎都是信息检索系统。早在本世纪5 0 年代，图书馆等部门就开始用计算机来存储和管理文档。美国的劳恩利于1 9 5 9 年建立了第个K W I C 索引的定题检索 ( S D I ) 服务系统，6 0 年代到7 0 年代美国S D C 公司为美国国防部开发的O R B I T 联机检索系统，美国国家医学图书馆的医学文献分析与检索系统W E D L I N G 在上世纪6 0 到7 0 年代投入运行，8 0 年代D I A L O G 开发出K n

22、o w l e d g eI n d e x ，B R S 开发出B R S S E A R C H 等著名的联机检索系统。到了9 0 年代，信息检索技术便成功地引入到W e b 领域，如A r c h i e 、G o p h e r 、W A I S 和基于W e b 的检索系统等工具”， W e b 的发展给信息检索带来了新的挑战，同时也为信息检索技术的发展提供了更为广阔的研究领域。本文要讨论的信息检索系统是基于W e b 的信息检索系统。通常所说的搜索引擎就是基于W e b 的信息检索系统的典型代表。它融合了超文本和多媒体文件使用了图形界面，操作简单，使用方便，因而基于W

23、e b 的全文搜索引擎系统越来越成为信息检索工具的研究热点。随着信息检索领域在文档内容表示、索引模型、匹配策略等方面不断取得新的成果，检索技术也出简单的串匹配模式发展到布尔检索模式( 扩展布尔模式) 、向量空间模式和统计模式，预计在不久的将来，自然语言检索模式的信息检索系统将会提供更优质的检索服务。 1 1 ，2lW w W 信息检索工具的分类第一章绪论通常意义上的搜索引擎只是信息检索系统的前端面向用户的一面，而整个信息检索还包括系统后端的信息收集、索引等功能模块。W e b 信息检索系统很多，功能上存在差异，下面通过简要叙述信息检索工具的发展历史，对其进行合理分类。据统计

24、，各种各样的网络信息检索工具已有上千个，可以从不同的角度进行不同的分类【4 J 【”。按照信息搜集方法和服务提供方式的不同，搜索引擎系统可以分为三大类： I 目录式搜索引擎：以人工方式或半自动方式搜集信息，由编辑员查看信息之后，人工形成信息摘要，并将信息置于事先确定的分类框架中，提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能，所以信息准确、导航质量高，缺点是需要人工会入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是：Y a h o o 、L o o k S m a r t 、O p e nD i r e c t o r y 、G oG u i d e 等

25、。 2 机器人搜索引擎：由一个称为蜘蛛( S p i d e r ) 的机器人程序以某种策略自劣1 2 二= 互联露巾搜集翥发现涪患，未，- 索j k ；力美集到筋宕忠未立亲j i J 存由樯索器根据用户的查询输入检索索引厍并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是搜索的信息空间大，更新及时，毋需人工干预，缺点是返回信息过多，有很多无关信息，用户必须从结果中进行筛选。这类搜索引擎的代表是：A l 协v i s t a ，N o r t h e r nL i g h t ，E x c i t e ，I n f o s e e k ，I n k t o

26、 m i 。 F A S 肼a s t S e a r c h , L y c o s ，G o o g l e ，“天网”，悠游，O p e n F i n d 等。 3 元搜索引擎：这类搜索引擎没有自己的数据，而是将用户的查询请求同时向多个搜索引擎递交，将返回的结果进行重复排除、重新排序等处理后，作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果更多、更全，缺点是不能充分利用所使用搜索引擎的功能，用户需要做更多的筛选。这类搜索引擎的代表是W e b C r a w l e r ，I n f o M a r k e t 等。 1 1 2 2W w w

27、信息检索工具的评价标准 w W w 上的搜索引擎众多，各具特色。要合理评价一个搜索引擎的性能优劣并不是一件容易的事，因为搜索引擎涉及的因素很多，且各因素之间相互影响。不管是强调哪方面的作用都势必会忽略另一一个方面的作用。传统的方法主要是从两个方面来进行衡量：一是有效性( e f f e c t i v e n e s ) ，二是效率性( e f f i c i e n c y ) 。有效性指标包括搜索引擎的覆盖率、查全率和查准率吲7 1 ，体现检索结果的完各性和准确度，教? 纠：钉i 一再括“j 。蒙花费的时间、易用性和稳定性等。 1 查全李p m 母：。? 查全率( R e c

28、a l l ) 又称为召回率，是指检索出的相关文档数和文档库中所有基于本体的W e b 信息检索系统及其关键技术研究的相关文档数的比率。查准率( P r e c i s i o n ) 又称精确度，是检索如的相关文档数与检索出的文档总数的比率。如果我们用D 来表示全部文档集合，R e l 表示全部文档集合中与查询相关的所有文档的集合，R e t 表示搜索引擎检索出来的所有文档的集合，则被检索出来的与查询相关的所有文档的集合就是R e l O R e t ，于是查全率和查准率的计算公式如下： i R e l I R e t R e c a l l = 土_ _ _ 一 I R e

29、l l l 足e 1 IR e t I 胍扭蛔庐匕面产其中| R e l i 表示集合中所包含的文档的数量。要准确地计算出真实的查准率，即检索出来的相关文档的数量与检索出的文档总数的比率，是不可能的，也不具有现实可女辕作性? 一般采用H V e r n o nL e i g h t o n 和J a i ：i d 嘟S r i v a s t a v a 提出的“前x 命中记录率”P o 【) 来阻略计算搜索引擎的查准率情况。例如：X 取2 0 、5 0 、1 0 0 时的P ( x ) 分别表示在前2 0 、5 0 、1 0 0 篇文档中与用户查询相关的文档数与检索出的文档总数的比

30、率。至于查全率的数据，只能在系统初步建立时根据有的相对稳定的数据库进行估计，以后随着数据的不断加入查全率就无从计算了。查询的查准率和查全率是互相制约的，一般来说查全率越高，查准率越低；查全率较低时，可以获得较高的查准率。所以往往要根据实际需要在两个值之间进行权衡，以达到满意的检索结果。 2 覆盖率覆盖率是搜索引擎的一个主要性能指标，一个搜索引擎收录的网页的多少，索引的主题范围的大小，决定了它能提供多大范围的检索服务。然面，搜索引擎的发展永远跟不上I n t e r n e t I n t r a n e t 的发展。1 9 9 7 年，Y a h o o ! 等搜索引擎宣称自

31、己索引的网页达到I n t e m e t 网页总数的7 0 以上，而到1 9 9 9 年项研究结果指出，所有搜索引擎总的覆盖率也不过4 2 ，任何一个搜索引擎的覆盖率都没有超过 I n t e m e t 网页总数的五分之一。 3 死链接率很多搜索引擎提供的搜索结果中有些是无法获取的，即在点击搜索结果超链接时得到“4 0 4 - - N O TF o u n d ”的错误提示。这种情况称为“死链接”，是由于搜索引擎不能及时更新索引数据库造成的，死链接发生的概率少则有百分之一二，多到百分之八九。死链接率也常被用作评测搜索引擎的评价标准之一。嚣一簿滢羲论评价一个搜索引擎的性能还有很

32、多方面的标准，例如，搜索引擎的稳定性，易用性，查询响应速度，是否支持在结果中进行搜索，使用对的用户负担程度，检索结果描述的准确性全面性等等。由于对易用性、稳定性等缺乏定量的评价标准或评价的现实条件不成熟，或评价结果主要取决于用户的主观看法，而查询响应速度又受网络流量的影响，所以这些方面很难作为有意义的评价标准。因此一般情况下，还是用查全率和查准率来衡量一个搜索引擎的优劣。 1 1 2 3w w w 信息检索工具存在阎题虽然搜索引擎基本上解决了在庞大的I n t e r n e t 信息库中为用户搜寻所需要的信息的问题，但其在资源覆盖度、检索精度、检索结果可视化、可维护等诸多方面

33、还远远不能令人满意( 8 】【纠。总的来说，当前的搜索引擎有以下几方面的不足： ( 1 ) 个性化能力太差现在的搜索引擎对所有用户都是一种模式，用相同的关键词查询得到的结果是一样的，即查询不涉及用户的背景知识、兴趣特征，没有对单个用户的浏览模式和浏览行为进行分析的功能，因而不具有提取用户兴趣的能力和根据用户兴趣变化调整搜索策略的能力。简言之，目前的搜索引擎针对的是一般的共性用户而不能适应单个用户的查询需求。 ( 2 ) 关键词的标狲添符合语必理解的需要几乎所有现有的搜索引擎都只具有关键词接口。虽然关键词接口在检索方面给人们带来了很大的方便，但它并不科学。不能很好的表达用户的检索需

34、求。搜索引擎用抽取的关键词来标引文档，由于不同的词可以来表达同一个概念，同一个词在不同的语义环境中可以表示不同的语义，所以关键词标引和检索方式既容易脱离文档的语义内容，也容易脱离用! 户的领域知识和背景。只有提供自然语言接口或采用其它更加科学的方法使用户更好地表达自己地需求，才能使检索结果更加准确。 ( 3 ) 返回结果的显示方式过于简单搜索引擎返回的检索结果中一般只包含文档的U R L 以及文献标题和摘要等少量附加信息。用户要在众多的检索结果中确定自己所需要的信息，必须逐个浏览，这是一项及其费时费力的工作。所谓的“信息过载”就是指的这种情况。研究表明，用户只浏览检索结果中返

35、回的前3 5 个页面所显示的信息，而对于之后的页面很少进行浏览的，所以改善搜索引擎返回结果显示方式，给用户提供多视角多1 层次的浏览，也是提高搜索引擎性能的重要途径。当前搜索引擎对于用户提交的每一个查询请求，都只是顺序性地返回上百或上千个网页，对搜索结果缺乏必要的组织，视图单一。不能动态地显示检索结果，或者根据用户的需要对检索结果进行层次性的聚类、组合使用户能从多层次多视 ! 基于本体的W e b 信息检索系统及其关键技术研究角来浏览选择结果。 ( 4 ) 用户与系统的交互过于简单，没有考懑罔爝户的反馈提高查询结果并不是所有的用户一开始都有一个较为明确的查询目标。一方面，由于缺乏

36、良好的查询接口，用户不能准确地表达自己的查询请求，而搜索引擎又没有边查询边修正查询关键词的功能，用户无法通过不断缎化或精确他查询词来达到准确表达自己的需求的目的。另方面，系统只负责返回结果给用户，并不关心用户对返回结果的选择或评价，没有充分利用用息的反馈来进一步提高系统的性能。 ( 5 ) 没有有效的适应信息源变化的机制由于I n t e m e t 的开放性及其动态性，新的信息在不断增加，旧的信息在不断地更新变化，搜索引擎的更新和维护难以跟得上信息源的发展变化。死链接或不可获得的网页链接经常出现在检索结果列表中。如何提供有效的适应信息源变化的机制也是一个值得研究的课题。 (

37、6 ) 不能访问动态生成的页面搜索引擎只能访问“可索引”的网页，而对于由如C G I 程序产生的动态网页就无能为力了。然而，随着应用C G I 、P H P 、A S P 等的网站越来越多，动态网页生成工具的使用已是大趋势。大量的动态网页中蕴含着丰富的有用信息，如果不能索引这些网页，搜索引擎将丢失很多可以利用的信息。从以上搜索引擎存在的缺点和不足可以看出，当前的搜索引擎在进行网上信息收集和提供查询服务方面存在着严重的效率和质量问题，这就要求新一代的信息检索系统智能搜速引擎的产生来弥补当前各种搜索引擎的不足。智能信息检索涉及信息检索和人工智能两方面的技术，而所要解决的核心问题是文

38、档内容理解和用户兴趣获取有关的自动学习和预测。智能信息检索系统试图从语义上理解和索引文档，并根据用户相关信息智能化地理解用户的信息需求，实现概念检索，而不是简单的字符串匹配。真正的智能信息检索系统应具有以下几个方面的特征： 1 在信息收集归类方面，除了用关键词来标引文档之_ I 外，还要能利用文档的尽可能多的其他信息进行索引，给用户提供尽可能多的检索方式。更为重要的是系统能在语义层次上理解文档内容，对文档进行归类索引，从而实现语义索引，这是提高查询准确性的核心技术所在。 2 、在提供查询服务方面，能使用自然语言处理、机器学习和信息推送等技术，为用户提供更加准确、可靠和方便的信息

39、服务。 3 、在处理用户需求方面，能自动记录用户的各种需求，建立用户模型，并能收集、分析用户的反馈信息，根据用户的反馈调整用户的领域模型和兴趣模型。也就是说，系统应能够通过各种学习机制如遗传算法、符号归纳以及统计等各种推理自动分析和抽取用户的信息需求以达到准确描述用户需求的目的 1 0 1 。第一举绪论 4 、系统应具有良好的自适应能力和更高的智能程度，能根据备种领域知识不断地提高服务的质量。例如对不伺领域韵文档采取不同韵索引方式和组织；根据不同的文档特征或用户喜好选择适当韵显示方式：自行提高分类精度，相关度的计算更为科学，等等。 i l 1 3 研究内容的提出面对I n t

40、e r n e t 信息过载和用户使用信息时的迷航状况，改善现有的W e b 检索工具，研究新一代的智能W e b 信息检索系统，是当前迫切需要解决的问题。本文针对当前W e b 检索工具存在的缺点和不足，把现有的智能技术本体技术和 A g e n t 技术应用予智能W e b 信息检索系统的研究开发老中。具体地说，本文拟对以下问题进行研究，。：；舞j 。j。。 w e b 信息检索系统的体系结构，以本体技术和A g e n t 技术作为主要支撑技术，探索一种良好的W e b 信息检索系统的体系结构。 W e b 信息检索系统涉及一系列的理论和技术问题，本文将探讨用本体技术实现文

41、档的语义标引、改进用户查询式扩展与处理的方法和实现用户的个性化检索。本体具有的良好概念层次结梅+ “研究基于领域本体的语义标弓| 方法可以为提高文档标引的语义准确牲和信患检索的查准率提供有效韵手段。本体对逻辑推理的支持可使处理后的用户查询式中的概念与文档标引用词韵语义一致以提高查全率。研究基于本体的信息检索策略可有效提高搜索韵准确性，实现用户的个性化查询。 1 2 奉文采用韵关键技术 1 2 1 本体技术本体本来是一个哲学上的概念，是指对客观存在的一个系统的解释或说明，是客观现实的抽象本质。在人工智能界，最早给出本体定义的是N e c h e s 等人，他们把本体定义为“绘出构

42、成相关领域词汇的基本术语和关系，以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”J i l l 。 1 9 9 3 年，G r u b e r 给出了本体的一个最为流行的定义，即“本体是概念模型的明确的规范说明”【1 2 1 。后来，B o r 或在此基础上，给出罩本体的另外一种定义： “本体是共享概念模型的形式化规范说明” 1 3 3 。S t u d e r 等对上述两个定义进行了深入的研究，认为本体是共享概念模型的明确的形式化规范说明。这一定义包含基于本体的W e b 信息检索系统及其关键技术研究 4 层含义：概念化( e o n c e p m a l i z a

43、t i o n ) 明确e i ! t l 渤麟澎式化( f b 渤澎稻共享( s h a r e ) 。 “概念化”指通过抽象出客观世界中一些现象( P l i e n o m e n o n ) 韵相关概念而得到的模型。概念化所表现的含义独立于具体的环境状态。“明确”指所使罱的概念及使用这些概念的约束都有明确的定义。“形式化”指本体是计算机可读韵r 即能被计算机处理) 。“共享”指本体中体现的是共同认可的知识，反映的是相关领域中公认的概念集，即本体针对的是团体而非个体的共识【。本体的目标是捕获相关领域的知识，提供对该领域知识的共同理解，确定该领域内共同认可的词汇，并从不同层次的

44、形式化模式上给出这些词语和词语间相互关系的明确定义。本体的研究与应用主要包括3 方面：( 1 1 理论研究，主要研究概念及其分类和本体上的代数运算；( 2 ) 在信息系统中的应用研究，主要研究信息组织、信息检索和异构信息系统互操作问题，( 3 ) 本体作为一种能在知识层提供c 知识共享和重用的工具在语义W e b 中的应用。 1 2 2 移动a g e n t 技术简单地说，移动a g e n t 是一个能在异构阿络中自主地从一台主机迁移到另一台主机，并可与其它a g e n t 或资源交互的程序。传统的R P C 客户和服务器间的交互需要连续的通信支持；而移动a g e n

45、t 可以迁移到服务器上，并与之进行本地高速通讯，从而免除了大量的网络数据传输，降低了系统对网络带宽的依赖。移动 a g e n t 迁移的内容既包括其代码也包括其运行状态。运行状态可分为执行状态和数据状态：执行状态主要指移动a g e n t 当前运行时状态，如程序计数器、运行栈内容等；数据状态主要指与移动a g e n t 运行有关的数据堆的内容。按所迁移的运行状态的内容，移动a g e n t 的迁移可以分为强移和弱迁移。强迁移同时迁移移动a g e n t 的执行状态和数据状态，但这种迁移的实现较为复杂；弱迁移只迁移移动a g e n t 的数据状态，其速度较强迁移快，但不能保证

46、移动a g e n t 的完整运行状态5 4 1 。一般来说，所有用移动a g e n t 实现的系统都可以用传统的分布式技术赖实现。那么为什么要选择移动a g e n t 呢? 这是因为移动a g n e t 为解决分布式问题提供了一个统一的模式。它为分布计算带来了更多的灵活性、高效性、可靠性和可伸缩性。移动a g e n t 已成为继C O R B A 、D C O M 后新一代分布处理技术。移动a g e n t 具有以下5 个优点： ( 1 ) 节约网络带宽和减少网络延时： ( 2 ) 移动a g e n t 能够使传统的C S 计算模式下的计算任务更加动态均匀地分配： (

47、 3 ) 在分布式环境下，移动a g e n t 系统能实现较好的并行性即并行任务求解；第一章绪论 ( 4 ) 基于移动a g e n t 的分布式系统具有较好的可理解性； ( 5 ) 异步移动计算能力。基于移动a g e n t 的上述优点，移动a g e n t 主要被应用在以下几个领域：分离计算：如笔记本电脑或P D A ，它们会经常从网络上断开，或者是使用容易掉线的无线网络。信息密集型应用；大量的数据存储在远程服务器上，用户发送a g e n t 到服务器执行本地信息收集和过滤。可扩展的服务器：用户可以永久地把一个个性化的a g e n t 发送并安装在一个远程服务器上

48、，这个a g e n t 永远在服务器上运行，只有当用户所感兴趣的事件发生后，它才会通知用户1 1 4 】。将移动a g e n t 应用到W e b 信息检索的问题，属于第= 个应用领域。本体技术能捕获相关领域的知识，提供对该领域知识的共同理解，确定该领域内共同认可的词汇，并从不同层次的形式化模式上给出这些词语和词语间相互关系的明确定义，具有良好的概念层次结构和对逻辑推理的支持。移动a g n e t 技术为解决分布式问题提供了一个统一的模式，为分布计算带来了更多的灵活性、高效性、可靠性和可伸缩性。本文把这两种智能技术做为智能信息检索系统的支撑技术进行研究，并在此基础上提出一

49、种基于本体和多智能a g e n t 的智能W e b 信息检索系统，给出其体系结构，基本功能和工作流程。 1 3 本文的组织结构本文探讨一种基于本体技术的面向W e b 的智能信息检索系统及其体系结构，研究本体在语义标引，用户查询扩展与处理以及用户个性化检索三个方面的应用，以使检索系统更具智能性，以提高其查全率和查准率。本文共分五章：第一章介绍课题研究背景，概述了该领域的研究工作，提出了本文的主要研究内容。第二章概述本体及其相关内容的概念及发展状况、本文采用的本体模型及本文采用的本体的分布式体系结构。第三章描述一种基于本体和多智能a g e n t 的W e b 信息检索系统，给出其体系结构、基本功能和工作流程。该系统利用本体技术和智能a g e n t 技术对I n t e m e t 上的各类信息进行领域分类，语义标引，并规范用户的信息检索模式，从而达到快速、准确地找到用户所需信息的目的。另外，系统集成了多种智能a g e n t ，如任务识别a g e n t ，信息收集a g e n t ，信息处理a g e n t 等，使得

展开阅读全文