搜索引擎基础.ppt

上传人:苏美尔 文档编号:8916936 上传时间:2021-01-24 格式:PPT 页数:72 大小:389.50KB
返回 下载 相关 举报
搜索引擎基础.ppt_第1页
第1页 / 共72页
搜索引擎基础.ppt_第2页
第2页 / 共72页
搜索引擎基础.ppt_第3页
第3页 / 共72页
搜索引擎基础.ppt_第4页
第4页 / 共72页
搜索引擎基础.ppt_第5页
第5页 / 共72页
点击查看更多>>
资源描述

《搜索引擎基础.ppt》由会员分享,可在线阅读,更多相关《搜索引擎基础.ppt(72页珍藏版)》请在三一文库上搜索。

1、第2章 搜索引擎基础,2.1 搜索引擎的体系结构,2.1.1 搜索器,网络蜘蛛 内容提取 定期更新策略,网络蜘蛛,搜索引擎系统结构的搜索器(Spider)俗称蜘蛛,是一个自动收集网页的系统程序 搜索器的功能是日夜不停地在互联网中漫游,搜集信息。它要尽可能多、尽可能快地搜集各种类型的新信息,还要定期更新已经搜集过的旧信息,以避免出现死链,两种搜集信息的策略: 从一个起始URL集合开始,顺着这些URL中的超链接(Hyperlink),以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。它沿着任何网页中的所有URL“爬”到其他网页,重复这个过程,并把搜集到的所有网页存储起来 将Web空间按照域

2、名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索,定期更新策略,由于网站的内容经常在变化,因此网络蜘蛛也不断地更新其抓取网页的内容,这就需要网络蜘蛛按照一定的周期去扫描网站,查找哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接,2.1.2 索引器,索引器(Indexer)的功能是理解搜索器所搜索的信息,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其他网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链接中每一个关键词的

3、相关度(或重要性),然后用这些相关信息建立网页索引数据库,索引器的工作过程,索引器的工作过程为索引器读入Spider生成的Fulltext文件,采用基于位置倒排索引 首先进行分词处理生成索引项,并作归并排序,生成Index文件和inv文件,inv文件为倒排表(Inversion List),即由索引项查找相应的文档,Index文件形成分词倒排表对应关系,内容为分词在排表中相应的的文档块起始地址,含有该词的文档数量等信息,索引器可以使用集中式索引算法或分布式索引算法 索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很大的影响 一个搜索引擎的有效性在很大程度上取决于索引器的质量 索引项有客

4、观索引项和内容索引项两种 客观索引项与文档的语意内容无关 内容索引项是用来反映文档内容的 可分为单索引项和多索引项(短语索引项)两种,词法分析,词法分析是对自然语言的形态进行分析,判定词的结构、类别和性质的过程 英文词法分析: 中文分词技术,英文词法分析,英语的词常常由前缀、词根和后缀等部分组成 英文形成分析的主要目标是将句子中的词从词形还原到原态甚至词根,中文词法分析,中文分词方法可以总结为两大类: 基于机械匹配 基于概率统计 中文分词技术面临的两个最大问题: 切分歧义 未定义词,2.1.3 检索器,检索器(Searcher)的功能是针对用户的查询在索引库中快速检出文档,采用一定的信息检索模

5、型进行文档与查询的相关度评价,对将要输出的结果进行排序、聚类等操作,并实现某种用户相关性反馈机制。主要过程如下:检索器对用户接口 UI(User Interface)提出的查询要求进行递归分析,在 UI中一般采用基本语法来组织要检索的条件,2.1.4 用户接口,用户接口(UI)的作用是输入用户查询,显示查询结果,提供用户相关性反馈机制。UI的主要目的是方便用户使用搜索引擎、高效率、多方式地从搜索引擎中得到有效、及时的信息。UI的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯 用户输入接口可以分为简单接口和复杂接口两种 当互联网用户通过用户接口提交查询时,检索器程序根据用户输入的查

6、询关键词,在已由索引器完成索引和初步排序的存储桶(Barrel)中进行查找,并采用特定的页面优先度算法对其结果进行最终排序,使之尽可能符合用户查询需求,2.2.1 网页搜集,搜索引擎网页的搜集过程并不是在用户提交关键词后进行及时的搜索,而是预先将网页搜集好并进行相关的处理之后等待用户的查询 大规模的搜索引擎是将一批预先搜集好的网页进行管理和维护,有两种基本的维护方法 定期搜集法 增量搜集法,2.2 搜索引擎的工作原理,定期搜集法: 每次搜集替换上一次的内容,即“批量搜集” 这种方法的好处是系统实现比较简单,缺点是实时性不高,还有重复搜集所带来的额外带宽消耗 增量搜集法: 最初时搜集好一批数据,

7、以后只是搜集新出现的网页和改变的网页并删除不再存在的网页。 这样的系统表现出来的信息实时性就会比较高,主要缺点系统实现比较复杂,2.2.2 网页处理,主要包括四个方面 关键词的提取 重复或转载网页的消除 链接分析 网页重要程度的计算,关键词的提取,为了支持查询服务,需要从网页源文件中提取出能够代表它的内容的一些特征关键词 网页处理阶段的一个基本任务,就是要提取出网页源文件的内容部分所包含的关键词 对于中文来说,就是要根据一个词典,用一个“切词软件”,从网页文字中切出所含的词语来,重复或转载网页的消除,Web上的信息存在大量的重复现象,统计分析表明,网页的重复率平均大约为4 消除内容重复或主题重

8、复的网页是网页处理阶段的一个重要任务 网页净化和消重是大规模搜索引擎系统预处理环节的重要组成部分 建立索引一般是在消重后的网页集上进行的,这样就可以保证用户在查询时不会出现大量内容重复的网页,链接分析,从信息检索的角度讲,如果系统面对的仅仅是内容的文字,可以依据关键词和词在文档集合中出现的频率来统计该词的相对重要性以及和某些内容的相关性,网页重要程度的计算,搜索引擎返回给用户的,是一个和用户查询相关的结果列表。列表中条目的顺序是很重要的一个问题。 不同的顺序达到的结果是不一样的,因此搜索引擎实际上追求的是一种统计意义上的满意 参照科技文档重要性的评估方式,核心想法就是“被引用多的就是重要的”。

9、“引用”这个概念恰好可以通过在网页之间的超链进行体现,作为Google创立核心技术的PageRank就是这种思路的成功体现,2.2.3 查询服务,为了完成查询服务,需要选择相应的元素,这些元素主要有原始网页文档、URL和标题、编号、所含的重要关键词的集合以及它们在文档中出现的位置信息、其他一些指标,如重要程度、分类代码等 用户通过搜索引擎看到的不是一个“集合”,而是一个“列表”。如何从集合生成一个列表,是服务子系统的主要工作。服务子系统是在服务进行过程中涉及的相关软件程序,而网页处理子系统事先为这些软件程序准备了相应的数据 服务子系统的工作原理,主要有四个方面: 查询方式和匹配 索引库的建立

10、结果排序 文档摘要,查询方式和匹配,查询方式指的是系统允许用户提交查询的形式 对于普通用户来说,最自然的方式就是“需要查询什么就输入什么” 词的识别是搜索引擎中非常关键的一部分,通过字典文件对网页内的词进行识别,索引库的建立,索引库的建立是数据索引中结构最复杂的一部分 一般需要建立两种索引 文档索引:分配每个网页一个唯一的docID号,根据docID索引在这个网页中出现过多少个wordID,形成docID对应wordID的数据列表 关键词索引:其实是对文档索引的逆索引,结果排序,结果就是将查询结果的集合在屏幕上以列表的方式显示出来 所谓列表,就是按照某种评价方式,确定出查询结果集合中元素的顺序

11、,让这些元素以某种顺序呈现出来,这就是相关性 相关性是形成这种查询顺序的基本因素,有效地定义相关性本身是很困难的,从原理上讲它不仅和查询词有关,而且还和用户的背景以及用户的查询历史有关,一般来讲,结果排序的方法是基于词汇出现的频率,也就是说在一篇文档中包含的查询词越多,则该文档就应该越排在前面 当我们通过关键词的提取过程,形成一篇文档的关键词的集合后,很容易同时得到每一个词在该文档中出现的次数,即词频 PageRank是目前搜索引擎给出查询结果排序的主要方法,它通过在网页处理阶段为每篇网页形成一个独立于查询词(也就和网页内容无关)的重要性指标,将它和查询过程中形成的相关性指标结合形成一个最终的

12、排序,文档摘要,搜索引擎给出的结果是一个有序的条目列表,每一个条目有三个基本的元素(标题、网址和摘要),其中的摘要需要从网页正方中生成 一般来讲,搜索引擎在生成摘要时可以归纳为两种方式 静态:独立于查询,按照某种规则,事先在预处理阶段从网页内容提取出一些文字。这种方式的优点是实现起来比较容易,缺点是摘要可能和查询的内容无关,因为一篇网页有可能是多个不同查询的结果 动态:在响应查询的时候,根据查询词在文档中的位置,提取出周围的文字来,在显示时将查询词标亮。这是目前大多数搜索引擎采用的方式,2.3 搜索引擎的数据访问,数据结构是一切系统基础 每一种数据结构都有其特有的性能指标,最好的却不一定是最适

13、合的,因此在设计搜索引擎是要根据具体需要,选择一种适合的数据结构,2.3.1 存储结构,四种存储方法: 顺序存储方法 链接存储方法 索引存储方法 散列存储方法,顺序存储方法,它是将数据在物理位置上进行连续的存储 顺序存储的数据都是相邻且连续存放的,因此能够换来很高的扫描速度 但其随机存取效率很低,所以对一些相对固定的不易发生改变的数据应当采取顺序存储方法,链接存储方法,它不要求数据在物理位置上连续存放,各个数据结点之间用指针进行连接 它相对于顺序存储来讲,不需要事先开辟一整块存储空间,所以,提高了存储空间的利用率 但是扫描数据时,效率比顺序存储要低,索引存储方法,索引表由若干索引项组成 若每个

14、结点在索引表中都有一个索引项,则该索引表被称为稠密索引(Dense Index),若一组结点在索引表中只对应一个索引项,则该索引表称为稀疏索引(Spare Index) 索引项的一般形式是关键字、地址。实际应用中我们把按关键字建立的索引称为倒排索引,带有倒排索引的文件叫倒排索引文件,又称为倒排文件 这种索引存储方法是目前搜索引擎最常用的存储方法,尤其是倒排索引更是搜索引擎的核心内容,散列存储方法,它的基本思想是根据结点的关键字直接计算出该结点的存储地址 该方法类似于哈希表,即根据记录中的关键字特点设计一种哈希函数(也叫散列函数)和处理冲突的方法来确定记录的存储位置,将记录散列在存储介质上,这样

15、的文件被称作散列文件 散列文件的随机存储效率很高,但散列文件不适宜顺序存取和成批处理,四种基本存储方法,既可单独使用,也可组合使用 同一逻辑结构采用不同的存储方法,可以得到不同的存取结构 选择何种存储结构来表示相应的逻辑结构,视具体要求而定,主要考虑运算方便及算法的时间要求,2.3.2 信息库,信息库用来存放所获取的网页 在选择采用具体压缩算法的时候,要综合考虑速度和压缩率的关系,一般是它们的折中选择 Google中的每个页面都通过Zlib算法进行压缩,Zlib算法是以Huffman树编码法和LZ77编码法为编码基础,采用了统计模型和字典模型,它继承了字典压缩算法的思想,实际上是Huffman

16、算法与LZ77算法的改进算法,它的压缩率一般为3:1 为了便于从信息库中进行信息的查找,需要对这些信息建立索引,对于搜索到的巨大的信息量来说,必须建立一种合适、紧凑的数据结构来存放索引,2.3.3 文本索引,文本索引需要按照一定的次序来保存每个文档的信息,以便于信息的查找 在Google中利用了固定长度的ISAM(索引序列访问模式)进行索引,该索引按照docID排序 在每个索引条目中包含当前文本的状态、一个指向信息库的指针、一个文本的检查值和一些统计信息 还有一个用来将URL转换成docID的对照文件,该文件包含了URL校验值和它相应的docID,该文件按照URL的校验值排序 一些URL可以批

17、量地被转换成对应的docID,这种批量转换算法是必要的,2.3.4 词典,不同搜索引擎采用的词典不一样 早期系统中的词典不能全部存放在内存中,而现在的词典则可以全部存放在内存中 在Google中,词典存放在内存中,占大约256MB内存,它是由两部分组成:第一部分是一个通过空格分隔的词表,另一部分则是由指针组成的散列表,2.3.5 采样表,在Google中,文档中的每个词对应一个采样,采样包含该词在该文档中的位置、字体和大小写信息 采样表在前向和后向索引中占据主要的存储空间 必须高效地对这些信息进行编码,现有的编码方法有简单编码法(通过一个整数的三元组)、紧凑编码法(一种位分配技术)和哈夫曼编码

18、法 Google在构建采样表的过程中选择了紧凑编码法,它比简单编码法节省空间,比哈夫曼编码法运算速度快,2.3.6 前向索引,它是文档到词的索引,在处理文档的时候以文档为单位建立这种索引比较方便 在Google中,前向索引存放在64个存储桶中,每个桶容纳一定范围内的wordID 这种方法将导致同一个docID出现在不同的桶中,从而造成一定程度的空间膨胀,这种空间可以大大提高索引阶段的效率和减少编码的复杂性 为了进一步节省存储空间,由于各个桶存放一定范围之内的wordID,这样就可以只存储wordID相对于该桶中最小wordID的相对值,2.3.7 后向索引,前向索引便于建立,但是在信息查找的过

19、程中,是根据词来找文档的,因此为了提高文档检索的速度,必须建立词到文档的索引,即后向索引 在Google的后向索引中,也包含了与前向索引类似的存储桶,只不过后向索引经过排序处理 对于每个有效的wordID,词典包含一个指向该wordID所在桶的指针,该指针指向一个docID的列表和与该wordID相关的采样表,该docID的列表包含所有出现该wordID所对应的词的文档 在后向索引中,对docID列表中的docID进行排序的方法: 按照docID进行排序,这种方法可以实现多词查询时的docID列表的合并 按照每个文档中该词出现的频率对docID列表进行排序,这种方法便于单个词的查询,但是不利于

20、多个docID列表的合并,2.4 元搜索引擎,所谓元搜索引擎,就是指在统一的用户查询界面与信息反馈的形式下,共享多个独立搜索引擎的资源库为用户提供信息的系统,这些被共享的独立搜索引擎被称为元搜索引擎 元搜索引擎与搜索引擎的最大不同之处就在于它可以没有自己的资源库和机器人(如Spider),它充当的是一个中间代理角色,接受用户的查询要求,将请求翻译成相应搜索引擎的查询语法,这样由于信息源范围的扩大,不仅提高了检索效率,也大大增加了找到所需信息的可靠性 它没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理的,作为自己的结果返回给用户,它的服务方式为

21、面向网页的全文检索 这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分发挥搜索引擎的功能,用户需要做更多的筛选,2.4.1 元搜索引擎的基本构成,一般独立搜索引擎主要由网络爬虫、索引与搜索引擎软件等部分组成 与独立搜索引擎相比,元搜索引擎不需要维护庞大的索引数据库,也不需要网络爬虫去采集网页,具体来说,它主要由三部分组成: 请求提交代理 它负责实现用户个性化的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等并负责将用户的请求分发给独立搜索引擎 检索接口代理 它负责将用户的检索请求“翻译”成满足不同搜索引擎“本地化”要求的格式 结果显示代理 它负责所有源搜索引擎检索

22、结果的去重、合并、输出处理等,2.4.2 元搜索引擎的分类,它有多种分类方式 按数据处理方式来分,可分为并行处理式和串行处理式两大类 按功能来分,可分为多线索式和All-in-One式 按运行差异来分,可分为在线的和桌面的 一款理想的元搜索引擎应该具备的特点和功能 涵盖较多的搜索资源 具备尽可能多的选择功能 强大的检索请求处理功能 详尽全面的检索结果信息描述 支持多种语言检索,简单元搜索引擎 它给用户提供一个搜索引擎列表,用以用户选择所用的搜索引擎,它不进行搜索结果的处理,就省去了结果显示代理 桌面型元搜索引擎 它以程序的方式提供给用户,它的请求提交代理、检索接口代理和结果显示代理都在用户端

23、基于Web的元搜索引擎 它以Web方式为用户提供元搜索服务,它的请求提交代理、检索接口代理和结果显示代理都在服务器端,中文元搜索引擎,万纬搜索(http:/www.widewaysearch.co) 比比猫猫搜索() 北斗搜索() Xooda元搜索引擎() 马虎聚搜()(网页去重) 圣博牛搜(),2.4.3 常用元搜索介绍,英文元搜索引擎,MetaCrawler() Mamma()(搜索引擎之母) AskJeeves() ProFusion() Dogpile() ByteSearch() SavvySearch(http:/savvy.cs.colostate.edu:2000) Cyber

24、411() DigiSearch( Highway61(),2.4.4 元搜索引擎的特点,从元搜索引擎结构中可以知道,该技术的重心在于查询前的处理(检索提交机制和检索接口代理)和结果的集成 它可以灵活地选择所要采用的独立搜索引擎,而且一般都是选择那些比较典型的、性能优异的独立搜索引擎 这种强强联合的结果保证了搜索结果的权威性和可靠性,并且还可以充分发挥各个独立搜索引擎在某个搜索领域的功能,弥补独立搜索引擎信息覆盖面的局限性 总的来说,它与独立搜索引擎相比,具有如下优点: 信息的覆盖面广 搜索结果的权威性和可靠性 易维护性,信息的覆盖面广,元搜索引擎一般都要默认调用它自己认为比较好的若干个普通搜

25、索引擎,而且大多数元搜索引擎都提供给用户在一定范围内选择搜索引擎的功能 有些元搜索引擎还以频道的方式为用户提供专业搜索引擎的分类,这样用户可以根据自己的喜好和查询的内容选择相应的搜索引擎,搜索结果的权威性和可靠性,在独立搜索引擎中,索引数据库的更新需要一定的周期,而且搜集的信息也各有一定的侧重,元搜索引擎调用多个独立搜索引擎获取搜索结果,这种方式首先保证了信息的互补性,其次与独立搜索引擎相比,提高了信息的新鲜度 如果同样的搜索结果在多个独立搜索中同时出现,那么说明这个搜索结果比较重要,这样就避免了一些独立搜索引擎人工干预搜索排名的缺点,使得搜索结果的排序更加公正,易维护性,所谓易维护性是针对元

26、搜索引擎的管理者而言的 它将自己所调用的搜索引擎看成一个可以独立完成一定功能的实体,不需要去维护它们,只需知道它们的调用接口即可,2.4.5 主要技术指标,作为一种搜索引擎,元搜索引擎也有普通搜索引擎的一些基本指标,但是元搜索引擎个体差异很大,很难进行精确的比较 下面给出元搜索引擎的几个主要指标,并对其中的一些指标进行比较 选择独立搜索引擎的策略 覆盖网络资源的程度 提供丰富的检索选项 搜索结果的处理能力 相关度指标,选择独立搜索引擎的策略,有些元搜索引擎固定地调用几个独立搜索引擎,用户不能修改 元搜索引擎只能选择几个(一般不超过16个)搜索引擎同时进行检索,因为选择的搜索引擎越多,固然得到的

27、搜索结果更全面,但是结果的集成将花费大量的时间,覆盖网络资源的程度,它由于不需要建立自己的索引,避免了对大量信息的存储和处理 一般的元搜索引擎尽量覆盖多种网络资源,提供丰富的检索选项,检索选项越多,用户使用的时候就越灵活 由于元搜索引擎的检索特性向它所调用的独立搜索引擎检索特性转换所具有的复杂性,许多元搜索引擎不提供复杂的检索特性 大多数元搜索引擎提供通用的布尔检索,搜索结果的处理能力,对独立搜索引擎返回的搜索结果的处理是元搜索引擎的又一重要技术 有些元搜索引擎提供多种显示结果的方式,还有的元搜索引擎提供了让用户定制搜索结果的聚类方式,相关度指标,每个搜索引擎开发商为了将最满意的结果放得更靠前

28、,不遗余力地创建出各种相关度指标体系,从检索词的位置/频率到链接和流行度等 面对众多的相关度评价指标,按照怎样的方式对从独立搜索返回的结果进行一致性的排序是元搜索引擎结果处理部分面临的主要问题 元搜索引擎的结果排序有多种方法 Ixquick在肯定各个独立搜索引擎所用的相关度评价指标的基础上,统计搜索结果记录被多少个独立搜索引擎所青睐,以此作为元搜索结果相关度评价指标,简称“星星体系”,元搜索引擎的出现基本上解决了信息检索中的查全率的问题,但它也存在着不足 众多搜索引擎同时集中在一个界面下,不同搜索引擎具有不同的搜索方式和检索策略,要系统同时适应这些检索策略,必然会牺牲某些搜索引擎的特殊性能,因

29、而从整体上降低了检索性能 每一个元搜索引擎使用的当前的搜索引擎的数量是有限的,一般为3到5个,这就存在着搜索引擎的选择问题,选择哪些搜索引擎能够满足查全的要求,以及对这些搜索引擎的性能进行评价就成了至关重要的问题 检索结果返回给用户是以统一的用户界面形式来完成的,系统要进行不同格式的转换,因此检索速度可能会受到影响,同时,对不同的格式的结果进行处理也存在着一定技术困难,2.5 个性化搜索引擎,搜索技术满足了人们一定的需要,但由于其通用的性质,仍然不能满足不同背景、不同目的和不同时期的查询请求 个性化服务技术就是针对这个问题而提出的,它为不同用户提供不同的服务,以满足不同的需求 这种技术通过收集

30、和分析用户信息来学习用户的兴趣和行为,从而实现针对不同用户进行相应信息筛选的目的 目前,个性化服务技术主要分为两种: 基于规则的系统 信息过滤系统,系统模块及其功能 个性化搜索引擎的关键技术,系统模块及功能,用户代理模块:向系统发出请求和接受系统的查询结果,给用户提供一个友好的交互界面 查询扩展模块:根据用户兴趣库内容和信息反馈模块来对输入信息进一步进行归纳和综合整理,从而可以全面理解和识别用户的实际需求信息 独立搜索引擎接口模块:根据用户查询的信息内容不同以及各个搜索引擎的查询优势不同,合理地选择独立搜索引擎进行搜索查询 信息过滤模块:实现信息过滤,根据信息过滤算法和用户兴趣库对独立搜索引擎

31、返回的信息检索结果做进一步处理,去掉重复文档并按相关度排序后提交给用户 结果反馈模块:根据用户对查询结果的查看以及评价信息,对查询结果进行分析和归纳,并把分析结果作出相应的处理 数据库模块 用户兴趣库:为了提供面向用户的检索,系统必须维护用户的相关特征 语义相关库:通过各种反馈技术与数据挖掘技术相结合来对同一关键词作进一步分析,从而得到更多的相关语义信息,进而准确理解用户的需求信息,个性化搜索引擎的关键技术,个性化信息服务 Agent技术 用户兴趣学习 信息过滤,个性化信息服务,它针对用户提出的检索要求,根据用户的兴趣在海量信息库中筛选提供符合用户的信息 主要包括两个方面的含义: 信息服务方式

32、的个性化,即根据个人的爱好或特色进行服务 信息服务内容的个性化,即让人们从个人的职业、兴趣等方面获得信息 个性化信息服务满足了“用户第一”的服务理念,用户满意是其出发点,主动服务是其基本模式,双向沟通是其成功的要因,它真正能够实现“所需所求”的信息服务模式,Agent技术,所谓Agent,可以理解为是一个自包含的程序,能够控制自己的动作与决策,基于对自己所在环境的感知,追求一个或多个目标 它一般具有如下特征: 自主性:能够在没有人或其他Agent干预情况下持续运行 反应性:能够感知外界环境,并对外界环境的变化适时做出反应 适应性:具有学习能力,它不仅能够对外界环境变化做出反应,而且能够采用一种

33、面向目标的行为 通信能力:能够通过某种Agent通信语言与其他Agent进行交互 生存能力:能适应其所在环境,并在一定时间基础上进行自我调整,用户兴趣学习,用户兴趣学习是根据用户对浏览信息的选择,采取某种学习方法来逐步明确用户兴趣的一个过程 在学习时可以采用BP神经网络来学习用户的兴趣,BP神经网络模型是一个有教师的学习算法,神经网络输入文档的特征向量,输出评价值,信息过滤,它是实现个性化搜索引擎的另一项关键技术 个性化搜索引擎通过信息过滤技术,过滤出用户真正感兴趣的信息 信息过滤系统主要包括三个基本的逻辑单元: 信源:向过滤器提供信息及特征描述 过滤器:根据用户兴趣有选择地向用户递送信息 用

34、户:决定是否向过滤器发反馈信息指明他们的要求,使过滤器通过学习调整,可以更好地提供符合用户个性化需求的信息,智能化搜索引擎是基于人工智能、融合专家系统、自然语言理解、用户模型、模式识别、数据挖掘及信息检索领域的知识和先进技术发展起来的(名词) 智能搜索引擎特征: 搜索信息准确 搜索智能化 信息服务个性化,2.6 智能搜索引擎,智能搜索引擎主要技术,智能代理技术 Web挖掘技术 自然语言理解技术 分布式并行计算技术,智能代理技术,智能代理是一段计算机程序或具体硬件系统,能依据一定的需求,自主地完成相关的功能或任务 智能搜索引擎采用了功能不同的Agents以提供更好的信息服务,Web挖掘技术,它是

35、近年来随着数据库和人工智能发展起来的一门新兴的数据库技术,帮助人们从庞大的目标数据集合中抽取出可信的、新颖的、有效的并被人们理解的知识 Web内容挖掘对搜索器收集的Web页面中的文本进行适当的分析解释,避免传统搜索引擎分析方法的简单化,结合索引器建立更加精确的Web文档索引库,自然语言理解技术,它是人工智能研究领域的一个重大课题,旨在通过研究开发实现计算机对人们日常交流的自然语言的分析和回答,从而达成更加有效的人机交互,确保搜索结果描述的准确性、相关性和相似性,分布式并行计算技术,智能搜索引擎面向的是一个分布、异构的信息库系统,其收集和索引的Web信息实现了分布式存储,关键是对这些资源进行有效的整合,以方便用户的高效检索 智能化搜索引擎可以利用计算机最新发展技术建立自主的分布的索引数据库、知识库和用户规则模式库,并提供一定的镜像支持,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1