信息检索InformationRetrievalIR.ppt

上传人:本田雅阁 文档编号:3241425 上传时间:2019-08-05 格式:PPT 页数:37 大小:506.54KB
返回 下载 相关 举报
信息检索InformationRetrievalIR.ppt_第1页
第1页 / 共37页
信息检索InformationRetrievalIR.ppt_第2页
第2页 / 共37页
信息检索InformationRetrievalIR.ppt_第3页
第3页 / 共37页
信息检索InformationRetrievalIR.ppt_第4页
第4页 / 共37页
信息检索InformationRetrievalIR.ppt_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《信息检索InformationRetrievalIR.ppt》由会员分享,可在线阅读,更多相关《信息检索InformationRetrievalIR.ppt(37页珍藏版)》请在三一文库上搜索。

1、信息检索 Information Retrieval (IR) 第一章 概述 (Introduction) 2007-09 2007-12 1 第一章 简介 n信息检索( IR )定义及相关概念 nIR和相关领域的关系 nIR系统的建立 nIR系统的评估 nIR评价试验平台TREC n本课主要内容 2 IR抽象图 n目的 = 在一个大的文档集合中找到和所需的信 息 相关的文档 文档集合 所需信息 询问 答案列表 信息检 索系统 查找 3 IR定义 n信息检索(Information Retrieval,IR),是指将信息 按一定的方式组织和存储起来,并利用一定的检索 算法,借助于特定的检索工具

2、、根据用户的需要从 结构化或非结构化的数据中获取有关信息的过程。 n发展的几个阶段 n手工检索(早期,情报检索) n穿孔卡片检索(1950s) n计算机检索(面向主题,1960s) n 联机检索(1970s,1980s) n Web检索(1990s) 4 信息检索原理示意图 信息存储与组织 信息检索与实施信息结果展示 数据库 信息集合 信息处理者 外部信息 信息存储 信息加工 信息采集 处理结果 结果展示 检索模式 结果输出 特征组配 需求特征 检索需求 匹配算法 5 IR分类 n按资源形式划分 1、书目信息检索系统 2、全文检索系统 3、多媒体信息检索系统 n按服务功能划分 1、单纯检索服务

3、系统 2、统计分析信息服务系统 3、决策支持系统 6 IR分类 n按服务区域划分 1、单机检索系统 2、联机检索系统 3、网络检索系统 在这门课中,我们只讨论全文检索系统的形式。 7 IR和其他领域的关系 n数据库(DB ),在DB系统中,要创建数据组织方案,这个方案定义了各种关 系及关系内的属性,利用这些方案,系统可以对用户提问做出解释。例如,在 DB内,可以定义如下的关系: 作者(书,名字) 其中,作者是关系的名字, 书和名字是这种关系的属性,分别对应着书的ID 和它的作者名,这只是定义的一部分。为了查找由“Knuth”编写的书,可以 使用如下的SQL语句: SELECT book FRO

4、M author WHERE name= “Knuth” n问答系统(QA),两个系统中,问题回答的方式是不同的。在IR中,对 问题的回答是间接的:鉴别关联的文档,然后用户寻找问题的直接答 案。在问答系统中,系统提供直接的答案。 8 相关概念 n文档(Document),是指包含各种信息的信息源,通常情况下,用 户查询的问题的答案存在于此,它的表现形式可能是文本、网页、图 片、音频、视频等。在这门课中,我们只讨论文本的形式。 n询问(Query),表示用户所需要的信息,一般情况下,它可以用如 下的形式表示:“查找和 . 相关联的文档。” n关联(Relevance),信息检索的目的是寻找相关联

5、的文档。通常 情况下,在相关联的文档中,用户应该能够找到他们所需要的信息。 可见,关联是用来判断是否某个文档能够为用户问题提供回答的。关 联的概念是非常复杂的。关联是存在于C 和D 之间的通过E 进行判断 的B中的A。其中, A = 测量区间,B = 关联方面(绝对关联), C = 文档,D = 上下文 ,在这里进行关联测量(包括需要的信息)E = 用户的判断 9 相关概念 n文本形式,文本存在多种规范形式,通常包括非结构化(也 称为纯文本)、半结构化和结构化文本。大多数情况下,文本 被看作是半结构化。比如,一本书的说明书可能是如下的形式 : ISBN: 0-201-12227-8 Autho

6、r: Salton, Gerard Titre: Automatic text processing: the transformation, analysis, and retrieval of information by computer Editor: Addison-Wesley Date: 1989 Content: 10 相关概念 n切词(segmentation),或称分词,主要在中文信息处理中使 用,即把一句话分成一个词的序列。 例如,“网络与分布式系统实验室”,分词为“网络/ 与/ 分布式/ 系统/ 实验室/”。 n停用词(stop word),指文档中出现的连词,介词,冠

7、词等 并无太大意义的词。例如在英文中常用的停用词有the,a, it 等;在中文中常见的有“是”,“的”,“地”等。通常这些 词被放在一个列表中,称为停用词表(stoplist)。 n索引词(keyword,标引词,关键词):可以用于指代文档内容 的预选词语,一般为名词或名词词组。 n组合词(compound words):由两个或两个以上的单词构成的 词,也称为合成词,如:北京大学,建设银行等。 n词干提取(stemming 英语文档处理):单、复数,人称,时 态等 countries = country,interesting = interest 11 Web检索实例:搜索引擎 n搜索引

8、擎(Search Engine,SE),Web上的一种应 用软件系统,它以一定的策略在Web上搜集和发现信 息,对信息进行处理和组织后,为用户提供Web信息 查询服务 n搜索引擎三段式工作流程 搜 集 预 处 理 服 务 12 Example Google Web 13 IR系统的建立 n最初应用于图书馆系统(1950s) ISBN: 0-201-12227-8 Author: Salton, Gerard Title: Automatic text processing: the transformation, analysis, and retrieval of information b

9、y computer Editor: Addison-Wesley Date: 1989 Content: n外部属性和内部属性(内容) nDB:通过外部属性查找 nIR: 通过内部属性(内容)进行检索 14 实现方法 1.字符串匹配 (在文档中进行线性扫描) - 速度慢 - 难于改进 例如:查找与“数据库和人工智能在工业上的应用”相 关联的文档。对于 “人工智能和数据库在工业上的应用,人 工智能在工业上的应用,数据库在工业上的应用,. . ” 等情况不兼容。 15 实现方法 2.索引 (*) - 速 度快 -易于 改进 例如: 关键词表示: 原句子:数据库和人工智能在工业上的应用预处理后:数

10、据库、人工智能、工业、应用 原句子:人工智能和数据库在工业上的应用预处理后:人工智能、数据库、工业、应用 倒排文档: 人工智能 d1, d3,d5, d6,d7 查找过程描述: 用户问题:Q = w1=数据库, w2=人工智能, w3=工业, 且 Q= w1 AND w2 AND (NOT w3) 文档列表:w1 d1, d2, d5, d7, d9 w2 d1, d3, d5, d6, d7 w3 d2, d5, d6 应用操作: w1 AND w2 = d1, d5,d7 w1 AND w2 AND (NOT w3) = d1,d7 16 基于索引的IR Document Query in

11、dexingindexing indexing indexing (Query analysis) Representation Representation (keywords) Query (keywords) evaluation 17 基于索引的IR系统形式化表示 Docs Information Need Index Terms doc query Ranking match 18 通用IR系统框图 User Interface Text Operations Query Operations Indexing Searching Ranking Index Text query u

12、ser need user feedback ranked docs retrieved docs logical viewlogical view inverted file DB Manager Module 4, 10 6, 7 58 2 8 Text Database Text 19 全文检索系统评估 n问题 n如何评价系统的好与坏? n返回的文档都是相关的吗?(精度) n所有相关的文档都被找到了吗?(全度) 20 系统评估主要方面 n效率: 时间, 空间 n效果: n某系统是否有能力检索到相关联的文档? n哪个系统更好? n常用方法: n查准率 = 检索到的相关文档数 / 检索的文档

13、数 n查全率 =检索到的相关文档数 / 所有的相关文档数 relevantretrieved retrieved relevant 21 测量方法 n查准率:是指在系统所找到 的文档中关联文档所占的比例。 Precision = 检出的相关文 献量 /检出的文献总量 = a/(a+c) n查全率:是指系统所找到的 关联文档在文档库中所有的关联 文档中所占的比例。 Recall= 检出的相关文献量 / 检索系统中的相关文献总量 = a/(a+b) n噪音(Noise) = 检出的不相 关的文档数 / 检索的文档数 =c/a+c n静音(Silence) = 没有检出 的相关文档数 / 相关文档数

14、 =b/a+b n噪音 = 1 求精率;静音 = 1 求全率 n非相关检出率(Fallout)= 检索出的不相关文档数/不相关文 档数=c/c+d 相关 文献 不相 关文 献 总计 被检 出文 献 aca+c 未检 出文 献 bdb+d 总计 a+bc+d a+b+ c+d 22 P/R 计算图示 ListRel? Doc1Y Doc2 Doc3Y Doc4Y Doc5 假设: 5 个相关文档 23 precision/recall的关系 查全率(R)和查准率(P)之间具有密切的关系(即“互逆关系”),反映 了某一检索结果集合的不同方面的特征。目前,在评价试验的实践中,经 常采用的方法是将R和

15、P结合在一起, 形成某种单一指标或平均值指标, 对它们进行替代。 24 测试集 n系统间的比较:在相同的测试集上,比较不同的IR系统 n测试集包括: n文档集合 n询问集合 n文档-询问对的相关性判断 (每个询问所对应的答案 ) n系统的结果和答案集进行比较 25 其他测量方法 n单值测量: nF-measure = 2 P * R / (P + R) nE-measure = 1-(1+b*b)/(b*b/R+1/P),其中,b为参 数,用以反映或调整R和P的相对重要性。注意:当b=1时,E = 1- F;当b1时,意味着P的重要性大于R;当b100K)与问题集 (50) n每位参加者对每个

16、问题提交1000 个文档 n将每位参加者的前100个文档汇集起来,形成一个可 能相关的文档“池” ( global pooling) n检索评价专家进行人工判断,评出每一文档的相关 性 n其它的文档被认为是不相关的 n系统的性能以1000个答案来计算 33 比赛项目分类 n特殊检索Ad Hoc : 不同的提问式,在同一个文档集 合中进行检索 n筛选检索Routing (filtering) : 用户的需求是固 定的,文档集合是变化的 n跨语言检索Cross-Language: 属于Ad Hoc 检索 n网页检索Web: 对WWW文档快照集合进行检索 n问答系统Question-Answerin

17、g: When did Nixon visit China? n交互式检索Interactive: 使用户和系统进行交互 n口语文档检索Spoken document retrieval n图像和视频检索Image and video retrieval 34 TREC的意义 n为理论检索模型和试验检索系统提供了公平、定量 、具有实用价值的性能评价机会,并为前几位的系 统提供了商业机会 n开发了新的系统评估方法 n促进了相关领域的发展 (NLP, 机器翻译, 摘要, ) n建议成立C-TREC,促进中国信息检索技术的发展 35 其他研究机构 nCLEF = Cross-Language Exp

18、erimental Forum n For European languages n Organized by Europeans n Each per year (March Oct.) nNTCIR: nOrganized by NII (Japan) n For Asian languages n Cycle of 1.5 year 36 本课的主要研究内容 n索引理论:如何最好地表示文档和用户询问的内容,切词、关键词选取 n自动索引的基本原理 n基于词汇分布特征的索引方法 n基于语言规则与内容的索引 n人工智能索引法 n汉语自动索引 n检索模型:如何判断询问和文档之间的关联性 n布尔模型(Boolean,1957):集合论,布尔代数(逻辑操作) n矢量模型(Vector Space Model, VSM,1960s末):线性代数 n概率模型(Probability,1976):经典概率论 n搜索引擎:Web检索实例 n信息搜集 n预处理 n检索服务 n信息处理与组织 n自动分类与聚类 n自动摘要 nIR的高级技术(性能改善技术) n自然语言处理、语言模型 n多语言检索与分布式检索 n用户询问技术 37

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1