信息检索一般技术.ppt

上传人:本田雅阁 文档编号:2844228 上传时间:2019-05-27 格式:PPT 页数:22 大小:235.05KB
返回 下载 相关 举报
信息检索一般技术.ppt_第1页
第1页 / 共22页
信息检索一般技术.ppt_第2页
第2页 / 共22页
信息检索一般技术.ppt_第3页
第3页 / 共22页
信息检索一般技术.ppt_第4页
第4页 / 共22页
信息检索一般技术.ppt_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《信息检索一般技术.ppt》由会员分享,可在线阅读,更多相关《信息检索一般技术.ppt(22页珍藏版)》请在三一文库上搜索。

1、1,信息检索一般技术,第四讲:,王建涛 QQ47072005 ,2,1.导论,机检 回忆“信息检索原理图” 信息检索系统=硬件+软件+数据库 计算机信息检索的实质就是由计算机将输入的检索策略与系统中存储的文献特征标识及其逻辑组配关系进行类比、匹配的过程,需要人机协同作用来完成。,3,1.1 计算机信息检索的类型,4,2 计算机信息检索技术,计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。 由于信息检索提问式是用户需求与信息集合之间匹配的依据,所以信息检索技术的实质是信息检索提问式的构造技术。 目前,计算机信息检索技术已经从基本的布尔逻辑检索、截词检索、邻近检索、限制检索、短语

2、检索、字段检索发展为高级的加权检索、自然语言检索、模糊检索、概念检索和相关检索等多种技术并存。,5,2.1 布尔逻辑检索,布尔逻辑组配是现行计算机检索的基本技术,主要通过“与(and,*)”、“或(or,+)”、 “非(not,-)”将检索词联络起来。 AND*&空格 A and B 逻辑与。A和B都为真时,结果才为真 ,即:A*B,逻辑含义用图表示是:,6,OR +| A or B 逻辑或。A或B中只要有一个为真时,结果就为真,即:A+B NOT-! A not B 逻辑非。A为真、B为假时,结果才为真,即:A-B,7,布尔逻辑运算符的运算次序,括号优先与计算机编程中一样 (A OR B)

3、AND C NOT D 不同的系统次序有差别,但总的来说一般次序为: NOT AND OR 例A:查找有关信息检索的非英文文献 信息information 检索retrieval 英文english (信息 and 检索 ) not 英文 (information and retriever) not english,8,分析实例:,上海零售业的现状与发展趋势 上海 零售业 现状 发展趋势 上海 and 零售业 and (现状 or 发展趋势),9,2.2 截词检索,截词包括后截、中截、前截等。用?作为截词符(有些系统用*),主要包括下列情形: 截词符? 中截一字符,后截断n个字符 如 wom

4、?n 可以检索出: woman, women 如 coumput? 可以检索出Compute, Computer, Computing, computable,10,? 后、中截二字符 如:transplant? 可以检索出:transplant、transplanted、transplanter ?后、中截三字符 如: comput? 可以检索出:compute;computer;computing,11,通配符,无限截断,% ?* 后方一致(前截断): “%国庆” 将检索出所有字段为张国庆、欧阳国庆、国庆等的记录。 前方一致(后截断) : 如:“热电材料% ”将检索出热电材料梯度化、热电材

5、料及其梯度化等的记录。,12,2.3 邻近检索,位置算符(W) with,(nW)n with 表示检索算符两侧的词不可以颠倒顺序,n表示两个词中间可以插入=n个的词(如:an in by of the) 如:control(1w)system可以检索出“control system” “control in system”等的信息。,13,位置算符(N) near ,(nN)n near 表示检索算符两侧的词可以颠倒顺序,n表示两个词中间可以插入=n个的词(如:an in by of the) 如:control system可以检索出“control system” “system con

6、trol”等的信息。,14,字段算符(F) (L) (F)- in the same field 表示检索算符两侧的词必须同时出现在记录的同一字段内。 (L)- link 表示检索算符两侧的词必须在数据库界定的统一规范字段内。且有一定的从属关系,可以用来链接主标题词和副标题词。,15,句子位置算符(S)-in the same subfield or same paragraph 表示检索算符两侧的词只要在同一个子字段(文摘中的句子)或全文数据库的一个段落中出现就是匹配。 这些算符可以一起使用,顺序为(W) (S)(F) 。 实践上这些算符都是扩大检索范围。,16,2.4 限制检索,针对特定年

7、代、特定类别、特定检索点等作限制,包括前缀限制符和后缀限制符。,后缀限制符例如: /TI 限在题目中查 /AB 限在文摘中查 /DE 限在叙词标引中查,前缀限制符例如: AU= 限查特定作者 JN= 限查特定刊名 LA= 限查特定语种 PN= 限查特定专利号 PY= 限查特定年代,17,如在谷歌和百度搜索引擎中的 检索特定的文献类型: “报告 filetype:pdf ” 检索指定网址内的信息: “报告 site:” 以后会看到一些数据库通常都有年代/类型等的选择,18,2.5 网络检索,短语检索(半角双引号) 自动纠错检索(如:李熬,你是不是要检索李敖) 自动转换检索(如:汉语拼音转换成文字

8、) 自然语言检索 概念检索(同义词/近义词/狭义词,如搜索引擎Excite) 相关检索,19,2.6 其它检索的表述,二次检索/在结果内检索 精确检索 模糊检索 跨库检索/一站式检索 扩展检索(类似搜索引擎的概念检索) 一般检索/高级检索/专家检索/命令检索 还有什么检索?,20,小结NO4-1,计算机信息检索技术是用户信息需求和文献信息集合之间的匹配比较技术。 布尔逻辑检索、截词检索、邻近检索、短语检索、字段检索 网络信息检索 几乎所有的检索系统都有布尔逻辑检索、截词检索(模糊检索)和限制检索,而不同的检索系统又会有一些特殊的检索技术和功能。,21,一些疑问?,如何在实践中应用这些技术? 即使用了这些技术,要么检索结果太多多,要么检索结果太少,有没有什么方法解决这些问题? 第五讲“经典中文期刊全文数据库检索与通用技巧”通过具体的数据库的应用来演示如何应用这些技术解决实际问题的。,22,欢迎提问! 欢迎交流!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1