信息检索与利用检索流程.ppt

上传人:本田雅阁 文档编号:2161120 上传时间:2019-02-24 格式:PPT 页数:28 大小:719.51KB
返回 下载 相关 举报
信息检索与利用检索流程.ppt_第1页
第1页 / 共28页
信息检索与利用检索流程.ppt_第2页
第2页 / 共28页
信息检索与利用检索流程.ppt_第3页
第3页 / 共28页
亲,该文档总共28页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《信息检索与利用检索流程.ppt》由会员分享,可在线阅读,更多相关《信息检索与利用检索流程.ppt(28页珍藏版)》请在三一文库上搜索。

1、信息检索流程(以期刊为例),课题 选择检索词(限定词、同义词) 初步拟定检索式并导入数据库 调整检索策略再次拟定检索式(考虑查全、查准率)并导入数据库 命中结果(题录形式) 阅读单篇摘要 批量下载摘要 索取全文(中文、外文),1切分 切分是对课题的语句以词为单位进行拆分,转换为 检索的最小单元。 例1:检索“妇女吸烟与肺癌的关系研究”相关文献。 直接切分:妇女|吸烟|与|肺癌|的|关系|研究 注意:当词切分后将失去原来的意思时,不应再切分 ,即必须注意保持意义的完整。如“中国科学院”、 “电子邮件”不可再切分。,检索词选择技巧-1,2删除 删除是对自然语言中不具有实质性检索意义的: 虚词(如介

2、词、连词、副词等), 使用频率较低的词, 专指性太高、过分宽泛的词 过分具体的限定词 不能表达课题实质的高频词 存在蕴含关系可以合并的词,检索词选择技巧-1,英语或汉语中都有许多虚词,不能作为检索词。 如:汉语中“的、地、得、了”等助词 英语中的a about also and any as at be between by both for some so not this with等介词或冠词等,检索词选择技巧-1,例2:检索“中国非常规天然气工业的发展前景研究”方面的相关文献。 进行拆分以后,工业、发展、前景、研究这四个自由词具有一定的检索意义,但是由于或者是意义过于宽泛、或者是不能表达

3、课题实质、或者是存在蕴含关系的原因,没有必要全部作为检索词,根据需要可以保留1-2个作为检索词。,检索词选择技巧-1,检索词选择技巧-1,检索词选择技巧-1,检索词选择技巧-2,选定的检索词应符合检索目的;确认检索词是否为规范词;并列出常用中外文同义词、缩写词, 以及核心词的上下位类词。充分利用词表、词典、百度、谷歌、读秀,并从已检出的文献中,扩展检索用词。 (1) 立足规范词,兼顾自由词 (2) 注意词的全称、简称及缩写字母 (3) 必要时应向上下位类词扩检 (4) 注意外来词的译写变化 (5) 同义词的选择方法,(1)立足规范词,兼顾自由词,胶粘剂 2611 黏合剂 125 粘合剂 102

4、1 粘固剂 74 粘结剂 668 粘附剂 44 胶黏剂 275 胶合剂 21 粘接剂 225 粘胶剂 19,中国期刊全文数据库/篇名字段/20002010年,(2) 注意词的全称、简称及缩写字母,乙型病毒性肝炎 1318 乙型肝炎 18426 29977 乙肝 10233 脱氧核糖核酸 197 21291 DNA 21094,中国期刊全文数据库/篇名字段/19992009年/09.03.05,(3)必要时应向上下位类词扩检,电阻焊 112 F 点焊 621 (点焊-电阻焊) 620 缝焊 222 (缝焊-电阻焊) 222 凸焊 37 (凸焊-电阻焊) 37 实际报道“电阻焊”的文献量: 112

5、 620 222 37 991(篇),中国期刊全文数据库/篇名字段/19992009年/09.03.09,例1:“妇女吸烟与肺癌的关系研究” 切分:妇女/吸烟/与/肺癌/的/关系/研究 核心检索词:吸烟、肺癌, 补充上位词:烟、癌症、恶性肿瘤。 检索式:(吸烟 or 烟)and (肺癌 or 癌症 or 恶性肿瘤),例2: “人工智能技术在计算机辅助教学中的应用与实现” 切分:人工智能/技术/在/计算机/辅助设计/中/的/应用/与/ 实现 核心词:人工智能、计算机辅助设计 扩展:人工智能:同义词:智能模拟 下位概念:模式识别、自然语言理解与生成、专 家系统、自动程序设计 、数据智能检索 计算机

6、辅助教学系统(computer Aided Instruction ,CAD ) 检索式: (人工智能OR智能模拟OR模式识别OR自然语言理解与生成OR专家系统OR自动程序设计)AND(计算机辅助教学OR CAD),(4)注意外来词的译写变化,波尔兹曼 20 欧几里德 30 玻耳兹曼 31 欧几里得 59 玻尔兹曼 34 欧基里德 5 波耳兹曼 3 欧几理德 1 波尔茨曼 0 欧氏几何 17 Boltzmann 374 Euclid 75 (注意:用英文名检出的中文文献最多!),中国期刊全文数据库/篇名字段/19992009年/09.03.09,同义词的选择方法,除前面介绍的几种方法选择同义词

7、之外,再介绍几种常用的方法。 (1)利用数据库的同义词选择功能 (2)利用搜索引擎寻找同义词 (3)从数据库检索结果中寻找同义词 (4)利用自己的专业知识 (5)利用自己平时积累的知识,维普期刊库,百度,艾滋病 AIDS HIV STD 爱滋病 ,中国期刊库,6,所谓的检索提问式(query,search formulation),是信息检索中用来表达用户检索提问的逻辑表达式。 组成:布尔逻辑算符、 位置算符、 截词符、 限制算符 系统规定的其他组配连接符号,构造检索式,构造检索式(试验性检索),简单提问式含一个检索词的提问式; 上下文提问式精确短语或近似精确短语的提 问式,也可称为短语提问式

8、; 复合提问式含有布尔算符和至少2个检索词的 提问式; 结构性提问式含有2个以上布尔算符和至少4 个检索词的多层结构组合的提问式。,例4:地震序列分析的工具和方法研究 要完成本项检索课题,必须使用结构性提问式: 题名=地震序列 and 主题=分析 and 任意字段=(工具或方法),构造检索式(试验性检索),1当检索结果信息量过多时 原因:选用了多义性的检索词;截词截得过短;输入的检索词太少;应该使用“与(AND)”的使用了“或(OR)”;优先运算符“()”使用错误。考虑缩小检索范围,方法如下: (1)减少同义词、同族相关词等相关性不强的检索词。 (2)采用“AND” 或“NOT”算符连接检索词

9、或进行二次检索。,构造检索式(试验性检索),(3)使用范围较小的字段 通常的字段限制范围的大小顺序是: 题名关键词摘要全文 (4)缩短检索年限,限制检索结果的文献类型、语种及出版国。 (5)使用位置算符。 (6)改模糊检索为精确检索。,构造检索式(试验性检索),2当检索结果信息量太少时 原因:检索词拼写错误;遗漏重要的同义词或隐含概念;检索词过于冷僻具体;没有使用截词算符;位置算符和字段算符使用的过多;使用过多的“AND”算符。考虑扩大检索范围,方法如下: (1)考虑同义词或近义词(使用布尔逻辑符or连接); (2)选择上位词或泛指词补充到检索式中,(如飞行器 _航天飞机_ 载人航天飞机),构造检索式(试验性检索),(3)减少检索年限、文献类型、语种及出版国的限制,如增加回溯检索年限; (4)选择范围较小的字段,如题名字段 (5)使用截词符(?或*); (6)改精确检索为模糊检索; (7)同时使用拼写正确的词,以及拼写错误的词或存在多种普遍错别字的词作为检索词。,构造检索式(试验性检索),调整检索策略(正式检索),在实施检索时,应及时分析检索结果与检索的内容、目的和要求是否一致,同时根据检索结果的多少对检索策略进行相应的修改和调整,以获得最佳的查全率和查准率,直至得到比较满意的检索结果为止。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1