一种问答式检索系统布尔查询生成方法.ppt

上传人:京东小超市 文档编号:6094028 上传时间:2020-09-08 格式:PPT 页数:15 大小:126KB
返回 下载 相关 举报
一种问答式检索系统布尔查询生成方法.ppt_第1页
第1页 / 共15页
一种问答式检索系统布尔查询生成方法.ppt_第2页
第2页 / 共15页
亲,该文档总共15页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《一种问答式检索系统布尔查询生成方法.ppt》由会员分享,可在线阅读,更多相关《一种问答式检索系统布尔查询生成方法.ppt(15页珍藏版)》请在三一文库上搜索。

1、一种问答式检索系统布尔查询生成方法,何靖 北京大学网络与分布式实验室 2006.07,顺铬构杖贞绍庄肖锦嗓从恕甄巍聋帐星麻栗釉庙纠个详厩巢沂朝拇窒螟铸一种问答式检索系统布尔查询生成方法一种问答式检索系统布尔查询生成方法,大纲,背景介绍 信息检索(IR)和问答系统(QA) 问答系统的模块 查询生成方法研究 调整式查询生成方法 初始化查询 查询调整 实验设置和结果 小结和展望,速箔灯迹骡误贩赞支党败巢械堰铂神毖黄芦陀赖金莉某臆寒烦鸳捏荐妻掷一种问答式检索系统布尔查询生成方法一种问答式检索系统布尔查询生成方法,背景介绍IR v.s. QA,信息检索 关键词查询文档集合 信息需求关键词查询? 文档集合

2、所需信息? 问答系统 自然语言描述的信息需求 精确的答案,页胸摔人皑偶堵悉铸嗓益悄季旱张舱涯芒吵忱陷蛾屿桩厉叛鉴传仁慌纹妮一种问答式检索系统布尔查询生成方法一种问答式检索系统布尔查询生成方法,背景介绍-问答系统模块,问题分析 指代消解,问题分类,问题目标 文档/段落检索 文档检索模型 查询生成 检索排序 答案抽取 精细实体识别 通过关系抽取 模式匹配,饼码议珠蛹憾请卵棘校矣滚耗儡糟婆狄析匠惠骤娶唆彭珠厕俏衔驮南揪也一种问答式检索系统布尔查询生成方法一种问答式检索系统布尔查询生成方法,背景介绍问答系统中查询生成,传统方法 方法:问句出现词去停用词直接检索 问题: 查询过紧或过松 导致查全率或查准

3、率的大幅下降 基于模式重写对查询扩展 方法:训练匹配模式,进行查询扩展 问题: 需要大量问题答案对数据,数据稀疏问题,婉偿闭冬寻勃远鼓沿十肾限凸鹅穗惠允豁衔吻腮猩玲菩籍书摄蓬彩缄棵隶一种问答式检索系统布尔查询生成方法一种问答式检索系统布尔查询生成方法,调整式查询生成概要,目标 提高检索效果:查准率和覆盖率 提高检索效率:少的查询次数 基本形式 合取范式 基本过程 初始化查询 查询调整,忧肺秩橇泄赔趁甫诉糜敌撞犹温俘胺拈脾猫契凭张否外父充遇悦俐俏史讹一种问答式检索系统布尔查询生成方法一种问答式检索系统布尔查询生成方法,调整式查询生成-初始化查询,命名实体和专有名词(BASELINE) BASEL

4、INE + 普通名词 BASELINE + 普通动词 BASELINE + 普通修饰成分,菇房写期簇组期挨挺跌咏矩巡刃莽箍但扼是英送燃摘徐滓钨撤争召密铅触一种问答式检索系统布尔查询生成方法一种问答式检索系统布尔查询生成方法,调整式查询生成- 查询调整(1),设置合法区间 检索获得文档数的范围:既不太多,也不太少 查询过紧 检索获得文档数低于合法区间范围,放松查询 查询过松 检索获得文档数高于合法区间范围,收紧查询,具仕庐靠冬谷帅淑快霹架个兜咋展儡菊蘸亮撅飞笼把贵斟弘疟弯凌环妇亏一种问答式检索系统布尔查询生成方法一种问答式检索系统布尔查询生成方法,调整式查询生成查询调整(2),放松查询策略 添加

5、扩展查询词扩展形式 形态扩展 语义扩展 拆分词组 删除关键词 收紧查询策略 增加关键词 取消扩展形式,蝉燕盅夫钾详还矽僳猩椅署却幼橡骤湖涎别沽疗匈拉胃茨跟延弥哈茬熔惩一种问答式检索系统布尔查询生成方法一种问答式检索系统布尔查询生成方法,调整式查询生成算法,0. 初始化查询,转入a a 若查询获得文档数在合法区间内,转入d。否则,若返回结果太多,转入b;太少,则转入c。 b 如果没有关键词可以添加,转入d。否则添加idf最大的关键词(以及它的扩展,不添加不在任何文档中出现的关键词),如果返回结果太多,继续添加,否则删除刚才添加的关键词,加入idf次大关键词,一直到重复这样的添加删除到进入合法区间

6、或者没有关键词可添加,转入d。 c 如果有命名实体,则拆分命名实体。转入a。若没有命名实体,且没有关键词可以删除,则转入d。否则删除idf最小的关键词。删除后如果结果依然过少,继续删除,否则补回刚刚删除的关键词,删除idf次小的关键词,一直重复这样的删除补回一直到进入合法区间或者没有关键词可以删除。 d 用产生的查询进行检索,获得结果。,娶募酶择刻咨失廖淋缕散藻拇互蜗填剂酌韧悟侣婆疲园曝箭多掩畴虾竹臭一种问答式检索系统布尔查询生成方法一种问答式检索系统布尔查询生成方法,实验设置,文档集:AQUAINT 容量:3.1G 文档数:1,033,461 问题集: TREC2004/2005 QA TR

7、ACK Question TestSet,桶悼长饮邑栈掠断滑貌锋瘦拿豁滔于秽膳迂惨搪抵驼墩然嘴眶獭孟绣挺好一种问答式检索系统布尔查询生成方法一种问答式检索系统布尔查询生成方法,实验指标,司瓣雨茹阐骂泉愈稿啡磨古州优狭无宠疑泼曙使先留科锐蘑语艳驰懈佣浙一种问答式检索系统布尔查询生成方法一种问答式检索系统布尔查询生成方法,实验结果初始化查询,人贤慈素砾债谋屯鹅溃帧畜醇坤后戚夫帆瞻黍载雀痞及蚁生惜岗述斤宗皆一种问答式检索系统布尔查询生成方法一种问答式检索系统布尔查询生成方法,实验结果调整查询,讽宛固筐擦喂侯支盒削谚瞎缘绝湃丈建观对懂锣忠匙抗疏酌垄由碧闸刺卉一种问答式检索系统布尔查询生成方法一种问答式检索系统布尔查询生成方法,总结和展望,总结: 模拟用户查询构造过程调整查询 检索效率:2.5次调整 大幅度增加检索效果(提高准确率、覆盖率和重复率) 目前和今后的工作: 合法区间的设置 有选择的语义扩展 统计学习获得检索词的特征,靠瞻抢糟捷炉细防些弘琳准鸽氢券炳靠佃识士壹表棋申回罚沸革桔蛛未巢一种问答式检索系统布尔查询生成方法一种问答式检索系统布尔查询生成方法,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1