领域术语自动抽取方法研究.ppt

上传人:本田雅阁 文档编号:2613224 上传时间:2019-04-19 格式:PPT 页数:51 大小:1.04MB
返回 下载 相关 举报
领域术语自动抽取方法研究.ppt_第1页
第1页 / 共51页
领域术语自动抽取方法研究.ppt_第2页
第2页 / 共51页
领域术语自动抽取方法研究.ppt_第3页
第3页 / 共51页
领域术语自动抽取方法研究.ppt_第4页
第4页 / 共51页
领域术语自动抽取方法研究.ppt_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《领域术语自动抽取方法研究.ppt》由会员分享,可在线阅读,更多相关《领域术语自动抽取方法研究.ppt(51页珍藏版)》请在三一文库上搜索。

1、*1* 领域术语自动抽取方法研究 刘桃 *2* 报告内容 绪论 课题研究的目的、意义及研究现状 论文主体 领域文本自动判别方法 领域术语自动抽取方法 在文本分类和问答式信息检索中的应用 结论 *3* 报告内容 绪论 课题研究的目的、意义及研究现状 论文主体 领域文本自动判别方法 领域术语自动抽取方法 在文本分类和问答式信息检索中的应用 结论 *4* 绪论 研究目的 为面向领域的应用提供可定制的领域文本自动判别方法 和领域术语自动抽取方法 研究意义 对所有面向领域的应用都有重要意义 垂直搜索 文本自动分类 语言建模 词义消歧 *5* 绪论:领域文本自动判别研究现 状 领域文本自动判别 有监督文本

2、分类方法 文本表示:概率模型、向量空间模型 特征选择:TF-IDF、互信息、期望交叉熵、信息增益等 分类算法:Rocchio法、贝页斯分类法、K最近邻分类法、支持向 量机、决策树、神经网络 半监督文本分类方法 产生式模型和期望最大化、直推式支持向量机、自助学习法、协 同训练法、主动学习法 基于正例的文本分类方法 PEBL、 Spy_EM、Roc_SVM、类别约束SVM(Biased_SVM)、 PNLH 方法 *6* 绪论:领域术语自动抽取研究现 状 中文词语的领域类别判定之前要进行中文新词发现 中文新词发现 启发式特征:构词力、构词模式、互信息、上下文依赖 机器学习模型:隐马尔科夫模型、最大

3、熵、最大熵马尔 科夫模型、支持向量机、条件随机域 *7* 绪论:领域术语自动抽取研究现 状 词语的领域类别判定 基于语言学知识的方法 英文的拼写线索、包含词缀等信息的术语要素词典、潜层语法分 析、设定规则模版 基于统计量度的方法 基于类别的TFIDF(KFIDF)、领域相关性+领域一致性(DR+DC) 、C-值、C/NC值 机器学习方法 基于自助学习法的半监督术语获取方法 基于词语分类的术语获取方法 *8* 绪论:研究现状 领域术语自动抽取的评价 人工评价:语言学家或者研究者通过个人判断来确定抽 取的词语是否为领域术语 对抽取结果有直观感受 费时、费力 受人主观性影响 应用评价:看领域术语抽取

4、模块在应用系统中的表现 评测迅速 完全面向应用,不同的应用系统可能会产生不尽相同的结果 *9* 报告内容 绪论 课题研究的目的、意义、研究现状 论文主体 领域文本自动判别方法研究 领域术语自动抽取方法研究 在文本分类和问答式信息检索中的应用设计 结论 *10* 研究框架 领域文本自动判别 有监督文本分类 基于正例的文本分类 领域术语自动抽取 中文新词发现 术语抽取自助学习法 基于统计量度的术语抽取 应用研究 在文本分类中的应用 在问答式信息检索中的应用 词语的领域类别判定 概念语义网络 专业信息采集 特征集扩展 特征选择 *11* 领域文本自动判别方法 完整分类体系下的领域文本判别 有监督文本

5、分类方法 需要为每个类别提供一定规模的训练语料 实现了一个文本分类评测平台 包括10种可定制的特征选择算法和4种可定制的分类算法 特征选择算法:词频与倒文档频度(TFIDF)、期望交叉熵(ECE )、统计、互信息(MI)、文本证据权(WE)、信息增益(IG) 、文档频度(DF)、KFIDF、DR+DC、NCD+NDD方法 分类算法:简单贝叶斯(NB)、Rocchio、K最近邻(KNN)和支 持向量机(SVM) *12* 领域文本自动判别方法 非完整分类体系下反例集获取困难 完整分类体系下训练某个类别的分类器时,其他类别训 练语料的合集作为反例集 非完整分类体系下获取某个类别的平衡反例集比较困难

6、 基于正例的文本分类方法 不需要提供已标注的反例集 需要使用大规模未标注样本 *13* 基于正例的文本分类问题的传统 方案 步骤一:启发式样本标注 1-DNF,PNLH,spy,rocchio 步骤二:建立分类器 通过迭代建立一系列分类器 只建立一个分类器 *14* 传统方法存在的问题 启发式样本标注中,高准确率和高召回率不可兼得 1_DNF:将U中不含全部正例特征的文档看作反例 高准确率,低召回率 PNLH:定义正例参考值(PRP),将PRP值小于U集全部文档 PRP平均值的文档当作反例 低准确率,高召回率 不同途径得到的标注样本的置信度不一致,传统方 法不加区别的使用所有样本 势必导致分类

7、准确率下降 *15* 基于置信度加权的领域文本判别 法 多策略样本标注算法 自动标注尽可能多的样本,即在保证样本标注召回率的前提下,按照标 注样本的置信度对样本集进行划分 加权支持向量机算法 为不同置信度的样本赋予不同的权重 *16* 不同标注策略的样本置信度实 验 Retuers语料上的标注样本置信度 一级正例二级正例一级反例二级反例三级反例 acq 1.0000 0.67390.99400.95420.3528 corn 1.0000 0.46431.00001.00000.8558 crude 1.0000 0.83710.99990.99960.7407 earn 1.0000 0.6

8、8840.99930.84990.6822 grain 1.0000 0.90710.99990.99880.6486 interest 1.0000 0.45310.99990.99920.8303 money-fx 1.0000 0.53160.99990.99920.7472 ship 1.0000 0.83090.99920.77720.7888 trade 1.0000 0.67331.00000.99880.7058 wheat 1.0000 0.67331.00001.00000.7058 avg 1.0000 0.67330.99920.95770.7058 *17* 三级反例

9、及基于置信度加权对分 类性能的影响实验 noN3noWeiuseN3noWeinoN3useWeiuseN3useWei acq0.94150.95180.94810.9599 corn0.53150.55520.53990.6274 crude0.84650.81750.85820.8281 earn0.91780.93120.94730.9707 grain0.86040.81230.86210.8643 interest0.69180.70220.72220.7314 money-fx0.74810.77840.76040.7789 ship0.72970.65150.71580.649

10、6 trade0.6860.79280.70720.8092 wheat0.67930.71990.68740.7055 avg0.76330.77130.77490.7925 是否使用三级反例及基于置信度加权对Retuers数据集的分类性能影响 *18* 对比实验 S_EMWLBiasedSVM1BiasedSVM2WeiSVM acq0.95680.92020.95040.95790.9599 corn0.50270.58930.59870.5930.6274 crude0.85690.86380.7970.80460.8281 earn0.96770.94030.97720.97660.

11、9707 grain0.87060.8640.83450.83740.8643 interest0.67930.76730.6660.65150.7314 money-fx0.75940.77410.70310.75580.7789 ship0.72810.69590.57240.59650.6496 trade0.58880.80260.72760.75860.8092 wheat0.63630.64180.69890.71120.7055 avg0.75470.78590.75260.76430.7925 Retuers数据集上不同方法的分类性能对比 *19* 报告内容 绪论 论文主体 领

12、域文本自动判别相关技术研究 领域术语自动抽取相关技术研究 基于局部最大算法的中文新词发现 基于统计量度的术语抽取方法 领域术语抽取自助学习法 在文本分类和问答式信息检索中的应用设计 结论 *20* 传统中文新词发现方法的缺点 启发式特征+经验阈值 难以筛选合适的全局阈值统一抽取新词 机器学习方法 训练时间较长 *21* 基于局部最大算法的中文新词 发现 中文词语是关联强度较大、结合较为紧密的字序列 高内聚性 可独立运用性 利用平摊对称条件概率(SCP_F)衡量字序列的结合 力 局部最大算法思想: 如果ngram W 的关联强度大于所有包含它的(n+1)gram 的关联强度,并且ngram W

13、的关联强度不小于所有W 包 含的(n-1)gram 的关联强度,则 W 被看作候选新词。 能够很好地刻画词语的高内聚性和可独立运用性 *22* 基于局部最大算法的中文新词发 现 基于后缀数组的实现方案 传统方法在计算n3的ngram时,速度非常慢,不能满足 互联网环境下大规模网络文本的实时新词发现需求 采用基于后缀数组的数据结构 采用基于等价类划分的思想降低存储空间 只需要存储每个等价类中的一个最长序列 *23* 基于局部最大算法的中文新词发现 过程 *24* 实验结果 在MSR语料上的新词发现前后对比实验结果 在PKU语料上的新词发现前后对比实验结果 MSROOV 召回率精确率召回率IV 召

14、回率F1量度 Baseline0.3610.9360.9710.9880.953 Baseline+NE0.4970.9430.9680.9810.955 Baseline+NWI0.5810.9510.9670.9770.959 Baseline+NWI+NE0.6290.9570.970.980.963 PKUOOV 召回率精确率召回率IV 召回率F1量度 Baseline0.2340.8910.9370.980.913 Baseline+NE0.420.9140.9430.9750.928 Baseline+NWI0.5340.9310.9490.9750.94 Baseline+NWI

15、+NE0.630.9440.9580.9780.951 *25* 对比实验 系统编 号OOV 召回率精确率召回率IV 召回率F1量度 140.7170.9660.9620.9680.964 70.5920.9620.9620.9720.962 27(a)0.3790.9520.9690.9850.96 27(b)0.3810.9530.9680.9840.96 40.3230.9450.9730.9910.959 15(b)0.7180.9640.9520.9580.958 50.210.940.9740.9950.957 130.4960.9560.9590.9720.957 120.673

16、0.960.9520.960.956 240.5030.9520.9580.970.955 Baseline+NWI+NE0.6290.9570.970.980.963 在MSR语料上和中文分词评测中其他系统的对比实验结果 *26* 实验结果 词典编号新词比率总词数 10.2244622 20.2693374 30.3002757 40.3342131 50.4261189 60.494750 小规模词典统计信息 不同新词比率下的新词识别性能 在不同新词比率下测试新词发现的性能 在缺乏词表或者为了扩展已有的小词表的情况下,局部最大算法可 以用来抽取词语。 *27* 报告内容 绪论 论文主体 领

17、域文本自动判别相关技术研究 领域术语自动抽取相关技术研究 基于局部最大算法的中文新词发现 基于统计量度的术语抽取方法 领域术语抽取自助学习法 在文本分类和问答式信息检索中的应用设计 结论 *28* 基于统计量度的术语抽取 抽取原则一:领域术语应该在不同领域类别间分布不均匀 频繁出现在某领域文档中,很少出现在其它领域文档中的词语是领域术语的 可能性较大。 出现该词语的领域类别数越少,该词语越有可能是领域术语。 抽取原则二:领域术语在其相关领域的文档集中应尽可能分布均匀 出现在某领域的大多数文档中的词语可能是该领域的术语。 正规化策略:减轻不同语料规模和文档长度的影响 传统方法:KFIDF,DR_

18、DC 对术语抽取标准描述不够细致和全面 基于正规化分布熵的领域术语抽取方法 *29* 基于正规化分布熵的领域术语抽 取 符号定义:Di (1im): 第i个领域类别 dij (1jni): 类别Di中的第j个文档 lij: 文档dij的长度,即在该文档中出现的所有词语的词频之和 Li: 类别Di包含的所有文档长度之和 数学描述: 词语的正规化的类间分布熵NCD 词语的类间分布熵 : 词语“党性”和“知觉”在类别A(马列主义)均以0.5的概率出现,但“党性”只出 现在A(马列主义)与D(政治、法律)两个类别,而“知觉”共出现在11个类别的语料 *30* 基于正规化分布熵的领域术语抽 取 词语在领

19、域Di的正规化的类内分布熵NDD “蛔虫”在类别G(文化、科学、教育、体育)的一篇介绍中小学生健康问题中蛔虫感染的文章中多 次出现,但在该类别的其它文档中未出现,那么该词就不具有领域代表性,不能成为G类的领域术语. *31* C1 马列主义 无产阶级 社会主义 全党 马克思主义 共产主义 马克思列宁主 义 马克思 无产者 资产阶级 共产主义社会 剥削 阶级 生产资料 恩格斯 私有制 资产者 C2 法律 司法 人民法院 最高人民法院 案件 审理 诉讼 法院 司法机关 当事人 职权 国家机关 审判 被告人 民事 行使 民事诉讼 C3 军事 作战 军种 军事 军队 战争 兵力 事变 美军 新军 战法

20、 我军 武器 军兵种 火力 军事科学 战场 C4 体育 比赛 首场 球员 球队 英格兰队 队友 世界杯 夺冠 冠军 决赛 足协 后卫 主帅 瑞典队 任意球 小组赛 C5 医药卫生 患者 治疗 血管 临床 疗效 药物 病人 冠心病 并发症 动脉 冠状动脉 手术 症状术后 口服 疗法 服用 C6 轻工业 包装 食品 调味 保质期 肉制品 玻璃瓶 品牌 肉食品 方便化 果汁 腥味 肉类 专卖店 草莓 货架 糖度 中图分类体系下抽取结果示例 *32* 实验结果 中图分类体系下随机抽取的六个领域上的领域术语抽取数目 类别编 号词语总 数抽取词语 个数 DR+DCNCD+NDD B 哲学、宗教888301

21、776881 E 军事41030621677 H 语言、文字38666638741 R 医药、卫生18182444571 TD 矿业 工程27925318162 TS 轻工业、手工业21792257358 DR+DC方法抽取词语个数会随着语料规模的变化产生较大变 化 NCD+NDD方法抽取词语数目不完全依赖于语料规模 *33* 实验结果 图1 前200个词语的正确率 随机抽取的六个领域上领域术语抽取正确率 图2 其余词语的正确率 对于语料规模很大的类别, NCD+NDD法的正确率要明显高于DR+DC法 在其它正确率相当的类别中,抽取的术语数目要明显高于DR+DC法 *34* 领域术语自动抽取相

22、关技术 未 标 注 文 本 种 子 术 语 词语的领域类别判定 基于统计量度的术语抽取 术语抽取自助学习法 领域对 比语料 简 单 、 快 速 *35* 术语抽取自助学习法 总体思想: 给定:领域集合D1,D2,Dn 对应的种子术语集合T0=T10,T20,Tn0 过程: 术语分类器通过挖掘未标注文档中的新词语和给定种 子术语之间的关联,将新术语归类到相应领域类别中,得到 了扩大的术语集:T1=T11,T21,Tn1,然后再用此扩大的 术语集训练分类器,直到迭代终止,得到最终的新术语集 Tz= T1z ,T2z,Tnz。 *36* 基于词语上下文表示的术语抽取 自助学习法 基于词语上下文表示的

23、术语抽取自助学习法 传统基于文档空间表示法的缺陷 无法表示文档内部的信息 只能获取在多个文档中出现的术语 基于全局上下文的词语表示 术语ti出现在语料的子集di1,di2,dit中,设cij表示术 语ti在文档dij中的上下文特征集,则ti的全局上下文是 ci1,ci2,cit的并集。 基于潜在语义索引的特征空间压缩 *37* 术语抽取自助学习法 *38* 实验 D1D2D3D4D5 财经娱乐技术体育军事 新浪网前5个领域 每个类别手工抽取20个词语作为种子术 语 新浪网下载的10000篇文档作为未标注语 料 对比方法: 基于上下文空间表示法的术语抽取 基于文档空间表示法的术语抽取 领域类别信

24、息 领域 上下文空间表示法文档空间表示法 PrecisionPseudo-recallPrecisionPseudo-recall D1 82.67%95.22%83.28%87.92% D2 88.77%89.47%86.00%80.30% D3 90.00%89.87%83.67%86.37% D4 87.05%91.03%85.68%84.13% D5 81.33%93.22%82.58%87.06% Avg 85.96%91.76%84.24%85.16% 领域上下文空间表示法文档空间表示法 PrecisionPseudo-recallPrecisionPseudo-recall D1

25、82.41%92.41%79.39%70.66% D2 79.62%85.38%77.78%53.85% D386.78%81.76%87.86%38.24% D4 82.61%75.52%83.00%65.52% D575.14%80.00%73.00%56.00% Avg81.31%83.01%80.21%56.85% 两种方法在抽取频率为1的低频词上的性能比较 两种方法抽取术语性能比较 *40* 报告内容 绪论 论文主体 领域文本自动判别方法研究 领域术语自动抽取方法研究 在文本分类和问答式信息检索中的应用 结论 *41* 文本自动分类过程 文本自动分类需要解决三个技术问题:文本表示、文

26、本特征选择和选择分类算法。 *42* 在文本自动分类中的应用 应用一:特征集扩展 将基于局部最大算法的中文新词发现方法应用于文本 分类语料的分词处理,从而扩大文本表示的特征集 方法准确率召回率F值 特征集扩展前0.8660.8180.841 特征集扩展后0.8740.8280.850 特征集扩展前后文本分类性能对比 小规模原始词典下文本分类性能对比 *43* 在文本自动分类中的应用 基于统计量度NCD+NDD的术语抽 取 传统特征选择代替 应用二:特征选择 方法准确率召回率F值 MI0.4190.4090.414 DF0.5560.5290.542 WE0.5640.5410.552 IG0.

27、5590.5460.552 TFIDF0.5960.5720.584 ECE0.6170.5970.607 KFIDF0.6160.6010.608 CHI0.6330.6020.617 DR+DC0.6310.6260.628 NCD+NDD0.6630.6690.666 在中图分类数据集上的对比实 验 方法准确率召回率 F值 MI0.6600.6260.643 WE0.7190.6720.695 DF0.7300.6940.712 IG0.7510.7010.725 KFIDF0.7830.7460.764 TFIDF0.7850.7500.767 ECE0.7900.7760.783 C

28、HI0.8020.7820.792 DR+DC0.8530.8010.826 NCD+NDD0.8740.8280.850 在旅游类数据集上的对比实验 *44* 在旅游领域问答式信息检索中的 应用 应用一:专业文本采集 网络文本采集是通过预先设 定的种子URL集合,以各种 不同的爬行策略循环迭代地 访问Web下载网页 当采集的信息只限定于特定 的领域,出于性能上的考虑 其不必也不可能对整个Web 进行遍历 探讨了领域文本自动判别 技术在专业文本采集中的 应用 *45* 在旅游领域问答式信息检索中的 应用 应用二:概念语义网络:以实现智能化的概念检索 旅游领域概念语义网 络 领域术语抽取算法获取

29、旅游领域术 语 构建了如下八个类别的概念语义网络 宾馆饭店、城市概况、地方文化、交通指引、休闲娱乐、 旅游景点、旅游服务、购物美食 宾馆饭店类别的部分概念语义网络图 示 *47* 在旅游领域问答式信息检索中的 应用 概念语义网络维护工具功能模块图 实现了一个概念语义 网络维护工具 用于构建、使用、维护 概念语义网络,将其纳 入到问答式信息检索系 统中。 *48* 报告内容 绪论 课题研究的目的、意义、研究现状 论文主体 领域文本自动判别方法研究 领域术语自动抽取方法研究 在文本分类和问答式信息检索中的应用 结论 *49* 结论 针对利用正例和未标注数据的领域文本判别问题, 提出基于样本置信度划

30、分的加权支持向量机方法。 这种方法可以克服传统方法中启发式样本标注的精确度和召回率不可兼 得的弊端,提高了领域文本判别系统的性能。 2.针对中文新词发现问题,提出了一种基于局部最大 算法的中文新词发现方法,用于识别语料中的候选 领域新词。 该方法是一种高效鲁棒的新词发现算法,将该新词发现方法和命名实体 识别工具相结合,可以使整个分词系统的性能达到较高水平。将其应用 于文本分类的特征集扩展,可以提高文本自动分类系统的性能。 *50* 结论 针对词语的领域类别判定问题,提出了基于正规化 分布熵(NCD+NDD)的领域术语抽取方法 NCD+NDD方法比传统DR+DC方法具有更高的术语抽取准确率和召回 率;将其用于文本分类的特征选择,取得了比传统特征选择算法更好的 文本分类性能。 4.针对利用种子术语和未标注文本的领域术语抽取, 提出了基于词语全局上下文表示的术语抽取自助学 习法 该方法克服了传统基于文档空间的表示法中不能描述文档内部信息的缺 陷,该方法比文档空间表示法具有更高的术语抽取伪召回率和精确率。 *51* 谢谢!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1