领域术语自动抽取方法研究.ppt

资源描述

《领域术语自动抽取方法研究.ppt》由会员分享，可在线阅读，更多相关《领域术语自动抽取方法研究.ppt（51页珍藏版）》请在三一文库上搜索。

1、*1* 领域术语自动抽取方法研究刘桃 *2* 报告内容绪论课题研究的目的、意义及研究现状论文主体领域文本自动判别方法领域术语自动抽取方法在文本分类和问答式信息检索中的应用结论 *3* 报告内容绪论课题研究的目的、意义及研究现状论文主体领域文本自动判别方法领域术语自动抽取方法在文本分类和问答式信息检索中的应用结论 *4* 绪论研究目的为面向领域的应用提供可定制的领域文本自动判别方法和领域术语自动抽取方法研究意义对所有面向领域的应用都有重要意义垂直搜索文本自动分类语言建模词义消歧 *5* 绪论：领域文本自动判别研究现状领域文本自动判别有监督文本

2、分类方法文本表示：概率模型、向量空间模型特征选择：TF-IDF、互信息、期望交叉熵、信息增益等分类算法：Rocchio法、贝页斯分类法、K最近邻分类法、支持向量机、决策树、神经网络半监督文本分类方法产生式模型和期望最大化、直推式支持向量机、自助学习法、协同训练法、主动学习法基于正例的文本分类方法 PEBL、 Spy_EM、Roc_SVM、类别约束SVM（Biased_SVM）、 PNLH 方法 *6* 绪论：领域术语自动抽取研究现状中文词语的领域类别判定之前要进行中文新词发现中文新词发现启发式特征：构词力、构词模式、互信息、上下文依赖机器学习模型：隐马尔科夫模型、最大

3、熵、最大熵马尔科夫模型、支持向量机、条件随机域 *7* 绪论：领域术语自动抽取研究现状词语的领域类别判定基于语言学知识的方法英文的拼写线索、包含词缀等信息的术语要素词典、潜层语法分析、设定规则模版基于统计量度的方法基于类别的TFIDF(KFIDF)、领域相关性+领域一致性（DR+DC）、C-值、C/NC值机器学习方法基于自助学习法的半监督术语获取方法基于词语分类的术语获取方法 *8* 绪论：研究现状领域术语自动抽取的评价人工评价：语言学家或者研究者通过个人判断来确定抽取的词语是否为领域术语对抽取结果有直观感受费时、费力受人主观性影响应用评价：看领域术语抽取

4、模块在应用系统中的表现评测迅速完全面向应用，不同的应用系统可能会产生不尽相同的结果 *9* 报告内容绪论课题研究的目的、意义、研究现状论文主体领域文本自动判别方法研究领域术语自动抽取方法研究在文本分类和问答式信息检索中的应用设计结论 *10* 研究框架领域文本自动判别有监督文本分类基于正例的文本分类领域术语自动抽取中文新词发现术语抽取自助学习法基于统计量度的术语抽取应用研究在文本分类中的应用在问答式信息检索中的应用词语的领域类别判定概念语义网络专业信息采集特征集扩展特征选择 *11* 领域文本自动判别方法完整分类体系下的领域文本判别有监督文本

5、分类方法需要为每个类别提供一定规模的训练语料实现了一个文本分类评测平台包括10种可定制的特征选择算法和4种可定制的分类算法特征选择算法：词频与倒文档频度（TFIDF）、期望交叉熵（ECE ）、统计、互信息（MI）、文本证据权（WE）、信息增益（IG）、文档频度（DF）、KFIDF、DR+DC、NCD+NDD方法分类算法：简单贝叶斯（NB）、Rocchio、K最近邻（KNN）和支持向量机（SVM） *12* 领域文本自动判别方法非完整分类体系下反例集获取困难完整分类体系下训练某个类别的分类器时，其他类别训练语料的合集作为反例集非完整分类体系下获取某个类别的平衡反例集比较困难

6、基于正例的文本分类方法不需要提供已标注的反例集需要使用大规模未标注样本 *13* 基于正例的文本分类问题的传统方案步骤一：启发式样本标注 1-DNF,PNLH,spy,rocchio 步骤二：建立分类器通过迭代建立一系列分类器只建立一个分类器 *14* 传统方法存在的问题启发式样本标注中,高准确率和高召回率不可兼得 1_DNF：将U中不含全部正例特征的文档看作反例高准确率，低召回率 PNLH：定义正例参考值(PRP)，将PRP值小于U集全部文档 PRP平均值的文档当作反例低准确率，高召回率不同途径得到的标注样本的置信度不一致，传统方法不加区别的使用所有样本势必导致分类

7、准确率下降 *15* 基于置信度加权的领域文本判别法多策略样本标注算法自动标注尽可能多的样本，即在保证样本标注召回率的前提下，按照标注样本的置信度对样本集进行划分加权支持向量机算法为不同置信度的样本赋予不同的权重 *16* 不同标注策略的样本置信度实验 Retuers语料上的标注样本置信度一级正例二级正例一级反例二级反例三级反例 acq 1.0000 0.67390.99400.95420.3528 corn 1.0000 0.46431.00001.00000.8558 crude 1.0000 0.83710.99990.99960.7407 earn 1.0000 0.6

8、8840.99930.84990.6822 grain 1.0000 0.90710.99990.99880.6486 interest 1.0000 0.45310.99990.99920.8303 money-fx 1.0000 0.53160.99990.99920.7472 ship 1.0000 0.83090.99920.77720.7888 trade 1.0000 0.67331.00000.99880.7058 wheat 1.0000 0.67331.00001.00000.7058 avg 1.0000 0.67330.99920.95770.7058 *17* 三级反例

9、及基于置信度加权对分类性能的影响实验 noN3noWeiuseN3noWeinoN3useWeiuseN3useWei acq0.94150.95180.94810.9599 corn0.53150.55520.53990.6274 crude0.84650.81750.85820.8281 earn0.91780.93120.94730.9707 grain0.86040.81230.86210.8643 interest0.69180.70220.72220.7314 money-fx0.74810.77840.76040.7789 ship0.72970.65150.71580.649

10、6 trade0.6860.79280.70720.8092 wheat0.67930.71990.68740.7055 avg0.76330.77130.77490.7925 是否使用三级反例及基于置信度加权对Retuers数据集的分类性能影响 *18* 对比实验 S_EMWLBiasedSVM1BiasedSVM2WeiSVM acq0.95680.92020.95040.95790.9599 corn0.50270.58930.59870.5930.6274 crude0.85690.86380.7970.80460.8281 earn0.96770.94030.97720.97660.

11、9707 grain0.87060.8640.83450.83740.8643 interest0.67930.76730.6660.65150.7314 money-fx0.75940.77410.70310.75580.7789 ship0.72810.69590.57240.59650.6496 trade0.58880.80260.72760.75860.8092 wheat0.63630.64180.69890.71120.7055 avg0.75470.78590.75260.76430.7925 Retuers数据集上不同方法的分类性能对比 *19* 报告内容绪论论文主体领

12、域文本自动判别相关技术研究领域术语自动抽取相关技术研究基于局部最大算法的中文新词发现基于统计量度的术语抽取方法领域术语抽取自助学习法在文本分类和问答式信息检索中的应用设计结论 *20* 传统中文新词发现方法的缺点启发式特征+经验阈值难以筛选合适的全局阈值统一抽取新词机器学习方法训练时间较长 *21* 基于局部最大算法的中文新词发现中文词语是关联强度较大、结合较为紧密的字序列高内聚性可独立运用性利用平摊对称条件概率(SCP_F)衡量字序列的结合力局部最大算法思想：如果ngram W 的关联强度大于所有包含它的(n+1)gram 的关联强度，并且ngram W

13、的关联强度不小于所有W 包含的(n-1)gram 的关联强度，则 W 被看作候选新词。能够很好地刻画词语的高内聚性和可独立运用性 *22* 基于局部最大算法的中文新词发现基于后缀数组的实现方案传统方法在计算n3的ngram时，速度非常慢，不能满足互联网环境下大规模网络文本的实时新词发现需求采用基于后缀数组的数据结构采用基于等价类划分的思想降低存储空间只需要存储每个等价类中的一个最长序列 *23* 基于局部最大算法的中文新词发现过程 *24* 实验结果在MSR语料上的新词发现前后对比实验结果在PKU语料上的新词发现前后对比实验结果 MSROOV 召回率精确率召回率IV 召

14、回率F1量度 Baseline0.3610.9360.9710.9880.953 Baseline+NE0.4970.9430.9680.9810.955 Baseline+NWI0.5810.9510.9670.9770.959 Baseline+NWI+NE0.6290.9570.970.980.963 PKUOOV 召回率精确率召回率IV 召回率F1量度 Baseline0.2340.8910.9370.980.913 Baseline+NE0.420.9140.9430.9750.928 Baseline+NWI0.5340.9310.9490.9750.94 Baseline+NWI

15、+NE0.630.9440.9580.9780.951 *25* 对比实验系统编号OOV 召回率精确率召回率IV 召回率F1量度 140.7170.9660.9620.9680.964 70.5920.9620.9620.9720.962 27(a)0.3790.9520.9690.9850.96 27(b)0.3810.9530.9680.9840.96 40.3230.9450.9730.9910.959 15(b)0.7180.9640.9520.9580.958 50.210.940.9740.9950.957 130.4960.9560.9590.9720.957 120.673

16、0.960.9520.960.956 240.5030.9520.9580.970.955 Baseline+NWI+NE0.6290.9570.970.980.963 在MSR语料上和中文分词评测中其他系统的对比实验结果 *26* 实验结果词典编号新词比率总词数 10.2244622 20.2693374 30.3002757 40.3342131 50.4261189 60.494750 小规模词典统计信息不同新词比率下的新词识别性能在不同新词比率下测试新词发现的性能在缺乏词表或者为了扩展已有的小词表的情况下，局部最大算法可以用来抽取词语。 *27* 报告内容绪论论文主体领

17、域文本自动判别相关技术研究领域术语自动抽取相关技术研究基于局部最大算法的中文新词发现基于统计量度的术语抽取方法领域术语抽取自助学习法在文本分类和问答式信息检索中的应用设计结论 *28* 基于统计量度的术语抽取抽取原则一：领域术语应该在不同领域类别间分布不均匀频繁出现在某领域文档中，很少出现在其它领域文档中的词语是领域术语的可能性较大。出现该词语的领域类别数越少，该词语越有可能是领域术语。抽取原则二：领域术语在其相关领域的文档集中应尽可能分布均匀出现在某领域的大多数文档中的词语可能是该领域的术语。正规化策略：减轻不同语料规模和文档长度的影响传统方法:KFIDF,DR_

18、DC 对术语抽取标准描述不够细致和全面基于正规化分布熵的领域术语抽取方法 *29* 基于正规化分布熵的领域术语抽取符号定义：Di (1im): 第i个领域类别 dij (1jni): 类别Di中的第j个文档 lij: 文档dij的长度,即在该文档中出现的所有词语的词频之和 Li: 类别Di包含的所有文档长度之和数学描述：词语的正规化的类间分布熵NCD 词语的类间分布熵：词语“党性”和“知觉”在类别A(马列主义)均以0.5的概率出现,但“党性”只出现在A(马列主义)与D(政治、法律)两个类别,而“知觉”共出现在11个类别的语料 *30* 基于正规化分布熵的领域术语抽取词语在领

19、域Di的正规化的类内分布熵NDD “蛔虫”在类别G(文化、科学、教育、体育)的一篇介绍中小学生健康问题中蛔虫感染的文章中多次出现,但在该类别的其它文档中未出现,那么该词就不具有领域代表性,不能成为G类的领域术语. *31* C1 马列主义无产阶级社会主义全党马克思主义共产主义马克思列宁主义马克思无产者资产阶级共产主义社会剥削阶级生产资料恩格斯私有制资产者 C2 法律司法人民法院最高人民法院案件审理诉讼法院司法机关当事人职权国家机关审判被告人民事行使民事诉讼 C3 军事作战军种军事军队战争兵力事变美军新军战法

20、我军武器军兵种火力军事科学战场 C4 体育比赛首场球员球队英格兰队队友世界杯夺冠冠军决赛足协后卫主帅瑞典队任意球小组赛 C5 医药卫生患者治疗血管临床疗效药物病人冠心病并发症动脉冠状动脉手术症状术后口服疗法服用 C6 轻工业包装食品调味保质期肉制品玻璃瓶品牌肉食品方便化果汁腥味肉类专卖店草莓货架糖度中图分类体系下抽取结果示例 *32* 实验结果中图分类体系下随机抽取的六个领域上的领域术语抽取数目类别编号词语总数抽取词语个数 DR+DCNCD+NDD B 哲学、宗教888301

21、776881 E 军事41030621677 H 语言、文字38666638741 R 医药、卫生18182444571 TD 矿业工程27925318162 TS 轻工业、手工业21792257358 DR+DC方法抽取词语个数会随着语料规模的变化产生较大变化 NCD+NDD方法抽取词语数目不完全依赖于语料规模 *33* 实验结果图1 前200个词语的正确率随机抽取的六个领域上领域术语抽取正确率图2 其余词语的正确率对于语料规模很大的类别, NCD+NDD法的正确率要明显高于DR+DC法在其它正确率相当的类别中,抽取的术语数目要明显高于DR+DC法 *34* 领域术语自动抽取相

22、关技术未标注文本种子术语词语的领域类别判定基于统计量度的术语抽取术语抽取自助学习法领域对比语料简单、快速 *35* 术语抽取自助学习法总体思想：给定：领域集合D1,D2,Dn 对应的种子术语集合T0=T10,T20,Tn0 过程：术语分类器通过挖掘未标注文档中的新词语和给定种子术语之间的关联，将新术语归类到相应领域类别中，得到了扩大的术语集：T1=T11,T21,Tn1，然后再用此扩大的术语集训练分类器，直到迭代终止，得到最终的新术语集 Tz= T1z ,T2z,Tnz。 *36* 基于词语上下文表示的术语抽取自助学习法基于词语上下文表示的

23、术语抽取自助学习法传统基于文档空间表示法的缺陷无法表示文档内部的信息只能获取在多个文档中出现的术语基于全局上下文的词语表示术语ti出现在语料的子集di1,di2,dit中，设cij表示术语ti在文档dij中的上下文特征集，则ti的全局上下文是 ci1,ci2,cit的并集。基于潜在语义索引的特征空间压缩 *37* 术语抽取自助学习法 *38* 实验 D1D2D3D4D5 财经娱乐技术体育军事新浪网前5个领域每个类别手工抽取20个词语作为种子术语新浪网下载的10000篇文档作为未标注语料对比方法：基于上下文空间表示法的术语抽取基于文档空间表示法的术语抽取领域类别信

24、息领域上下文空间表示法文档空间表示法 PrecisionPseudo-recallPrecisionPseudo-recall D1 82.67%95.22%83.28%87.92% D2 88.77%89.47%86.00%80.30% D3 90.00%89.87%83.67%86.37% D4 87.05%91.03%85.68%84.13% D5 81.33%93.22%82.58%87.06% Avg 85.96%91.76%84.24%85.16% 领域上下文空间表示法文档空间表示法 PrecisionPseudo-recallPrecisionPseudo-recall D1

25、82.41%92.41%79.39%70.66% D2 79.62%85.38%77.78%53.85% D386.78%81.76%87.86%38.24% D4 82.61%75.52%83.00%65.52% D575.14%80.00%73.00%56.00% Avg81.31%83.01%80.21%56.85% 两种方法在抽取频率为1的低频词上的性能比较两种方法抽取术语性能比较 *40* 报告内容绪论论文主体领域文本自动判别方法研究领域术语自动抽取方法研究在文本分类和问答式信息检索中的应用结论 *41* 文本自动分类过程文本自动分类需要解决三个技术问题：文本表示、文

26、本特征选择和选择分类算法。 *42* 在文本自动分类中的应用应用一：特征集扩展将基于局部最大算法的中文新词发现方法应用于文本分类语料的分词处理，从而扩大文本表示的特征集方法准确率召回率F值特征集扩展前0.8660.8180.841 特征集扩展后0.8740.8280.850 特征集扩展前后文本分类性能对比小规模原始词典下文本分类性能对比 *43* 在文本自动分类中的应用基于统计量度NCD+NDD的术语抽取传统特征选择代替应用二：特征选择方法准确率召回率F值 MI0.4190.4090.414 DF0.5560.5290.542 WE0.5640.5410.552 IG0.

27、5590.5460.552 TFIDF0.5960.5720.584 ECE0.6170.5970.607 KFIDF0.6160.6010.608 CHI0.6330.6020.617 DR+DC0.6310.6260.628 NCD+NDD0.6630.6690.666 在中图分类数据集上的对比实验方法准确率召回率 F值 MI0.6600.6260.643 WE0.7190.6720.695 DF0.7300.6940.712 IG0.7510.7010.725 KFIDF0.7830.7460.764 TFIDF0.7850.7500.767 ECE0.7900.7760.783 C

28、HI0.8020.7820.792 DR+DC0.8530.8010.826 NCD+NDD0.8740.8280.850 在旅游类数据集上的对比实验 *44* 在旅游领域问答式信息检索中的应用应用一：专业文本采集网络文本采集是通过预先设定的种子URL集合，以各种不同的爬行策略循环迭代地访问Web下载网页当采集的信息只限定于特定的领域，出于性能上的考虑其不必也不可能对整个Web 进行遍历探讨了领域文本自动判别技术在专业文本采集中的应用 *45* 在旅游领域问答式信息检索中的应用应用二：概念语义网络:以实现智能化的概念检索旅游领域概念语义网络领域术语抽取算法获取

29、旅游领域术语构建了如下八个类别的概念语义网络宾馆饭店、城市概况、地方文化、交通指引、休闲娱乐、旅游景点、旅游服务、购物美食宾馆饭店类别的部分概念语义网络图示 *47* 在旅游领域问答式信息检索中的应用概念语义网络维护工具功能模块图实现了一个概念语义网络维护工具用于构建、使用、维护概念语义网络，将其纳入到问答式信息检索系统中。 *48* 报告内容绪论课题研究的目的、意义、研究现状论文主体领域文本自动判别方法研究领域术语自动抽取方法研究在文本分类和问答式信息检索中的应用结论 *49* 结论针对利用正例和未标注数据的领域文本判别问题，提出基于样本置信度划

30、分的加权支持向量机方法。这种方法可以克服传统方法中启发式样本标注的精确度和召回率不可兼得的弊端，提高了领域文本判别系统的性能。 2.针对中文新词发现问题，提出了一种基于局部最大算法的中文新词发现方法，用于识别语料中的候选领域新词。该方法是一种高效鲁棒的新词发现算法，将该新词发现方法和命名实体识别工具相结合，可以使整个分词系统的性能达到较高水平。将其应用于文本分类的特征集扩展，可以提高文本自动分类系统的性能。 *50* 结论针对词语的领域类别判定问题，提出了基于正规化分布熵（NCD+NDD）的领域术语抽取方法 NCD+NDD方法比传统DR+DC方法具有更高的术语抽取准确率和召回率；将其用于文本分类的特征选择，取得了比传统特征选择算法更好的文本分类性能。 4.针对利用种子术语和未标注文本的领域术语抽取，提出了基于词语全局上下文表示的术语抽取自助学习法该方法克服了传统基于文档空间的表示法中不能描述文档内部信息的缺陷，该方法比文档空间表示法具有更高的术语抽取伪召回率和精确率。 *51* 谢谢！

展开阅读全文