南京大学PPT模板.ppt.ppt

上传人:飞猪 文档编号:62277 上传时间:2025-07-09 格式:PPT 页数:15 大小:287KB
下载 相关 举报
南京大学PPT模板.ppt.ppt_第1页
第1页 / 共15页
南京大学PPT模板.ppt.ppt_第2页
第2页 / 共15页
南京大学PPT模板.ppt.ppt_第3页
第3页 / 共15页
南京大学PPT模板.ppt.ppt_第4页
第4页 / 共15页
南京大学PPT模板.ppt.ppt_第5页
第5页 / 共15页
点击查看更多>>
资源描述

1、隐马尔可夫模型(隐马尔可夫模型(HMM)在中文词性标注中的应用研究在中文词性标注中的应用研究答辩人:答辩人:指导老师:指导老师:7/9/20251n词性标注概述词性标注概述n隐马尔可夫模型概述隐马尔可夫模型概述n实验介绍实验介绍n实验结果和分析实验结果和分析n总结总结 提提 纲纲7/9/20252词性标注概述词性标注概述n词性标注的目标和过程词性标注的目标和过程目标:目标:为句子中的每个词都标上一个合适的词性过程:过程:n原文:这件事情在理论界、经济界引起了很大反响。n分词后:这 件 事情 在 理论界、经济界 引起 了 很 大 反响。n词性标注:这/r 件/q 事情/n 在/p 理论界/n 、

2、/w 经济界/n 引起/v 了/u 很/d 大/a 反响/n 。/wn词性标注中的信息源词性标注中的信息源邻接词的词性信息邻接词的词性信息词本身提供的信息词本身提供的信息7/9/20253词性标注概述词性标注概述(cont.)n词性标注的主要方法词性标注的主要方法基于规则的方法(基于规则的方法(Rule-based)基于统计的方法(基于统计的方法(Statistics-based)基于转换的方法(基于转换的方法(Transformation-based)n词性标注准确率词性标注准确率训练数据量训练数据量 标注集合标注集合 语料库差别语料库差别 未登录词未登录词7/9/20254隐马尔可夫模型(

3、隐马尔可夫模型(HMM)概述概述nHMM的两个假设:的两个假设:有限视野假设 P(Ot+1=Sk|O1,Ot)=P(Ot+1=Sk|Ot)时间不变性假设 P(Ot+1=Sk|Ot)=P(O2=Sk|O1)7/9/20255隐马尔可夫模型概述隐马尔可夫模型概述(cont.)nHMM模型:模型:=(A,B,)S是状态集:S=(S1,S2,SN)V是观察集:V=(V1,V2,VM)状态序列:Q=q1q2qT(隐藏),观察序列:O=o1o2oT(可见)A是状态转移概率分布:A=aij,aij=P(qt=sj|qt-1=si)(满足假设1)B是观察值生成概率分布:B=bj(vk),bj(vk)=P(ot

4、vk|qt=si)(满足假设2)初始观察值概率分布:=i,i=P(q1=si)7/9/20256隐马尔可夫模型概述隐马尔可夫模型概述(cont.)n隐马尔可夫模型的基本问题隐马尔可夫模型的基本问题给定一个模型=(A,B,),怎样有效的计算某个观测序列发生的概率,即P(O|)。(模型拟合程度)给定观测序列O和模型,怎样选择一个状态序列q1q2qT,以便能够最好的解释观测序列,这个过程通常也被称为译码。(标注过程)给定观测序列O,以及通过改变模型=(A,B,)的参数而得到的模型空间,怎样才能找到一个最好的解释这个观测序列的模型。(模型训练过程)7/9/20257隐马尔可夫模型概述隐马尔可夫模型概

5、述(cont.)nViterbi算法:s1s2sisNs1s2sisNs1s2sjsNs1s2sisNa1ja2jaijaNj7/9/20258实验介绍实验介绍n实验语料库简介实验语料库简介人民日报标注语料库 199801199806共含有标注42个,单词130274个n实验建模实验建模S:预先定义的词性标注集(42个标注)V:文本中的词汇(130274个词)A:词性之间的转移概率B:某个词性生成某个词的概率 例,P(我|“代词”):初始概率7/9/20259实验介绍实验介绍(cont.)n模型训练模型训练最大似然估计法最大似然估计法 n实验相关问题实验相关问题数据稀疏问题数据稀疏问题n稀疏矩

6、阵未登录词和概率平滑未登录词和概率平滑n留出相应的概率空间7/9/202510实验结果和分析实验结果和分析n整体实验整体实验用用199801199805作为训练语料库,标注作为训练语料库,标注199806的的结果如下:结果如下:n待标注总数:1,244,415n正确标注数:1,167,314n错误标注数:77,101n标注正确率:0.938042n未登录词数:17,071部分标注的结果:部分标注的结果:标注 正确数 错误数 标注准确率nb 8568675 0.92697nc 2753017830.93917nd 5174430480.944377/9/202511实验结果和分析实验结果和分析(

7、cont.)nAg 246158 0.60891nan 2222 1142 0.66052nDg 50 52 0.49020ne 18 8 0.69231结论:训练库中标注出现次数对结果有很大影响结论:训练库中标注出现次数对结果有很大影响n小样本实验小样本实验然而/c ,/w 由于/c 历史/n 的/u 原因/n ,/w 其/r 在/p 机制/n 方面/n 的/u 种种/q 弊端/n 日益/d 显露/v ,/w 已/d 越来越/d 不/d 适应/v 社会主义/n 市场经济/n 的/u 要求/n 。/w 7/9/202512实验结果和分析实验结果和分析(cont.)错误:错误:“由于”的介词词性

8、p错误标成了连词词性c。分析:分析:跟踪发现“由于”的前一个词“,”只能被标为w。根据Viterbi算法,下面将计算由w到下一词性并发射单词“由于”的概率。“由于”的可能词性有三个,分别是p、c、d,相关概率的对数值如下:nw:-11.3986nw-p:-2.5839 w-c:-2.8842 w-d:-2.6353np-由于:-5.3571 c-由于:-4.6158 d-由于:-11.7821np:-19.3397 c:-18.8987 d:-25.8160结论结论:遇到概率差小于某个常数临界值的时候,可以考虑用一些其它的方法(如简单规则等)进行判定。7/9/202513总总 结结n总体来讲,隐马尔可夫模型词性标注器可以达到较好的效果,但是对词性标注任务来说,任何一点性能的提升都是对后续工作的大力支持。n长距离依赖问题和偏置问题。n目前在研究中的最大熵隐马模型(MEMMs),条件随机场模型(CRFs)等模型都能在一定程度上解决词性标注的问题,他们与隐马尔可夫模型之间的联系以及几种模型的联合也是本文后续研究学习的方向。7/9/202514谢谢!7/9/202515

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公文档 > PPT模板素材

宁ICP备18001539号-1