ImageVerifierCode 换一换
格式:PPT , 页数:15 ,大小:287KB ,
资源ID:62277      下载积分:5 金币
已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(南京大学PPT模板.ppt.ppt)为本站会员(飞猪)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(发送邮件至doc331@126.com或直接QQ联系客服),我们立即给予删除!

南京大学PPT模板.ppt.ppt

1、隐马尔可夫模型(隐马尔可夫模型(HMM)在中文词性标注中的应用研究在中文词性标注中的应用研究答辩人:答辩人:指导老师:指导老师:7/9/20251n词性标注概述词性标注概述n隐马尔可夫模型概述隐马尔可夫模型概述n实验介绍实验介绍n实验结果和分析实验结果和分析n总结总结 提提 纲纲7/9/20252词性标注概述词性标注概述n词性标注的目标和过程词性标注的目标和过程目标:目标:为句子中的每个词都标上一个合适的词性过程:过程:n原文:这件事情在理论界、经济界引起了很大反响。n分词后:这 件 事情 在 理论界、经济界 引起 了 很 大 反响。n词性标注:这/r 件/q 事情/n 在/p 理论界/n 、

2、/w 经济界/n 引起/v 了/u 很/d 大/a 反响/n 。/wn词性标注中的信息源词性标注中的信息源邻接词的词性信息邻接词的词性信息词本身提供的信息词本身提供的信息7/9/20253词性标注概述词性标注概述(cont.)n词性标注的主要方法词性标注的主要方法基于规则的方法(基于规则的方法(Rule-based)基于统计的方法(基于统计的方法(Statistics-based)基于转换的方法(基于转换的方法(Transformation-based)n词性标注准确率词性标注准确率训练数据量训练数据量 标注集合标注集合 语料库差别语料库差别 未登录词未登录词7/9/20254隐马尔可夫模型(

3、隐马尔可夫模型(HMM)概述概述nHMM的两个假设:的两个假设:有限视野假设 P(Ot+1=Sk|O1,Ot)=P(Ot+1=Sk|Ot)时间不变性假设 P(Ot+1=Sk|Ot)=P(O2=Sk|O1)7/9/20255隐马尔可夫模型概述隐马尔可夫模型概述(cont.)nHMM模型:模型:=(A,B,)S是状态集:S=(S1,S2,SN)V是观察集:V=(V1,V2,VM)状态序列:Q=q1q2qT(隐藏),观察序列:O=o1o2oT(可见)A是状态转移概率分布:A=aij,aij=P(qt=sj|qt-1=si)(满足假设1)B是观察值生成概率分布:B=bj(vk),bj(vk)=P(ot

4、vk|qt=si)(满足假设2)初始观察值概率分布:=i,i=P(q1=si)7/9/20256隐马尔可夫模型概述隐马尔可夫模型概述(cont.)n隐马尔可夫模型的基本问题隐马尔可夫模型的基本问题给定一个模型=(A,B,),怎样有效的计算某个观测序列发生的概率,即P(O|)。(模型拟合程度)给定观测序列O和模型,怎样选择一个状态序列q1q2qT,以便能够最好的解释观测序列,这个过程通常也被称为译码。(标注过程)给定观测序列O,以及通过改变模型=(A,B,)的参数而得到的模型空间,怎样才能找到一个最好的解释这个观测序列的模型。(模型训练过程)7/9/20257隐马尔可夫模型概述隐马尔可夫模型概

5、述(cont.)nViterbi算法:s1s2sisNs1s2sisNs1s2sjsNs1s2sisNa1ja2jaijaNj7/9/20258实验介绍实验介绍n实验语料库简介实验语料库简介人民日报标注语料库 199801199806共含有标注42个,单词130274个n实验建模实验建模S:预先定义的词性标注集(42个标注)V:文本中的词汇(130274个词)A:词性之间的转移概率B:某个词性生成某个词的概率 例,P(我|“代词”):初始概率7/9/20259实验介绍实验介绍(cont.)n模型训练模型训练最大似然估计法最大似然估计法 n实验相关问题实验相关问题数据稀疏问题数据稀疏问题n稀疏矩

6、阵未登录词和概率平滑未登录词和概率平滑n留出相应的概率空间7/9/202510实验结果和分析实验结果和分析n整体实验整体实验用用199801199805作为训练语料库,标注作为训练语料库,标注199806的的结果如下:结果如下:n待标注总数:1,244,415n正确标注数:1,167,314n错误标注数:77,101n标注正确率:0.938042n未登录词数:17,071部分标注的结果:部分标注的结果:标注 正确数 错误数 标注准确率nb 8568675 0.92697nc 2753017830.93917nd 5174430480.944377/9/202511实验结果和分析实验结果和分析(

7、cont.)nAg 246158 0.60891nan 2222 1142 0.66052nDg 50 52 0.49020ne 18 8 0.69231结论:训练库中标注出现次数对结果有很大影响结论:训练库中标注出现次数对结果有很大影响n小样本实验小样本实验然而/c ,/w 由于/c 历史/n 的/u 原因/n ,/w 其/r 在/p 机制/n 方面/n 的/u 种种/q 弊端/n 日益/d 显露/v ,/w 已/d 越来越/d 不/d 适应/v 社会主义/n 市场经济/n 的/u 要求/n 。/w 7/9/202512实验结果和分析实验结果和分析(cont.)错误:错误:“由于”的介词词性

8、p错误标成了连词词性c。分析:分析:跟踪发现“由于”的前一个词“,”只能被标为w。根据Viterbi算法,下面将计算由w到下一词性并发射单词“由于”的概率。“由于”的可能词性有三个,分别是p、c、d,相关概率的对数值如下:nw:-11.3986nw-p:-2.5839 w-c:-2.8842 w-d:-2.6353np-由于:-5.3571 c-由于:-4.6158 d-由于:-11.7821np:-19.3397 c:-18.8987 d:-25.8160结论结论:遇到概率差小于某个常数临界值的时候,可以考虑用一些其它的方法(如简单规则等)进行判定。7/9/202513总总 结结n总体来讲,隐马尔可夫模型词性标注器可以达到较好的效果,但是对词性标注任务来说,任何一点性能的提升都是对后续工作的大力支持。n长距离依赖问题和偏置问题。n目前在研究中的最大熵隐马模型(MEMMs),条件随机场模型(CRFs)等模型都能在一定程度上解决词性标注的问题,他们与隐马尔可夫模型之间的联系以及几种模型的联合也是本文后续研究学习的方向。7/9/202514谢谢!7/9/202515

宁ICP备18001539号-1