[交通运输]隐马尔科夫模型.doc

上传人:音乐台 文档编号:1970003 上传时间:2019-01-27 格式:DOC 页数:34 大小:524KB
返回 下载 相关 举报
[交通运输]隐马尔科夫模型.doc_第1页
第1页 / 共34页
[交通运输]隐马尔科夫模型.doc_第2页
第2页 / 共34页
[交通运输]隐马尔科夫模型.doc_第3页
第3页 / 共34页
亲,该文档总共34页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《[交通运输]隐马尔科夫模型.doc》由会员分享,可在线阅读,更多相关《[交通运输]隐马尔科夫模型.doc(34页珍藏版)》请在三一文库上搜索。

1、隐马尔科夫模型一、引入二、定义三、隐马尔科夫模型的计算 (1)估值问题 (2)解码问题 (3)训练问题四、隐马尔科夫各种结构HMM的由来 o 1870年,俄国有机化学家Vladimir V. Markovnikov第一次提出马尔科夫模型o 马尔可夫模型和马尔可夫链o 隐式马尔可夫模型(HMM)马尔可夫性o 如果一个过程的“将来”仅依赖“现在”而不依赖“过去”,则此过程具有马尔可夫性,或称此过程为马尔可夫过程o X(t+1) = f(X(t)马尔可夫链o 时间和状态都离散的马尔科夫过程称为马尔科夫链。设在时刻t的随机变量用表示,其观察值用表示,则如果当,,,的前提下,的概率是如下式所示,则称为n

2、阶Markov过程。 (1)这里表示,表示,表示,。特别的当如下式成立时,则称其为1阶Markov过程,又叫单纯马尔可夫过程。 (2)即:系统在任一时刻所处的状态只与此时刻的前一时刻所处的状态有关。而且,为了处理问题方便,考虑式(2)右边的概率与时间无关的情况,即: (3)同时满足: (4) (5)这里是当时刻t从状态i到时刻t1时的状态j的转移概率,当这个转移概率是与时间无关的常数时,又叫,是具有常数转移概率的Markov过程。隐式马尔可夫模型(HMM) HMM类似于一阶Markov过程。不同点是HMM是一个双内嵌式随机过程,即HMM是由两个随机过程组成,一个是状态转移序列,它对应着一个单纯

3、Markov过程;另一个是每次转移时输出的符号组成的符号序列。这两个随机过程,其中状态转移随机过程是不可观测的,只能通过另一个随机过程的输出观察序列观测。设状态转移序列为S=,输出的符号序列为O=,。由于模型本身是看不见的,即模型的状态不为外界所见,只能根据观察序列推导出来,所以称为隐马尔可夫模型。 Markov链(p, A)随机过程(B)状态序列观察值序列S1, S 2, ., S To1, o2, ., oT图1 HMM的组成示意图离散HMM中的元素对于语音识别使用的HMM可以用下面六个模型参数来定义,即:S:模型中状态的有限集合,即模型由哪几个状态组成。设有N个状态,S|i=1,2,,N

4、。记t时刻模型所处状态为,。 O:输出的观察值符号的集合,即每个状态对应的可能的观察值数目。记M个观察值为,记t时刻观察到的观察值为其中。A:状态转移概率的集合。所有转移概率可以构成一个转移概率矩阵,即: 其中是从状态到状态的转移概率,且有,。B:输出观测值概率的集合。其中,其中根据B可将HMM分为连续型和离散型HMM等。 (离散型HMM) (连续型HMM) :系统初始状态概率的集合,表示初始状态是的概率,即: (6) F:系统终了状态的集合。 Markov模型没有终了状态的概念,只是在语音识别里用的Markov模型要设定终了状态。 这样,可以记一个HMM为M=S,O,A,B,F,为了便于表示

5、,常用下面的形式表示一个HMM,即简写为M=A,B,。HMM可以分为两部分,一个是Markov链,由,A描述,产生的输出为状态序列。另一个随机过程,由B描述,产生的输出为观察符号序列。HMM:示例图2 两个状态的HMMHMM的三个基本问题HMM核心理论是解决三个基本问题:1.已知观测序列O=,和模型,如何有效计算在给定模型的条件下产生观测序列O的条件概率最大。2.已知观测序列O=,和模型,如何选择相应的在某种意义上最佳的(能最好解释观测序列的)状态序列S。3.如何调整模型参数以使条件概率最大。第一个问题是评估问题,实际就是一个识别的问题,即已知模型和一个观测序列O,如何计算由该模型产生出该观测

6、序列的概率,问题1的求解能选择出与给定观测序列最匹配的模型。第二个问题目的是找出模型中隐藏的部分,即找出正确的状态序列(,这是一个典型的估计问题。第三个问题是模型的参数最优化,通过训练自适应调整模型参数使之适应于训练序列并最优化,从而得到实际应用中最好的模型,这是一个参数训练问题。三个问题对应算法分别为:前后向算法,Viterbi算法和Baum-Welch算法。隐马尔可夫模型的计算以孤立词识别为例,设有W个单词要识别,我们可预先得到这W个词的标准样本,第一步就是为每一个词建立一个N个状态的HMM模型。这就要用到问题3(给定观察下求模型参数)。为了理解模型状态的物理意义,可利用问题二将每一个单词

7、的状态序列分割为一些状态,再研究导致与每一状态响应的观察结果的那些特征。最后,识别单词就要利用问题1,即对给定观察结果找出一个最合适的模型,使得最大。第一个问题的求解给定观察序列O=,和模型,求解,最直接的方法就是通过穷举所有的长度为状态序列。共有个状态序列,考虑其中一个:,是初始状态。给定S,观察序列O出现的概率为 (7)因为各观察量假设是统计独立的,因此得到: (8)上面的状态序列的概率为: (9)O和S的联合概率为: (10)将联合概率中的所有s序列累加就得到O的概率(给定模型参数)。即: (11)根据上式,要计算,需要规模的计算量。如果对于N=5(状态数),T=100(观察量),需要2

8、*100*5100次计算。前向后向算法定义前向概率为:=即状态模型为,部分观测序列为,且对应t时刻HMM的状态为时的概率,利用计算输出条件概率1.初始化 (12) 2.选代计算 (13)3.终止计算 (14)图3 状态转移示例其中步骤2的迭代过程为前向算法的核心:时刻t+1的状态j可由时刻t的i状态到达。其中。终止条件中: 。 (15)前向算法只需要次计算。对于N=5,T=100,只需要3000次计算。后向算法定义后向概率为,计算过程同前向算法类似。第二个问题的求解(Viterbi算法)第二个问题是给定观察序列O以及模型参数,选择相应的在某种意义上最佳的(能最好解释观测序列的)状态序列S。Vi

9、terbi算法在最佳意义上确定一个状态序列S,这个最佳的定义,是指使最大时确定的序列。定义为时刻t沿一条路经且,产生出观测序列的最大概率,即有: (16) 所以: (17)那么,求最佳状态序列S的算法过程:1.初始化 (18) (19)2.选代计算 (20) (21)3.终止计算 (22) (23)4状态序列求取 (24)其中:为t时刻处于状态时的累积输出概率,为t时刻处于状态时的前序状态号,为最优状态序列中t时刻所处的状态,为最终的输出概率。对语音信号处理而言,动态范围很大,不同的状态序列S使的值差别很大,而是权重最大的部分部分,因此常将它们等价使用,所以Viterbi算法也用来代替计算。第

10、三个问题的求解(Baum-Welch算法)HMM的第三个问题是最复杂的一个,它是HMM模型参数的训练问题,即求取,使得最大,这是一个泛函极值问题。由于给定的序列有限,因此不存在一种最佳方法来估计,Baum-Welch算法利用递归的思想,使局部最大,最后得到模型参数。定义为给定训练观测序列O和参数模型时,时刻t马尔可夫链处于状态i而时刻t1处于状态j的概率: (25)根据前面前向和后向变量的定义:= (26)定义为给定观察序列O和模型参数,t时刻处于状态的概率。 (27)显然:就是从状态i发出的状态转移数的期望值。是从状态i到j的状态转移数的期望值。推导HMM的模型为: (28) (29) (3

11、0)HMM参数的求取过程为根据观察序列O和初始模型,由重估公式得到新的一组参数: ,和,即新的模型。可以证明,即由重估公式得到的要比在观察值O上要好。HMM模型的构建 根据HMM的状态转移矩阵(A参数)的不同,决定了HMM的不同结构,下面是三种典型的HMM拓扑形式: (a)左右无跳转模型(b)左右有跳转模型(c)各态历经型图4 HMM常见的三种拓扑结构上图中各态历经型拓扑结构不符合时间顺序的要求,因为它可以从当前状态回到以前到过的状态,所以只能用于不要求时间顺序的语音信号处理,如:文本无关的说话人识别等。而左右型拓扑结构,状态转移只能是从左到右进行或停留在原来的状态,而不能出现返回到以前状态的

12、情况,即从编号高的状态(如第n状态)到编号低的状态(如第n1或n2等等状态)跳转的情况(这实际上是一个时序的问题,因为按照时间顺序,总是从编号低的状态向编号高的状态转移)。因此其状态转移矩阵具有如下形式,它是一个上三角矩阵形式:对于考虑随时间变化的信号,利用从左到右模型来建模比较适合,因为其能反映时序结构。所以在语音识别中一般使用从左到右的HMM模型,因为语音特征参数是一时间序列。识别单元选取选择识别单元是语音识别研究的第一步。识别单元通常有单词(句)、音素和音节三种,具体选择哪一种,由具体的研究任务决定。单词单元广泛应用于小词汇语音识别系统,但不适合中大型词汇系统,原因在于模型库过于庞大,训

13、练模型任务复杂,难以满足实时性要求。音素单元目前在中、大词汇量汉语语音识别系统中越来越多地被采用。图5 以音素为建模单元模型的选择上面提到HMM的三个问题的解决及其算法是针对离散隐马尔可夫模型(Discrete HMM简称DHMM)进行的。但是DHMM只适合训练样本较少、计算、存储资源有限的场合,所以一般用于孤立词识别中。连续语音识别系统中多选用连续密度HMM(Continuous Density HMM简称CDHMM)。CDHMM和DHMM的区别就在于输出概率函数的形式不同,CDHMM允许状态输出的观测矢量是连续的,这种模型的性能的好坏取决于假定的概率分布是否符合实际情况。通常选取几个中心不同、离散度不同的高斯混合密度函数,即用多个高斯分布的加权和来近似观测矢量的真实概率分布,大大扩充了HMM的建模能力。连续观测概率密度函数表示为: (32)其中o为观察向量,M为每个状态包含的高斯元个数,代表正态高斯密度函数,、分别为第j个状态的个混合高斯函数的权系数、均值矢量和协方差矩阵。权系数满足约束: (33)CDHMM形似虽然相对DHMM更加精确,但随之带来的是对概率密度参数估计的计算量的加大。 高斯元个数M越多,连续概率密度函数对特征矢量的空间分布描述就越细致。但高斯元也不是越多越好,随着M的增加,需要估计的参数加大,计算也更复杂,并且要求更多的训练数据。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1