理工论文一种基于废料模型的关键词确认方法.doc

上传人:小小飞 文档编号:3958812 上传时间:2019-10-11 格式:DOC 页数:4 大小:36.50KB
返回 下载 相关 举报
理工论文一种基于废料模型的关键词确认方法.doc_第1页
第1页 / 共4页
理工论文一种基于废料模型的关键词确认方法.doc_第2页
第2页 / 共4页
理工论文一种基于废料模型的关键词确认方法.doc_第3页
第3页 / 共4页
理工论文一种基于废料模型的关键词确认方法.doc_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《理工论文一种基于废料模型的关键词确认方法.doc》由会员分享,可在线阅读,更多相关《理工论文一种基于废料模型的关键词确认方法.doc(4页珍藏版)》请在三一文库上搜索。

1、一种基于废料模型的关键词确认方法 一种基于废料模型的关键词确认方法是小柯论文网通过网络搜集,并由本站工作人员整理后发布的,一种基于废料模型的关键词确认方法是篇质量较高的学术论文,供本站访问者学习和学术交流参考之用,不可用于其他商业目的,一种基于废料模型的关键词确认方法的论文版权归原作者所有,因网络整理,有些文章作者不详,敬请谅解,如需转摘,请注明出处小柯论文网,如果此论文无法满足您的论文要求,您可以申请本站帮您代写论文,以下是正文。摘要:关键词确认是语音识别中一个重要的研究方向。对于关键词确认系统来讲,废料模型的结构和类型对整个系统的性能有很大的影响。文中提出了一种基于音节格的废料模型。实验表

2、明,与传统的基于音素类的废料模型相比,关键词确认率有了很大的提高。关键词:关键词确认;隐马尔可夫模型;废料模型;音素类;音节格关键词确认(KeywordSpotting,KWS)是语音识别中一个重要的研究方向,也是近几年来在很多行业颇受重视的一个研究领域。一般来说,在说话人的正常话语中除了包含一些关键性词汇外还可能包括一些非话语的咳嗽声、呼吸声、关门声、音乐声和背景噪声等。在说话人的连续语音中确认出关键性的词汇,这就是关键词确认技术1。相对于大词汇量的识别系统,关键词确认系统既精确,计算量又小,而且对于实际的语音数据有较大的弹性,因此在监听、通信、语音输入等方面都有着很好应用前景2。关键词确认

3、重点之一是代表非关键词语音的模型,不论识别系统的方法怎样,大部分是采用废料模型。当采用一般的模型作为废料模型时,识别器倾向于把它们误识为关键词,从而降低了确认率。另一方面,对每个词都构建废料模型又是非常不现实的,而且使识别器的结构更复杂化,降低了系统的灵活性。两者之间的平衡点就是使用不同类型和数量的废料模型,这样即使想要保证相当高的确认率,计算时间也是可以接受的。本文就这点提出了基于音节格的废料模型。实验结果显示,与传统的基于音素类的废料模型相比,系统的性能有了很大的提高。1废料模型的由来关键词确认是在非受限语音信号中,确认出词表中所包含的“关键词”,拒绝词表外的“非关键词”,对语音内容加以理

4、解,这里的关键词词汇表可以根据系统所应用的领域来确定。设已知一个观察值序列o1,o2,oT判断其中是否存在一个关键词M,其HMM模型所包含的状态为q1,qN,KWS即为把用一条含有的路径来描述所得的匹配问题,这里定义如下方法计算在语音中存在关键词的评分(M|O),即式中,b*为关键词在语音中的最佳起始点;e*为最佳结束点;O*为与之相对应的关键词M的最佳状态序列,即在判断是否存在关键词M时,首先在语音中找到与该关键词最匹配的语音段,然后用该关键词在该语音段上经长度归正后的后验概率值作为评分来判断关键词的存在与否。b*、e*和Q*可按下式求得若起始点b*和结束点e*已知,可用Viterbi算法求

5、出最佳状态链Q*=qb,qe。因此若穷举所有可能的起始点b和结束点e,并根据上述式子必然可求出S(M|O),根据S(M|O)的值来判断是否存在关键词M。当然,用穷举的方法来求取起始点b和结束点e计算量非常大,在实际使用中是根本无法实现的。因此往往采用在一次搜索过程的同时确定b*、e*和Q*,即在观察序列O上通过引入废料状态qG定义关键词的扩充模型。它所包含的状态为qG,qb,qe,qG,用废料状态qG表示非关键词语音。使用扩充模型在整个观察序列上用Viterbi算法进行搜索,可以得到对应的最佳状态序列:根据这一状态序列可以同时确定b*、e*和Q*。这里的废料状态就是由建立废料模型得到的。可见废

6、料模型的建立对于区分关键词和非关键词语音是不可缺少的。2基于音节格的废料模型把常见的非关键词按照其相应的汉语音节首字母的顺序排列,并通过训练分别对其建模,就形成了一个音节格。在音节格中每一格内存放一个非关键词语音对应的音节。一般来说,在说话人的连续语音中除了一些关键性的词汇外还包括许多词表外词,例如:“请问,王艳在吗?”,那么对于一个基于人名的关键词确认系统来讲,“王艳”是关键词,“请、问、在、吗”这四个字都属于词表外词,即非关键词语音,而对于这四个字对应的音节在音节格中的存放顺序为ma,qing,wen,zai。汉语由21个声母和38个韵母组成约400个左右的无调音节,而针对关键词确认系统所

7、应用领域的不同,在说话者的自然输入语音中所常见的非关键词是有限的,也是可以预测的,所以可以对这些常见的词表外词建立相应的废料模型。本文所涉及的基于人名的关键词确认系统是应用在查询控制方面的,常见的非关键词语音有ni,hao,wo,xiang,zhao,qing,wen,zai,ma等等,对这些非关键词音节建立废料模型,然后把与其相对应的音节按顺序存放在音节格中。3实验和讨论3.1实验平台本文所采用的语音数据库是自行采集的,该数据库是专门录制的,包含20个不同人名的数据库,参与训练的共有20人,其中男性12人,女性8人,年龄分布在14岁到35岁之间,选取15人分别说20个不同的人名,来训练20个

8、关键词的HMM模型,另外5人针对每个关键词录制一句包含关键词的句子作为测试数据。数据库录制的是采样率为11025HZ,16位量化和单声道的语音信号。确认系统的识别基元使用无跨越从左向右的连续HMM模型,每个HMM有4个输出状态,每个状态有128个高斯分量。对于关键词模型采用以关键词为识别基元。形成的语法网络图由关键词模型、27个音节模型和一个背景噪音模型构成,其结构如图1所示。图中的Keyword1KeywordN代表N(N值为20)个关键词模型,Garbage1GarbageL代表M(M值为27)个废料模型。对输入的语音信号根据短时能量和短时平均过零率进行音节切分,然后提取Mel频率倒谱系数

9、(MFCC)作为特征矢量,为了使特征矢量更好地表征语音信号之间前后相关特性,选用12维MFCC和12维一阶差分MFCC构成特征矢量。在进行关键词确认时,对输入语音按废料模型、关键词模型的顺序进行匹配,计算匹配得分。在进行匹配时先与废料模型匹配,并计算每个匹配的得分,直到得分低于某个阈值,说明当前的语音是非废料语音,此时就应与每个关键词模型逐个进行匹配,并结合基于特征矢量信息的声学置信度得到第帧特征在每个状态的置信度,从而对非关键词语音进行有效拒识,得出最终的确认结果。3.2测试结果以数据库中后五个人录制的数据作为测试数据,对于基于音素类的垃圾模型有7个(见表1),包括代表声母的一个模型Hcon

10、和代表韵母的6个模型(Ha,Ho,He,Hi,Hu和Hv)。表1:基于音素类的垃圾模型本文中基于音节格的废料模型有27个,可以比较一下对于不同类型和数量的废料模型在不同的虚报率下系统的确认率和确认时间如表2所示。表中的PD代表确认率,FAR代表虚报率(平均每个关键词在一小时内被虚报的次数),Ap.Time代表平均确认每个输入语音所需时间。表2:不同类型废料模型系统的确认率从表中可以看到,就时间来看只差了3.01秒,这是正常的,毕竟音素类只有7个废料模型,而音节格有27个废料模型,这个时间差也是可以接受的;最重要的是确认率,基于音节格的废料模型在虚报率数量为6时确认率为0.84,而基于音素类的废

11、料模型在虚报率数量为10时确认率为0.68,综合来看,基于音节格的废料模型是比较好的选择。4结论本文针对关键词确认系统中废料模型的结构和类型进行了研究,在训练过程中对常用的非关键词语音建立基于音节格的HMM,在确认过程中联合似然得分和置信度得分,与传统的基于音素类的废料模型相比,对于不同的虚报率关键词的确认率有了很大的提高。从实验结果中也可以看到,虽然确认率相对来讲有了提高,但是只达到了0.84,所以对于废料模型的结构还有待更深入细致的研究。参考文献1韩纪庆,张磊,郑铁然。语音信号处理。北京:清华大学出版社,20062李治柱,吴亚栋。基于HMM的关键词识别系统。计算机工程,2004;30(7)

12、,130132其他参考文献Baker, Sheridan. The Practical Stylist. 6th ed. New York: Harper & Row, 1985.Flesch, Rudolf. The Art of Plain Talk. New York: Harper & Brothers, 1946.Gowers, Ernest. The Complete Plain Words. London: Penguin Books, 1987.Snell-Hornby, Mary. Translation Studies: An Integrated Approach. Am

13、sterdam: John Benjamins, 1987.Hu, Zhuanglin. 胡壮麟, 语言学教程 M. 北京: 北京大学出版社, 2006.Jespersen, Otto. The Philosophy of Grammar. London: Routledge, 1951.Leech, Geoffrey, and Jan Svartvik. A Communicative Grammar of English. London: Longman, 1974.Li, Qingxue, and Peng Jianwu. 李庆学、彭建武, 英汉翻译理论与技巧 M. 北京: 北京航空航天

14、大学出版社, 2009.Lian, Shuneng. 连淑能, 英汉对比研究 M. 北京: 高等教育出版社, 1993.Ma, Huijuan, and Miao Ju. 马会娟、苗菊, 当代西方翻译理论选读 M. 北京: 外语教学与研究出版社, 2009.Newmark, Peter. Approaches to Translation. London: Pergmon P, 1981.Quirk, Randolph, et al. A Grammar of Contemporary English. London: Longman, 1973.Wang, Li. 王力, 中国语法理论 M. 济南: 山东教育出版社, 1984.Xu, Jianping. 许建平, 英汉互译实践与技巧 M. 北京: 清华大学出版社, 2003.Yan, Qigang. 严启刚, 英语翻译教程 M. 天津: 南开大学出版社, 2001.Zandvoort, R. W. A Handbook of English Grammar. London: Longmans, 1957.Zhong, Shukong. 钟述孔, 英汉翻译手册 M. 北京: 商务印书馆, 1983.Zhou, Zhipei. 周志培, 汉英对比与翻译中的转换 M. 上海: 华东理工大学出版社, 2003.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1