高性能汉语数码语音识别算法.docx

上传人:罗晋 文档编号:7196880 上传时间:2020-11-05 格式:DOCX 页数:8 大小:70.34KB
返回 下载 相关 举报
高性能汉语数码语音识别算法.docx_第1页
第1页 / 共8页
高性能汉语数码语音识别算法.docx_第2页
第2页 / 共8页
高性能汉语数码语音识别算法.docx_第3页
第3页 / 共8页
高性能汉语数码语音识别算法.docx_第4页
第4页 / 共8页
高性能汉语数码语音识别算法.docx_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《高性能汉语数码语音识别算法.docx》由会员分享,可在线阅读,更多相关《高性能汉语数码语音识别算法.docx(8页珍藏版)》请在三一文库上搜索。

1、ISSN 1000-0054清华大学学报 ( 自然科学版) 2000 年第 40 卷第 1 期10/ 34CN 11-2223/ NJ T singh ua Un iv ( Sci & Tech ) , 2000, V o l. 40, N o . 13234高性能汉语数码语音识别算法*李虎生,刘 加, 刘润生( 清华大学电子工程系, 北京 100084)文 摘: 提出了一个高性能的汉语数码语音识别( M D SR ) 系统。M DSR 系统使用 M el 频标倒谱系数( M F CC) 作为主要的语音特征参数, 同时提取共振峰轨迹和鼻音特征以区分一些易混语音对, 并提出一个基于语音特征的实时

2、端点检测算法, 以减少系统资源需求, 提高抗干扰能力。采用了两级识别框架来提高语音的区分能力, 其中第一级识别用于确定识别候选结果, 第二级识别用于区分易混语音对。由于采用了以上改进, M DSR 系统识别率达到了 98. 8% .关键词: 汉语; 数码语音识别中图分类号: T N 912. 34文献标码: A文章编号: 1000-0054( 2000) 01-0032-03构成的识别系统框图如图 1 所示。语音前端处理模块原始采样特端点检测语征提取音识第 二级第 一级别结识 别识 别果语音识别模块图 1MDSR系统框图汉语数码语音识别 ( mandarin digit speechMDSR

3、系统 1 提取的语音特征参数包括用于recog nition, M DSR) 是语音识别领域中一个具有识别的参数和用于端点检测的参数。广泛应用背景的分支, 它的任务是识别“0”到“9”等1 语音前端处理10 个非特定人汉语数码语音, 在电话语音拨号、工语音前端处理包括语音特征提取和端点检测两业监控、家电遥控等领域有着极大的应用价值 1 。但与英语数码语音识别相比, M DSR 的性能尚未达到部分。成熟应用水平, 这是因为 1) 汉语数码语音的混淆1. 1 语音特征提取程度较高; 2) 汉语是一个多方言语种, 说话人会带1. 1. 1 基本识别参数有或多或少的地方口音; 3) 在许多应用背景中,

4、目前常用的语音识别参数有基于线性预测编码M DSR 需要在运算和存储资源都较为紧张的数字( LPC) 的线性预测倒谱系数( LPCC) 和基于 M el 频信号处理器( digital signal pro cessor, DSP ) 系统上标的倒谱系数( M FCC ) 2。实验证明, 采用 M FCC实现, 这为 M DSR 算法的设计带来了很大的限制。参数时系统识别率高于采用 LPCC 参数。因此本文由于以上原因, M DSR 是一项相当困难的任务。的基本识别参数采用 M FCC 参数及一阶差分针对汉语数码语音识别提出了一系列高性能的M FCC 参数。算法, 使 M DSR 识别率达到了

5、 98. 8% 。由这些算法1. 1. 2 共振峰轨迹收稿日期: 1998-11-20在M DSR 中, 易混淆语音“2”和“8”可以由其第作者简介: 李虎生 ( 1975-) , 男 ( 汉) , 四川, 硕士研2, 3 共振峰的变化趋势区分开 3 。因此可将共振峰究生轨迹作为识别参数之一, 并选用峰值选取算法来提* 基金项目: 国家自然科学基金项目( 69772020) 和国家取共振峰轨迹 3 。“八六三”高技术项目( 863- 512- 9805 -1. 1. 3 鼻音特征参数10)汉语数码语音中, “0”的元音具有鼻音的特征,李虎生, 等:高性能汉语数码语音识别算法33而“0”容易与具

6、有非鼻化元音的“6”混淆, 因此鼻音特征可用于提高“0”的识别率。鼻音的特征包括 4 :1) 鼻音在频谱低端( 约 0. 25 kHz 左右) 有 1 个较强的共振峰。2) 鼻音在中频段( 约 0. 82. 3 kHz) 的能量分布较为均匀, 没有明显的峰或谷。采用以下 2 个参数表征鼻音的特征:1) 低频能量比:f n+ Bf 2- 1 ,R n= FkFk( 1)k= f n- Bk= f1其中 f n 为鼻音低频共振峰频率, B 为鼻音低频共振峰带宽。F k 为对语音作快速 Fourior 变换( FFT ) 后第 k 个频率点的能量, f 1, f 2 则为语音“6”能量集中的频带。2

7、) 频谱质心:f Hf H- 1,Fc =f kkf k( 2)k= f Lk= fL其中 f L , f H 为 0. 82. 3 kHz 的中频段。由于 M DSR 系统采用的基本识别参数为 M FCC 参数, 其计算过程中需要作 FFT , 所以低频能量比和频谱质心两个参数可以顺带算出, 不会影响特征提取的实时完成。1. 2端点检测本文提出了基于语音特征的实时端点检测算法( feature-based r eal-time endpoint detectio n, FRED) , 充分利用汉语数码语音的特点, 在实时提取特征参数后完成端点检测, 检测到的端点只精确到帧的量级。根据语音学知

8、识 4 , M DSR 中各类语音的频谱特点如表 1表 1汉语数码语音频谱特点频 谱特 征元音低频( 0. 1至 0. 4kHz 间) 能量较高;中频( 0. 64 至 2. 8kHz) 能量较高浊音浊辅音低频( 0. 1至 0. 4kHz 间) 能量较高;中频( 0.64 至 2. 8kHz) 能量较低清辅音高频( 3.5 kHz以上) 能量较高采用 3 个频谱能量分布参数 R1 , R 2, R 3 分别反应频谱高频、低频和中频的分布特征。其定义如下:N / 2- 1N / 2- 1- 1,R1 ( i) =F kFk( 3)k= f 0k= 0f 2q - 3 F kR q( i ) =

9、k= f2q- 2, q = 2, 3, ( 4)f 2q- 3m ax F k0iT - 1k= f2q-2其中: i 表示第 i 帧, N 为语音帧长, 也即 FFT 点数, Fk 为对语音帧作 FFT 后各频率点能量, T 为语音的总帧数, 式( 3) , ( 4) 中求和号的上下限由表 1 中相应频率范围确定, 当N 为 256, 采样频率为实验所用语音库的 11 kHz 时, f 0 = 81, f 1 = 9, f 2= 2, f 3= 65, f 4 = 15. 由于进行了能量归一化, 所以上述特征与语音的强度是无关的。由于计算 MFCC 参数时需要作 FFT , 因此频谱能量分

10、布参数可以顺带算出。此外, 用于端点检测的参数还包括短时能量参数E 0( i ) 5 .由以上参数, FRED 算法过程为:1) 根据采入信号首尾两帧确定能量阈值;2) 根据参数 R2 确定语音浊音段;3) 根据参数 R1 与 E0 向浊音段两端扩展式搜索语音起始帧;4) 根据参数 R3 确定元音段。 FRED 算法的特点是:1) 利用了语音的本质特征进行端点检测, 能够很好地适应环境的变化和干扰, 实验证明 FRED 算法可以有效地提高识别率; 2) 将语音端点定在帧的量级上, 保证了特征参数在采样时实时提取, 节省了系统运行时间, 大大减少了系统所需的存储量;3) 能够准确地确定语音的元音

11、段, 从而将辅音与元音分割开, 有利于对语音局部特征的辨识。2 识别算法实验表明, M DSR 的识别错误集中在少数几对易混语音中 1 , 因此本文采用了两极识别框架, 即第一级完成对识别结果的初步确定, 第二级完成对易混淆语音的进一步辨识。2. 1第一级识别在第一级识别中采用的基本方法为离散隐含 M alkov 模型( DHM M ) 算法 5 , 用 Viterbi 算法 5 计算各个数码语音模型产生采入语音的概率 Pr 。由于 HM M 是一个有人为假设的模型, 所以有不可避免的缺陷。其中一个缺陷是在H MM 中各状态的持续时间呈几何分布, 即ii) ,( 5)(i =) =iin (

12、1-P Lnaa其中: L i 为状态 i 的持续时间,aii为状态 i 跳转回自身的概率。按照式( 5) , 状态持续时间越长, 其概率34清华大学学报 ( 自然科学版)2000, 40( 1)越小, 这是不符合实际情况的。用 # 分布来描述状态持续时间 5 , 即P i=A-n( 6)P( L i = n) = Fi n i eBi ,其中 Ai 和 Bi 为 # 分布的参数, Fi 为归一化因子参数 , 以上各参数在训练时由训练语音样本估计出。在识别时, 用Viterbi 算法获得的最佳状态路径中各状态持续时间的概率对 Pr 作修正:SKP = PP( 7),rrii= 1其中: K为加

13、权系数, S 为状态数。识别结果则由修正后的概率 Pr获得。实验证明, 用状态持续时间分布对P r 进行修正所得的识别性能有明显的提高。2. 2第二级识别对第一级识别的错误作分析, 我们发现大部分错误都集中在少数几对易混语音中。表 2 列出了识别错误最多的 6 对语音( 其中“1”念为 yao ) 占所有错误的百分比及其区分特征。可见这 6 对语音占所有错误的 91% , 所以如果能够在第二级识别中对这几对语音作进一步的辩识, 整个 MDSR 系统的性能会有很大的提高。表 2易混语音错误百分比及其区分特征易混语音占识别错误百分比/ %区分特征“2”“8”45共振峰轨迹变化趋势“1”“9”12不

14、同的辅音“1”“6”11不同的辅音“0”“6”11鼻音特征的有无“3”“4”8不同的元音“6”“9”4辅音的清浊性由表 2 可见, 易混语音“2”“8”, “0” “6”, “6”“9”可以用表征其区分特征的参数, 根据一定的规则进行判决, 而“1”“9”, “1”“6”, “3”“4”则可以利用端点检测中元、辅音分割的结果, 训练元音部分和辅音部分的 HM M 参数, 在识别时针对相应部分再作一次局部 HM M 识别。表3 列出了各对易混语音第二级识别的方法。表 3第二级识别方法易混语音 第二级识别方法规则判决的特征参数或局部 HM M 的辨识部位“2”“8” 规则判决共振峰轨迹“1”“9”

15、 局部 HM M 辨识辅音“1”“6” 局部 HM M 辨识辅音“0”“6” 规则判决鼻音特征“3”“4” 局部 HM M 辨识元音“6”“9” 规则判决频谱分布参数 R13 实验结果实验使用了一个包含 160 人从“0”到“9”的各一遍发音的语音库来测试系统的性能, 库中语音采样率为 11 kHz, 量化精度为 16 bit 线性量化, 录音背景为普通办公室环境。首先测试了特征参数采用 LPCC 参数, 端点检测采用快速端点检测算法 6 , 只用 Viter bi 算法进行一级识别时的基本结果, 然后测试了逐个加入本文所提出的各种方法后的识别率, 结果如表 4。可见,所采用的每一种方法都使系

16、统性能较之于基本系统有了显著的提高, 最后达到 98. 8% 的识别率。表 4算法性能比较采用的算法识别率/ %基本结果91. 1采用 M F CC 参数92. 9FRED 算法95. 4状态持续时间分布96. 0第二级识别98. 84结 论采用了一系列算法, 有效地提高了 M DSR 系统的识别率, 实现了一个高性能的 M DSR 系统, 其特点为:1) 采用了两极识别框架, 增强了对易混语音的区分能力。2) 充分利用针对汉语数码语音的语音学知识,提高了端点检测的抗干扰能力, 提取了用于区分易混语音的共振峰轨迹、鼻音特征等声学特征, 进一步提高了系统识别率。3) 各算法所需的运算量和存储量都

17、较小, 有利于 MDSR 在 DSP 系统上的实现。 参 考 文 献 1 顾 良, 刘润生. 汉语数码语音识别: 困难分析与方法比较 J . 电路与系统学报, 1997,2 ( 4) : 3239.G u L iang ,L iuRunsheng .M a ndar in digitspeechr ecog nitio n: state o f the art ,difficultpo ints ana ly sisa nd metho ds com par ison J .Jof Cir cuitsandSy stems, 1997,2( 4) :3239.( in Chinese) 2 D

18、 avisSB,M er melsteinP .Co mpar iso nofpar ametr icr epr esent atio nsfo rmonosy llabicw or dr ecog nitio nin continuo uslyspokensentences J .I EEET ra ns,onSpeechandA udioSig nalP r ocessing ,1980, 28 ( 4) : 357366.( 下转第 56 页)56清华大学学报 ( 自然科学版)2000, 40( 1) 6M illerMI,SnyderDL ,M illerTR .M ax imum -

19、likeliho odr eco nst ructio nforsingle-phot onemissioncomputed tomo gr aphy J .IEEE T r ans Nucl Sci,1985,N S-32( 1) : 769778. 7HudsonHM ,L arkinRS.A ccelera tedimag er eco nst ructio nuing or der edsubsetsofpr ojectiondata J . IEEE T r as M ed Imag ,1994, 13( 4) :601609. 8Bro wne J,De P ier ro A R

20、. Aro w-actio n alt ernativetot he EMalg or ithmformax imizinglikeliho od inemissio n t omo gr aphy J . IEEET r ans M ed Imag ,1996,15( 5) :687699. 9K ennethL .Conver genceofEMimag er eco nst ructio nalg or it hmswithGibbssmo othing J . IEEE T r ans M ed I mag,1990,9( 4) :439446. 10Gr eenPJ.Bay esia

21、nr econstr uctionfro mem issionto mog raphydatausingamo dified EMalgo r ithm J . IEEE T r ans M ed I mag ,1990,9( 1) :8493. 11LW ,W ang Y ,L uo J. A new appro ach to medicalimag e r econstr uction J .IEEEEngM ed&Bio l,1997:4146.Attenuation correction algorithms in SPECTGUI Dawei, JIN Yongjie, LI Yul

22、an, LIU Yinong( Depar tment o f Eng ineer ing P hysics,T singhua U niv ersit y,Beijing 100084, China )Abstract: Awr ongdiagnosis w illoccur incar diac SPECTimag ingiftheattenuationandscatter ingofpho tonsbybodyssofttissuesareno t considered.T ocor rectt heattenuatio n,the simultaneous emissionandtra

23、nsmissio npro jectio ns ar e obtained fr om the same SPECT sy st em,andattenuatio ncor r ect ionalg or ithmsmustbeusedint heemissio nimag ereco nstr uctio n.T hispaper comparest hequalityo fv ar iousimag er eco nst ructio nalgo rithmsinSPECT ,suchasco nventio nalfilter edback-pr ojection,w eight edb

24、ack-pr ojectio n,iter ativ eChang s method,M L -EM ,O S-EM , RA M L A , M L -EMw ithG ibbssmoo thing ,Bayesian reco nstr uctio n, etc. .A mathemat icalphanto m is used to testthe v ar ias alg or ithms.T he result ssug g estsome considerat ionto choo se the mo st appro pr iatealgo rithm.A new alg or

25、ithm, the M ult i-o bject Optimizatio nM etho d ispr oposed t oimpro ve im agereco nstr uctio n andattenuatio n co r rectio n.Key words:attenuatio ncor rection;reconstr uction;M L -EM( 上接第 34 页) 3 李虎生, 杨明杰, 刘润生. 用共振峰轨迹提高汉语数码语音识别性能 J . 清华大学学报, 1999, 39( 9) .L i Husheng ,Ya ng M ingjie,L iuRunsheng .U

26、 sef or mant tr ajecto ry to impro ve the per fo rmance of m andar in digit speech r ecog nitio n J . J of T sing hua U niver sity , 1999, 39( 9) : 69 71. ( in Chinese) 4 吴宗济, 林茂灿. 实验语音学教程 M . 北京: 高等教育出版社, 1989.W u Zong ji, Lin M aocan. T uto r ial o n Ex perimentalP honetics M .Beijing :Hig her Edu

27、ca tio n P ress,1989. ( in Chinese) 5 杨行峻, 迟惠生. 语音信号数字处理 M . 北京: 电子工业出版社, 1995.Y ang Xing jun,Chi Huisheng.Digit Speech Sig nalP r ocessing M .Beijing :P ublishingHo useofElectr onic Industr y, 1995. ( in Chinese) 6 顾 良. 汉语数码语音识别方法研究及 DSP 系统设计 D . 北京: 清华大学, 1997.G u L iang . Resear ch on M et ho do

28、log ies for M andarinD ig itSpeechReco gnitionand Desig n o fitsDSPSy stem D .Beijing :T sing hua U niv ersit y,1997.( in Chinese)High performance digit mandarin speech recognitionLI Husheng, LIU Jia, LIU Runsheng( Depar tment of Electro nic Eng ineer ing,T sing hua U niver sity , Beijing 100084, Ch

29、ina)Abstract: Hig h-perfo rm ancemandar indigitspeechr ecog nitio n ( M D SR)sy st em is dev elo ped using M FCC ( melfr equencycepstr umcoefficient)as themainpar ameteridentifyingthe speech patter ns. T he fo rmant trajector y andt he nasal featur e ar e ex tr acted toidentifyco nfused w o rds.A fe

30、atur e-based, real-t ime endpoint detection algo rithm is pr oposed t o r educe the sy stem reso ur ce requirements and t oimpr o ve the distur bance-pr oof ability .Atw o-stag er ecog nitio nframeenhances discrim inatio nbyident ifyingcandida te w o rds inthe first stag e and confused w or d pa irs int he seco ndstag e.T hese impro vements r esultin a co rr ectr ecog nitio nrat e o f98. 8% .Key words: mandarin; digit speech r eco gnit ion

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 科普知识


经营许可证编号:宁ICP备18001539号-1