matlab编程代做短时幅度谱估计在语音增强中的研究和应用.doc

资源描述

《matlab编程代做短时幅度谱估计在语音增强中的研究和应用.doc》由会员分享，可在线阅读，更多相关《matlab编程代做短时幅度谱估计在语音增强中的研究和应用.doc（30页珍藏版）》请在三一文库上搜索。

1、短时幅度谱估计在语音增强中的研究和应用摘要语音处理过程中受到各种各样噪声的干扰，不但降低了语音质量，而且还将使整个系统无法正常工作。因此，为了消除噪声干扰，在现代语音处理技术中，工业上一般采用语音增强技术来改善语音质量从而提高系统性能。本论文基于短时幅度谱估计来研究语音增强，主要介绍了功率谱相减、维纳滤波法，并介绍了这几种语音增强方法的基本原理和实现方法。通过研究，我们得到在白噪声的条件下，这些语音增强方法具有很好的增强效果，可作为开发实用语音增强方法的基础。关健词:语音增强，短时幅度谱估计，功率谱相减，维纳滤波，白噪声AbstractVoice processing is always in

2、flucenced by a variety of noise, which not only reduces the voice quality, but also make the whole system break. Therefore, in order to eliminate the noise interference, in the modern voice processing technology, we generally use the voice enhancement technology to improve voice quality and system p

3、erformance. In this paper, we will study the speech enhancement which is based short-term rate spectral estimation, we mainly introduce spectral phase, Wiener filtering method, and also introduced several methods of the realization and basic principles of speech enhancement. Through researching, we

4、get the result that in the conditions of white noise, these speech enhancement method has a best effect, can be used as the basement of speech enhancement realiaztion. Key words: speech enhancement, short-term rate spectral estimation, power spectral subtraction, Wiener filtering, white noise第一章语音增

5、强的研究背景及意义1.1语音增强的应用背景人们在语音通信过程中不可避免的会受到来自周围环境和传输媒介引入的噪声、通信设备内部电噪声乃至其他讲话者的千扰。这些干扰最终将使接收者接收到的语音己非纯净的原始语音信号，而是受噪声污染的带噪语音信号。例如安装在汽车、飞机或舰船上的电话，街道、机场的公用电话，常受到很强背景噪声的干扰，严重影响通话质量。又如有历史价值的旧唱片、旧录音带的噪声和失真等，都是带噪语音信号的例子。而且环境噪声的污染，使得许多语音处理系统的性能急剧恶化。例如，语音识别己取得重大进展，正步入实用阶段。但目前的语音识别系统大都是在安静环境中工作的。在噪声环境中，尤其是强噪声环境，语音识

6、别系统的识别率将受到严重影响。低速率语音编码，特别是参数编码，也遇到类似问题。由于语音生成模型是低速率编码的基础，当模型参数的提取受到混杂在语音中背景噪声严重干扰时，重建语音的质量将急剧恶化，甚至变得完全不可懂。在上述情况下，语音增强或者作为一种预处理，不失为解决噪声污染的一种有效手段。因此，或者为抑制背景噪声，提高语音质目前，语音增强已在语音处理系统、通信、研究语音增强技术在实际中有重要价多媒体技术、数字化家电等领域得到了量值越来越广泛的应用。语音增强的一个主要目标，就是从带噪语音信号中提取尽可能纯净的原始语音。然而，由于干扰通常是随机的，从带噪语音中提取完全纯净的语音几乎是不可能。在这种情

7、况下，语音增强的目的主要有两个:一是改进语音质量，消除背景噪声，使听者乐于接受，没有疲劳感，这是一种主观测量:二是提高语音的可懂度，这是一个客观测量。但这两个目的往往不能兼得，所以实际应用中总是视具体情况而有所侧重的。在语音信号的理论和应用中，所用的语音数据大部分都是在接近理想的条件下采集的。大多数语音识别和语音编码在开始研究时都要在高保真设备上录制语音，尤其要在无噪环境下录音。然而，在语音通信过程中会不可避免的受到各种噪声的干扰，这种干扰将最终导致接收者接收到的语音信号已非纯净的原始语音，而是受到噪声污染后的带噪语音。正是由于这些污染，使得许多语音处理系统的性能急剧恶化。语音识别正在步入实用

8、阶段，但识别系统大都是在安静环境中工作的，在噪声环境中尤其是强噪声环境，语音识别系统的识别率将受到严重影响。例如，在单个孤立词识别的系统中，用纯净语音训练后，其识别率可达到100%，但在以行驶的汽车噪声为背景的环境中，其识别率将会降至30%；低速率编码，特别是参数编码例如基于语音生成模型中涉及的LPCC系数求解，由于该系数对语音的编解码质量有重要的影响，而噪声的干扰使得求得的LPCC系数的准确度下降，从而使重建后的语音质量大幅下降，甚至变的完全不可懂。而特别遗憾的是，线性预测技术作为语音处理中最有效的手段，恰恰是最容易受到噪声影响的。因此，如何从带噪语音中尽可能的恢复原始纯净语音、去除噪声信号

9、就成了语音信号预处理过程中的重要环节。在实际需求的推动下，早在60年代，语音增强这个课题就已经引起了人们的注意，此后的30年间人们一直契而不舍地进行这方面的研究。随着数字信号处理理论的成熟，70年代曾形成一个研究高潮，并取得一些基础性成果，并使语音增强成为语音信号处理理论的一个重要分支。这之后，随着超大规模集成电路和计算机技术的发展，为语音增强算法得以实验仿真和实时实现提供了可能，语音增强的研究进入了一个新阶段。然而，由于干扰通常都是随机的，从带噪语音过程中提取出完全纯净的语音几乎不可能。在这种情况下，语音增强的目的主要有两个：一是改进语音质量，消除背景噪声，使听者乐于接受，不感觉疲劳，这是一

10、种主观度量；二是提高语音可懂度，这是一种客观度量。这两个目的往往不能兼得。语音增强不仅与信号处理技术有关，而且涉及到人的听觉感知和语音学。另外，噪声来源众多，随应用场合不同，其特性也各不相同。即使在实验室仿真条件下，也很难找出一种通用的语音增强算法适用于各种噪声环境。必须针对不同噪声，采取不同的语音增强对策。目前国外已产生的几种算法也都是针对不同的噪声源处理，减少和消除它们对原始语音的干扰。1.2 对语音增强的研究的发展历史语音增强这个研究课题早在60年代即引起人们的注意，随着数字信号处理理论的成熟，70年代取得了一些基础性成果，并使语音增强发展成为语音信信号处理领域的一个重要分支;80年代及

11、90年代初这十几年间，各种语音增强方法不断提出，进而奠定了语音增强理论的基础并使之逐渐走向成熟。随着数字信号处理的发展，以及DSP,FPGA的发展，越来越满足复杂的语音信号处理了。现将这些语音增强方法给予简单的介绍:自适应梳状滤波由于语音中的浊音具有明显的周期性，这种周期性反映到频域中为一系列分别对应基频(基音)及其谐波的一个个峰值分量，这些频率分量占具了语音的大部分能量。这时可采用自适应梳状滤波器来提取基音及其谐波分量，抑制其他周期性噪声和非周期的宽带噪声。由于语音是时变的，语音的基音周期也是不断变化的，能否准确地估计出基音周期以及能否及时跟踪基音变化，是这种基于谐波增强法的关键。对人耳的听

12、觉特性起主要作用的是语音频谱的幅度，而人耳对语音的相位是不敏感的。这样在进行语音增强处理的时候，就可将重点放在对语音幅度谱的精确估计上，对于语音的相位谱则允许有一定的误差(实际中，经常直接将带噪语音的相位谱作为语音信号的相位谱)，以此为出发点，可以得到以下一些基于语音短时幅度谱的语音增强方法。幅度谱相减对带噪语音信号进行傅立叶变换，在频域中从带噪语音的幅度谱上减去噪声的幅度谱来作为语音信号的幅度谱，而语音相位谱则近似用带噪语音的相位谱代替，这正利用了人耳对语音相位的不敏感性，这样即达到了消除噪声的目的，这就是幅度谱相减方法的基本原理这种方法针对的是加性不相关噪声。功率谱相减法这种方法是从带噪语

13、音功率谱中减去噪声的功率谱，从而得到语音信号的功率谱，进而决定语音信号各频谱分量增益，最终得到语音信号的估计。维纳滤波法维纳滤波法是为得到语音信号的时域波形，在最小均方误差准则下得到的最优估计器。实际应用中，多采用非因果维纳滤波器的频域实现形式。最小均方误差短时谱幅度估计器这种方法力图获得语音信号频谱幅度的最优估计，是从观测序列中依最小均方误差准则估计语音信号正交展开系数的模值。与两态软判决最大似然包络估计器一样，若考虑语音存在的不确定性，则可得到性能更优的最小均方误差短时谱幅度估计器。隐马尔科夫模型语音增强方法语音信号可细分为不同的类型，如鼻音、摩擦音、爆破音等。对不同类型的语音，如果采用不

14、同的最优滤波器进行滤波则能得到更好的效果。要表示这些语音类型，人们提出了语音的混合源模型，人们将语音看成由一定数量的子源组成的，每个子源代表一种语音类型。不同的语音类型也可理解为不同的语音状态，则一段语音可看成一个在不同状态间转移的马尔科夫过程，这就是语音的隐马尔科夫模型思想。同样对噪声也有其隐马尔科夫模型。这样在语音增强过程中就可针对不同语音状态选择不同的滤波器，这样就得到了隐马尔科夫模型语音增强方法。如果能正确建立语音和噪声的隐马尔科夫模型，用隐马尔科夫模型方法进行语音增强处理，只要噪声不是十分强，就能得到很好的结果。1.3噪声特性随着人们对语音增强研究的发展，人们越来越认识到语音增强不仅

15、仅是一个单纯的语音信号数字处理问题，而且还涉及到人的听觉感知、语音学和语言学。另外，噪声来源很多，随运用场合而异，其特性也各不相同.因此，要想对语音增强有比较充分的了解，必须首先对语音和噪声的重要特性进行一番了解和分析。我们还必须认识到，要想得到一种可以适用于各种情形的语音增强算法是不可能的，必须针对不同的实际情况，采取不同的语音增强算法。下面我们先分别简略的叙述一下语音和噪声的主要特性。本章我们首先从语音和噪声的特性入手，对最常用也是最基本的谱相减法进行研究。以上我们介绍了听觉系统的生理机制以及听觉的基本特征，下面我们接着介绍一下常见的噪声。噪声来源取决于实际的应用环境，因而噪声特性可以说

16、是变化无穷。噪声可以是加性的，也可以是非加性的，但是对于非加性的噪声，我们可以通过一些相应的变换(如同态变换和伪随机扰动)将其转化为加性噪声，所以我们这里讨论的主要是加性噪声。加性噪声大致上分为:周期性噪声、脉冲噪声、宽带噪声和同声道其他语音的干扰。1.周期性噪声其特点是具有许多离散的线谱，主要来源于发动机等周期性运转的机械。电气干扰，特别是电源交流声，也会引起周期性噪声.这种噪声可以通过梳状滤波器予以抑制。实际环境中的周期性噪声并非简单地只含线谱分量，而是由许多窄谱带组成，而且往往是时变的。2.脉冲噪声脉冲噪声表现为时域波形中突然出现的窄脉冲。它来源于爆炸、撞击和放电等。对它们的消除可以通过

17、时域上设置闭值来加以抑制，也可以通过内插法进行平滑处理。3.背景噪声对发音的影响噪声使语音质量下降，可懂度降低。强噪声会使人产生听觉疲劳。不仅如此，强噪声环境还对讲话人产生影响，使讲话人改变在安静环境或低噪声环境中的发音方式，从而改变了语音的特征参数，这称为Lombard效应，它对语音识别系统有很大的影响。随着人们对语音增强知识的认识和发展，各种各样的语音增强算法都相应的发展起来。如前所述，由于噪声特性各异，总的来说，现在比较流行的算法主要有以下几种：1）小波分解法；2）听觉屏蔽法；3）噪声对消法；4）谐波增强法；5）基于语音生成模型的增强算法；6）基于短时谱估计的增强算法；以上的

18、各种语音增强算法虽然在具体实现上是有差别的，但从另一个方面来说，它们都不得不在语音的可懂度和主观度量这两个方向上做一番权衡。至于到底侧重与哪一方面，就要看算法内部的参数选取了。其中，噪声对消法的基本原理是从带噪语音中减去噪声。这一原理是显而易见的，但问题是如何得到噪声的复制品。如果可以用两个麦克风（或多个麦克风）的信号采集系统，一个采集带噪语音，另一个（或多个）采集噪声，则这一任务比较容易得到解决。并且在强噪声环境下，这种方法可以得到很好的消除噪声结果。如果采集到的噪声足够“逼真”，甚至可以与带噪语音在时域上直接进行相减。噪声对消法可以用于平稳噪声相消，也可以用于准平稳噪声。采用噪声对消法时，

19、两个话筒之间必须要有相当的隔离度，但采集到的两路信号之间不可避免地会有时间差，因此实时采集到的两路信号中所包含的噪声段是不同的，回声及其它可变衰减特性也将影响所采集噪声的“纯净”性。因而，采集到的噪声必须经过数字滤波器，以得到尽可能接近带噪语音中的噪声。通常，这就需要采用自适应滤波器曰，使相减噪声与带噪语音中的噪声一致，其原理类似于回波抵消器。自适应滤波器通常采用FIR滤波器，其系数可以采用最小均方(LMS)法进行估计，使如下信号的能量最小。 (1-1)这里，是带噪信号滤波后的结果，是第二个话筒采集到的噪声信号，为滤波器系数，N为FIR滤波器的抽头数。只要噪声与话音相互独立，使的平均值最小，就

20、能得到最接近与带噪语音中的噪声复制品。但若采集到的噪声与语音是相关的，则滤波器系数只应在语音间歇期进行刷新。但噪声对消法的一个缺点是增强后的语音中含有明显的“音乐噪声”，这是由频谱相减而产生的一种残留噪声，具有一定的节奏性起伏感，故而得名“音乐噪声”。语音信号的浊音段有明显的周期性，利用这一特点，可以采用谐波增强法构造自适应梳状滤波器来提取语音分量，抑制噪声。梳状滤波器可以在时域实现，表达式为:这里，L为基频周期;M 为常数(通常不大);是滤波器输入信号序列;为输出信号序列;为系数，随信号周期而变化。输出信号是输入信号的延时加权和的平均值。当延时与周期一致时，这个平均过程将使周期性分量得到加强

21、，而其它非周期性分量或与信号周期不同的其它周期性分量受到抑制或消除。显然，上述方法的关键是要精确估计出语音信号的基音周期，这在强背景噪声干扰下是件困难的事情。在基音发生变化的过渡段，这种方法会受到严重影响。选择M=1可以减少影响，但增强效果下降。M 与梳状滤波器的带宽成反比。梳状滤波器也可以在频域实现。对语音进行傅立叶变换后可以鉴别出需要提取的各次谐波分量，然后经傅立叶反变换恢复为时域信号。梳状滤波器不但可增强语音信号，也可以用于抑制各种噪声干扰，包括消除同声道的其它语音的千扰。同时对两个语音进行梳状滤波器的主要困难是:存在另一个人讲话干扰时，如何跟踪并精确估计讲话者的基音。小波分解语音增强法

22、和听觉掩蔽法是比较新兴的算法。很明显，小波分解法是随着小波分解这一新的数学分析工具的发展而发展起来的。同时它又结合了谱相减的一些基本原理。听觉掩蔽是利用人耳的听觉特性的一种增强算法，目前人们对它的研究还处于初级阶段。就近几年的发展趋势而言，小波分解法和听觉掩蔽法是人们研究的热点。人们对小波分解法的兴趣是与小波分解有关的，团为人们对小波的研究也还是比较新的，随着人们对小波分解研究的深入，自然也会导致对小波分解增强算法研究的深入。听觉屏蔽法是随着人们对人耳听觉系统的认识发展而发展起来的。人耳有很多优点:它可以在强噪声的干扰下分辨出需要聆听的信号，它也可以在多个说话者同时发声时分别将它们提取出来，同

23、时，它也是一个很复杂的系统，人们现在对它的认识还是很浮浅的。正是由于以上这些原因，人们对听觉屏蔽法寄予了厚望，有理由相信，随着人们对人耳特性了解的加深，听觉屏蔽法会更深入的发展。另外，人们也在尝试将人工智能、隐马尔可夫模型和神经网络等理论用于语音增强，但目前尚未取得实质性的进展。1.4 本课题主要工作基于短时幅度谱估计的语音增强方法，如幅度谱相减、维纳滤波等方法具有适应信噪比范围大、增强效果好、方法简单易于实时处理等优点。并成为应用最广泛的语音增强方法。所以进行基于短时幅度谱估计的语音增强方法的研究具有重要意义。本文的主要研究步骤和主要研究内容如下所示：第一章: 语音增强的研究背景及意义第二章

24、: MATLAB简介和语音信号特点介绍第三章: 减谱法语音增强第四章: 语音增强的维纳滤波研究第五章: 短时幅度谱估计在语音增强方面的性能对比分析第六章: 总结第二章 MATLAB以及语音信号特点简介2.1 MATLAB简介Matlab，Matrix Laboratory的简称，是美国Mathworks公司于1984年推出的数值计算机仿真软件，经过不断的发展和完善，如今已成为覆盖多个学科、具有超强数值计算能力和仿真分析能力的软件。Matlab应用较为简单，用大家非常熟悉的数学表达式来表达问题和求解方法。它把计算、图示和编程集成到一个环境中，用起来非常方便。同时，Matlab具有很强的开放性和适

25、应性，在保持内核不变的情况下，Matlab推出了适合不同学科的工具箱，如图像处理工具箱，小波分析工具箱、信号处理工具箱、神经网络工具箱等，极大地方便了不同学科的研究工作。Matlab强大的绘图功能，简单的命令形式，使其越来越受到国内外科技人员的青睐，得到越来越广泛的应用。一. MATLAB的特点一种语言之所以如此迅速地普及，显示出如此旺盛的生命力，是由于它有着不同于其它语言的特点。正如同Fortran和C等高级语言使人们摆脱了需要直接对计算机硬件资源进行操作一样，被称为第4代计算机语言的MATLAB，利用其丰富的函数资源，使编程人员从繁琐的程序代码中解放出来。1功能强大MATLAB具有功能强劲

26、的工具箱，其包含两个部分：核心部分和各种可选的工具箱。核心部分中，有数百个核心内部函数。其工具箱又可分为两类：功能性工具箱和学科性工具箱。功能性工具箱主要用来扩充其符号计算功能、图示建模仿真功能、文字处理功能以及与硬件实时交互功能。功能性工具箱能用于多种学科，而学科性工具箱是专业性比较强的，例如control toolbox，image processing toolbox，signal processing toolbox等。这些工具箱都是由该领域内的学术水平很高的专家编写的，所以用户无需编写自己学科范围内的基础程序，就能够直接进行高、精、尖的研究。2. 界面友好，编程效率高MATLAB突出

27、的特点就是简洁。它用更直观的、符合人类思维习惯的代码代替了C和Fortran语言的冗长代码，给用户带来的是最直观、最简洁的程序开发环境。MATLAB语言简洁紧凑，使用方便灵活，库函数极其丰富，程序书写形式自由，利用其丰富的库函数避开繁杂的子程序编程任务，压缩了一切不必要的编程工作。由于库函数都是由本领域的专家编写的，因此用户不必担心函数的可靠性。可以说，用MATLAB进行科学开发是站在专家的肩膀上来完成的。3. 开放性强MATLAB有很好的可扩充性，可以把它当成一种更高级的语言去使用。各种工具箱中的函数可以互相调用，也可以由用户更改。MATLAB支持用户对其函数进行二次开发，用户的应用程序可以

28、作为新的函数添加到相应的工具箱中。二 MATLAB的主要功能MATLAB之所以成为世界顶级的科学计算与数学应用软件，是因为它随着版本的升级与不断完善而具有越来越强大的功能。2 数值计算功能MATLAB出色的数值计算功能是使之优于其他数学应用软件的决定性因素之一。2符号计算功能MATLAB符号运算的独特之处：无需事先对变量赋值，而所得的结果以标准的符号形式表达，符号计算的整个过程以字符进行。3数据分析功能MATLAB可以将计算数据以二维、三维乃至四维的图形表现。这不仅使数据间的关系清晰、明了，而且对于揭示其内在本质有着非常重要的作用。4动态仿真功能MATLAB提供了一个模拟动态系统的交互程序SI

29、MULINK，用户通过简单的鼠标操作，就可建立起直观的系统模型，并进行仿真。5图形文字统一处理功能MATLAB Notebook成功地将Microsoft Work与MATLAB集成为一个整体，为文字处理、科学计算、工程设计营造了一个完美、统一的工作环境。它既拥有Word强大的文字处理功能，又能通过Word访问MATLAB的数据计算和可视化结果。2.2 语音信号特点介绍随着人们对语音增强研究的发展，人们越来越认识到语音增强不仅仅是一个单纯的语音信号数字处理问题，而且还涉及到人的听觉感知、语音学和语言学。另外，噪声来源很多，随运用场合而异，其特性也各不相同.因此，要想对语音增强有比较充分的了解，

30、必须首先对语音和噪声的重要特性进行一番了解和分析。我们还必须认识到，要想得到一种可以适用于各种情形的语音增强算法是不可能的，必须针对不同的实际情况，采取不同的语音增强算法。下面我们先分别简略的叙述一下语音和噪声的主要特性。本章我们首先从语音和噪声的特性入手，对最常用也是最基本的谱相减法进行研究。语音是由一连串的音所组成的，这些音以及相互间的过渡就是代表信息的符号。这些音的排列是由语音的规则和人的发声器官决定的。人类的发声系统可以描述如下:声道起始于声带的开口即声门处而中止于嘴，它包含了咽喉和口腔。声道的截面积取决于舌、唇、领以及小舌的位置。当小舌下垂时，鼻道与声道发生耦合而产生语音中的鼻音。为

31、了便于理论分析，人们将发声系统简化，认为主要由三部分组成:喉、声道和嘴。在此基础上，人们又构造了一个既符合实际又便于处理的离散时域生成模型，它包括三部分:激励源、声道模型和辐射模型。进一步简化得到最常用的语音信号LPC全极点生成模型(如图2-1所示)。图2-1语音的全极点生成模型图中u(n)为激励源，g为增益因子，H(z)=1 /A(z)为全极点滤波，其中:这里，p为阶数，为LPC系数。根据这个模型，可以得到离散时域语音信号s(n)的统一表达式:语音的声音按照其激励形式的不同可以分为三类:第一类是浊音，当气流通过声门时，如果声带的张力刚好使声带发生张弛振荡式的振动，那么就可以产生准周期的空气脉

32、冲，这一空气脉冲激励声道得到浊音，对应于图中就是u(n)为间隔是基音周期T的脉冲串;第二类是摩擦音或清音，如果声道在某处发生收缩，同时迫使空气以高速冲过这一收缩部分而产生湍流，就得到这种音，此时建立的宽带噪声源激励了声道，对应于图中就是u(n)为宽带噪声；如果使声道完全闭合，在闭合后产生气压，然后突然释放，这就得到爆破音。一般而言，语音信号可以看作是由浊音、清音以及它们之间的过渡组成的。1.语音信号的频谱分量比较集中通过对语音信号发声过程的研究以及观察记录的各种语音波形，人们发现语音信号的频谱分量主要集中在3003400Hz的范围内，这是因为人的声道的变化不可能太快。这一点给我们的语音研究和计

33、算带来了很大的便利，我们只要把注意力放在这一区域就可以了。2.语音是一个时变的、非平稳的随机过程人类发声系统的生理结构的变化速度是有一定的限度的，在一段短时间内(5-50ms)人的声带和声道形状有相对稳定性，可近似认为其特征不变，因而语音的短时谱分析也有相对稳定性。短时谱的这种平稳性是很多语音处理算法和技术的基础。3.语音大体上可以分为清音和浊音两大类一般而言，人类的语音信号往往在有些时段表现出明显的周期性(浊音)，这种语段在频域上有共振峰结构，其能量大部分集中在较低频段内；而在另一些时段表现出完全的随机性(清音)，这种语段在频域上没有明显的共振峰结构，其频谱类似于白噪声；其余的就是由两者相混

34、合而成。这一点反映在图2-1就是：激励源u(n)要么就是由脉冲发生器发出，要么就是由白噪声发生器发出，要么就是由两者按一定比例混合后发出。4.作为一个随机过程，语音信号可以用统计分析特性来描述在高斯模型假设下，傅立叶展开系数被认为是独立的高斯随机变量，均值为0，而方差是时变的。这种高斯模型应用于有限帧长时只是一种近似的描述，在宽带噪声污染的带噪语音的语音增强中，这种假设可用于分析的前提。第三章减谱法语音增强3.1信噪比介绍信噪比(Signal-to-Noise Ratio，SNR)一直是衡量针对宽带噪声失真的语音增强算法的常规方法，有许多变种，如分段式信噪比、频域加权型信噪比等。值得注意的是

35、，基于信噪比的衡量方法只对试图复制原来的输入波形的编码或者增强算法有效。假设表示带噪信号，表示其中的纯净语音信号，表示相对应的增强信号，所有这些信号都假设是能量信号，则时域误差信号如公式：误差能量公式：纯净语音信号的能量公式：经典形式的信噪比定义公式：从上式可以看出，需要知道纯净语音信号才有可能决定信噪比的值，这在实际的环境下是不可能的。因此，上述方法主要用于纯净语音信号和噪声信号都是已知的算法的仿真中。3.2 基本减谱法处理宽带噪声的最通用技术是谱减法，即从带噪语音估值中减去噪声频谱估值，而得到纯净语音的频谱。由于人耳对语音频谱分量的相位不敏感，因而这种方法主要针对短时幅度谱。假定语音为平稳

36、信号，而噪声和语音为加性信号且彼此不相关。此时带噪语音信号可表示为。上式中，s(t)为纯净语音信号，n(t)为噪声信号。而用Y(w)、S(w)和N(w)表示y(t)、s(t)和n(t)的傅立叶变换，则有下列关系存在。对于功率谱则有，因为假定噪声是不相关的，所以不会出现有信号与噪声的乘积项。只要从中减去便可恢复。之所以能这样做是基于人耳对语音相位不敏感（相聋）这一特点。因为噪声是局部平稳的，故可以认为发语音前的噪声与发语音期间的噪声功率谱相同，因而可以利用发语音前（或后）的“寂静帧”来估计噪声。然而，语音是不平稳的，而且实际上只能用一小段加窗信号。此时上式应写为上式中，下标w表示加窗信号，*表示

37、复共轭。可以根据观测数据估计，其余各项必须近似为统计均值。由于n(t)和s(t)独立，则互谱的统计均值为0。为了用傅立叶逆变换再现语音，还需要的相位，这里用表示。此时可借用带噪语音相位，即的相位来近似。因而则恢复的语音是估值的傅立叶反变换，如下所示：图3-1 基本结构3.3 一般形式的功率谱相减估计器设带噪语音的观测模型对上式两边做傅立叶变换得进一步可得式中“*”代表复共轭。由于s(n)与w(n)独立，所以与独立。又因为为零均值高斯分布，所以有对于一个分析帧内的短时平稳过程，则其中为噪声的功率谱密度，即无语音时的统计平均值。由此可得原始语音幅度谱的估计为:为了维持估计器在无噪声时系统的同一性，

38、在幅度谱上加上带噪语音的相位信息，则得到完整的功率谱相减估计器为:3.4 减谱法的改进形式实际上噪声谱服从高斯分布其中，m为x的均值，为标准偏差。噪声的帧功率谱随机变化范围很宽，在频域中的最大、最小值之比往往达到几个数量级，而最大值与均值之比也达68倍。因此，在减去噪声谱后，会有些较大的功率谱分量的剩余部分，在频谱上呈现出随机出现的尖峰，在听觉上形成残留噪声。这种噪声具有一定的节奏性起伏感，所以称之为“音乐噪声”。为有效地减少宽带和音乐噪声，可对减谱法进行改进。噪声的能量往往分布于整个频率范围，而语音能量则较集中于某些频率或频段，尤其在元音的共振峰处。因此可在元音段等幅度较高的时帧去除噪声时，

39、减去，则可更好的相对突出语音的功率谱。这种改进也称为被减项权值处理。同时，将功率谱计算及改为和计算（这里a不一定为整数），可以增加灵活性。这种方法称为功率谱修正处理。经分析和实验得知，当a2时，它具有与被减项加权处理相同的结果。综合上面两种处理，减谱法改进形式修正为引入、两个参数为算法提供了很大的灵活性。当=2，=1时即变为基本的减谱法。实际的增强实验表明，适当调节、，可以获得比原始的减谱法更好的增强效果。3.5 利用MATLAB实现减谱法语音增强上面我们简单的介绍了减谱法语音增强的基本理论，下面我们将利用MATLAB来设计减谱法并选取一个音频信号进行增强处理并对比前后结果得到增强的效果，并对

40、前后两次进行时域和频域信号分析。*%对每帧fftfor i=1:frame_num; fft_frame(:,i)=fft(window.*inframe(:,i); abs_frame(:,i)=abs(fft_frame(:,i); ang_frame(:,i)=angle(fft_frame(:,i);end;%平滑处理abs_frame_f=abs_frame;for i=2:(frame_num-1); abs_frame_f(:,i)=mean(abs_frame(:,(i-1):(i+1),2);end;abs_frame=abs_frame_f;%取前20帧，做为噪声幅值abs

41、_noise=mean(abs_frame(:,1:20),2);res_noise=max(abs_frame(:,1:20)-abs_noise*ones(1,20),2);for i=1:frame_num; sub_frame(:,i)=abs_frame(:,i)-0.8*abs_noise;end;zero_frame=zeros(len,frame_num); sub_frame_z=sub_frame;%将sub_frame距阵中小于0的点置0I,J=find(sub_frame_zzero_frame);sub_frame_z(sub2ind(size(sub_frame_z

42、),I,J)=zero_frame(sub2ind(size(sub_frame_z),I,J);sub_frame=sub_frame_z;%残余噪声消去for i=2:(frame_num-1); I=find(sub_frame(:,i)res_noise); sub_frame(I,i)=min(sub_frame_z(I,(i-1):(i+1),2);end; 通过如上代码，我们可以得到仿真结果，具体仿真结果如下所示：图3-2 原始语音的频谱通过运行程序，通听觉上可以感受到该语音信号有明显的杂音，听起来很不舒服。通过运行后结果，我们可以看到，该语音信号的时域部分，在每次人发音间隔之

43、间具有明显的噪声干扰也就是我们所谓的噪声。图3-3语音增强以后的频谱通过语音滤波以后，从听觉好可以听到语音已经变的清晰，没用明显的杂音干扰，分析其信号频谱，可以看到，其有效频率和高频的幅度比变大，说明通过语音增强后音质得到了明显的改善。3.6 总结谱减技术可以被视为一种滤波操作，它对估计谱的高信噪比区域做较少的衰减而对低信噪比区域做较大的衰减。通过采用后文所述的短时傅立叶变换技术对谱减算法进一步改进，发现：谱减算法对噪声抑制有着一个重要的特性，就是其衰减特性随分析窗长度的变化而变化。并且与带噪语音相比，虽然增强后的信号“清晰度”有所提高，但是却对起伏噪声（音乐噪声）的滤除效果并不明显。从人耳

44、感知度角度来说，甚至能明显感到起伏噪声的存在，这说明谱减算法作为一种基本通用方法并不能很好抑制噪声，需要我们对算法做进一步改进，我们首先想到的是利用语音识别技术对待操作语音进行端点识别预操作：对已知语音段进行端点检测预操作，可有效滤除“语音”之外的噪声。针对语音分为清音和浊音的特性，我们采取短时能量和过零率这两种方法。在开始进行端点检测之前，首先为短时能量和过零率分别确定两个门限。短时能量用于区分数据段内的清音和浊音部分，过零率用于区分白噪声和清音部分。一个是比较低的门限，其数值比较小，对信号的变化比较敏感，很容易就会被超过。另一个是比较高的门限，数值比较大，信号必须达到一定强度，该门限才可能

45、被超过。低门限被超过未必就是语音的开始，有可能是时间很短的噪声引起的。高门限被超过则可以基本确信是由于信号引起的。整个语音信号的端点检测可以分为4段：静音、过度段、语音段、结束。程序中使用一个变量status来表示当前所处的状态。在静音段，由于参数的数值比较小，不能确信是否处于真正的语音段，因此只要两个参数的数值都回落到低门限以下，就将当前状态恢复到静音状态。而如果在过渡段中两个参数中的任一个超过了高门限，就可以确定进入语音段了。第四章语音增强的维纳滤波研究4.1 维纳滤波的发展从连续的(或离散的)输入数据中滤除噪声和干扰以提取有用信息的过程称为滤波，而相应的装置称为滤波器。根据滤波器的输出

46、是否为输入的线性函数，可将它分为线性滤波器和非线性滤波器两种。滤波器研究的一个基本课题就是：如何设计和制造最佳的或最优的滤波器。所谓最佳滤波器是指能够根据某一最佳准则进行滤波的滤波器。利用平稳随机过程的相关特性和频谱特性对混有噪声的信号进行滤波的方法，1942年美国科学家N.维纳为解决对空射击的控制问题所建立。维纳滤波是40年代在线性滤波理论方面所取得的最重要的成果。从噪声中提取引号波形的各种估计方法中，维纳（Wiener）滤波是一种最基本的方法，适用于需要从噪声中分离出的有用信号是整个信号（波形），而不只是它的几个参量。其基本依据就是最小均方误差准则。设维纳滤波器的输入为含噪声的随机信号。期

47、望输出与实际输出之间的差值为误差，对该误差求均方，即为均方误差。因此均方误差越小，噪声滤除效果就越好。为使均方误差最小，关键在于求冲激响应。如果能够满足维纳霍夫方程，就可使维纳滤波器达到最佳。根据维纳霍夫方程，最佳维纳滤波器的冲激响应，完全由输入自相关函数以及输入与期望输出的互相关函数所决定。维纳滤波器的优缺点维纳滤波器的优点是适应面较广，无论平稳随机过程是连续的还是离散的，是标量的还是向量的，都可应用。对某些问题，还可求出滤波器传递函数的显式解，并进而采用由简单的物理元件组成的网络构成维纳滤波器。维纳滤波器的缺点是，要求得到半无限时间区间内的全部观察数据的条件很难满足，同时它也不能用于噪声为非平稳的随机过程的情况，对于向量情况应用也不方便。因此，维纳滤波在实际问题中应用不多。4.2 维纳滤波的理论介绍如果在频域采样点上对信号进行处理，可得如下估计器式中和分别为第n个频点上信号和噪声功率谱，为第n个频点上语音频谱的估计值，为带噪语音在相应频点上的频谱值。的估计为，那么上面式子可以写

展开阅读全文