语音信号的时域及频域特征.doc

上传人:scccc 文档编号:12388230 上传时间:2021-12-03 格式:DOC 页数:44 大小:904.50KB
返回 下载 相关 举报
语音信号的时域及频域特征.doc_第1页
第1页 / 共44页
语音信号的时域及频域特征.doc_第2页
第2页 / 共44页
语音信号的时域及频域特征.doc_第3页
第3页 / 共44页
语音信号的时域及频域特征.doc_第4页
第4页 / 共44页
语音信号的时域及频域特征.doc_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《语音信号的时域及频域特征.doc》由会员分享,可在线阅读,更多相关《语音信号的时域及频域特征.doc(44页珍藏版)》请在三一文库上搜索。

1、弟一早语音信号的时域及频域特征1.语音信号的主要特点11语音信号带宽语音信号的带宽约为5KHz ,主要能量集中在低频段。上图为一段语音信号语谱图。42语音信号是典型的随机信号1)人的每次发音过程都是一个随机过程。很难得到两次完全相同的发音样本。2)在信号处理中,通常假设语音信号是短时平稳的。例如,可以认为在语音的浊 音段部分,语音的二阶矩统计量是平稳的(在510inS内),即二阶矩平稳,或称为宽平 稳。22.语音信号的时域波形32.4 语音时域信号特征2.1.1.语音时域信号的特点1)清音段:能量低,过零率高,波形特点有点像随机的噪声。这部分信号常与语 音的辅音段对应。2)浊音段:能量高,过零

2、率低,波形具有周期性特点。所谓的短吋平稳性质就是 处于这个语音浊音(元音)段屮。3)过渡段:一般是指从辅音段向元音段信号变化Z间的部分。信号变化快,是语 音信号处理中最复杂、困难的部分。52.1.2.语音的短时能量、短时平均幅度和短时过零率N-1(1) 短吋能量:E=52(H)?i=0N-1(2) 短吋平均幅度:M = 工 |$5)|71=0(3) 短吋过零率:)N-|sgn5(n) - sgnj(n -1)|/?=0其中sgn川=x > 0x <0(1)(2)(3)73. 语音信号的短时谱特征3.1. 短时傅立叶谱分析对于能量受限的时域信号/(0,它的傅立叶变换可以写成00/(&

3、#169;)= “*3仙(4)_8以上这个傅立叶变换,在“宏观上”给出信号/(f)的频谱信息,但是却无法确定某个“局 部”吋间段频谱的确切信息。在语音信号中,信息是按照特定的时间序列方式出现的。 如果谱分析不能确定这种吋间序列的次序(即位置),那么这种信号分析的手段在应用 上就会受到限制。同时我们也希望能够通过观测到的局部时域信号的频谱信息来了解(构造)整个/(/)的频谱信息。为此我们引入了所谓的短吋傅立叶谱分析技术。有许多技术都可以用来完成信号的短吋谱分析。最典型的就是小波变换和我们现在 常采用的傅立叶短吋谱分析技术。8傅立叶短时谱分析与窗的形状和位置有关(与吋刻有关)。假设窗函数为w(r)

4、,那么信号/(f)的短时傅立叶变换为8斤9儿=“(DM-4)严d_8例如,如果选择窗的形式为一个高斯函数w(0 = -4=e2na0000性质:-(0)力0 = Jw(f)df = 1一8-CO(5)石,这个窗函数有如下所以有0000 co7儿血訂”毗。)厂力矶-00- 00-000000=J/0) 旷妙 Jw(f fo)dfoc 二 /(Q)-00-00(6)这说明/(Q)可以被加窗后的短时谱fw儿 所精确地分解。这止是我们所希望的性10质。更一般地,若X(厂4)是语音序列xn的在吋刻r的短时傅利叶变换00X (r, q)二 丫厂一 mej6)m(7)加=一8若满足条件工hn - rwr-n

5、 = 1, VneZ,S为短时谱取样时刻值的集合reS则语音序列xn可以由短时谱精确朿构:xn=J r-X (r, co) - ejan - dco(9)公式(8)屮的工/zW-r|X(厂,q)项可以理解为利用插值滤波器灿厂得到在77时刻的 reS短时谱。11证明:1 e右边二丄f工灿/?刃X(厂,劲*"dQ 2/r 幺reS00一J /7n-r- xmwr - mej兀I-jam严dcocoreS/n=-oo1 -r£ xmJ 工 hn - r wr- m- i>rr2tt:d3山=-8-兀reSCO山=-8Xlm工灿斤一厂W厂一加一J271reS宙于丄b问心叭de

6、二 2n_托00右边二 x/?r-vr-n - xnr=-oo筑严 E) .d®当短吋谱为使用DFTir算吋,可以证明窗函数和插值函数需要满足(10)(H)(下条件:13co工h(n - r)w(r- n - pN) = 8(p)(13)r=-co例如,我们可以特别地选择W(n)为窗长为N的三角窗,而灿川为矩形窗,h-n=1 二0, N - 1W(")0 其它了取值为周期吋刻采样分析短时谱,间隔为 N T=N/2.14#32窗函数性质对于时域离散信号%(/1),短时傅立叶变换定义:00Xn (e7<y)=工兀(加) w(n - 加) £-顾加=一8这里)为窗

7、函数。例如,常用的窗函数有fl, 0 < n < TV - 1 矩形窗丽°,"其它f0.54-0.46cos(27?/(A-l ) Q < n < N -I 汉明窗:吩)彳°,其它 汉宁窗(Hann):15vv(n)二1 一 cos(2701N-10<n<N-l16#2n巴特利特窗(Bartlett)(三角形窗):N 1,0 < n <2,< n < N -12布莱克曼(Blackman)窗:2 7TH4- miw(n) = 0.42 - 0.5cos()+ 0.08 cos(-NN0<n<N

8、-#10.90.80.70.60.50.40.30.20.10Time domain10203040 5CSamptes-140Frequency domain-100-12000.20.40.60.8Normalzed Frequency (xnrad/sampte)o o o O4 2 2o O4 6 8018#图3各种窗函数时域频域特性比较3.3语谱图:横轴表示时间,纵轴表示频率,用灰度表示对应频谱分量的信号强度。19#N工)-AON 山 noLUocLLa5000100.2040.0 0.20.40.40.0IHHHhL.0.20.420TIME (sec)Spectrograms o

9、f the vowel sounds.34浊音谱特征3.4.1.浊音谱的谱线结构谱线结构是与浊音信号中的周期信号密切相关的。具有与基音及其谐波相对应的谱 线。3.4.2.浊音谱的共振峰结构频谱包络中有儿个凸起点,与声道的谐振频率相对应。这些凸起点称为共振峰 (Formant)o其频率称为共振峰频率。按频率由低到高依次为第一共振峰、第二共振 峰。相应频率用Fl、F2、F3来表示。H V«ve Hie Fff«: ShwKwCe=(0z 1CC3J L?ftCnr=(86. IC6 4保S44】用"Mw二【1施 108 135951 Deltoid3.4.3.兀音三角

10、形图所谓的元音三角形图就是指不同元音的Fl、F2共振峰频率在平面图上的关系。35清音谱特征清音的频谱无明显的规律,比较平坦。在语音识别屮使用统计模型的方法加以解决。4. 基音与四声4.1. 基音周期与基音频率1) 基音的周期就是声带振动的周期。基音周期的倒数就是基音频率。2) 基音是与人的声带长度、质量等物理量有关。因此与人的年龄、性别、情绪等 生理状态有关。注意:音高(Pitch)与基音的关系。音高是听觉量,基音是物理量。正如冷热与温度的 关系一样。42基音的检测4.2.1.时域上的基音检测方法(1) AMDF 法:定义平均幅度差函数/(0= |5w(n + /)-5w(n)K = 0在这里

11、S0丿是加窗截取的一段语音信号。假设T为语音信号的基音周期,当l = nT , n = 1,2,时,y(/)函数接近局部极 小值。AMDF算法特点:只用到简单的加减法运算,没有使用乘法运算。适合于早期普通 的CPU,因为这种CPU的乘法操作要比加减法操作费时。(2)自相关法定义语音的自相关函数为:N-/-1/?(/)=工 SQ+ /)")71=0当l = nT , n = 1,2,时,/?“丿函数接近局部极大值。自相关法特点:在这个算法中使用了乘累加操作。在数字信号处理器中有专门的 硬件指令来快速完成(只要一个周期)这种乘累加运算。因此这种算法在DSP中得到 了普遍的应用。无论是使用

12、AMDF法或是自关法求语音信号的基音周期,都要在基音周期卩的范 围内人曲,九搜索 川)或尺"丿的极值点位置。一般取0.5-7Vn </<L5.Tniax ,先计 算所有的/(/)或/?(值,然后再搜索得到基音。图5.语音(浊音)的自相关函数和AMDF |11|线(3)屮心削波法在计算语音信号的自关函数时,为了提高效率,减少干扰,可以先对语音信号进行 中心削波,然后再计算自相关函数。根据实验观察,自相关函数/?(/)的局部峰值点位置与语音幅度的峰值点位置朿合。 根据这个特点,在自关法屮只需要计算这些峰值点位置的自关函数/?(/),然后再搜索比 较即可得到信号的基音周期。4.

13、2.2.频域上的基音检测方法在频域中,常常是用谐波分析法,即对浊音信号的谱线结构进行分析来计算得到基 音周期。注意在频域上可能不存在与基频对应的谱线。4.3.基音的平滑由于在基音的提取过程中不可避免地要产生误差,主要是基音周期减半或加倍的现 象(根据方法的不同,误差的现象会有所不同)。一般情况下90%左右的基音周期都会 被准确提取,但是总有少部分的基音是提取不准确的。因此需要采取平滑的方法去掉这 些奇异点。在语音编码和汉语四声识别屮,基音平滑直接影响到系统的性能。儿种常用基音平滑方法:(1)非线性平滑例如:采用屮值平滑。33#(2)线性平滑例如:采用FIR滤波器进行低通滤波平滑FIR滤波平滑(

14、3)组合平滑例如:(1)和(2)方法的组合34#中值平涔线性平滑#44汉语孤立字的基音调式汉语的声调起着辨字、辨义的作用。4.4.1.汉语孤立字的四声阴平一声阳平二声上尸二尸去声四声284.4.2.汉语四声与基音频率的关系对于孤立字音节的声调轨迹,一般可以分成三段:(1)弯头段:对应于音节发音开始吋的过渡段。(2)调型段:对应于音节的饱满发音过程。(3)降尾段:对应于音节结束时的过渡段。调型段在汉语四声识别中起主要作用。291 FoCHz)图6.汉语四声与棊音轨迹示意图30注1)一声的平均基音频率要高于三声的平均基音频率,一般来说三声的平均基音频 率是最小的。二声和四声较容易区分。2)在孤立字语音屮,这种调式与基音的轨迹一一对应。但是,在连续语音中,基 音与调式无明确固定的对应关系。容易因为受到协同发音的影响,调式变得更加复杂, 需要进行特殊处理。3)基音的估计对谱分析,特别是对语音合成编码起着决定性的重要作用。4.5.语音信号的端点检测在实验室较为安静的环境下,利用短吋能量和过零率特征可以得到较为满意的语音 端点检测结果。更进一步地,通过判断在语音中是否存在合理的基频值,可以过滤掉绝 大部分的非语音干扰。31N'Mn325. 作业与复习内容(1)复习语音信号在时域和频域上的特点(2)了解汉语四声与基音周期的关系。(3)编写语音端点检测算法程序。33

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1