5Vowelquadrilateral.ppt

上传人:本田雅阁 文档编号:3468617 上传时间:2019-08-30 格式:PPT 页数:35 大小:713.52KB
返回 下载 相关 举报
5Vowelquadrilateral.ppt_第1页
第1页 / 共35页
5Vowelquadrilateral.ppt_第2页
第2页 / 共35页
5Vowelquadrilateral.ppt_第3页
第3页 / 共35页
5Vowelquadrilateral.ppt_第4页
第4页 / 共35页
5Vowelquadrilateral.ppt_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《5Vowelquadrilateral.ppt》由会员分享,可在线阅读,更多相关《5Vowelquadrilateral.ppt(35页珍藏版)》请在三一文库上搜索。

1、Waveform Characteristics,语音信号幅度动态范围一般最大为40分贝,实际由于说话人的差别可以达到6070分贝。 元音幅度较大,有准周期性;清辅音幅度小,和噪声特性相似。 在长时间的语音信号中有相当多的无信号区间,即所谓的语音寂静区间。 幅度概率密度函数以零幅和近似零幅的概率高,而幅度非常高的情况概率很小。 长时平均幅度的概率密度分布可以用高斯分布、拉普拉斯分布和伽玛(Gamma)分布逼近。 对于短时幅度概率密度用高斯分布逼近就够了。,长时平均幅度的概率密度分布,语音信号相邻样值之间存在很大的相关性,短时自相关函数和长时自相关函数可以用来描述语音的幅度特性,Frequenc

2、y Characteristics,带宽有限 一般为203400Hz ,有限的带宽特性决定了可以用有限的奈奎斯特取样速率,把语音信号离散化 功率谱密度 语音中不同频谱分量的平均概率可以用长时平均谱密度来表示。 语音波形高频分量对语音总能量的贡献很小,但是高频分量带有重要的语音信息,平均功率谱约在250-500Hz处最大,而高于此频率的功率谱约以每倍频程610dB下降。 语音信号的短时频谱并不总是低通特性。辅音有较高的频谱分量,显噪声特性;元音从总体上看是低通的,显示明显的局部特性。,Voiceless and voiced,浊音(Voiced Speech ) 声带的振动产生准周期的声门脉冲激

3、励声道产生浊音; 在时域是准周期的(quasi-periodic),在频域具有谐波结构; 周期脉冲的频率就是基频(Fundamental Frequency)或基音(Pitch); 清音(Unvoiced Speech ) 当气流在声道中受到阻碍时,产生湍流,此时生成清音。 清音在时域类似随机噪声,在频域具有宽带特征; 混合音(Mixed Speech ),浊音的能谱由精细的谐波结构和共振峰结构刻画。 共振峰结构,即谱包络(Spectral Envelope) 共振峰(Formant)就是谱包络的峰值。 共振峰反应了声道的共振特性,一般人的声道有3到5个低于5kHz的共振峰。,语音信号具有很强

4、的“时变特性” 在有些段落中它具有很强的周期性,有些段落中又具有噪声特性,而且周期性语音和噪声语音也在不断变化之中。 语音信号是非平稳的,但具有“准平稳特性” 在较短的时间间隔内(一般20200ms),可以认为语音信号的特征基本保持不变。 数字语音信号处理中,通常采取短时分析技术。,时变,准平稳,准周期,带限,P为全极点滤波器的阶,其值越大,模型传输函数与声道实际传输函数的吻合程度就越大,P=812。 ak为模型的系数。 V(Z)的共振极点与语音的共振峰对应:,问:一般共振峰的数目是多少?有什么估算共振峰频率的办法?,Radiation model,R(Z)与嘴型有关,模型的内部结构并不和语音

5、产生的物理过程一致,这种模型和真实模型只是在输出处等效。 模型是“短时的”,其中G(Z)和R(Z)不变,而基音频率、清浊开关、增益、声道参数ak都是时变的; 声道参数在1030ms的范围内近似不变; 激励参数在5ms左右近似不变。 语音信号处理的两个基本问题:语音分析与合成,都是基于这个模型来实现的。 还有更复杂更精细的模型。,短时功率谱示例,语谱图,Difference between Vowels and Consonants,语言当中的音可以分为元音和辅音两大类。汉语拼音方案中的 和英语中的,等都是元音,汉语拼音的b p m f和英语中的b d g p t k等都是辅音。,一般说来,元音

6、和辅音的区别可以从下面几个方面来考虑:,1从功能上来讲,元音往往能自成音节,辅音一般不能独立地构成音节。 2在物理属性方面,元音基本上由乐音构成,辅音则有一定的噪音。 3在听觉上,发元音时,声带振动,比较响亮;发辅音时,有的声带不振动,自然不够响亮,有的声带即使振动,但由于在声腔中受到某种阻碍,还是不如元音响亮。,4在生理属性方面,主要有三个方面的区别: 第一,发辅音的时候,发音器官的某一部位形成阻碍,气流在只有克服阻碍才能发出来;发元音的时候,气流通过生门使声带发生振动,气流在其通道上不受到阻碍,只受到各种共鸣。 第二,发辅音时,因为要克服某种阻碍,气流就比较强;发元音时,因无需克服阻碍,气

7、流就比较弱。,第三,发辅音时,因为要有一定的阻碍,阻碍部位的发音器官就明显地紧张;发元音时,发音器官的紧张度并不集中于某个部位,发音器官的各部位均匀紧张。,三、元音: 要重点掌握8个基本元音。,1决定元音音质的因素:主要有三个方面的因素,一、舌位的高低,二、舌位的前后,三、嘴唇的圆展。这三个因素的不同组合,便能发出不同的元音。,2元音舌位图:a是元音的四个极点,围成一个四边形,叫做元音舌位图。变更口腔形状所能发出的绝大部分元音都在这个图的范围之内。,(1)a:前、低、不圆唇:嘴唇不圆,嘴张得最大,即开口度最大,舌头尽量往前伸,舌位最低,发出的音像“爱”(ai)里面的前一个音,国际音标标为a。

8、(2):后、低、不圆唇:嘴唇不圆,嘴张得最大,即开口度最大,舌头尽量往后缩,舌位最低,发出的音像“昂”(ang)里面的前一个音,国际音标标为。,(1)a:前、低、不圆唇:嘴唇不圆,嘴张得最大,即开口度最大,舌头尽量往前伸,舌位最低,发出的音像“爱”(ai)里面的前一个音,国际音标标为a。 (2):后、低、不圆唇:嘴唇不圆,嘴张得最大,即开口度最大,舌头尽量往后缩,舌位最低,发出的音像“昂”(ang)里面的前一个音,国际音标标为。,(3)i:前、高、不圆唇:嘴唇合拢,即开口度最小,舌头尽量往前伸,舌位最高,发出的音像“衣”(i),国际音标标为i。 (4)u:后、高、圆唇:嘴唇合拢,即开口度最小,

9、舌头尽量往后缩,舌位最高,发出的音像“乌”(u),国际音标标为u。,前、高、不圆唇 后、高、圆唇 i u a 前、低、不圆唇 后、低、不圆唇,上图中,两条竖线代表舌位前后,横线代表舌位的高低。同一条竖线上的元音,舌位的前后差不多(随着开口度的不断增大,舌位也逐步靠后,所以,两条竖线并不是竖直的,而是有点后斜,而且前面的倾斜程度要稍微大一些)。,同一条横线上的元音,舌位的高低也差不多,同样,随着舌位的逐步靠后,舌头所能达到的最高点也随之有所降低,所以,上面的那条横线有点向下倾斜。,3基本元音(cardinal vowals) (1)主要基本元音,前 最高 i u后 半高 e o 半低 最低a ,

10、在元音舌位图中的四个极端元音的基础上,可以进一步得到8个主要基本元音。,e:对于前面这条线,我们把从i到a的距离分成三等分,第一个三分之一处大致相当于汉语“梅”(mei)中的e,称为半高元音,由于发这个音时,舌位靠前,嘴唇不圆,所以这个音被称为“前半高不圆唇”元音。,:把从i到a的距离分成三等分,第二个三分之一处大致相当于英语单词“fair”中的,称为半低元音,由于发这个音时,舌位靠前,嘴唇不圆,所以这个音被称为“前半低不圆唇”元音。,o:对于后面这条线,我们把从u到的距离分成三等分,第一个三分之一处大致相当于汉语“波”(bo)中的o和法语的beaubo(美丽的),称为半高元音。由于发这个音时,舌位靠后,圆唇,所以这个音被称为“后半高圆唇”元音。,元音三角图 Vowel Triangle Diagram,i,a,u,F1,F2,300,800,2400,1200,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1