语音教学2章节语音产生及数学模型09.ppt

上传人:本田雅阁 文档编号:2401766 上传时间:2019-03-25 格式:PPT 页数:76 大小:4.47MB
返回 下载 相关 举报
语音教学2章节语音产生及数学模型09.ppt_第1页
第1页 / 共76页
语音教学2章节语音产生及数学模型09.ppt_第2页
第2页 / 共76页
语音教学2章节语音产生及数学模型09.ppt_第3页
第3页 / 共76页
亲,该文档总共76页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《语音教学2章节语音产生及数学模型09.ppt》由会员分享,可在线阅读,更多相关《语音教学2章节语音产生及数学模型09.ppt(76页珍藏版)》请在三一文库上搜索。

1、第二章 语音的产生及数学模型,2/76,一、语音处理研究的基本内容 二、人的言语(speech)过程 三、语音的发音机理 四、语音的听觉机理 五、语音信号模型 第二章 作业题,本章要点:,3/76,一、语音处理研究的基本内容,从人与计算机交互的角度来看语音信号相应的处理如下: (1)人与计算机通信(计算机接收语音信号): 语音识别与理解; (2)计算机与人通信(计算机输出语音) 语音合成:包括音乐合成和语音合成; (3)人-计算机-人通信: 人通过网络,与处于异地的人进行语音通信,需要的语音处理包括: 语音采集语音编码语音传输解码等。这里语音编/解码技术是信道利用率的关键。,4/76,说的是什

2、么内容?,是谁在说话?,计算机去说话?,语音识别,声纹识别,语音合成,一、语音信号处理研究的基本内容,6/76,7/76,语音处理,综合性的新兴学科,语音合成,教计算机学会说话,语音识别,让计算机听懂人类语言,语音编码,去除冗余压缩数据,8/76,研究内容,涉及三方面相互密切配合的任务和课题: 应用 基础理论和算法 硬件系统,9/76,1应用方面,通信产业起源于1874年电话的发明。从那时起,通信产业大致发生了三次重大变革。 (1)第一次变革产生于七十年代初。1972年CCITT组织公布了第一个语音编码标准G.711。即对数PCM编码,由此开始,数字程控交换网络逐步淘汰了传统的模拟交换传输方式

3、。,10/76,(2)第二次重大变革产生于八十年代末。 1988年欧共体13个国家数字移动特别工作组(GSM)制定了采用长时预测规则码激励的编码标准(13k bps RPE-LTP)。从而确立了全球范围移动通信产业(第二个通信网络)的崛起。,11/76,(3)第三次变革是指以新兴的计算机因特网为基础的信息高速公路为标记如何在INTERNET网上有效地传输话音。IP电话将使因特网成为第三个话音通信传输网。目前IP电话所用的话音编码标准有G.723.1、G.728、G.729等。这些标准各有长短。人们正在努力研究适合IP电话的新的编码算法。低延迟、低码率、低复杂性、高音质的话音编码算法将是未来IP

4、电话网络的奠基石。,12/76,2、基础理论和算法方面,从以下方面进行: (1)语音产生的机理(发音)和感知机理(听) 涉及心理学、语音学、语言学、认知学、神经生理学等。 (2)将语音作为一种信号来处理,13/76,常用语音编码算法分类,15/76,(3)硬件实现: 实时语音语音处理系统的产品化 。(略),16/76,分为五个阶段 : 想说阶段 说出阶段 传送阶段 接收过程 理解阶段,二、人的言语(speech)过程,17/76,图1.1 人的语言过程,18/76,人的语言过程,19/76,1、人的发音器官 组成: 肺和气管组成声源; 喉和声带称为声门; 由咽腔、口腔、鼻 腔组成声道。,三、

5、语音的发音机理,20/76,人的发音生理机构,主声道:声门以上,经咽喉、口腔、鼻道,21/76,机理示意,22/76,过程: 发音时由肺部收缩送出一股直流空气经气管流至喉头声门处; 在声门处的声带肌肉收缩,声带产生振动而且具有一定的振动周期,从而产生声音。,23/76,功能 肺:产生压缩气体,通过气管传送到声音生成系统。 喉:控制声带运动的复杂系统。 主要包括:环状软骨、甲状软骨 、杓状软骨、声带,24/76,25/76,声带是伸展在喉前、后端之间的褶肉,前端由甲状软骨支撑,后端由杓状软骨支撑,而杓状软骨又与环状软骨较高部分相联。这些软骨在环状软骨上的肌肉的控制下,能将两片声带合拢或分离。 声

6、带之间的间隙称为声门,功能主要是产生激励。,26/76,声道: 声道包括喉以上的所有发音器官。主要功能是传输调制声波。 成年男性声道的长度为17cm。当声波通过声道时,其频率高低受声腔共振的影响。这种共振与声道不同区段形状有关。,27/76,四、语音的听觉机理 听 觉 器 官,耳是听觉的外周感觉器官。听觉和保持平衡的功能. 外耳:耳廓、外耳道。 中耳:鼓膜、听小骨、咽鼓管和听小肌。 内耳:,耳蜗。,28/76,1.声音的传递:外耳、中耳 外耳的功能,(2)外耳道: 传音的通路; 增加声强:与4倍于外耳道长的声波长(正常语言交流的波长)发生共振,从而增加声强。,(1)耳廓: 利于集音; 判断声源

7、:依据声波到达两耳的强弱和时间差判断声源。,29/76,结构特点: 是一个具有一定紧张度、动作灵敏、斗笠状的半透明膜, 对声波的频率响应较好,失真度较小。,外耳道,鼓膜,镫骨,锤骨,砧骨,半规管,中耳的功能 鼓膜:,功能作用: 能如实地把声波振动传递给听小骨。,30/76,(2).听小骨: 结构特点:,由锤骨-砧骨-镫骨依次连接成呈弯曲杠杆状的听骨链。,功能作用: 传递振动,增强振压(1.3倍),减小振幅(约1/4),防止卵圆窗膜因振幅过大造成损伤。,31/76,(3).咽鼓管: 结构特点: 是鼓室与咽腔相通的管道,其鼻咽部的开口通常呈闭合状态,当吞咽、打呵欠或喷嚏时则开放。 功能作用: 调节

8、鼓膜两侧气压平衡、维持鼓膜正常位置、形状和振动性能。 咽鼓管粘膜上的纤毛运动可排泄中耳内的分泌物。,32/76,2.声波在内耳耳蜗转变为动作电位,内耳耳蜗形似蜗牛壳,蜗管腔被前庭膜和基膜分隔为三个腔:前庭阶、蜗管和鼓阶。 基膜上有螺旋器: 由内、外毛细胞、支持细胞及盖膜等构成.,33/76,当声音振动中耳听骨链振动卵圆窗振动前庭阶外淋巴+基膜上下振动:以行波方式从蜗底向蜗顶传播,同时振幅也逐渐加大,到基膜的某一部位,振幅达到最大,以后则很快衰减。 基膜的最大振幅区为兴奋区,该部位的毛细胞受到刺激而兴奋,从而引起不同音调的感觉。 耳蜗底部-高音、中部-中音、顶部-低音,高频声波,低频声波,34/

9、76,声 波,外耳道,鼓 膜,听骨链,卵圆窗,前庭阶外淋巴,基底膜,螺旋器上下振动,毛细胞的听毛弯曲,毛细胞的听毛与盖膜发生交错的移行运动,耳蜗的感音换能作用 耳蜗的功能之一是声-电转换的换能作用。,听神经动作电位,毛细胞膜上离子通透性改变,35/76,声波振动外耳(耳廓外耳道)中耳(鼓膜听小骨卵圆窗)内耳(耳蜗的内淋巴液螺旋器声-电转换)神经冲动听觉中枢听觉。,听觉的产生过程,36/76,耳蜗截面图,37/76,38/76,39/76,听觉的形成,声波,耳蜗,听神经,大脑,听觉,将振动转换成神经冲动,传递冲动,振动传声-将声波转换成振动,40/76,传导性聋 经空气径路传导的声波,受到外耳道

10、,中耳病变的阻碍,到达内耳的声能减弱,致使不同程度听力减退者称为传导性聋。,41/76,神经性耳聋 内耳听毛细胞、血管纹、螺旋神经节、听神经或听觉中枢的器质性病变均可阻碍声音的感受与分析或影响声音讯息的传递,由此引起的听力减退或听力丧失称为感音神经性聋。,42/76,五、 语音信号模型,语音信号模型的基本思想是认为任何语音都是由一个适当的激励源作用于声道而产生的,这意味着激励源与声道系统是互相独立的。有三部分作用施加在语音的声波上: 声门产生的激励模型G(z); 声道产生的调制函数V(z); 嘴唇产生的辐射函数R(z)。 语音信号的传递函数由这三个函数级联而成,即: H(z)=G(z)V(z)

11、R(z),43/76,激励过程 (声门),调制过程 (声道),语音辐射,人的发声过程包括三个步骤: 声门/声带产生不同频率的声音 (准周期气流脉冲或白噪声) 声道对声源的调制作用,44/76,语音信号的产生数学模型,激励模型 声道模型 辐射模型,45/76,1、语音类型,压缩空气通过声门激励声道滤波器,根据激励方式不同发出的话音分成三种类型: 浊音(voiced sounds) 清音(unvoiced sounds) 爆破音(plosive sounds),46/76,话音的分类,浊音(voiced sounds):声道打开,声带在先打开后关闭,气流经过使声带要发生张驰振动,变为准周期振动气流

12、。浊音的激励源被等效为准周期的脉冲信号。 清音(unvoiced sounds):声带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信号。 爆破音(plosive sounds):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。,清音:纯粹由气流受阻构成,声带不振动,不带乐音。普通话中包括b、p、f、d、t、g、k、h、j、q、x、zh、ch、sh、z、c、s,共17个。,浊音:除气流受阻以外,声带振动,带乐音。普通话中包括m、n、l、r,共4个。,爆破音p b t d k g.,47/76,(1)

13、、发浊音情况,空气流经过声带时,如果声带是崩紧的,则声带将产生张弛振动,即声带将周期性地启开和闭合。声带启开时,空气流从声门喷射出来,形成一个脉冲,声带闭合时相应于脉冲序列的间隙期。因此,这种情况下在声门处产生出一个准周期脉冲状的空气流。该空气流经过声道后最终从嘴唇辐射出声波,这便是浊音语音。这个准周期脉冲的周期即为基音周期。男性的基语音率一般为50250Hz,女性基语音率为100500Hz。,48/76,49/76,(2)、发清音情况,空气流经过声带时,如果声带是完全舒展开来的,则肺部发出的空气流将不受影响地通过声门。空气流通过声门后,会遇到两种不同情况。一种情况是,如果声道的某个部位发生收

14、缩形成了一个狭窄的通道,当空气流到达此处时被迫以高速冲过收缩区,并在附近产生出空气湍流,这种湍流空气通过声道后便形成所谓摩擦音或清音。另一种情况是,如果声道的某个部位完全闭合在一起,当空气流到达时便在此处建立起空气压力,闭合点突然开启便会让气压快速释放,经过声道后便形成所谓爆破音。,50/76,2、 语音生成,下图为语音生成的机理模型。空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,这就形成了语音。在声门(声带)以左,称为“声门子系统”,它负责产生激励振动;右边是“声道系统”和“辐射系统”。当发不同性质的语音时,激励和声道的情况是不同的,它们对应的模型也是不同的。,51/76,发音器

15、官机理模型,52/76,3、 二元激励模型,l 发浊音时,由于声门不断开启和关闭,产生间隙的脉冲。经仪器测试它类似于斜三角形的脉冲。,53/76,54/76,由图可以看出单个斜三角波的频谱G(ej)表现出一个低通滤波器的特性。可以把它表示成z变换的全极点形式: 因此,作为激励的斜三角波串可以用一串加了权的单位脉冲序列去激励上述单位斜三角波模型实现。这个单位脉冲串和幅值因子可以表示成下面的Z变换形式,55/76,所以浊音激励模型可表示为 在发清音的场合,声道被阻碍形成湍流。所以可以模拟成随机白噪声。,56/76,4、 声道模型,典型的声道模型有两种。即:共振峰模型和无损声管模型。通过两种方法得到

16、的数字模型本质上没有区别。 (1) 共振峰模型 当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,一般把它叫作共振峰,如下图。,57/76,58/76,从物理声学可以容易推导出均匀断面的共振峰频率。例如对成人声道17cm长,其共振频率计算公式为: i是共振频率的序号,c为声波的速度,L为声管长度。按此算出前三个共振频率为:F1=500Hz ,F2=1500Hz ,F3=2500Hz 。由于发音时,声道的形状很少是均匀断面的。因此必须通过语音信号来计算共振峰。,59/76,一个二阶谐振器的传输函数可以写成 实践表明,用前三个共振峰代

17、表一个元音足够了。多个Vi叠加可以得到声道的共振峰模型:,60/76,(2) 无损声管模型,无损声管模型是假定声道由多个等长的不同截面积的管子串联而成的系统,并假定管子中的流体及管壁没有热传导和粘滞的损耗。在短时间内,声道可表为形状稳定的管道,并可以认为声波是沿管轴传播的平面波,如图所示。,61/76,可以把声道视作截面积变化的管子,研究声音沿管道是怎样传播的,62/76,63/76,对于N个无损声管级联的情况,通过数学推导和归纳法,忽略系统延迟,可得到无损声管的传递函数为:,64/76,5、 辐射模型,从声道模型输出的是速度波ul (n),而语音信号是声压波Pl(n)。二者倒比称为辐射阻抗Z

18、l,它表征口唇的辐射效应。如果认为口唇张开的面积远远小于头部的表面积,利用单板开槽辐射的处理方法,可以得到辐射阻抗, r近似为1,65/76,由辐射引起的能量损耗正比于辐射阻抗的实部R(z),其频响曲线表现出一阶高通滤波器的特性。在实际信号分析时,常用所谓预加重技术,即:在取样之后加入一个一阶高通滤波器。这样,模型只剩下声道部分,对参数分析就方便了。在语音合成时再进行解加重处理。常用的预加重因子为,这里R(n)是信号S(n)的自相关函数,对浊音R(1)R(0)1,对清音该值可取得很小。,66/76,6、 语音产生的数字模型,下图出了语音产生的数字模型。它包括三部分:激励模型、声道模型和辐射模型

19、。 激励源分浊音和清音两个分支,按照浊音/清音开关所处的位置来决定产生的语音是浊音还是清音。,67/76,68/76,7、模型局限性,数字模型的基本思想是认为任何语音都是由一个适当的激励源作用于声道而产生的,这意味着激励源与声道系统是互相独立的。上述假定对于大多数语音是合适的,但在有些情况下,例如某些瞬变音,实际上声门和声道是互相耦合的,这便形成了这些语音的非线性特性。,69/76,并非任何语音都能够明显地按清音和浊音来划分,有的音甚至也不是清音和浊音的简单叠加。这种将语音信号截然分为周期脉冲激励和噪声激励两种情况的“二元激励”法在高质语音的合成中是不适用的。,7、模型局限性,70/76,一种

20、更精确的域音产生模型,71/76,电话是如何发明的,亚历山大格拉汉姆贝尔(Alexander Graham Bell,1847-1942)美国发明家和企业家。他发明了世界上第一台可用的电话机,创建了贝尔电话公司。被誉为“电话之父”。 1847年生于英国苏格兰,他的祖父亲毕生都从事聋哑人的教育事业,由于家庭的影响,他从小就对声学和语言学有浓厚的兴趣。开始,他的兴趣是在研究电报上。有一次,当他在做电报实验时,偶然发现了一块铁片在磁铁前振动会发出微弱的声音,而且他还发现这种声音能通过导线传向远方。这给贝尔以很大的启发。他想,如果对着铁片讲话,不也可以引起铁片的振动吗?这贝尔关于电话的最初构想。,72

21、/76,电话是如何发明的,73/76,电话是如何发明的,为了纪念贝尔的功绩,将电学和声学中计量功率或功率密度比值的一种单位命名为“贝尔”。 由于贝尔1876年3月10日所使用的这部电话机的送话器,在原理上与另一位电话发明家菲利浦格雷(德国科学家)的发明雷同,因而格雷便向法院提出起诉。一场争夺电话发明权的诉讼案便由此展开,并一直持续了十多年。最后,法院根据贝尔的磁石电话与格雷的液体电话有所不同,而且比格雷早几个小时提交了专利申请等这些因素,作出了现在大家已经知道结果的判决,电话发明权案至此画上句号。,74/76,共振峰频率或共振峰,当声音产生后,便沿着声道进行传播。声道可以看成是一根具有非均匀截面的声管,在发音时起着共鸣器的作用。声音进入声道后,其频谱必定会受到声道的共振特性的影响,声道具有一组共振频率,称为共振峰频率或共振峰。声道的频谱特性便主要地反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。,75/76,第二章 作业题,1发音器官的组成及功能。 2语音的产生过程。 3声门、声道、浊音、清音、基音周期、共振峰。,76/76,4语音信号模型由哪三部分组成? 5典型的两种声道模型,共振峰概念。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1