病理嗓音时频分析的研究 毕业论文.doc

上传人:哈尼dd 文档编号:3958482 上传时间:2019-10-11 格式:DOC 页数:18 大小:728.02KB
返回 下载 相关 举报
病理嗓音时频分析的研究 毕业论文.doc_第1页
第1页 / 共18页
病理嗓音时频分析的研究 毕业论文.doc_第2页
第2页 / 共18页
病理嗓音时频分析的研究 毕业论文.doc_第3页
第3页 / 共18页
病理嗓音时频分析的研究 毕业论文.doc_第4页
第4页 / 共18页
病理嗓音时频分析的研究 毕业论文.doc_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《病理嗓音时频分析的研究 毕业论文.doc》由会员分享,可在线阅读,更多相关《病理嗓音时频分析的研究 毕业论文.doc(18页珍藏版)》请在三一文库上搜索。

1、病理嗓音时频分析的研究摘要本文是在时频域中对正常嗓音和病理嗓音进行研究,为了能够更好的识别病理嗓音。采用了短时傅里叶变换,连续小波变换,小波包分析三种方法进行研究,利用MATLAB和上述三种方法得到了实验结果。因此得出如下结论:短时傅里叶变换时病理嗓音信号的高能量部分往高频区域迁移,连续小波变换时病理嗓音信号的小波系数幅值显著下降,小波包分析时分解层数越大识别率越高。关键词:病理嗓音,语音信号处理,时频分析,小波变换,小波包分析第一章 绪论第一节 引言言语是人们最常用、最便利、最基本的交流工具。嗓音则是指声带产生的一种复杂的、动态的过程,使人们能够发出声音以及进行言语交流活动。嗓音既是一种必要

2、的言语交流工具,同时也用来进行情绪表达和艺术创造。像歌剧演员、歌唱家、教师、行政人员以及销售人员等都将嗓音作为他们的职业工具,没有嗓音的功能,这些职业也就不存在了1。随着社会生活节奏的加快,人们生活的不规律,嗓音疾病越来越多。其最直接的表现就是言语障碍,言语障碍主要分为嗓音障碍、构音障碍以及语音障碍2。常见的嗓音疾病主要有:声带囊肿,声带小结,声带麻痹,声带息肉等。本文主要是对嗓音障碍进行研究,语音信号的分析有许多的方法,时域分析和频域分析是两种重要的方法,但两种单独分析的方法均有其局限性3。为了避免此两种方法的局限性,因此本文主要才时频分析方法对病理嗓音信号进行分析,提取有关声学参数,然后与

3、正常嗓音信号进行对比。最终得出病理嗓音信号的参数特征。第二节 病理嗓音时频分析的研究意义近半个世纪以来,随着现代电子和计算机技术的发展,除主观应用听觉判定之外,客观的嗓音测试已应用于临床,采用电子计算机仪器测量如基频、音强、谐噪比频率微扰、振幅微扰等嗓音的各种参数进行分析,可对嗓音进行客观的定量评价。病理嗓音的时频分析的研究是为了更好的从声学角度去分析嗓音疾病,使我们对病理嗓音的诊断更加可靠,准确。我国地域辽阔,自然条件差异较大,嗓音疾病有较高的发病率。不断提高嗓音疾病的诊疗水准,满足全社会日益增长的对嗓音康复保健工作的需求,有必要整合资源,集中力量,明确我们下一步发展目标,更好地团结全国同道

4、,进行更广泛的交流和合作,促进我们国家的嗓音和嗓音医学研究健康发展,取得更大进步5。第三节 病理嗓音时频分析的研究进展目前,相对于国外的研究水平而言,我国言语嗓音病理学基础研究的薄弱主要体现在言语嗓音病理的研究对象、研究工具和研究方法上。国内的嗓音研究主要还是集中在嗓音质量的主观心理听觉感知评估与客观声学检测分析及相关比较研究,在参数的比较研究中,嗓音参数要具有很强的针对性,要有生理、病理和物理意义,紧密的联系于嗓音的产生机制,但由于研究工具大部分都来自国外,参数的具体来源、处理方法和意义并不为广大的研究工作所熟知。所以导致了嗓音研究在基础领域上聚焦到了大样本的临床统计实验上,而忽略参数本身的

5、实验研究。在嗓音的研究方法上还是停留于主客观的比较研究和参数分析方面,没进入到病理言语嗓音的生成模型上,国内很少有研究人员对病理嗓音进行分析、合成和感知的实验验证,导致国内嗓音研究的理论水平停滞不前。正如(Coker,1972)所说的,“如今,未经分析合成验证实验,没有一个人敢于发表言语产生方面的重要理论。”本文主要是从时频角度对病理嗓音进行研究,目前有的时频分析方法主要有:短时傅里叶变换,小波变换,Wigner-Ville分布,Cohen类时频分布等方法。第二章 语音信号处理的基础知识第一节 语音产生原理2.1.1 语音发音的生理结构人的发音器官包括:肺,气管,喉(包括声带),咽,鼻和口。这

6、些器官共同形成一条形状复杂的管道。喉的部分称为声门。从声门到嘴唇的呼气通道叫做声道。声道的形状主要由嘴唇,颚和舌头的位置来决定,由声道的形状不断改变,而发出不同的语音。语音是从肺部呼出的气流通过在喉头至嘴唇的器官的各种作用而发出的。作用的方式有三种。第一是把从肺部呼出的直气流变为音源即变为交流的断续流或者乱流。第二是对音源起共振和反共振的作用,使它带有音色。第三是从嘴唇或者鼻孔向空间辐射的作用。因此,与发出语言声音有关的各器官叫做发音器官。图2.1所示为发音器官的部位和名称。在发音器官中最重要的部分是喉,喉是有许多软骨组成的。突出在颈部的喉结成为甲状软骨,喉的顶部是会厌软骨。会厌软骨的作用是:

7、在吞咽食物时不让它进入气管。对发音影响最大的是从喉至杓状软骨之间的韧带褶,成为声带。声带的长度仅约10-14mm,比指甲还小。呼吸时左右两声带打开,讲话时则合拢起来。而声带之间的部位称为声门。声门的开启和关闭是由两个杓状软骨控制的,他使声门呈形状开启或者关闭。图 2.1 发音器官和名称 图 2.2 声门开度控制情况2.1.2 发音原理人在讲话时声带合拢因而受声门下气流的冲击而张开;但声带韧性迅速地闭合,随后又张开与闭合,这样不断地重复。不断地张开与闭合的结果,使声门向上送出一连串喷流而形成一系列脉冲。上图 2.2显示声门开闭度的控制情况。声带每开启和闭合一次的时间即声带的振动周期就是音调周期或

8、基音周期。它的倒数称为基音频率。人在说话时,声门处气流冲击声带产生振动,然后通过声道响应变成语音。由于发不同音时,声道的形状不同,所以能够听到不同的语音。声道的形状主要由嘴唇,颚和舌头的位置来决定。第二节 语音信号的数学模型这一节将讨论语音信号生成的数学模型,所谓建立数学模型就是要寻求一种可以表达一定物理状态下量与量之间关系的数学表示。建立语音信号的数学模型,才能够用计算机来定量地对语音信号进行模拟和处理。所以语音信号生成的数学模型是语音信号处理的基础。由于语音信号是非平稳随机过程,其特性是随着时间变化的,所以模型中的参数应该是随时间而变化的。但语音信号特性随着时间变化是很缓慢的。所以可以做出

9、一些合理的假设,将语音信号分为一些相继的短段进行处理,在这些短段中可以认为语音信号特性是不随着时间变化的平稳随机过程。这样在这些短段时间内表示语音信号时,可以采用线性时不变模型。因此语音信号的数学模型主要与激励模型,声道模型和辐射模型有关。2.2.1 激励模型激励模型一般分为浊音激励和清音激励。发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波。这个脉冲波的波形类似于斜三角形的脉冲,它的数学表达式如下: (2-1)式中,为斜三角波的上升部分的时间,为其下降部分的时间。发清音时,无论是发阻塞音或摩擦音,声道都被阻碍形成湍流。所以可把清音激励模型模拟成随机的白噪声。2.2.2 声道模型关于声道部

10、分的数学模型,有很多种,目前最常用的有两种建模方法。一是吧声道视为由多个等长的不同截面积的管子串联而成的系统。按此观点推导出的叫“声管模型”。另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”,共振峰就是这个腔体的谐振频率。从物理声学观点,可以推导出均匀断面的声管的共振频率。一般成人的声道约为17cm长,因此算出其开口的共振频率为: (2-2)这里=1,2,为正整数,表示共振峰的序号,为声速,为声管长度。2.2.3 辐射模型从声道模型输出的是速度波,而语音信号是声压波,二者之倒比称为辐射阻抗。它表征口唇的辐射效应,也包括圆形的头部的绕射效应等。当然从理论上推导这个阻抗是有困难的。但是如

11、果认为口唇张开的面积远小于头部的表面积,则可近似地看成平板开槽辐射的情况。此时,可推导出辐射阻抗的公式如下: (2-3)式中,这里,是口唇张开时的开口半径,是声波传播速度。综上所述,完整的语音信号的数学模型可以用三个子模型:激励模型,声道模型和辐射模型的串联来表示。第三节 语音信号的传统声学参数语音信号的声学参数主要有以下几个:1、基频(Fo):是指每秒钟声带振动的次数,单位是赫兹(Hz),正常男性的基频:约130Hz;正常女性的基频;约250Hz;正常儿童的基频:约340Hz。决定基频的三大因素:(1)声带振动部分的长度:当声带的振动部分越短,基频越大,音调越高。(2)声带组织的张力:当声带

12、组织的张力增高时,造成声带组织紧张,基频增加,音调增高, (3)声带质量的大小:当声带质量增加时,基频减小,音调降低。基频的常用提取算法有:自相关函数()法,峰值提取算法(),平均幅度差函数()法,并行处理技术,倒谱法,,谱图法,小波变换法等等。 自相关法语音信号经窗长为的窗口截取一段加窗语音信号后,定义的自相关函数()(亦即语音信号的短时自相关函数)为: (2-4)平均幅度差函数法()语音信号的短时平均幅度差函数()定义为: (2-5)并行处理技术()方法运用并行处理技术检测基音周期的方法的基本思想是:对经过处理的语音信号实施一系列的基音初步检测,或分别对原始信号和经处理后的信号实施系列检测

13、,然后根据系列检测的初步结果,综合判断基音周期。倒谱()法倒谱法是传统的基音周期检测算法之一,它利用语音信号的倒谱特征,检测出表征激励周期的基音信息。2、声门噪声能量():是指在发音过程中声门漏气所产生的扰动噪声的程度。单位是dB。正常值小于10dB。噪声能量在区分病理和正常嗓音时更有效,是判定嘶哑轻重的重要指标,直接反映了声带的闭合程度。3、谐噪比()是谐音成分与噪音成分的比较。正常人男女之间无显著差异,是判定嘶哑轻重的重要指标。据统计,病态嗓音治疗前有632在74dB以下,治疗后增大,因此,对治疗的定量评价有意义,能将23病人与正常者区分开来4。以上是有关语音处理的一些基础知识,下文着重介

14、绍语音信号分析的方法。第三章 语音信号的时域和频域分析第一节 语音信号的时域分析语音信号的时域分析就是分析和提取语音信号的是与参数。进行语音分析时,最先接触到并且也是最直观的是它的时域波形。语音信号本身就是时域信号,因而时域分析通常是最早使用,也是应用最广泛的一种方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析及应用,如语音的分割,预处理,大分类等。这种分析方法的特点是:表示语音信号比较直观,物理意义明确。实现起来比较简单,运算量少。可以得到语音的一些重要参数。只使用示波器等通用设备,使用较为简单。语音信号的时域参数有短时能量,短时过零率,短时自相关函数和短时平均幅度

15、差函数等,这是语音信号的一组最基本的短时参数。针对这些参数,语音信号的时域分析一般有以下步骤。3.1.1 语音信号的采集和处理在将语音信号进行数字化前,必须先进行防混叠预滤波,预滤波的目的有两个:抑制输入信导各领域分量中频率超出fs/2的所有分量(fs为采样频率),以防止混叠干扰。抑制50Hz的电源工频干扰。这样,预滤波器必须是一个带通滤波器。为了将原始模拟语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。采样也称抽样,是信号在时间上的离散化,即按照一定时间间隔t在模拟信号x(t)上逐点采取其瞬时值。采样时必须要注意满足奈奎斯特定理,即采样频率fs必

16、须以高于受测信号的最高频率两倍以上的速度进行取样,才能正确地重建波形它是通过采样脉冲和模拟信号相乘来实现的。语音信号经过预滤波和采样后,由AD变换器变换为二址制数字码。这种防混叠滤波通常与模数转换器做在一个集成块内,因此目前来说,语音信号的数字化的质量还是有保证的。市面上购买到的普通声卡在这方面做的都很好,语音声波通过话筒输入到声卡后直接获得的是经过防混叠滤波、A/D变换、量化处理的离散的数字信号。3.1.2 语音信号的时域分析设语音波形时域信号为、加密分帧处理后得到的第帧语音信号为,则满足下式: (3-1) (3-2)其中,n0,1T,2T,并且N为帧长,T为帧移长度。设第n帧语音信号的短时

17、能量用表示,则其计算公式如下: (3-3)是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即它对高电平非常敏感(因为它计算时用的是信号的平方)。为此可采用另一个度量语音信号幅度值变化的函数即短时平均幅度函数,它定义为: (3-4)也是一帕语音信号能量大小的表征,它与En的区别在于计算时小取样值和大取样值不会因取平方而造成较大差异,在某些应用领域呻会带来一些好处。 短时能量和短时平均幅度函数的主要用途有:可以区分浊音段与清音段,因为浊音时En值比清音时大的多。可以用来区分声母与韵母的分界,无声与有卢的分界,连字(指字之间无间隙)的分界等。作为一种超音段信息,用于语音识别中。短时过零率表示一帧

18、语音中语音信号波形穿过横轴(零电平)的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零即意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。定义语音信号的短时过零率为: (3-5)式中,sgn 是符号函数,即: (3-6)在实际中求过零率参数时,需要十分注意的一个问题是如果输入信号中包含有50Hz的工频干扰或者A/D变换器的工作点有偏移(这等效于输入信号有直流偏移),往往会使计算的过零率参数很不准确。为了解决前一个问题,A/D变换器前的防混叠带通滤波器的低端截频应高于50Hz,以有效地抑制电源干扰。对于后一个问题除了可以

19、采用低直流漂移器件外,也可以在软件上加以解决,这就是算出每一帧的直流分量并予以滤除。对语音信号进行分析,发现发浊音时,尽管声道有若干个共振峰,但由于声门波引起谱的高频跌落,所以其话音能量约集中在3kHz以下。而发清音时,多数能量出现在较高频率上。高频就意味着高的平均过零率,低频意味着低的平均过零率,所以可以认为浊音时具有较低的过零率,而清音时具有较高的过零率。当然,这种高低仅是相对而言,并没方精确的数值关系。 利用短时平均过零率还可以从背景噪声中找出语音信号,可用于判断寂静无声段和有声段的起点和终点位置。在孤立词的语音识别中,必须要在一连串连续的语音信号中进行适当分割,用以确定一个一个单词的语

20、音信号,即找出每一个单词的开始和终止位置,这在语音处理中是一个基本问题。此时,在背景噪声较小时用平均能量识别较为有效,而在背景噪声较大时用平均过零率识别较为有效。但是研究表明,在以某些音为开始或结尾时如当弱摩擦音 (如f、h等音素)、弱燃破音(如p、t、k等音素)为语音的开头或结尾;以鼻音(如n、 m等音素)为语音的结尾时只用其中一个参量来判别语音的起点和终点是有困难的,必须同时使用这两个参数。第二节 语音信号的频域分析语音信号的频域分析就是分析语音信号的频域持征。从广义上讲,语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱、频谱包络分析等,而常用的频域分析方法有带通滤波器组法、傅里叶变换

21、法、线件预测法等几种。本文介绍的是语音信号的傅里叶分析法。因为语音波是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅里叶变换不能用来直接表示语音信号,而应该用短时傅里叶变换对语音信号的频谱进行分析,相应的频谱称为“短时谱 ”2.3.1利用短时博里叶变换求语音的短时谱 对第n帧语音信号进行傅里叶变换(离散时域傅里叶变换,DTFT),可得到短时傅里叶变换,其定义如下: (3-7)由定义可知,短时傅里叶变换实际就是窗选语音信号的标准傅里叶变换。这里,窗w(n-m)是一个“滑动的”窗口,它随n的变化而沿着序列X(n)滑动。由于窗口是有限长度的,满足绝对可和条件,所以这个变换是存在的。当然窗

22、口函数不同,博里叶变换的结果也将不同。我们还可以将式(327)写成另一种形式。设语音信号序列和窗口序列的标准傅早叶变换均存在。当n取固定值时,的傅里叶变换为: (3-8)根据卷积定理有 (3-9)因为上式右边两个卷积项均为关于角频率w的以2为周期的连续函数,所以也可将其写成以下的卷积积分形式: (3-10)即,假设x(m)的DTFT是,且的DTFT是,那么是和的的周期卷积。根据信号的时宽带宽积为一常数这一基本性质,可知主瓣宽度与窗口宽度成反比,N越大,的主瓣越窄。由式(3-30)可知,为了使忠实再现的特性相对于来说必须是个冲激函数。所以为了使,需;但是N值太大时,倍号的分帧又失去了意义。尤其是

23、N大于语音的音素长度时,已不能反映该语音音素的频谱了。因此应折衷选择窗的宽度N。另外,窗的形状也对短时博氏频谱有影响,如矩形窗,虽然频率分辨率很高(即主辩狭窄尖锐),但由于第一旁瓣的衰减很小,有较大的上下冲,采用矩形窗时求得的与的偏差较大,这就是Gibbs效应,所以不适合用于频谱成分很宽的语音分析中。而汉明窗在频率范围中的分辨率较高,而且旁辩的衰减大,具有频谱泄漏少的优点所以在求短时频谱时一船采用具有较小上下冲的汉明窗。与离散傅里叶变换和连续博里叶变换的关系一样,如令角频率w=2kN,则得离散的短时博里叶变换(DFT)它实际上是在频域的取样,如下所示: (3-11)在语音信号数字处理中,都是采

24、用的离散博里叶变换(DFT)来替代并且可以用高效的快速傅里叶变换(FFT)算法完成由至的转换。当然,这时窗长N必须是2的倍数 (L是整数)。根据傅里叶变换的性质,实数序列的傅里叶变换的频谱具有对称性,因此,全部频谱信息包含在长度为N/2+1个里。另外,为了使具有较高的频率分辨率,所取的DFT以及相应的FFT点数应该足够多,但有时的长度N要受到采样率和短时性的限制。在语音信号数字处理中,功率谱具有重要意义,在一些语音应用系统中往往都是利用语音信号的功率谱。根据功率谱定义,可以写出短时功率谱与短时傅里叶变换之间的关系: (3-12)或者: (3-13)式中表示复共轭运算。并且功率谱是短时自相关函数

25、的傅里叶变换。 (3-14)第四章 语音信号的时频分析语音信号都是时变非平稳的,时频分析作为分析时变非平稳信号的有力工具,成为现代信号处理研究的一个热点。这种分析方法提供了时间域与频率域的联合分布信息,清楚地为我们描述了信号频率随时间变化的关系。时频分析的主要方法有短时傅里叶变换,小波变换,Wigner-Ville分布,Cohen类时频分布等方法。本论主要是利用小波变换方法和快速傅里叶变换方法来研究病理嗓音在时频域的特征,并结合MATLAB程序设计语言来研究其应用。主要对正常嗓音,声带息肉,声带小结,声带麻痹等病理嗓音的实验结果进行比较。4.1 嗓音信号处理的过程语音障碍的识别的第一步是对语音

26、信号异常特征的认识。因此,在这项研究中,我们研究的正常嗓音信号及病理嗓音的时频分析采用了短时傅里叶变换和连续小波变换。之后,在上述分析的基础上,提供喉部异常的初步诊断。小波包变换方法有强大的特征提取策略。根据上述叙述,整个过程的框图如下图4.1所示:识别特征提取:小波包系数能量和熵预处理语音样本正常的和病理的图 4.1 嗓音信号处理的过程4.2 短时傅里叶变换短时傅里叶变换分析结果连续小波变换分析结果正常或者病理嗓音1946年Gabor提出了短时傅里叶变换(STFT),用以测量声音信号的频率定位,对于信号的短时傅里叶变换定义为 (4-1)其中为被分析的信号,为窗函数。短时傅里叶变换的基本思想是

27、用窗函数来截取信号,假定信号在窗内是平稳的,采用傅里叶变换分析窗内的信号,以确定窗内存在的频率成分,然后沿着信号时间方向移动窗函数,得到频率随时间的变化关系,及所需的时频分布。如下图4.2所示为正常语音信号和常见病理嗓音(声带息肉,声带麻痹,声道水肿,声带小结)的短时傅里叶变换的结果: (a)声带息肉嗓音时频谱 (b)正常嗓音时频谱(c)声带小结嗓音时频谱 (d)声带麻痹嗓音时频谱图4.2 嗓音信号短时傅里叶变换图从上图可以看出:与正常嗓音时频谱相比较,病理嗓音的时频谱中高能量部分已经转移到高频率区域。同时,由于病理嗓音中异常噪声的存在引起中间频率分量比正常的声音和突然发生的非周期性谱更强。这

28、些现象是嗓子严重受损的结果。另一方面,由于增加了声音嘶哑,噪声在频谱的增加和更重在第一共振峰浓度出现。上图还表明:低频率成分,包括了病理性的声音的第一和第二共振峰。由于第一共振峰与人的说话息息相关,所以可以直接解释为声带的损伤。4.3 连续小波变换法国地球物理学家Morlet发现地震信号在低频端应该具有较高的频率分辨率,在高频端频率分辨率可以较低。根据这一特点,由Meyer和Grossman等共同发展了小波变换方法,这是一种多分辨率分析方法。小波变换定义为: (4-2)其中为尺度参数,为一个时间、频率均局部化了的带通函数。对复小波而言,母小波可表示为,其中为小波的中心频率,为一低通函数。小波变

29、换与短时傅里叶变换有很大的相似性。区别仅在于观察信号的不同频率分量,小波变换使用了不同宽度的窗函数。其实质是将信号向一系列小波基函数上投影,即用一系列小波基函数去逼近信号。是一种时间尺度分析方法,克服了的窗函数不可改变的缺陷,可以有效聚焦信号的瞬时结构。小波变换不仅具有的优点,而且满足了变窗处理的要求,具有良好的时频局域化特性,具有更好的时频特性窗口。但是,对时频平面的划分是机械式的,不具备自适应的特点;引入的尺度因子与频率没有直接的联系,只是在时间-尺度二维平面分析信号,频率没有表现出来,因此的结果不是一种真正的时频谱。下图4.3所示为利用小波变换对正常嗓音和病理嗓音的时频分析结果。(a)正

30、常嗓音时频谱 (b)声带息肉嗓音时频谱 (c)声带小结嗓音时频谱 (d)声带麻痹嗓音时频谱图4.3 嗓音信号连续小波变换图连续小波分析给我们提供了将突然的病理特征的非平稳的语音信号绘制到一个更明确的时频空间的能力。为了这个目的,连续小波变换应用于正常和病理的元音分析。从上图可以看出:通过对正常话音信号和病理嗓音的连续小波系数的分布的比较,很明显,病理信号的小波系数幅值显著下降。另外,如图所示。因为在声带病变和随后的噪声的语音信号中存在一样的成分,小波系数分布在相应的扩展的带谱频带中。大约所有声带疾病相关的声音中,声带振动的规律受到振幅振动和基频扰动的严重干扰。4.4 特征提取程序 很明显,在与

31、声带相关的嗓音疾病中,语音信号的频谱分布不规则,周期缺失,降低了预计语音波形的强度。病理性语音由于噪声因素的存在,其在不同子频带下的能量分布与正常嗓音相比有着高度的不规则性。根据这些事实,小波包变换作为特征提取的方法,小波包变换类似于对波形分形,它将会得出在明确区分模式方面最好的结果。下图4.4为连续小波变换与小波包分析方法的比较。4.5小波包分析小波包分析考虑了语音信号在时域和频域的准确详细信息。小波包结构给出了提出小波包树节点的能力,在节点处每个子带被分成了具有相同频率范围的更小的子带。分层的小波包变换使用了小波函数族和与它们相关的尺度函数来把原始信号分解成连续的子频带。分解过程是递归地应

32、用于低频和高频带来生成下一级的层次。如果选定了一个小波基,那么估计系数将会独立而且将会得出不同组的特征向量。从一个离散的输入信号开始,第一阶段的快速小波变换算法()把信号分解成两个系数集。近似系数和详细系数cD1. 小波包分解()是一种小波变换,信号通过比离散小波变换()更多的滤波器。然而在WPD中,详细系数和近似系数都被分解了。对于n级的分解,小波包分解将会产生个不同的系数集,想比与离散小波变换只能产生个系数集。在方法上类似于小波系统,小波包可以用下列基本函数进行描述。图 4.4 连续小波变换和小波包分析比较图 (4-3) (4-4)其中,P是规模指数,是变换指数,h是低通滤波器g是高通滤波

33、器如下式所示: (4-5)其中K是滤波带宽长度。因此,由于正交特性,一个离散信号在不同位置和不同规模的小波包系数可以通过下式有效地计算出。 (4-6) (4-7) (4-8)因此,对于一组小波包系数,能量特征,在对应的子频带中课通过下式计算 (4-9)同时,使用提取的小波包系数可以计算夏侬熵,通过下式计算 (4-10)熵评价的的信息的数量和速度可以作为衡量病理嗓音的指标,这些信息是由病菌因素产生的。因此,夏侬熵可以测量语音信号在时域的自相关值,而且可以推断出声带不规则损伤的信息。小波包分析比离散小波分析更灵活,因为细节被分成了更小的子带,如近似值等。基于小波包分析有许多的基(在向量空间),它能

34、得到语音信号在时频域的更多细节,尤其是对于病理语音。下图为小波包分析的结果:图4.5 病理嗓音小波包分析图从上图可知,随着分解层数的增加,识别率越来越高。第五章 结论本文应用了短时傅里叶变换,连续小波变换,小波包分析三种方法对病理嗓音进行时频分析。得到如下结论:短时傅里叶变换方法中,与正常嗓音时频谱相比较,病理嗓音的时频谱中高能量部分已经转移到高频率区域连续小波变换方法中,通过对正常话音信号和病理嗓音的连续小波系数的分布的比较,很明显,病理信号的小波系数幅值显著下降小波包分析方法中,随着分解层数的增加,识别率越来越高。参考文献1 周林灿,病理嗓音的声学分析和合成,2011,1-22 于萍,语言

35、病理学,2005年全国喉科嗓音言语医学学术研讨会,2005,503 赵力主编,语音信号处理,北京:机械工业出版社,2003,1-274 李云英,嗓音声学检测及临床应用,5 韩徳民,嗓音医学及言语病理学的发展,20076 魏巍MATLAB应用数学工具箱技术手册M国防工业出版社2004,l.7 马世伟. 非平稳信号的参数自适应时频表示及其应用的研究M.上海:上海大学出版社.2000.8 董建华,顾汉明,张星.几种时频分析方法的比较及应用J.工程地球物理学报,2007,4.9 刘崇春,裘正定,杜锡钰. 小波变换理论及其在信号处理中的应用J. 北方交通大学学报, 1997,30(5):6786.10

36、Meisam Khalil Arjmandi,Mohammad Pooyan,An optimum algorithm in pathological voice quality assessment using wavelet-packet-based features,linear discriminant analysis and support vector machine11 陈雨红,几种时频分析方法比较,地球物理学进展,2006 12,1180-118512 蔡青 陶泽璋 杨强,发不同元音时嗓音声学分析参数的比较,临床耳鼻咽喉科杂志,2001 413 刘庆云 李志舜 刘朝晖,时频分

37、析技术及研究现状,计算机工程,2004 114 BeneditoG.AguiarNeto SilvanaCunhaCosta JoseanaM.Fechine MenakaMuppa,Feature Estimation for Vocal Fold Edema Detection Using Short-Term Cepstral Analysis15 胡昌华等. 基于 Matlab 的系统分析与设计-时频分析M. 西安:西安电子科技大学出版社. 2002.16 邹红星,周小波,李衍达.时频分析:回溯与前瞻J.电子学报,2000,28(9):7892.17 王宏禹. 非平稳信号分析与处理M. 北京:国防工业出版社. 1999.18 颜景斌 基于连续小波和支持向量机的病态嗓音检测. 电脑与信息技术. 2008. 16. 3.21-22.19 陈仲生基于MATLAB 7x的统计信息处理M湖南科学技术出版社2005,1.20 Gabor.D. Theory of communication.J.IEEE,1946,93(3):429457.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1