语音信号处理技术发展历程和发展趋势.pdf

资源描述

《语音信号处理技术发展历程和发展趋势.pdf》由会员分享，可在线阅读，更多相关《语音信号处理技术发展历程和发展趋势.pdf（8页珍藏版）》请在三一文库上搜索。

1、实用标准文案精彩文档语音信号处理技术发展历程和发展趋势学号：姓名：实用标准文案精彩文档语音信号处理技术发展历程和发展趋势摘要：本文简要介绍了语音信号处理技术的发展历史，所采用的关键技术以及所面临的困难与挑战，最后谈谈语音信号处理技术中的几个核心技术的发展趋势。语音是人类交换信息最方便、最快捷的一种方式，在高度发达的信息社会中，数字化的方法进行语音的传送、存储、识别、合成和增强等是整个数字化通信中最重要、最基本的组成部分之一。数字电话、高音质的窄带语音通信系统、语音学习机、声控打字机、自动翻译机、智能机器人、新一代计算机语音智能终端及许多军事上的应用等，都要用到语音信号

2、处理技术，随着集成电路和微电子技术的飞速发展，语音信号处理系统逐步走向实用化。语音信号处理是一门新兴的边缘学科，它是语音学和数字信号处理两个学科相结合的产物。它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科有着紧密的联系。语音信号处理的发展依赖于这些学科的发展，而语音信号处理技术的进步也会促进这些领域的进步。语音信号处理的目的就是要得到某些语音特征参数以便高效地传输或储存；或者是通过某种处理运算以达到某种用途的要求，例如人工合成语音、辨识出讲话者、识别出讲话的内容等。随着现代科学和计算机技术的发展，除了人与人之间的自然语言的通信方式之外，人机对话及智能机器等

3、领域也开始使用语言。这些人工语言同样有词汇、语法、语法结构和语义内容等。控制论创始人维纳在1950 年就曾指出过：“通常，我们把语音仅仅看做人与人之间的通信手段，但是，要使人向机器、机器向人及机器向机器讲话，那也是完全办得到的”。通常认为，语音信息的交换大致可以分为三大类：人与人之间的语言通信：包括语音压缩与编码、语音增强等。第一类人机语言通信问题，指的是机器讲话、人听话的研究，即语音合成。第二类人机语言通信问题，指的是人讲话、机器听话的情况，即语音识别和理解。上述这些应用领域构成了语音信号处理技术的主要研究内容。关键字：语音信号处理语音合成语音编码语音识别 1 语音信号处理

4、技术发展历程实用标准文案精彩文档早在一两千年以前，人们便对语音信号进行了研究。由于没有适当的仪器设备，长期以来，一直是由耳倾听和用口模仿来进行研究。因此，这种语言研究常备称为“口耳之学”，所以对语音只是停留在定性的描写上。语音信号处理真正意义上的研究可以追溯到1876 年贝尔电话的发明，该技术首次用声电、电声转换技术实现了远距离的语音传输。1939 年 Homer Dudley 提出并研制成功的第一个声码器，从此奠定了语音产生模型的基础。这一发明在语音信号处理领域具有划时代的意义。19 世纪 60 年代，亥姆霍兹应用声学方法对元音和歌唱进行了研究，从而奠定了语音的声学基础。

5、 20 世纪 40 年代，一种语言声学的专用仪器语谱图仪问世了。它可以把语音的时变频谱用语图表示出来，从而得到了“可见语言”。1948 年美国 Haskins 实验室研制成功“语音回放机”，该仪器可以把手工绘制在薄膜片上的语谱图自动转换成语音，并进行语音合成。 20 世纪 50 年代对语言产生的声学理论开始有了系统论述。随着计算机的出现，语音信号处理的研究得到了计算机技术的帮助，使得过去受人力、时间限制的大量的语音统计分析工作，得以在电子计算机上进行。在此基础上，语音信号处理不论在基础研究方面，还是在技术应用方面，都取得了突破性的进展。下面分别论述语音信号处理的三个主要分支（语

6、音合成技术、语音编码和语音识别技术）的发展和现状。 1.1语音合成就语音合成技术而言，最早的合成器是1835 年由 W.von Kempelen 发明，经 Weston改进的机械式会讲话的机器。该机器完全模仿人的发音生理过程，分别用风箱、特别设计的哨和软管来模拟肺部的空气运动、模拟口腔。而最早的电子式语音合成器1939 年 Homer Dudley 发明的声码器，它不是简单地模拟人的生理过程，而是通过电子线路来实现基于语音产生的源滤波器理论。但是真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的，主要是采用计算机产生高清晰度、高自然度的连续语音

7、。在语音合成技术的发展中，早期的研究主要是采用参数合成方法。值得提及的是，1973 年 Holmes 发明的并联共振峰合成器和1980 年 Klatt发明的串 / 并联共振峰合成器，只要精心调整参数，这两个合成器都能合成出比较自然的语音。最具代表性的文语转换系统是美国DEC公司 1987 年开发的 DECtalk 。但是，由于准确提取共振峰参数比较困难，虽然利用共振峰合成器可以得到许多逼真的合成语音，但是整体合成语音的音质难以达到文语转换（TTS ）系统的实用要求。自 20 世纪 80 年代末期至今，语音合成技术又有了新的进展，特别是1990 年提出的基音同步叠加（ PSOLA

8、）方法，使基于时域波形拼接方法合成的语音的音色和自然度大大提高。 20 世纪 90 年代初，基于PSOLA 技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于LPC方法或者共振峰合成器的文语合成系统的自然度要高，并且基于PSOLA 方法的合成器结构简单，易于实时实现，有很大的商用前景。实用标准文案精彩文档我国的汉语语音合成研究起步较晚，但从20 世纪 80 年代初就基本上与国际研究同步发展。大致也经历了共振峰合成、LPC合成到应用PSOLA 技术的过程。在国家863 计划、国家自然科学基金委员会、国家攻关计划、中国科学院有关项目等支持下，

9、汉语文语转换系统研究近年来取得了令人瞩目的进展，其中不乏成功的例子，如1993 年中国科学院声学研究所研制的 KX PSOLA ，1995 年研制的联想佳音；清华大学在1993 年研制的 TH_SPEECH；1995 年中国科技大学研制的KDTALK 等系统。这些系统基本上都采用了基于PSOLA 方法的时域波形拼接技术，其合成汉语普通话的可懂度、清晰度达到了很高的水平。然而同国外其他语种的文语转换系统一样，这些系统合成的句子及篇章语音机器味较浓，其自然度还不能达到用户可广泛接受的程度，从而制约了这项技术大规模进入市场。现阶段语音合成的最大进展是已经能够实时地将任意文本转换成连续可懂

10、的自然语句输出。文语转换使得数据通信和语音通信在终端一级实现交融，人们将有望在获取Internet 信息时，使短信消息服务、电子邮件等多数以文本方式提供的信息也能用语音的方式输出。语音合成技术经历了从参数合成到拼接合成，再到两者的逐步结合，其不断发展的动力是人们认知水平和需求的提高。 1.2语音编码语音编码的目的就是在保证一定语音质量的前提下，尽可能降低编码的比特率，以节省频率资源。语音编码技术的研究开始于1939年军事保密通信的需要，贝尔电话实验室的Homer Dudley 提出并实现了在底带宽电话电报电缆上传输语音信号的通道声码器，成为语音编码技术的鼻祖。直到20 世纪 70

11、年代，国际电联（ITU-T, 原 CCITT）于 1972 年发布了 64kbit/s 脉冲编码调制（ PCM ）语音编码算法的G.711 建议，它被广泛应用于数字通信、数字交换机等领域，从而占据了统治地位。1980 年美国政府公布了一种2.4kbit/s的线性预测编码标准算法 LPC-10，这使得在普通电话带宽中传输数字电话成为可能。ITU-T 也于 20 世纪 80 年代初着手研究低于64kbit/s的非 PCM 编码算法，并于1984 年用过了 32kbit/s ADPCM 语音编码 G.721 建议，它不仅可以达到与PCM 相同的语音质量，而且具有更优良的抗无码性能。19

12、88 年美国又公布了一个4.8kbit/s的码激励线性预测（CELP ）编码算法。与此同时，欧洲也推出了一个 16kbit/s规则脉冲激励线性预测（RPE-LPC ）编码算法。这些算法的语音质量都能达到较高的水平，大大超过LPC声码器的质量。进入20 世纪 90 年代，随着因特网在全球范围的兴起，人们对能在网络上传输语音的VoIP 技术兴趣大增，由此，IP 分组语音通信技术获得了突破性进展和实际应用。ITU-T 于 1992 年公布了 16kbit/s低延迟码激励线性预测编码（LD-CELP ）的 G.728 建议。它以其较小的延迟、较低的速率、较高的性能在实际中得到广泛的应用，也

13、成为分组化语音通信的可选算法之一。1996 年 ITU-T 发布了码率为 5.3/6.4kbit/s的 G.723.1 标准。在 1995 年 11 月 ITU-T SG15全会上通过了共轭代数码激励线性预测（ CS-ACELP ）编码的 8kbit/s语音编码 G.729 建议，并于1996 年 6 月 ITU-T SG15 全会上通过G.729 建议附件 A：减少复杂度的8kbit/s CS-ACELP 语音编解码器，正式成为国际标准。这几种语音编码算法也成为分组化语音通信的可选算法。语音编码技术主要有两个努力方向：一是中低速率的语音编码的实用化及如何在实用化过程中进一步提高其抗干

14、扰、抗噪声能力；另一个是如何进一步降低其编码速率。目前已能实用标准文案精彩文档在 5-6kbit/s的速率上获得高质量的重建语音，下一个目标则是要在4kbit/s的速率上获得短延时、高质量的重建语音。特别是对中长延时编码，人们正在研究其更低速率（如 400-1200bit/s）的编码算法。当编码速率降至2.4kbit/s一下时， CELP算法即使应用更高效的量化技术也无法达到预期的指标，需要其他一些更符合低速率编码要求的算法，目前比较好的算法有正弦变换编码（STC ）、混合激励线性预测（MELPC ）编码、时频域插值（TFI）编码、基音同步激励线性预测（PSELP ）编码等，同时

15、还要求引入新的分析技术，如非线性预测、多精度时频分析技术（包括子波交换技术）、高阶统计分子技术等，这些技术更能挖掘人耳听觉遮蔽等感知机理，更能以类似人耳的特性作为语音的分析与合成，使得语音编码系统更接近于人类听觉器官的处理方式工作，从而在低速率语音编码的研究上取得突破。 20 世纪 90 年代中期到现在，第三代移动通信技术逐渐成熟并走向商用，变速率语音编码和宽带语音编码得到了迅速的发展，不断有新的国际标准和地区标准公布。应用于第三代移动通信的变速率语音编码主要有可变速率码激励线性预测（QCELP ）、增强型变速率编码器（EVRC ）、自适应多速率（AMR ）编码器、自适应多速率宽带

16、（AMR-WB ）编码器、可选模式声码器（SMV ）和变速率多模式宽带（VMR-WB ）编码器等。宽带语音的发展也经历了一个过程，1988 年国际电联通过了一个宽带语音编码器标准G.722，基于子带自适应差分脉码调制（SB-ADPCM）编码原理，速率为64kbit/s、56kbit/s和 48kbit/s。宽带语音编码器的合成语音更自然，非常适合应用到电视电话会议中。早期的宽带语音编码器的缺点就是编码效率不高，64kbit/s的速率不利于系统实现。1999 年 ITU-T 公布了新的宽带语音编码国际标准G.722.1 ，降低了编码速率（24kbit/s和 32kbit/s）。 200

17、2 年 ITU-T 在对以往宽带语音编码算法改进的基础上提出G.722.2 标准，由 9 种速率的语音模式组成，编码速率较低，而且可以根据无线环境和本地容量需求动态选择。变速率语音编码理论上仍属于 CELP ，但在“变”上有了新的研究，由此引入了相关技术的研究，包括：用来检测语音通信时是否有语音存在的语音激活检测（VAD ）技术、为突破“变”字而进行速率判决（RDA ）的自适应技术、为避免语音帧丢失后带来负面效应的差错隐藏（ECU ）技术、为克服背景噪声不连续的舒适背景噪声生成（CNG ）技术等。这些相关技术的应用使变速率语音编码之后的语音合成效果几乎没有降低。随着移动通信的飞速发

18、展，用变速率语音编码来提高频带的有效利用率，降是未来数字蜂窝和微蜂窝网的必然发展趋势。 1.3语音识别语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言（如人在说话时的表情、手势等行为动作可帮助对方理解），其最终目标是实现人与机器进行自然语言通信。语音识别的研究工作大约开始于50 年代，当时AT& T Bell实验室实现了第一个可识别十个英文数字的语音识别系统Audry 系统。 60 年代，计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划（

19、DP ）和线性预测分析技术（LP），其中后者较好地解决了语音信号产生模型的问题，对语音识别的发展产生了深远影响。70 年代，语音识别实用标准文案精彩文档领域取得了突破。在理论上，LP技术得到进一步发展，动态时间归正技术（DTW ）基本成熟，特别是提出了矢量量化（VQ ）和隐马尔可夫模型（HMM ）理论。在实践上，实现了基于线性预测倒谱和DTW 技术的特定人孤立语音识别系统。80 年代，语音识别研究进一步走向深入，其显著特征是HMM 模型和人工神经元网络（ANN ）在语音识别中的成功应用。HMM 模型的广泛应用应归功于AT T Bell实验室 Rabiner 等科学家的努力，他们

20、把原本艰涩的HMM 纯数学模型工程化，从而为更多研究者了解和认识。ANN和 HMM 模型建立的语音识别系统，性能相当。进入 90 年代，随着多媒体时代的来临，迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM、Apple、ATT、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。目前我国语音识别技术已取得了令人瞩目的成绩，研究工作一直紧跟国际水平，国家也很重视，并把大词汇量语音识别的研究列入“863”计划，由中科院声学所、自动化所及北京大学等单位研究开发。其基础研究涉及汉语语音学、听觉模型、人工神经网络、小波变换、分形维数和支持向量机等理

21、论，其研究成果必将推动我国语音识别技术研究迈上新台阶。鉴于中国未来庞大的市场，国外也非常重视汉语语音识别的研究。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者，研究成果已达到相当高水平。因此，国内除了要加强理论研究外，更要加快从实验室演示系统到商品的转化。 2 语音信号处理技术发展趋势语音信号处理技术是计算机智能接口与人机交互的重要手段之一。从目前和整个信息社会发展趋势看，语音技术有很多的应用。语音技术包括语音识别、说话人的鉴别和确定、语种的鉴别和确认、关键词检测和确认、语音合成、语音编码等，但其中最具有挑战性和最富有应用前景的为语音识别技术。 2.1 语音识别技术的发

22、展趋势首先对于说话人识别技术，近年来已经在安全加密、银行信息电话查询服务等方面得到了很好的应用。此外，说话人识别技术也在公安机关破案和法庭取证方面发挥着重要的作用。其次对于语音识别技术而言，在一些领域中正成为一个关键的具有竞争力的技术。例如，在声控应用中，计算机可以识别输入的语音内容，并根据内容来执行相应的动作，这包括了声控电话转换、声控语音拨号系统、声控智能玩具、信息网络查询、家庭服务、宾馆服务、旅行社服务系统、医疗服务、股票服务和工业控制等。在电话与通信系统中，智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”；使用电话与通信网络，人们可

23、以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息；随着计算机的小型化，键盘已经成为移动平台的一个很大的障碍，想学一下如果手机仅仅只有一个手表那么大小，再用键盘进行拨号操作已经是不可能的。再者，语音信号处理还可用于自动口语分析，如声控打字机等。随着计算机和大规模集成电路技术的发展，这些复杂的语音识别系统也已经完全可以制成专用芯片，大量生产。在西方经济发达国家，大量的语音识别产品已经进入市场和服务领域。一些用户交互机、电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包含了语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关

24、的机票、旅游、银行信息，并且取得很好的结果。实用标准文案精彩文档 2.2 语音合成技术的发展趋势就语音合成而言，它已经在许多方面取得了实际的应用并发挥了很大的社会作用，例如，公交汽车上的自动报站、各种场合的自动报时、自动报警、手机查询服务和各种文本校对中的语音提示等。在电信声讯服务中的智能电话查询系统中，采用语音合成技术可以弥补以往通过电话进行静态查询的不足，满足海量数据和动态查询的需求，如股票、售后服务、车站查询等信息；也可用于基于微型机的办公、教学、娱乐等智能多媒体软件，例如语言学习、教学软件、语音玩具、语音书籍等；也可与语音合成技术与机器翻译技术结合，实现语音翻译等

25、。 2.3 语音编码技术的发展趋势对于语音编码而言，语音压缩编码作为语音信号处理的一个分支，从目前的研究状况来看，它的未来发展将表现在如下几个方面：（1）研究简化算法。在现有编码算法中，处理效果较好的很多，但都是以算法复杂、速度低，性能降低为代价。在不降低现有算法性能的前提下，尽量简化算法，提高运算速度，增强算法的实用性，将是未来一段时间的研究课题。（2）成熟算法的硬件实现将是研究重点。随着大规模集成电路工艺的飞速发展，人们已经可以在单一硅片上容易地做出几百万晶体管的电路，信息处理速度可达到几千万次 / 秒的乘加操作，这是未来通信的发展迫切需要的。（3）随着计算机技术的发

26、展和硬件环境的不断改善，语音压缩技术将不单单运用现有的几种技术，而将不断开拓和运用新理论及新手段，如将神经网络引入语音压缩的矢量量化中，将子波交换理论应用到语音特征参数的提取（基音提取等）中。由于神经网络理论和子波交换理论比较新，几乎是刚刚起步，它们的前景还比较难预料，但就神经网络理论和子波交换理论的应用而言，对语音压缩编码将有很大的研究潜力。（4）语音性能评价手段将是研究的主要内容之一。随着各种算法的不断出现和完善，性能评价方法的研究日益显得落后。研究性能评价方法远比研究出一两种算法更显得重要，所以，许多研究者致力于语音性能的评价方法的研究。目前这方面的研究成果没有大

27、的突破，特别是 4kb/s 以下语音编码质量的客观评价有待人们不断的努力。（5）寻找最佳的语音激励模型是今后一段时间里的热门课题。采用不同的激励模型，可以产生不同的编码速率和不同的合成语音质量，适合的激励模型对于保证语音质量，减小算法复杂度起着举足轻重的作用。（6）进一步降低编码速率而保持一定的语音质量也是近期内人们研究的内容，这将使得拥挤的通信信道进一步宽松。（7）改进现有算法的语音质量并将其扩展到7kHz 带宽是未来几年中的主要工作之一。编码语音质量的好坏直接影响到通信质量的好坏，如何满足移动通信网和国际互联网的质量兼容问题，还需要研究人员做大量的工作。（8）研究语音的

28、感知特性是未来很长一段时间内的基础研究工作之一。为了建立较理想的语音模型和不损失语音中的信息，在研究中必须考虑人的听觉特性，诸如人耳的升沉、失真和掩蔽现象等。总之，语音压缩编码的研究，将朝着高性能、低复杂度，实用化的方向发展，而理论上将朝着多元化、高层次化的方向发展。实用标准文案精彩文档 3 总结随着信息技术的不断发展，尤其是网络技术的日益普及和完善，语音信号处理技术正发挥着越来越重要的作用，并且出现了一些新的方向。基于语音的信息检索。随着网络技术及数字图书馆技术的发展，针对于传统的基于文本信息上午检索技术，基于语音识别的信息检索技术正成为当今的研究热点。基于语音识别的

29、广播新闻的自动文摘技术的研究。由于广播、电视中的发音较为标准规范，在识别中避免了说话人发音上的不规范，有利于语音识别系统性能的提高。 VoIP 技术。它是通过TCP/IP 网络，而不是传统的电话网络来传输语音的新的通信方式，通常成为 IP 电话技术。它是在网络上对压缩的语音数据以数据包的形式传输和识别。随着手机、PDA等移动电子设备的发展，嵌入式语音识别算法的研究已经逐渐成为研究的热点。语音训练与校正技术也是近年来语音信号处理的一个重要方向。现在越来越多的人希望掌握其他非母语语言，以便方便地进行交流。因此语言学习机已成为当今外语学习者的有利工具。语种识别。语种识别是近年来新出现的研究方向，它是通过分析处理一个语音片断来判别其所属语音的种类，本质上属于语音识别的研究范畴。基于语音的情感处理研究。在人与人的交流中，除了语音信息外，非语音信息也起着重要的作用。为了使人机交流更自然、更人性化，基于语音的情感处理研究也是非常必要的。 4 参考文献 1 数字语音处理及MATLAB 仿真张雪英电子工业出版社，2010.7 2 数字语音编码原理鲍长春编著 . 西安电子科技大学出版社，2007.1 3 鲍长春 . 低比特率数字语音编码基础. 北京工业大学出版社，2001

展开阅读全文