语音信号处理技术发展历程和发展趋势.pdf

上传人:tbuqq 文档编号:5491825 上传时间:2020-05-23 格式:PDF 页数:8 大小:159.41KB
返回 下载 相关 举报
语音信号处理技术发展历程和发展趋势.pdf_第1页
第1页 / 共8页
语音信号处理技术发展历程和发展趋势.pdf_第2页
第2页 / 共8页
语音信号处理技术发展历程和发展趋势.pdf_第3页
第3页 / 共8页
语音信号处理技术发展历程和发展趋势.pdf_第4页
第4页 / 共8页
语音信号处理技术发展历程和发展趋势.pdf_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《语音信号处理技术发展历程和发展趋势.pdf》由会员分享,可在线阅读,更多相关《语音信号处理技术发展历程和发展趋势.pdf(8页珍藏版)》请在三一文库上搜索。

1、实用标准文案 精彩文档 语音信号处理技术发展历程和发展趋势 学号: 姓名: 实用标准文案 精彩文档 语音信号处理技术发展历程和发展趋势 摘要:本文简要介绍了语音信号处理技术的发展历史,所采用的关键技术以及所面临的 困难与挑战,最后谈谈语音信号处理技术中的几个核心技术的发展趋势。 语音是人类交换信息最方便、最快捷的一种方式,在高度发达的信息社会中,数字化的方法 进行语音的传送、存储、识别、合成和增强等是整个数字化通信中最重要、最基本的组成部 分之一。数字电话、高音质的窄带语音通信系统、语音学习机、声控打字机、自动翻译机、 智能机器人、新一代计算机语音智能终端及许多军事上的应用等,都要用到语音信号

2、处理技 术,随着集成电路和微电子技术的飞速发展,语音信号处理系统逐步走向实用化。 语音信号处理是一门新兴的边缘学科,它是语音学和数字信号处理两个学科相结合的产 物。它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科有着紧密的联 系。语音信号处理的发展依赖于这些学科的发展,而语音信号处理技术的进步也会促进这些 领域的进步。 语音信号处理的目的就是要得到某些语音特征参数以便高效地传输或储存;或者是通过 某种处理运算以达到某种用途的要求,例如人工合成语音、辨识出讲话者、识别出讲话的内 容等。 随着现代科学和计算机技术的发展,除了人与人之间的自然语言的通信方式之外,人机 对话及智能机器等

3、领域也开始使用语言。这些人工语言同样有词汇、语法、语法结构和语义 内容等。控制论创始人维纳在1950 年就曾指出过:“通常,我们把语音仅仅看做人与人之 间的通信手段,但是,要使人向机器、机器向人及机器向机器讲话,那也是完全办得到的”。 通常认为,语音信息的交换大致可以分为三大类: 人与人之间的语言通信:包括语音压缩与编码、语音增强等。 第一类人机语言通信问题,指的是机器讲话、人听话的研究,即语音合成。 第二类人机语言通信问题,指的是人讲话、机器听话的情况,即语音识别和理 解。 上述这些应用领域构成了语音信号处理技术的主要研究内容。 关键字:语音信号处理语音合成语音编码语音识别 1 语音信号处理

4、技术发展历程 实用标准文案 精彩文档 早在一两千年以前,人们便对语音信号进行了研究。由于没有适当的仪器设备,长期以 来,一直是由耳倾听和用口模仿来进行研究。因此,这种语言研究常备称为“口耳之学”, 所以对语音只是停留在定性的描写上。 语音信号处理真正意义上的研究可以追溯到1876 年贝尔电话的发明,该技术首次用声 电、电声转换技术实现了远距离的语音传输。1939 年 Homer Dudley 提出并研制成功的第一 个声码器,从此奠定了语音产生模型的基础。这一发明在语音信号处理领域具有划时代的意 义。19 世纪 60 年代,亥姆霍兹应用声学方法对元音和歌唱进行了研究,从而奠定了语音的 声学基础。

5、 20 世纪 40 年代,一种语言声学的专用仪器语谱图仪问世了。它可以把语音 的时变频谱用语图表示出来,从而得到了“可见语言”。1948 年美国 Haskins 实验室研制成 功“语音回放机”,该仪器可以把手工绘制在薄膜片上的语谱图自动转换成语音,并进行语 音合成。 20 世纪 50 年代对语言产生的声学理论开始有了系统论述。随着计算机的出现,语 音信号处理的研究得到了计算机技术的帮助,使得过去受人力、时间限制的大量的语音统计 分析工作,得以在电子计算机上进行。在此基础上,语音信号处理不论在基础研究方面,还 是在技术应用方面, 都取得了突破性的进展。下面分别论述语音信号处理的三个主要分支(语

6、音合成技术、语音编码和语音识别技术)的发展和现状。 1.1语音合成 就语音合成技术而言,最早的合成器是1835 年由 W.von Kempelen 发明,经 Weston改 进的机械式会讲话的机器。该机器完全模仿人的发音生理过程,分别用风箱、特别设计的哨 和软管来模拟肺部的空气运动、模拟口腔。 而最早的电子式语音合成器1939 年 Homer Dudley 发明的声码器,它不是简单地模拟人的生理过程,而是通过电子线路来实现基于语音产生的 源滤波器理论。 但是真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的 发展而发展起来的,主要是采用计算机产生高清晰度、高自然度的连续语音

7、。在语音合成技 术的发展中,早期的研究主要是采用参数合成方法。值得提及的是,1973 年 Holmes 发明的 并联共振峰合成器和1980 年 Klatt发明的串 / 并联共振峰合成器,只要精心调整参数,这两 个合成器都能合成出比较自然的语音。最具代表性的文语转换系统是美国DEC公司 1987 年 开发的 DECtalk 。但是,由于准确提取共振峰参数比较困难,虽然利用共振峰合成器可以得 到许多逼真的合成语音,但是整体合成语音的音质难以达到文语转换(TTS )系统的实用要 求。 自 20 世纪 80 年代末期至今,语音合成技术又有了新的进展,特别是1990 年提出的基 音同步叠加( PSOLA

8、 )方法,使基于时域波形拼接方法合成的语音的音色和自然度大大提高。 20 世纪 90 年代初,基于PSOLA 技术的法语、德语、英语、日语等语种的文语转换系统都已 经研制成功。这些系统的自然度比以前基于LPC方法或者共振峰合成器的文语合成系统的自 然度要高,并且基于PSOLA 方法的合成器结构简单,易于实时实现,有很大的商用前景。 实用标准文案 精彩文档 我国的汉语语音合成研究起步较晚,但从20 世纪 80 年代初就基本上与国际研究同步发 展。大致也经历了共振峰合成、LPC合成到应用PSOLA 技术的过程。在国家863 计划、国家 自然科学基金委员会、国家攻关计划、中国科学院有关项目等支持下,

9、汉语文语转换系统研 究近年来取得了令人瞩目的进展,其中不乏成功的例子,如1993 年中国科学院声学研究所 研制的 KX PSOLA ,1995 年研制的联想佳音;清华大学在1993 年研制的 TH_SPEECH;1995 年中国科技大学研制的KDTALK 等系统。这些系统基本上都采用了基于PSOLA 方法的时域波 形拼接技术,其合成汉语普通话的可懂度、清晰度达到了很高的水平。然而同国外其他语种 的文语转换系统一样,这些系统合成的句子及篇章语音机器味较浓,其自然度还不能达到用 户可广泛接受的程度,从而制约了这项技术大规模进入市场。 现阶段语音合成的最大进展是已经能够实时地将任意文本转换成连续可懂

10、的自然语句 输出。文语转换使得数据通信和语音通信在终端一级实现交融,人们将有望在获取Internet 信息时,使短信消息服务、电子邮件等多数以文本方式提供的信息也能用语音的方式输出。 语音合成技术经历了从参数合成到拼接合成,再到两者的逐步结合,其不断发展的动力是人 们认知水平和需求的提高。 1.2语音编码 语音编码的目的就是在保证一定语音质量的前提下,尽可能降低编码的比特率,以节省 频率资源。语音编码技术的研究开始于1939年军事保密通信的需要, 贝尔电话实验室的Homer Dudley 提出并实现了在底带宽电话电报电缆上传输语音信号的通道声码器,成为语音编码技 术的鼻祖。直到20 世纪 70

11、 年代,国际电联(ITU-T, 原 CCITT)于 1972 年发布了 64kbit/s 脉冲编码调制( PCM )语音编码算法的G.711 建议,它被广泛应用于数字通信、数字交换机 等领域, 从而占据了统治地位。1980 年美国政府公布了一种2.4kbit/s的线性预测编码标准 算法 LPC-10,这使得在普通电话带宽中传输数字电话成为可能。ITU-T 也于 20 世纪 80 年代 初着手研究低于64kbit/s的非 PCM 编码算法,并于1984 年用过了 32kbit/s ADPCM 语音编 码 G.721 建议,它不仅可以达到与PCM 相同的语音质量, 而且具有更优良的抗无码性能。19

12、88 年美国又公布了一个4.8kbit/s的码激励线性预测(CELP )编码算法。与此同时,欧洲也推 出了一个 16kbit/s规则脉冲激励线性预测(RPE-LPC )编码算法。这些算法的语音质量都能 达到较高的水平,大大超过LPC声码器的质量。进入20 世纪 90 年代,随着因特网在全球范 围的兴起,人们对能在网络上传输语音的VoIP 技术兴趣大增,由此,IP 分组语音通信技术 获得了突破性进展和实际应用。ITU-T 于 1992 年公布了 16kbit/s低延迟码激励线性预测编 码(LD-CELP )的 G.728 建议。它以其较小的延迟、较低的速率、较高的性能在实际中得到 广泛的应用,也

13、成为分组化语音通信的可选算法之一。1996 年 ITU-T 发布了码率为 5.3/6.4kbit/s的 G.723.1 标准。在 1995 年 11 月 ITU-T SG15全会上通过了共轭代数码激励 线性预测( CS-ACELP )编码的 8kbit/s语音编码 G.729 建议,并于1996 年 6 月 ITU-T SG15 全会上通过G.729 建议附件 A:减少复杂度的8kbit/s CS-ACELP 语音编解码器,正式成为国 际标准。这几种语音编码算法也成为分组化语音通信的可选算法。 语音编码技术主要有两个努力方向:一是中低速率的语音编码的实用化及如何在实用化 过程中进一步提高其抗干

14、扰、抗噪声能力;另一个是如何进一步降低其编码速率。目前已能 实用标准文案 精彩文档 在 5-6kbit/s的速率上获得高质量的重建语音,下一个目标则是要在4kbit/s的速率上获得 短延时、高质量的重建语音。特别是对中长延时编码,人们正在研究其更低速率(如 400-1200bit/s)的编码算法。当编码速率降至2.4kbit/s一下时, CELP算法即使应用更高 效的量化技术也无法达到预期的指标,需要其他一些更符合低速率编码要求的算法,目前比 较好的算法有正弦变换编码(STC )、混合激励线性预测(MELPC )编码、时频域插值(TFI) 编码、基音同步激励线性预测(PSELP )编码等,同时

15、还要求引入新的分析技术,如非线性 预测、多精度时频分析技术(包括子波交换技术)、高阶统计分子技术等,这些技术更能挖 掘人耳听觉遮蔽等感知机理,更能以类似人耳的特性作为语音的分析与合成,使得语音编码 系统更接近于人类听觉器官的处理方式工作,从而在低速率语音编码的研究上取得突破。 20 世纪 90 年代中期到现在,第三代移动通信技术逐渐成熟并走向商用,变速率语音编 码和宽带语音编码得到了迅速的发展,不断有新的国际标准和地区标准公布。应用于第三代 移动通信的变速率语音编码主要有可变速率码激励线性预测(QCELP )、增强型变速率编码 器(EVRC )、自适应多速率(AMR )编码器、自适应多速率宽带

16、(AMR-WB )编码器、可选模式声码器(SMV )和变速率多模式宽带(VMR-WB )编码器等。宽带语音的 发展也经历了一个过程,1988 年国际电联通过了一个宽带语音编码器标准G.722,基于子带 自适应差分脉码调制(SB-ADPCM)编码原理,速率为64kbit/s、56kbit/s和 48kbit/s。宽 带语音编码器的合成语音更自然,非常适合应用到电视电话会议中。早期的宽带语音编码器 的缺点就是编码效率不高,64kbit/s的速率不利于系统实现。1999 年 ITU-T 公布了新的宽 带语音编码国际标准G.722.1 ,降低了编码速率(24kbit/s和 32kbit/s)。 200

17、2 年 ITU-T 在对以往宽带语音编码算法改进的基础上提出G.722.2 标准,由 9 种速率的语音模式组成, 编码速率较低,而且可以根据无线环境和本地容量需求动态选择。变速率语音编码理论上仍 属于 CELP ,但在“变”上有了新的研究,由此引入了相关技术的研究,包括:用来检测语音 通信时是否有语音存在的语音激活检测(VAD )技术、为突破“变”字而进行速率判决(RDA ) 的自适应技术、为避免语音帧丢失后带来负面效应的差错隐藏(ECU )技术、为克服背景噪 声不连续的舒适背景噪声生成(CNG )技术等。这些相关技术的应用使变速率语音编码之后 的语音合成效果几乎没有降低。随着移动通信的飞速发

18、展,用变速率语音编码来提高频带的 有效利用率,降是未来数字蜂窝和微蜂窝网的必然发展趋势。 1.3语音识别 语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一 个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉 及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标 是实现人与机器进行自然语言通信。 语音识别的研究工作大约开始于50 年代,当时AT& T Bell实验室实现了第一个可识别 十个英文数字的语音识别系统Audry 系统。 60 年代,计算机的应用推动了语音识别的发 展。这时期的重要成果是提出了动态规划(

19、DP )和线性预测分析技术(LP),其中后者较好 地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。70 年代,语音识别 实用标准文案 精彩文档 领域取得了突破。在理论上,LP技术得到进一步发展,动态时间归正技术(DTW )基本成熟, 特别是提出了矢量量化(VQ )和隐马尔可夫模型(HMM )理论。在实践上,实现了基于线性 预测倒谱和DTW 技术的特定人孤立语音识别系统。80 年代,语音识别研究进一步走向深入, 其显著特征是HMM 模型和人工神经元网络(ANN )在语音识别中的成功应用。HMM 模型的广泛 应用应归功于AT T Bell实验室 Rabiner 等科学家的努力,他们

20、把原本艰涩的HMM 纯数学 模型工程化,从而为更多研究者了解和认识。ANN和 HMM 模型建立的语音识别系统,性能相 当。进入 90 年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许 多发达国家如美国、日本、韩国以及IBM、Apple、ATT、NTT等著名公司都为语音识别系 统的实用化开发研究投以巨资。 目前我国语音识别技术已取得了令人瞩目的成绩,研究工作一直紧跟国际水平,国家也 很重视,并把大词汇量语音识别的研究列入“863”计划,由中科院声学所、自动化所及北 京大学等单位研究开发。其基础研究涉及汉语语音学、听觉模型、 人工神经网络、 小波变换、 分形维数和支持向量机等理

21、论,其研究成果必将推动我国语音识别技术研究迈上新台阶。鉴 于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美国、新加坡等地聚集了一 批来自大陆、台湾、香港等地的学者,研究成果已达到相当高水平。因此,国内除了要加强 理论研究外,更要加快从实验室演示系统到商品的转化。 2 语音信号处理技术发展趋势 语音信号处理技术是计算机智能接口与人机交互的重要手段之一。从目前和整个信息社 会发展趋势看,语音技术有很多的应用。语音技术包括语音识别、说话人的鉴别和确定、语 种的鉴别和确认、关键词检测和确认、语音合成、语音编码等,但其中最具有挑战性和最富 有应用前景的为语音识别技术。 2.1 语音识别技术的发

22、展趋势 首先对于说话人识别技术,近年来已经在安全加密、银行信息电话查询服务等方面得到 了很好的应用。 此外,说话人识别技术也在公安机关破案和法庭取证方面发挥着重要的作用。 其次对于语音识别技术而言,在一些领域中正成为一个关键的具有竞争力的技术。例如,在 声控应用中,计算机可以识别输入的语音内容,并根据内容来执行相应的动作,这包括了声 控电话转换、声控语音拨号系统、声控智能玩具、信息网络查询、家庭服务、宾馆服务、旅 行社服务系统、医疗服务、股票服务和工业控制等。在电话与通信系统中,智能语音接口正 在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”;使用电话 与通信网络,人们可

23、以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息; 随着计算机的小型化,键盘已经成为移动平台的一个很大的障碍,想学一下如果手机仅仅只 有一个手表那么大小,再用键盘进行拨号操作已经是不可能的。再者,语音信号处理还可用 于自动口语分析,如声控打字机等。随着计算机和大规模集成电路技术的发展,这些复杂的 语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音 识别产品已经进入市场和服务领域。一些用户交互机、电话机、手机已经包含了语音识别拨 号功能,还有语音记事本、语音智能玩具等产品也包含了语音识别与语音合成功能。人们可 以通过电话网络用语音识别口语对话系统查询有关

24、的机票、旅游、银行信息,并且取得很好 的结果。 实用标准文案 精彩文档 2.2 语音合成技术的发展趋势 就语音合成而言, 它已经在许多方面取得了实际的应用并发挥了很大的社会作用,例如, 公交汽车上的自动报站、各种场合的自动报时、自动报警、手机查询服务和各种文本校对中 的语音提示等。在电信声讯服务中的智能电话查询系统中,采用语音合成技术可以弥补以往 通过电话进行静态查询的不足,满足海量数据和动态查询的需求,如股票、售后服务、车站 查询等信息;也可用于基于微型机的办公、教学、娱乐等智能多媒体软件,例如语言学习、 教学软件、语音玩具、语音书籍等;也可与语音合成技术与机器翻译技术结合,实现语音翻 译等

25、。 2.3 语音编码技术的发展趋势 对于语音编码而言,语音压缩编码作为语音信号处理的一个分支,从目前的研究状况来 看,它的未来发展将表现在如下几个方面: (1)研究简化算法。 在现有编码算法中, 处理效果较好的很多,但都是以算法复杂、 速度低,性能降低为代价。在不降低现有算法性能的前提下,尽量简化算法, 提高运算速度,增强算法的实用性,将是未来一段时间的研究课题。 (2)成熟算法的硬件实现将是研究重点。随着大规模集成电路工艺的飞速发展,人 们已经可以在单一硅片上容易地做出几百万晶体管的电路,信息处理速度可达 到几千万次 / 秒的乘加操作,这是未来通信的发展迫切需要的。 (3)随着计算机技术的发

26、展和硬件环境的不断改善,语音压缩技术将不单单运用现 有的几种技术, 而将不断开拓和运用新理论及新手段,如将神经网络引入语音 压缩的矢量量化中, 将子波交换理论应用到语音特征参数的提取(基音提取等) 中。由于神经网络理论和子波交换理论比较新,几乎是刚刚起步,它们的前景 还比较难预料, 但就神经网络理论和子波交换理论的应用而言,对语音压缩编 码将有很大的研究潜力。 (4)语音性能评价手段将是研究的主要内容之一。随着各种算法的不断出现和完 善,性能评价方法的研究日益显得落后。研究性能评价方法远比研究出一两种 算法更显得重要,所以,许多研究者致力于语音性能的评价方法的研究。目前 这方面的研究成果没有大

27、的突破,特别是 4kb/s 以下语音编码质量的客观评价 有待人们不断的努力。 (5)寻找最佳的语音激励模型是今后一段时间里的热门课题。采用不同的激励模 型,可以产生不同的编码速率和不同的合成语音质量,适合的激励模型对于保 证语音质量,减小算法复杂度起着举足轻重的作用。 (6)进一步降低编码速率而保持一定的语音质量也是近期内人们研究的内容,这将 使得拥挤的通信信道进一步宽松。 (7)改进现有算法的语音质量并将其扩展到7kHz 带宽是未来几年中的主要工作之 一。编码语音质量的好坏直接影响到通信质量的好坏,如何满足移动通信网和 国际互联网的质量兼容问题,还需要研究人员做大量的工作。 (8)研究语音的

28、感知特性是未来很长一段时间内的基础研究工作之一。为了建立较 理想的语音模型和不损失语音中的信息,在研究中必须考虑人的听觉特性,诸 如人耳的升沉、失真和掩蔽现象等。 总之,语音压缩编码的研究,将朝着高性能、低复杂度,实用化的方向发展,而理论上 将朝着多元化、高层次化的方向发展。 实用标准文案 精彩文档 3 总结 随着信息技术的不断发展,尤其是网络技术的日益普及和完善,语音信号处理技术 正发挥着越来越重要的作用,并且出现了一些新的方向。 基于语音的信息检索。随着网络技术及数字图书馆技术的发展,针对于传统的 基于文本信息上午检索技术,基于语音识别的信息检索技术正成为当今的研究 热点。 基于语音识别的

29、广播新闻的自动文摘技术的研究。由于广播、电视中的发音较 为标准规范,在识别中避免了说话人发音上的不规范,有利于语音识别系统性 能的提高。 VoIP 技术。它是通过TCP/IP 网络,而不是传统的电话网络来传输语音的新的 通信方式, 通常成为 IP 电话技术。 它是在网络上对压缩的语音数据以数据包的 形式传输和识别。随着手机、PDA等移动电子设备的发展,嵌入式语音识别算 法的研究已经逐渐成为研究的热点。 语音训练与校正技术也是近年来语音信号处理的一个重要方向。现在越来越多 的人希望掌握其他非母语语言,以便方便地进行交流。因此语言学习机已成为 当今外语学习者的有利工具。 语种识别。语种识别是近年来新出现的研究方向,它是通过分析处理一个语音 片断来判别其所属语音的种类,本质上属于语音识别的研究范畴。 基于语音的情感处理研究。在人与人的交流中,除了语音信息外,非语音信息 也起着重要的作用。为了使人机交流更自然、更人性化,基于语音的情感处理 研究也是非常必要的。 4 参考文献 1 数字语音处理及MATLAB 仿真张雪英电子工业出版社,2010.7 2 数字语音编码原理鲍长春编著 . 西安电子科技大学出版社,2007.1 3 鲍长春 . 低比特率数字语音编码基础. 北京工业大学出版社,2001

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1