第2章多媒体音频信号处理新.ppt

上传人:scccc 文档编号:11936479 上传时间:2021-11-06 格式:PPT 页数:54 大小:1.15MB
返回 下载 相关 举报
第2章多媒体音频信号处理新.ppt_第1页
第1页 / 共54页
第2章多媒体音频信号处理新.ppt_第2页
第2页 / 共54页
第2章多媒体音频信号处理新.ppt_第3页
第3页 / 共54页
第2章多媒体音频信号处理新.ppt_第4页
第4页 / 共54页
第2章多媒体音频信号处理新.ppt_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《第2章多媒体音频信号处理新.ppt》由会员分享,可在线阅读,更多相关《第2章多媒体音频信号处理新.ppt(54页珍藏版)》请在三一文库上搜索。

1、第2章 多媒体音频信号处理,2.1 音频信号概述 2.2 数字音频基础知识 2.3 声卡概述 2.4 音频信号的采集与处理 2.5 乐器数字接口MIDI 2.6 语音识别与语音合成,2.1 音频信号概述,2.1.1 信号的描述及分类 1. 确定信号及随机信号 能够用一确定的时间函数来表示的信号就是确定信号。这种信号对应某一时刻都有一个确定的信号值。 有一些信号具有不可预知的不确定性,这种信号就是随机信号。 我们将要研究的音频信号、视频信号以至计算机中的数字信号均为确定信号。,2. 模拟信号与数字信号 如果信号在时间上和幅度上都是连续的,那么这样的信号就是模拟信号。模拟信号以一定时间间隔取值,则

2、可获得离散信号,又称之为采样信号。若将离散信号进行二进制编码,以二进制编码来表示离散值的幅度,那么这种二进制编码信号叫做数字信号。 话筒或摄像机产生的信号为模拟信号。模拟信号经过采样可获得离散信号,离散信号经A/D转换变成二进制的数字信号,数字信号就可以由计算机直接进行处理了。,图2-1中,用连续变化的曲线表示模拟信号;用圆点表示以相等时间间隔取值而得到的离散信号;纵坐标上标的是幅度的二进制编码值。,图2-1,2.1.2 声音的特性 1) 声音的波动性 任何物体的振动通过空气的传播都会形成连续或间断的波动,这种波动引起人的耳膜的振动,变为人的听觉。因此,声音是一种连续或间断的波动。 在任一时刻

3、,模拟声波信号都可以分解为一系列正弦波的线性叠加:,音调:人耳对声音频率高低的感觉。音调是由声源振动频率决定的,频率高则音调高,频率低则音调低。音调高时声音尖锐,俗称高音;音调低时声音沉闷,俗称低音。在音乐中音调主要指音阶的变化,频率增加一倍,音乐上称提高了一个八度。,2) 声音的三要素 从听觉角度看,声音具有音调、音强和音色3要素。,音强:衡量声波在传播过程中声音强弱的物理量,与声波的幅度成正比。人耳辨别声音的能力只有在音量适中时才最灵敏。人的听觉响应是用声音信号幅度取对数后再乘以20所得数值来描述,以分贝为单位。 音色:用来描述声音品质,音调是由基音决定的,而音色主要取决于声音频谱结构中泛

4、音的多少。一个声波上的谐波越丰富,音色越好。各种乐器发出的声音有很大的差别,主要是它们所发出声音的谐波分布不同,谐波分量的幅度也不相同。,表2-1 常见声音的强度(dB),3) 声音的连续谱 声音信号一般为非周期信号,包含有一定频带的所有频率分量,其频谱是连续谱。声波的连续谱成分使声音听起来饱满、生动。 4) 声音的方向性 声音的传播是以弹性波形式进行的,传播具有方向性,人通过到达左右两耳声波的时间差及声音强度差异来辨别声音的方向。声音的方向性是产生立体声效果和空间效果的基础。,2.1.3 音频信号 常见的音频信号主要有电话信号、调频、调幅无线电广播信号和高保真数字立体声音频信号。由于用途不同

5、,这些音频信号频带宽度(简称带宽)也各不相同。,在音响设备中,通常以音频信号的带宽来衡量声音的质量。在模拟设备中,带宽使用的是频率的单位Hz;在数字设备中,带宽通常以每秒通过的比特(bps)或每秒通过的字节数来表示。无论模拟设备还是数字设备,带宽都是指单位时间内通过的数据量。,2.2 数字音频基础知识,2.2.1 声音信号数字化过程 自然界的声音都是模拟音频信号,必须变换为数字音频才能在计算机上进行处理。模拟声音的数字化即模数(A/D) 转换需要经过采样、量化和编码3个步骤。,2.2.2 数字化声音的技术指标 数字化声音的质量主要取决于采样频率、量化位数、声道数等参数。 1) 采样频率 单位时

6、间内采样的个数称为采样频率,用fs表示。根据奈奎斯特采样定理,采样频率不应低于声音信号最高频率的两倍,这样才能用数字化声音还原出原来的模拟声音。 采样频率越高,声音的保真度越高,信号的质量就越好。目前常用的标准采样频率有:11.025kHz,22.05kHz,44.1kHz和48kHz几种。,2) 量化位数 量化是对采样后的声音样本在幅值上离散化,即把信号强度划分为不同的等级,然后将每一个样本归入预先编排的量化等级上。 量化位数就是记录声音样本幅值所用数据的位数。量化位数n决定了量化等级M,即M=2n。例如,量化位数为8(8位二进制数),则记录振幅时,从最低音到最高音将音频信号的振幅轴分为28

7、256个级别量化数据。,量化位数越高,对声音样本的表示精度越高,即量化后声音信号越接近原始信号,但数据量也越大。常用的量化位数有:8bit,16bit和32bit几种。 量化会带来误差,量化误差是某个采样时间点的模拟值与量化值的差,也称为量化噪声。实际工作中常用量化信噪比来衡量音响系统的保真度,量化信噪比定义为信号原始波形与量化后波形所带信息量之比,其计算公式为,式中,B为量化位数。在高保真的音响系统中,要求信噪比大于90分贝,量化位数至少为16位。,3) 声道数 单声道(Monophonic)意味着单个声源,只产生一个声音波形;而双声道(双声道立体声, Stereophonic)产生两个波形

8、,但并不表示有两个声源,立体声指的是三维听觉效果。为了确定声源位置,大脑要将每个耳朵所听到声音的三个属性进行比较,这三个属性分别是: 幅值(Amplitude) 如果左耳听到的声音比右耳的大,那么我们就认为声音在左边。 相位(Phase) 如果人的两耳听到的信号具有相同的相位, 那么大脑就认为声音在中部;如果两耳听到信号有180的相位差, 那么声音就不包含方向信息了。,时序(Timing) 如果声音到达右耳的时间比到达左耳的早, 我们就认为声源就在右边。 一般来说,如果听众所处的位置刚好是两个声源(例如两个扬声器)的中轴线上,则听众就可以享受三维立体声的效果;否则听众就会失去完全的立体声效果,

9、因为他距离其中一个声源的距离更短。,环绕立体声 环绕立体声与标准立体声系统的最大区别是:通过环绕立体声,人耳不但能辨别声音方向,而且伴有一种被围绕以及声源向四周远离扩散的感觉。环绕立体声增强了声音的纵深感、临场感和空间感,使使视听者不仅能够感受来自前、后、左、右的声源发出的声音,而且感受到自己周围的整个空间,都被这些声源所产生的空间声场所包围,从而营造出一种置身于歌厅、影剧院的音响效果。,图2-7 杜比AC-3(环绕立体声)标准,4) 音频文件数据量 对声音质量的要求不同,所采用的技术指标也不同,文件数据量也就不同。 未经过压缩的声音文件的大小为: (采样频率量化位数声道数声音持续时间)/8

10、Byte 例如,CD格式音频采样频率为44.1kHz,量化位数为16bit,双声道立体声,则声音每秒的数据量为: (44.1103162 1)/8 = 0.1764 MB/s.,2.2.3 计算机中常见声音文件的类型,1) 波形文件格式 波形文件是对声波的数字化记录,因流行的平台不同、压缩方式不同以及为了适应不同环境的需要,而表现为不同的类型。 在Windows系统中,主要是以WAV为主, WAV文件格式直接通过声卡对麦克风、录音机、CD唱机等的实际声音信号进行采样,并经A/D转换将模拟信号转变成数字信号存储在硬盘上,不作任何压缩,对存储空间需求过大,传播起来难度较大。MP3文件是在波形文件的

11、基础上经过压缩以后形成的,而RM/RAM文件则是在波形文件的基础,根据Internet传输的需要进行了重新组织。,2) MID文件格式 将电子乐器演奏时的指令信息(例如音符、节拍、乐器种类和音量等)通过声卡上的MIDI控制器输入计算机,或者利用一种称为音序器的计算机音乐处理软件编辑产生音乐指令集合,以*.MID文件格式存储在硬盘上,这种声音媒体称为MIDI音频。 MID文件中可以包含多达16种不同乐器的声音定义。由于MIDI文件记录的不是乐曲本身,而是乐曲演奏过程中的指令,因此,MIDI音频是乐谱的数字化描述。MIDI文件的存储量比较小,可以满足较长时间音乐播放的要求。但MIDI文件的录制工作

12、较为复杂,需要使用MIDI创作并改编作品的专业知识以及专门化工具,例如键盘合成器等。,3) CD音频 CD音频是指以44.1 kHz频率、16位精度采样而获得的一种立体声数字化声音,记录声音波形时几乎没有任何信号损失。CD音频的文件格式是*.CDA,CDA格式无法进行编辑处理;而且CDA编码数据量庞大,音频文件也很大。 4) MP3文件格式 MP3 (MPEG-1 Audio Layer 3)音频文件能将音频文件数据量压缩到很小,压缩比可达12:114:1,极大地方便了数字音频的存储、交流、传输。MP3文件音频质量达到高保真,近乎音乐CD的高音质。,5) WMA文件格式 WMA (Window

13、s Media Audio)是微软发布的音频文件格式。WMA格式可以将音频文件压缩到原有的1/18,其压缩率比MP3还要高,技术性能也比MP3好。 6) Real流媒体音频格式 RealNetworks公司的Real音频格式包括流式声音文件格式(*.ra)和流式媒体文件格式(*.rm) ,其特点是文件小、易于传输、可在线播放,主要用于在低速率的广域网上实时传输音频信息,在高保真度方面远不如MP3。网络连接速率不同,客户端所获得的声音质量也不相同。,2.3 声卡概述,2.3.1 声卡的结构与工作原理 计算机处理声音的硬件设备是声卡,尽管声卡的类型很多,但声卡的基本结构和功能都是类似的。,图2-9

14、 声卡的功能结构模型,表示信号输入输出口,表示与MIDI音乐处理有关的设备,(1) 波形表 波形表(Wave Table)包含真实乐器声音的数字记录,即包含按键、音量、节奏、持续时间、音符、定时和16个通道的乐器定义等有关信息。MIDI音频演奏时将相应乐器的波形记录播放出来,这种方法可以产生丰富逼真的音频,取得成功的关键在于提供足够多的音色样本数据。 (2) 音乐合成芯片 MIDI音频重放时,必须经过合成器将MIDI指令译成相应的声音信号,再由混音器混合后生成声波,最后由音箱播出音乐。所以,音乐合成芯片是处理MIDI音乐的关键。合成音乐有两种方式:频率调制(FM)和波形表(Wave Table

15、)合成方式。,FM合成法通过电路产生的各种正弦波相互调制来模拟真实的乐器声音,还可以得到非真实乐器的“电子模拟声”,成本较低。例如:,图2-10,波形表合成方式是将已经准备好的真实乐器的数字化录音重放出来,以合成立体乐音。波形表合成器将各种乐器的音符采样值存放在ROM中,根据MIDI文件的内容,从波形表中获取有关的预存放的声音样本,经过变换和加工产生模拟音频信号,然后通过混音器及功放向外界输出。 (3) 混音器(Mixer) 混音器芯片可以混合各种音源,包括数字化声音、MIDI(合成)音乐、CD音频输入、LINE IN、MIC IN以及PC扬声器,并通过软件控制多种音源的音量,选择声道模式(单

16、声道或立体声),实现混合录音。,2.3.2 声卡的功能 声卡必须配有功能强大的软件,这些软件在操作系统支持下运行,实现声卡的基本功能。 1. 模拟信号的输入、处理和输出,(1) 语音识别 语音听写 用户说,计算机写。计算机充当用户的秘书。,发布命令 用户发布命令,语音识别系统逐一辨识用户命令,并转化为计算机可以读取的指令。,特征分析 找出用来标识某个对象的声音特征信息。不同的对象有不同的声音特征,利用这些声音特征,可以区分对象的不同。其典型的应用领域是身份验证,如:刑侦人员可以利用声音信号不同来进行身份验证;银行的自动取款机也可以根据取款人的声音来判断是否是合法用户。,2. MIDI音乐的输入

17、、处理和输出,MIDI信号实际上记录的是乐谱,用户在弹奏各种乐器时,可以立即生成弹奏的乐谱,为演奏者制作乐谱提供了方便。另外,不同的演奏人员有不同演奏特征,将这些特征进行分析,就形成了该演奏人员的特征信息。,3. 声音合成,声音合成是将计算机中的信息用语音信号的方式输出。在输出语音信息时,需要首先满足“能被理解”,其次,如果能满足“清晰自然”,则可将声音合成提高一个档次。例如,文语转换就是计算机将文字合成为声音读给用户听。,2.4.1 音频信号的采集 根据音源的不同,有不同的采集方法。一般分成:波形声音的采集、CD音乐的采集和MIDI音乐的采集。 1. 利用Windows自带的“录音机”采集波

18、形声音 将麦克风插到声卡的MIC IN接口录音,这种录音方法一次只能录制60秒的时间。 录像机、磁带录音机、电视机等都能提供不同内容的音频节目,这些设备需要通过Line In连接到声卡上,通过相应的软件采集音频信号。,2.4 音频信号的采集与处理,2. CD音频的采集 CD声音的采集可以用专门的软件来完成,如CDcopy,也可以用一种非常简单的方法来实现。最简单的方法是将计算机后部的声卡上“LINE OUT”和“LINE IN”两个插孔用音频线连接起来,就可以采用 “波形声音的采集”方式采集声音。不过这种办法可能混有一些噪音,降低了CD音乐的质量。,图2.16CDcopy启动图,当前CD盘中歌

19、曲列表,选定要录制的CD音乐,录制格式选择,3. MIDI音乐合成 将不同的键盘乐器通过MIDI接口与声卡连接,利用计算机音乐软件记录乐器演奏过程中的指令,如按键时间长短、力度大小等,并可进行修改和编辑。播放时可通过音乐合成器把数字乐谱变换成声音波形,再经过混音器混合后送到音箱播放。 2.4.2 音频信号的编辑处理 音频编辑软件:Adobe Audition,2.5 乐器数字接口MIDI,2.5.1 计算机音乐的生成 计算机音乐也称为电子音乐,是由计算机音乐软件创作、修改和编辑乐谱,通过合成器把数字乐谱变换成声音波形,再经过混音器混合后送到音箱播放的乐曲。 计算机的数字合成技术可以模拟传统乐曲

20、的音色,也可以通过计算机的编辑功能合成不是自然乐器发出的声音。计算机音乐改变了传统音乐的创作和演奏方式的概念。,计算机音乐系统由演奏控制器、音源和MIDI接口几部分组成。 1. 演奏控制器 演奏控制器是一种输入和记录实时乐曲演奏信息的设备,例如钢琴模拟键盘。 2. 音源 音源是计算机音乐系统的核心,是具体产生声音波形的部分,分为: FM音源; 采样音源(采用波表合成法); 物理模型化音源。,2.5.2 MIDI接口 MIDI接口是计算机与MIDI设备之间连接的硬件。MIDI接口规范规定了硬件连接标准和硬件上传输的信息的编码方式。 1. MIDI基本概念 1)硬件连接端口 规定了乐器间的物理连接

21、方式,要求乐器必须带有MIDI端口,并对连接两个乐器的MIDI电缆及传输电信号作了规定。 MIDI接口具有三种输入/输出端口,它们分别是MIDI IN、MIDI OUT和MIDI THRU。,(1) MIDI IN:MIDI输入端口,MIDI设备用MIDI IN端口接受MIDI信息。 (2) MIDI OUT:MIDI输出端口,MIDI设备用MIDI OUT端口送出MIDI信息。 (3) MIDI THRU:MIDI转接端口,MIDI设备利用MIDI THRU端口起到中继和桥接的作用。 MIDI接口的IN、OUT、THRU端口均是一个圆形的5孔接头。,图2-17,2) 数据传输格式 MIDI标

22、准规定了硬件上传输的信息的编码方式,MIDI设备之间通过MIDI接口发送编码来相互通信,这些编码相当于乐谱,包括音符、节拍、乐器种类及音量等,接口设备的合成器接收到这些数字编码后,便可对这些编码进行解码而生成音乐。,2. MIDI设备 通过MIDI接口,计算机可以控制各个乐器的输出。 1) MIDI合成器 MIDI声音产生和记录的方法与波形声音产生和记录的方法是不同的, MIDI文件记录的内容是音乐演奏的一系列指令。 2) MIDI音序器 音序器又称声音序列发生器,是一种记录、编辑和播放MIDI文件的软件,是为MIDI作曲而设计的计算机程序。,3) MIDI键盘 演奏者使用键盘可以直接控制合成

23、器的输出。 4) 微处理器 微处理器的任务是接收和发送MIDI信息。 5) 控制面板 控制面板控制那些不直接由键盘产生的音符和与持续时间有关的一些其他量,如控制总音量的滑动条,控制合成器开关的按钮,以及一组确定声音生成器音调的声音选择按钮。 还可以通过辅助控制器调节合成器的音调或加入特效。,3. MIDI软件 计算机通过MIDI接口与各种MIDI乐器连接后,就可以使用各种各样的MIDI软件。 MIDI软件可以分为以下4类: (1) 音乐记录和演奏软件。 (2) 乐谱创作与打印软件。 (3) 合成器片断编辑或管理软件。 (4) 音乐教学软件。,2.6 语音识别与语音合成,2.6.1 语音识别的基

24、本原理 语音识别系统的实现主要分为连续语言信号的预处理、特征提取以及模式匹配三大阶段。,(1) 预处理 对模拟信号进行采样、量化,将其数字化,并进行带通滤波去除噪声。 (2) 特征提取 在机器中建立被识别语音的标准样板或模型库,或者对已存在于机器中的样板或模型做特定发音人的适应性修改。 (3) 模式匹配 将被识别的特征参量提取出来与模式库中的模式进行匹配计算和比较,根据一定的规则进行识别,相似度最大者即为被识别语音。,2.6.3 语音合成系统的组成 语音合成系统包括3个主要组成部分:文本分析模块、韵律生成模块和声学模块。,(1) 文本分析 告诉计算机在文本中哪些是词、哪些是短语或句子,进而知道

25、发什么音、怎么发音,包括在哪里停顿及停顿多长时间等。,(2) 韵律处理 根据文本分析抽取的发音信息,调整发音的停顿位置、停顿时间、吐字能量、音调、音高等韵律参数,使计算机最终合成的语音更自然流畅。 (3) 声音合成 根据前两步处理结果,从原始语音库取出所需的语音基元进行拼接,并利用特定的语音合成技术,调整和修改语音基元的韵律特征,进而合成语音。,2.6.4 文语转换(TTS, Text-To-Speech)技术 计算机将文字合成为声音读给用户听,这就是文语转换。文语转换过程是先将文字序列转换成音韵序列,再由语音合成器生成语音波形。其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量的语音流。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1