第14章MPEG声音压缩.ppt_三一文库31doc.com

资源描述

《第14章MPEG声音压缩.ppt》由会员分享，可在线阅读，更多相关《第14章MPEG声音压缩.ppt（56页珍藏版）》请在三一文库上搜索。

1、第14章 MPEG声音压缩,内容,听觉系统的感知特性 MPEG-1 Audio(11172-3) MPEG-2音频 MPEG-4的通用声音编码全频带声音的其他编码,听觉系统的感知特性,响度,通常用声强级来描述声强的强弱。规定声强： I0=10-12 W/m2 作为测定声强的标准。（频率为1 000 Hz的声波能引起听觉的最弱声强）,声强级L定义为：,(Bel ) 单位为贝尔,(dB ) 单位为分贝,听觉系统对对响度的感知,人的听觉系统存在一个听觉阈值电平，低于这个电平的声音信号就听不到听觉域值的大小随声音频率的改变而变化，大多数人的听觉系统对2 kHz5 kHz之间的声音最敏感。声音

2、是否能听到取决于声音的频率及强度(是否大于该频率对应的听觉阈值) 每个人的听觉域值也不同。,“听阈-频率” 曲线,听阈是随频率变化的人耳对不同频率的敏感程度差别很大人耳对2-5 kHz范围的声音信号最为敏感,痛阈-频率曲线,听阈-频率曲线,人耳听觉范围,等响度级曲线,音调,对音调的感知人们对音调（音高）的主观感觉, 单位是“美”(Mel) 主观感觉的音调与频率之间并不是线性关系: Mel=1000*log2(1+f) 人耳对频率的感知范围: 20 Hz 20000 Hz,听觉掩蔽特性,一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音(masking to

3、ne, masker)，后者称为被掩蔽声音(masked tone, maskee)。掩蔽效应可分成2种: 频域掩蔽时域掩蔽,频域掩蔽,强纯音会掩蔽频率与其靠近的同时发声的弱纯音，这种特性称为频域掩蔽，也称同时掩蔽(simultaneous masking)。例如，同时有两种频率的纯音存在，一种是1000 Hz的声音(60dB)，另一种是1100 Hz的声音(42dB)，在这种情况下，1100 Hz的声音就听不到。弱纯音离强纯音越近就越容易被掩蔽。,不同纯音的掩蔽效应曲线,低频纯音可以有效地掩蔽高频纯音，但高频纯音对低频纯音的掩蔽作用则不明显掩蔽效应的作用范围和大小，与声强及频率有关

4、，频率越高、声音越强，掩蔽效应越大。,声强为60分贝的250 Hz、1 kHz、4 kHz和8 kHz纯音，对其他纯音的掩蔽效应。,时域掩蔽,在时间上相邻的声音相互之间也有掩蔽现象，称为时域掩蔽。时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。,临界频带,同一个频带里的声音相同非线性的25个临界频带临界频带的掩蔽效应,MPEG-1 Audio(11172-3),什么是MPEG-1 音频,MPEG-1是活动图象及其伴音的压缩编码标准，其中 MPEG-1 Part3 (audio)是音频压缩编码。诞生于1992年目的是把221Mbits的NTSC图像压缩到1.2Mbits，压缩率为

5、2001。传输速率为1.5Mbitss，每秒播放30帧，具有CD音质视频约1.2 Mbits/sec, 音频约0.3 Mbits/sec (CD 唱片的码率： 44,100 samples/sec * 16 bits/sample * 2 channels 1.4 Mbits/sec) 典型应用 VCD,MPEG-1音频编码的性能(1),编码器输入: 取样频率：32kHz、44.1kHz或48kHz 量化精度：16位数字声音信号带宽： 20-20kHz 编码器输出: 码率：32-384 kbps 格式：MPEG-1格式,MPEG-1音频编码的性能(2),提供三个独立的压缩层次: 压缩倍数

6、码率延迟时间语音质量 1 语音质量 2 1 4:1 384 19ms 2 6-8:1 192-256 35ms 2.1-2.6 4+ 3 10-12:1 112-128 59ms 3.6-3.8 4+,MPEG-1音频编码的性能(3),支持4种不同的模式: 单通道(Single channel)，双通道(Dual channel,二个独立的声音信号编码在一个比特流中)，立体声(Stereo, 左右声道的信号分别编码在一个流中) 联合立体声（Joint stereo，利用左、右声道信号的相关性，降低输出比特流的码率）。编码后的数据流支持循环冗余校验CRC(cyclic redunda

7、ncy check)。支持在数据流中添加其它附加信息。,MPEG-1音频编码的原理,MPEG 1音频是一个子带编码系统，声音数据压缩算法的根据是心理声学模型：将audio信号分割成32个不同的子频带, 充分利用听觉系统的掩蔽特性（主要是利用频域掩蔽特性）, 保留可感知的信号进行编码，而扔掉被掩蔽的信号不进行编码, 计算出以频率为自变量的噪声掩蔽阈值(masking threshold)，按照信掩比(SMR)来决定分配给各个子带的量化位数，调节各个不同子带的量化编码。,MPEG-1音频“层1” 编码器,声音数据以“帧”为单位进行编码处理，每一帧包含384个样本,使用的时间-频率变换部件是一个

8、多相滤波器组，所分割得到的32个子带频带都相等， 32个子带各输出12个样本作为一组,按心理声学模型为每组样本进行一次比特分配（0-15bit），用来指出每组样本都使用几位表示,将每组样本的数值乘一个比例因子(6位)，使量化器的量化范围能得到充分利用,心理声学模型仅使用频域掩蔽特性,子带样本的组织,量化器的比特分配算法,根据输出码率决定每一帧样本的比特总数A；然后在不超过总数A的前提下，使这一帧的总掩蔽与噪声之比( MNR)最小；每个子带的MNR为： MNR=SNR-SMR （其中，SNR是量化器的信噪比，由量化器位数决定； SMR是每个子带的信掩比，由心理声学模型计算） 3. 对32个

9、子带分别分配量化位数，计算NMR，使NMR最小； 4. 计算所有量化器输出样本的比特总数，并与A 进行比较； 5. 如果不超过，则增加量化器位数， 6. 重复步骤3, 4和5，直至比特总数最接近A为止。,量化器的信噪比SNR,量化器位数信噪比(db) 量化器位数信噪比(db) 1 0 9 55.93 2 7.0 10 61.96 3 16.0 11 67.98 4 25.28 12 74.01 5 31.59 13 80.03 6 37.75 14 86.05 7 43.84 15 92.01 8 49.89,MPEG-1音频(层1)的帧结构,32个子带，每个子带各一,用于记录该帧的同步及

10、属性信息,用于检错与纠错的循环冗余码,用于描述分配给该子带的量化比特数目,用于描述该子带的量化比例因子,MPEG-1音频的帧结构,帧的作用：帧是音频数据的组织单位，用于同步、纠错，也有利于存取、编辑。格式： Header + 音频数据 +（纠错码）,MPEG-1音频“层2” 编码器,每1帧包含1152个样本,使用的时间-频率变换部件是一个多相滤波器组，所分割得到的32个子带频带都相等， 32个子带各输出3组样本，每组12个样本。,按心理声学模型为每组样本进行比特分配，且作了一些限制（低频段的子带用4比特，中频段的子带用3比特，高频段的子带用2比特），因而编码更紧凑,将每组样本的数值乘一个比例

11、因子(6位)，比例因子可以共享,心理声学模型除使用频域掩蔽特性外，还利用了时间掩蔽特性,MPEG-1音频(层2)的帧结构,比例因子选择信息，决定是否需要以及如何共享比例因子,MPEG-1音频“层3” 编码器,使用混合滤波器组（多相滤波器组+MDCT），把声音频带分成非等宽的接近人耳临界频带划分的32个子带，心理声学模型除了使用频域掩蔽特性和时间掩蔽特性之外，还考虑了立体声数据的冗余，每个子带中样本的量化和编码，通过2个嵌套的迭代循环进行优化，采用非均匀量化，样本在量化处理后，再使用霍夫曼(Huffman)编码进一步压缩数据。,32个子带的划分,借助分析滤波器组把输入信号变换为32个频域子

12、带信号层1、层2编码器的子带划分是线性的，层3编码器的子带划分是非线性的，因为人耳的听觉特性是非线性的，是以“临界频带”来划分的。,“层3”音频编码器结构,MDCT(modified discrete cosine transform) 把子带的输出在频域里进一步细分, 以达到更高的频域分辨率,内迭代循环用于码率控制，外迭代循环用于噪音控制,除了使用频域掩蔽特性和时间掩蔽特性之外，还考虑了立体声数据的冗余,MPEG1音频解码器的原理框图,进行差错检测、比特流分解,恢复出各种信息段,恢复被量化的子带样本值以重建声音信号,逆变换模块将这些样本从频率域变换回时间域中均匀的声音样本,小结,层 1

13、: 每帧一个样本组、子带频宽相等、每帧3212384个样本、仅用到频率掩蔽效应。层 2:每帧三个样本组、子带频宽相等、每帧321231152个样本、不仅用到频率掩蔽效应，还用到时域掩蔽效应。层 3: 子带频宽与临界频宽相似, 用到频率掩蔽效应和时域掩蔽效应, 考虑到立体声冗余, 采用Huffman编码。,MPEG-2音频,MPEG-2音频,(1) MPEG-2 Audio(ISO/IEC 13818-3)，或者称为MPEG-2多通道(Multichannel)声音，又称为MPEG-2 BC (Backward Compatible)。 (2) MPEG-2 AAC (ISO/IEC 138

14、18-7, Advanced Audio Coding)，也称为MPEG-2 NBC(Non-Backward-Compatible)标准。,MPEG-2 Audio(13818-3),MPEG-2 Audio,增加了16 kHz, 22.05 kHz和24 kHz采样频率声音的处理，扩展了编码器的输出速率范围，由32384 kbps扩展到8640 kbps，增加了声道数，支持5.1声道和7.1声道的环绕立体声。,MPEG-2的环绕立体声,MPEG-2 Audio的“5.1环绕立体声”也称为“3/2-立体声加LFE”，放音现场前方有3个喇叭 (左、中、右3个声道)，后面有2个喇叭(2个环

15、绕声道)，“.1”指LFE(low frequency effects)，即低频音效加强声道。,MPEG Audio的应用,优点: 声音品质优良码率范围较宽多种不同配置四大应用领域: 广播, 存储, 多媒体通讯,MPEG-2 AAC (Advanced Audio Coding)（ISO/IEC 13818-7 ）,MPEG-2 AAC的性能,取样频率: 从8 kHz到96 kHz，编码器输入: 单声道、立体声和多声道声音。最多可支持: 48个主声道、16个低频音效通道LFE (low frequency effects)、16个配音声道(也称为多语言声道) 和16个数据流。在压

16、缩比为11:1(即每个声道数据率为44.1 16/11 = 64kbps)，5声道的总码率为320 kbps的情况下，重建声音与原始声音之间几乎无区别。音质相同时，码率仅MP2的50%, MP3的70%,MPEG-2 AAC 的特点,比MP3更加灵活, 如：取样频率和码率的范围更大, 声道数目更多, 具有多语言能力, 支持16个嵌入数据流等，编码器/解码器的结构是模块化的 AAC使用了更加先进的算法及工具, 如：分辨率更精细的滤波器组, 时域噪音定形（ temporal noise shaping，TNS）, 反向自适应线性预测(backward adaptive linear pre

17、diction), 联合立体声编码技术（joint stereo coding techniques）改进的 Huffman coding,MPEG-2 AAC编码器,输入信号,13818-7声音数据流,过去帧的量化频谱,迭代环,由多相正交滤波器、增益检测器和增益修正器组成。它把输入信号分离到4个相等带宽的频带中，通过忽略高频带信号而获得低取样率的输出信号，从而达到取样频率可调的目的。,输入信号,13818-7声音数据流,迭代环,过去帧的量化频谱,把输入信号从时域变换到频域，采用了改进的离散余弦变换MDCT，它是一种线性正交交迭变换，使用了一种称为时域去混迭技术.,输入信号,13818-7声

18、音数据流,迭代环,过去帧的量化频谱,用来控制量化噪声，以解决掩蔽阈值和量化噪声的错误匹配问题。,输入信号,13818-7声音数据流,迭代环,过去帧的量化频谱,联合立体声编码, 目的是为了去掉声道之间的冗余信息。包含两种空间编码技术：M/S编码(Mid/Side encoding)和声强/耦合(Intensity /Coupling)。,输入信号,13818-7声音数据流,迭代环,过去帧的量化频谱,主要用来减少平稳(stationary)声音信号的冗余度。,输入信号,13818-7声音数据流,迭代环,过去帧的量化频谱,对被量化的谱系数、比例因子和方向信息进行霍夫曼编码。,MPEG-2 AAC 解

19、码器,MPEG-2 AAC编码器的分类(档),(1) Main Profile，除了“增益控制”之外，使用了图中的所有模块，能提供最好的声音质量，对存储容量和处理能力方面的要求比较高。 (2) LC Profile（Low Complexity Profile ），不使用预测模块和预处理模块，时域噪声定形 (TNS)滤波器的级数也有限，声音质量比Main Profile质量低，但对存储容量和处理能力的要求可明显降低。 (3) SSR Profile（Scalable Sampling Rate Profile ），使用增益控制对信号作预处理，不使用预测模块，TNS滤波器的级数和带宽也都有限制，

20、因此它比基本配置和低复杂性配置更简单，能用来支持可调整的取样频率。,MPEG-4的通用声音编码 (General Audio Coding, GAC),MPEG-4 的声音编码,（1）自然音频信号的编码(2kb/s到64kb/s码率) 语音信号的编码全频带声音的编码（通用声音编码GAC）（2）合成音频信号的编码结构化音频(包括乐器数字接口MIDI) 文语转换（TTS）还包括一些用来增强音频合成效果和产生3D环绕声音的工具,MPEG-4声音编码,MPEG-4的通用声音编码器 (General Audio Coding，GAC),MPEG-4 GAC是一个全能（all-round）的编码系

21、统,它提供了一组强大的工具，增加了许多新功能，码率：从16 kbit/s到高于64 kbit/s（每个声道）支持MPEG-2 AAC，与MPEG-2 AAC保持向后兼容, 基本原理与MPEG-2 AAC相同，但在许多方面有了改进与扩充（例如长期预测，双矢量量化编码，感知噪音替代，位片方式的算术编码等），显著提高了编码效率。,MPEG-4 的功能,播放速度控制与音调控制功能，允许改变播放速度而不影响音调。音调改变功能，改变音调而不影响速度，用于混音和卡拉OK。 Scalability：码率分级编码功能（Bit rate scalability），带宽分级编码功能（Bandwidth s

22、calability），编码器复杂度的分级功能（Encoder complexity scalability），解码复杂度的选择功能（decoder complexity scalability），鲁棒性,全频带声音的其他编码 Dolby AC-3,Dolby AC-3的性能,支持独立的6-8个声道：左、右、中、左环绕、右环绕和一个低于超低音声道(Sub)，有出色的声音定位能力, 具有很宽的动态范围（频率响应超过20kHz）, 高的信噪比，超低音效果气势雄伟。多种输出码率：32kbps-640kbps。,Dolby 数字影院系统 DTS,DTS是 (Digital Theater Systems) 是一种高保真声音编码技术，技术原理与AC-3基本相同。 DTS的码率设计为1411 kbps，通常运行在754或1509 kbps的速率上，声音质量高于AC-3，达到专业水准。美国高清晰度数字电视标准ATSC和欧洲数字电视标准DVB都已将杜比数字技术作为其音频制式。,

展开阅读全文