第三讲音频压缩编码.docx

上传人:scccc 文档编号:13920358 上传时间:2022-01-26 格式:DOCX 页数:31 大小:137.78KB
返回 下载 相关 举报
第三讲音频压缩编码.docx_第1页
第1页 / 共31页
第三讲音频压缩编码.docx_第2页
第2页 / 共31页
第三讲音频压缩编码.docx_第3页
第3页 / 共31页
第三讲音频压缩编码.docx_第4页
第4页 / 共31页
第三讲音频压缩编码.docx_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《第三讲音频压缩编码.docx》由会员分享,可在线阅读,更多相关《第三讲音频压缩编码.docx(31页珍藏版)》请在三一文库上搜索。

1、 音频压缩编码基本原理 MPEG-1音频压缩算法及标准MPEG-2 Audio MPEG-4 Audio AC-3首频编码第三讲音频压缩编码 、音频压缩编码基本原理1、什么是音撅信号? 通常将人耳可以听到的频率在20Hz到20KHz的声波称为声音信号,声音振动被拾音器转换成电信号称为音频信号。 人的发音器官发出的声音频段在80Hz到3400Hz之间; 人说话的信号频率在300Hz到3000Hz ,将该频段的信号称为语音信号。一、音频压缩编码基本原理2、音频压缩的可能性(1)声音信号中的“冗余”频域:非均匀功率密度谱,低频能量高,高频能量低。时域:信息冗余度主要表 现在幅度非均匀分布,即不同幅度

2、的样值出现的概率不同,小幅度的样值比大幅度 样值出现的概率高。一、音频压缩编码基本原理2、音频压缩的可能性(2)人耳的听觉特性,声音中存在与听觉无关的“不相关”部分。对于人耳感觉不到的不相关部分不编码、不传送,以达到数据压缩的目的。利用了人耳听觉的心理声学特性。声音主观感受响度、音调、音色; 声音客观特性振幅、频率、频谱特性;二、人类听觉系统的感知特性示例视频二、人类听觉系统的感知特性听阈-频率曲线 两个声音响度级 相同,但强度不 一定相同,还与 频率有关; 声压级越高,等响度曲线趋于平坦;人耳对34KHz的声首感觉最灵敏;人耳的掩蔽效应一个较弱的声音的听觉感受被另一个较强的声音影响的现象称为

3、人耳的听觉 掩蔽效应。听不到叫被掩蔽声.起掩蔽作用的叫掩蔽声。被掩蔽音单独存在时的听阈分贝值,为绝对听阈。即安静环境中能被人耳听 到的纯音最小值。也称静听域。频域掩蔽/时域掩蔽。掩蔽效应演示Snnultaneous maskmg.mp41、频域掩蔽(纯音间的掩蔽)一个强纯音会掩蔽在其附近同时发声的弱纯音,这种特性称为频域掩蔽,也称 同时掩蔽。80同听阙1000-Hz纯音不能听到 的声音_ _ _ _ _ o o O 4 2 BP 一 声级静听阈Effect on tlueshold fbr 1 kHz masking toneLi & Drew10频域掩蔽域随频率变化曲线音调音的掩蔽阈的宽度随

4、频率而变化;掩蔽曲线不对称,高频段一侧的曲线斜率缓些;低频音容易对高频音产生掩 蔽。频域掩蔽域随声压级变化曲线声压级I(dB)110io(r 90-2、人耳模型How ear works 视频演示2、人耳模型Cochelai aiiunation演示2、人耳模型 声音频率发生转换-声波冲击耳鼓(Eaidrum和连着的耳骨; 耳鼓和耳骨将机械振动传递给耳蜗(Cochlea )-耳蜗薄膜的椭圆窗沿基底膜长度方向引导行波; 行波在薄膜的特定频率感应位置产生峰值响应; 薄膜的特定频率感应位置为特定频带提供峰值响应; 可以把耳蜗当成一组高度重叠的带通滤波器人耳相当于一个滤波器组 人类听觉系统大致等效于一

5、个在0Hz到20KHz频率范围内由25个重叠的带 通滤波器组成的滤波器组。-人耳不能区分同一频带内同时发生的不同声音;-人耳 频带被称为临界频带(critical band);-500Hz以下每个临界频带的带宽大约是100Hz ,从500Hz起,临界频带带宽 线性增加。 一个临界频带的带宽单位为1巴克(baik。0Hz500Hz20000Hz f临界频带单位巴克(Baik) 对于任何掩蔽频率,巴克被定义为一个临界频带的宽度; 巴克单位的意义:用巴克来衡量每个临界频带的宽度大致都是相同的。80 250 IIz 500 IIz 1 kHz 2 kllz 4kIIz 8 kHz用巴克单位表示的声音掩

6、蔽效应噪声对纯音的3、临界频带掩蔽3、临界频带噪声对纯音的掩蔽 临界频带是指当某个纯音被以它为中心频率、且具有一定带宽的连续噪声所 掩蔽时,如果该纯音刚好被听到时的功率等于这一须带内的噪声功率,这个带宽为 临界频带宽度。 掩蔽效应在一定频率范围内不随带宽增大而改变,直至超过某个须率值。 通常认为从20Hz到16kHz有25个临界须带,单位为bark。 lbark=一个临界频带的宽度长500Hz时Ibaik约为f7100;f500Hz 时 Ibatk 约为 9十410g2 (f71000) ;临界频带(Hz)约为24.7x(4.37F+lF为中心频率(KHz)临界频率(Hz临界频率(Hz频带低端

7、高端宽度频带低端高端宽度001001001320002320320110020010014232027003802200300100152700315045033004001001631503700550440051011017370044007005510630120184400530090066307701 401953006400110077709201502064007700130089201080160217700950018009108012 7019022950012000250010127014802102312000155003500111480172024024155002

8、205065501217202000280在时间上相邻的声音之间也有掩蔽现象。时域掩蔽又分为超前掩蔽和滞后掩 蔽。超前掩蔽很短,只有大约520ms,而滞后掩蔽可以持续50 200 ms。4、时域掩蔽t后掩蔽前掩蔽同期掩蔽强音时间掩蔽利用基于时间掩蔽效应的编码策略是,编码时将时间上相继的一些样值归并成 块.并计算每块内最大样值的比例因子;据心理声学的掩蔽模型,对同一子带内相邻三个比例因子,可丢弃较小的因 子.以减少传输比例因子的比特数。Effect of temporal and fiequency masknigdepending on both tune and closeness in f

9、iequency.Li & Drew2324正弦波幅度0值允许的最大正弦波峰值正弦波负峰值位置图6 16比特有效位编码的二进制、十六进制编码、量化级和相对满度电平的 对应关系基准电平位置SMPTERP155标准基准电平位置数字峰值表显示的是准峰值,因此正弦波基准电平的实际峰值还将高3dB数字峰值表显示的是准峰值,因此如保证正弦波的峰值信号不过载,仪表应保持不超过-3dBFS时为宜音频信号幅度与编码的关系25正弦波幅度。值允许的最大正弦波峰值正弦波负峰值位置图6 16比特有效位编码的二进制、十六进制编码、量化级和相对满度电平的 对应关系基准电平位置SMPTERP155标准基准电平位置数字峰值表显

10、示的是准峰值,因此正弦波基准电平的实际峰值还将高3dB数字峰值表显示的是准峰值,因此如保证正弦波的峰值信号不过载,仪表应保持不超过-3dBFS时为宜得到音频信号幅度与编码的关系音频压缩处理相关的术语信噪比(SNR=信号峰值一噪声有效值信号掩蔽比(SMR=信号峰值一最小掩蔽阈值掩蔽噪声比(MNR=最小掩蔽阈值一量化噪声MNR (dB =SNR(dBSMR(dB信噪比(SNR=201gL/N信噪比(SNR=6.02n+L76N:量化噪声电平,ii:量化比特数重要结论:量化比特数增加1.量化信噪比提高6dB5、感知编码器原理放弃物理上的同一性得到感知上的同一性降低数据率掩蔽的用途q去除会被掩蔽的信号

11、分量v因为即使传输了也不会被听见同听阈以下的信号部分不能被人耳听到(称 不相关部分),不必传送。(去除不相关部分)q不理会可能被掩蔽的量化噪声v因为会被信号淹没按同听阈以上的信号值计算量化比特数,对信号重新量化,使量化噪声在同 听阈以下即可。Maskuig cuiveNoiseSignalExample mm-1m+16、音频信号压缩编码方法(1 )波形编码直接对时域或频域波形编码PCM , DPCM, ADPCM,子带编码,自适应变换编码(2 )参数编译码器从语音波形信号中提取语音生成模型的参数,使用这些参数通过语音生成模型 重构出语音。(3 )混合编码(4)子带编码(sub-band co

12、ding, SBC基本思想:使用一组带通滤波器(band-pass filg BPF把输入音频信号的频带 分成若干个连续的频段.每个频段称为子带。对每个子带中的音频信号采用单独的 编码方案去编码。在信道上传送时,将每个子带的代码复合起来。在接收端解码 时.将每个子带的代码单独解码,然后把它们组合起来,还原出原来的音频信号。三、子带编码1、感知子带压缩算法以心理声学模型为基础,主要利用了听觉阈值和听觉掩蔽特性。译码器输入输出编码器1、感知子带压缩算法0用多相滤波器组,将宽带声音信号分割为多个子撅带,对各子带的音撅样值 分别进行压缩编码。0理想的频带的分割应模仿临界频带,各子带的宽度不一致, 随着

13、频率的升高.子带的带宽也增加。0每个子带内根据信号掩蔽比确定样值的量 化级数,量化噪声的高度与带内同听阈值越接近,数据率压缩越充分。0子带越多(越窄),在相同音质下编码所得数据率越低;传输中的比特差错 仅限制在很窄的子频带内,影响越小。窄子带能改善声音质量2、子带编码的好处S/M=17dB706050 卅级dB)第一,对每个子带信号分别进行自适应控制,量化阶的大小可以按照每个子带 的能量电平加以调节。第二,可根据每个子带信号在感觉上的重要性,对每个子带 分配不同的位数.用来表示每个样本值。例如,在低频子带中,为了保护音调和共 振峰的结构,就要求用较小的量化阶、较多的量化级数,即分配较多的位数来

14、表示 样本值。而话音中的摩擦音和类似噪声的声音,通常出现在高频子带中,对它分配 较少的位数。3、MUSICAM 编码0MUSICAM (Masking pattern adapted Umveisal Subband Integrated Coding AndMultiplexing掩蔽型自适应通用子带综合编码与复用。编码将宽带的音频信号撅谱分为宽 度为750Hz的32个子带,利用人耳听觉的心理声学现象和音频信号统计的内在联 系.确定音频信号中的不相关部分和去除冗余,实现数据压缩。0一套CD立体声数据率为1411.2kbps , MUSICAM编码后数据率为 2x96kbps ,重放仍有CD质

15、量.3、MUSICAM 编码0MUSICAM 与 MPEG-1 的 Layei II一致;Layer I 是 MUSICAM 的简化版本;LayeiTII是MUSICAM与ASPEC (自适应谱感知嫡编码)变换编码的结合, 低比特率时质量最好,时域到撅域的滤波器组提供了高频谱分辨率。在低码率(64 kbit/s时,ASPEC表现出更为出色的音质,而MUSICAM则在编码解码的复杂度 和延时上略胜一筹。MUSICAM编码器PCM 收一 取样软率48KHz块形成g线性比例因f比例因f提取un城科匚四、音频压缩的国际标准MPEG-1 ISOEC-11172-3 1993年标准化 MPEG-2 ISO

16、/IEC13818-31994年11月标准化,是对MPEG1的发展与扩展ISO/IEC MPEG-2 AACQSO/IEC 13818-7 1997 年 4 月公布MPEG-4 ISO/IEC 14496-31999年标准化美国Dolby实验室的Dolby (AC-3)1990年提出MPEG-1输入、输出指标:MPEG音频编码器32kHz. 44.1kHz, 48kHz16位PCM 32kb/s384kb/s层次压缩率数据速率kb/s延迟(ms ) 14 : 138419/5026:1 8:1192 25635/100310:1 12:111212859/150 (一)、MPEG-1音频压缩算

17、法(一)、MPEG-1音频压缩算法MPEG-lAudio层1和层2编解码器的结MPEG-1 Audio 层 1Is滤波器组将时域信号变为32个等宽子带。 G (fs/2) /32=750Hz最低频的子带滤波器为低通滤波器,其它为带通滤波器。窄的子带能提高压缩比,改善声音质量.MPEG/AudE浅波器组频带111111111111111111II111111111111MPEG-1 Audio 层2、快速傅利叶变(FFT)作用:为满足掩蔽阈计算所需的精确的频谱分析,主要提高低频率范围的频率 分辨率,与听觉特性相适应。FFT的变换长度N=512,取样频率fs =48kHz时,通过FFT得到的频率分

18、 辨率为 fs/512=93.75Hz模拟人耳听觉掩蔽特性的数学模型。输入量:FFT的输出X(KO任务:计算信号掩蔽比SMR (每8ms计算1次)。目的:根据SMR给各个 子带分配量化级数。3、心理声学模型计算步骤:(1确定各子带的最大声级L(n(由12个连续抽样值的最大者确定。(2确定静听阈LTg。(3确定音频信号中的音调(类似正弦信号)成分和非音调(类似噪声)成 分。(4抽选掩蔽音,求出相关的掩蔽音。(5计算相关掩蔽音各自的掩蔽阈(同听阈。(6计算总的掩蔽阈(同听阈)。(7确定各子带中的最小掩蔽阈值(最小同听阈)LT min (11 o(8计算各子带的信号掩蔽比SMR(n=L(n-LTmi

19、ii (no信噪比(SNR=信号峰值-噪声有效值(dB)0信号掩蔽比(SMR=信噪比-掩蔽噪声比(dB)NMR4、比例因子(SCF为了提高小信号的量化精度,不丢失小信号,对滤波器组输出的样值先进行归 一化(如60dB.大信号除以大于1的数,小信号除以vl的数,这些除数即是比例 因子,与音频数据一起传送,在解码端再恢复原有幅度。(实际传送比例因子标记,查比例因子表可得因子)。 以块为单位记录一个因子:12个采样值,时间为8ms。 比例因子共63个,用iscf=O, 1, 262来标记,6比特字长编码。 例如,标记iscf=O的比例因子编码为“000000、iscf=62的为部分比例因子5、动态比特分配给每个子带分配多少比特进行量化,要同时满足比特率和掩蔽要求.总的原则 是使音频帧期间的总的掩蔽噪声比达到最小。动态的含义:声音信号在不断随时间变化。比特分配不是一次性完成.是一个迭代过程。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 社会民生


经营许可证编号:宁ICP备18001539号-1