视音频编码技术.ppt

上传人:本田雅阁 文档编号:3191805 上传时间:2019-07-27 格式:PPT 页数:39 大小:1.44MB
返回 下载 相关 举报
视音频编码技术.ppt_第1页
第1页 / 共39页
视音频编码技术.ppt_第2页
第2页 / 共39页
视音频编码技术.ppt_第3页
第3页 / 共39页
视音频编码技术.ppt_第4页
第4页 / 共39页
视音频编码技术.ppt_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《视音频编码技术.ppt》由会员分享,可在线阅读,更多相关《视音频编码技术.ppt(39页珍藏版)》请在三一文库上搜索。

1、视频编码技术 * Men Aidong, Multimedia Telecommunication Centre, BUPT 运动图象的三要素 帧分辨率(DVD图象: 704X576像素/帧) 像素(颜色的位深,真彩24位) 三原色(红绿篮RGB) 亮度Y、色度Cb,Cr 帧率(PAL:25帧/秒;NTSC:30帧/秒) * Men Aidong, Multimedia Telecommunication Centre, BUPT 像素的数字化:色彩模型 RGB模型(红绿兰) 红:8bit 绿:8bit 兰:8bit RGB模型计算机上常用 YCrCb 模型(亮度加色差) 亮度: 8bit 红

2、色差: 2bit(色差压缩) 兰色差: 2bit(色差压缩) YCrCb 模型更适合图形压缩 * Men Aidong, Multimedia Telecommunication Centre, BUPT 数字图象格式:帧分辨率 视频 会议图 像格式图像大小(像素 Sub-QCIF12896 QCIF176 144 CIF352 288 4CIF704 576 10CIF(HDTV)1280 720 像素、帧率两要 素在数字视频图像格式中 为隐含要素。 * Men Aidong, Multimedia Telecommunication Centre, BUPT 运动数字图象采集数码量 1帧4

3、CIF(DVD)图象像素:704X57640万/帧 1像素(红绿蓝): 3X8位编码=24bit码率 PAL制DVD图象帧率: 25帧/秒 每秒图象采集数码量: 40万/帧X 24bit X 25帧/秒=240000000bit/秒 DVD图象原始数码量:240Mbit/秒( RGB模型) VCD图象原始数码量:60Mbit/秒 即使是VCD图象如不压缩编码也无法在2M专线(E1专线)上传输 * Men Aidong, Multimedia Telecommunication Centre, BUPT 关键技术 视频压缩(视频编码) 音频压缩(音频编码) 交换方式与控制方式 * Men Aid

4、ong, Multimedia Telecommunication Centre, BUPT 视频压缩(视频编码) 图象固有的统计规律 空间的相关性(空间冗余) 时间的相关性(时间冗余) 视觉、心理 录入和显示设备 * Men Aidong, Multimedia Telecommunication Centre, BUPT n 国际标准组织 ITU (VCEG) 更悠久、更专注于传统的视频编码目标(例如, 更好的压缩和包丢失/误码恢复) ISO/IEC(MPEG) 更大、更具有雄心勃勃的目标(例如,“面向 对象视频编码”、“自然分析合成混合编码”和数字电影) 两者有时合作制定标准(例如,IS

5、O、IEC and ITU 协作制定了 MPEG-2/H.261 和 MPEG AVC/H.264) n 活跃的产业联盟和协会 DVD、3GPP、3GPP2、 SMPTE、IETF, etc. 中国的 AVS n 游离于正式标准之外的厂商,事实上的工业标准: Microsoft Real Networks Quicktime 视频编码标准:视频编码标准组织 8 * Men Aidong, Multimedia Telecommunication Centre, BUPT H.264 / MPEG4 AVC H.261 H.262 / MPEG2 H.263 H.263+ H.263 + ITU

6、-T Standards Joint ITU-T ; 去块效 应滤波 帧内 预测 4x4 整数 “IDCT” 当前帧 原始图像 1. 变换&量化去除空间冗余 2. 预测(运动补偿)去除时间冗 余 3. 熵编码去除变换系数的冗余 10 * Men Aidong, Multimedia Telecommunication Centre, BUPT n 运动补偿:去除时间冗余 例: 序列图象 视频编码技术:运动补偿 n动机:运动/固定目标的大小是可变的 许多小块也可能需要花费许多比特来编码 不同块大小和形状的运动补偿 1616 88 44 11 * Men Aidong, Multimedia Te

7、lecommunication Centre, BUPT 大小和形状可变块(7种) 8x8 0 4x8 01 01 23 4x48x4 1 0 8x8 Types 0 16x16 01 8x16 MB Types 8x8 01 23 16x8 1 0 n运动估计匹配块的尺寸不断缩小 H.261:1616 H.263:88 H.264:7 种可变块大小,最小 44 AVS:4 种可变块大小,最小 88 节省了15%以上的比特率 Forema n 30fps QCIF 运动补偿:发展趋势 12 * Men Aidong, Multimedia Telecommunication Centre, B

8、UPT n运动估计参考帧的数量不断增加 I 帧(帧内编码)、P 帧、B 帧 多参考帧预测:假设为5个参考帧预测,相对于一个参考帧来说 ,可节省 5% 到 10% 比特率。 H.264 P 帧、B 帧前后最多 16 帧 AVS P 帧前后 2 帧、B 前后 1 帧 运动补偿:发展趋势 13 * Men Aidong, Multimedia Telecommunication Centre, BUPT n 变换编码:去除空间冗余。变换后,在变换域中,低频系数的 能量远大于高频系数的能量,变换系数的相关性将大大去除。 视频编码技术:变换编码 14 * Men Aidong, Multimedia T

9、elecommunication Centre, BUPT 变换编码:DCT(离散余弦变换) n DCT 快速算法是中国人陈文雄 (1977) 提出 n LLM 快速 DCT 算法 (Loeffler, Ligtenberg and Moschytz,1989) 此算法需要 11 次乘法和 29 次加法 15 * Men Aidong, Multimedia Telecommunication Centre, BUPT 变换编码: DCT 变换的尺寸 2*2 4*4 8*8 16*16 32*32 64*64 子块 尺寸 位/象素 2.5 2.0 1.5 1.0 n DCT 编码效率和尺寸之间

10、的关系是单调曲线,其拐点在 44、88、1616 区段 n 需要根据图像分辨率(QCIF、CIF、SDTV、HDTV或数 字电影)选择 DCT 变换块的大小。 44 更适宜于小尺寸图像,相应的块效应主观感觉也会减弱 44 更好的运动补偿,意味着更小的空间相关性 n H.264 有 44、88 变换块 n AVS 有 88 变换块 16 * Men Aidong, Multimedia Telecommunication Centre, BUPT 变换编码: DCT 变换的复杂度 n 传统的 DCT 变换 DCT 需要实数运算,反变换中引起了精度的损失。 n H.264、AVS 等使用了非常简单

11、的44或88 整数变换: 对传统 DCT 非常精巧的逼近 变换矩阵只包含 +/-1 和 +/-2 计算只需要加法、减法和移位 n 结果显示仅有可以忽略不计的质量损失 (0.02dB) 差值图像基于 4x4 整数变换: 主类:自适应块大小变换(8x4, 4x8, 8x8) 对于 8x8 色度和 16x16 帧内亮度块DC 系数再次变 换(Repeated Transform) 17 * Men Aidong, Multimedia Telecommunication Centre, BUPT 上下文 模型 二进制化 概率 估计 编码 引擎 更新概率估计 自适应二进制算术编码器 基于过去获得的条

12、件选择一个模型 非二进制符号映射 为二进制序列 使用提供的模型进行编码并更新模型 n 获得好的性能,源于: 通过上下文选择模型 基于本地统计的自适应估计 算术编码减少计算复杂度 视频编码技术:熵编码 n H.264 CABAC 熵编码 18 * Men Aidong, Multimedia Telecommunication Centre, BUPT 视频编码技术:帧内预测 n 动机:I 帧是自然图像,具有很强的空间相关 H.261、MPEG2 没有帧内预测,只有帧间预测 H.263+ 和 MPEG4 中,在变换域中根据相邻块对当前块的某些 系数做预测 H.264 在空域内,依据与当前块相邻的

13、象素,对当前块进行预测 。 宏块或块基于先前编码的块进行预测: 先前编码的块位于当前块的上面和/或左面的块 亮度块有两类帧内预测方式: 9 种 44 帧内预测模式,用于纹理区域 4 种 1616 帧内预测模式,用于平滑区域 色度样值只有 4 种 88 帧内预测模式,类似于亮度样值的 1616帧 内预测模式 AVS 同样思想: 5 种 88 帧内预测模式,用于纹理区域 4 种 88 帧内预测模式,用于平滑区域 19 * Men Aidong, Multimedia Telecommunication Centre, BUPT n H.264 去块效应环路滤波器 高压缩解码的帧间图像 显著地减小预

14、测残留图像 没有滤波H.264/AVC 去块效应滤波 视频编码技术:去块效应环路滤波器 20 * Men Aidong, Multimedia Telecommunication Centre, BUPT 视频编码技术:主要视频编码标准的技术比较 MPEG-2MPEG-4H.263H.264VC-1AVS 变换8x8 DCT变换8x8 DCT变换8x8 DCT变换4x4、8x8 整数变换 4x4、2x2 哈达码变换 4x4、8x4、4x8、 8x8 整数变换 8x8 整数变换 量化传统 方式传统 方式传统 方式乘法与移位实现传统 方式乘法与移位实现 帧内预测变换 后 DC系数变换 域帧内预测变

15、换 域帧内预测4x4、8x8亮度块:9 种 16x16亮度快:4 种 色度块:4 种 变换 域帧内预测8x8 亮度块:5 种 色度块:4 种 运动补偿块 大小16x16、16x816x16、16x8、8x816x16、8x816x16、16x8、8x16、 8x8、8x4、4x8、4x4 16x16、8x816x16、16x8、 8x16、8x8 运动矢量精度 象素 象素 象素 象素 象素 象素 内插滤波器1/2象素:2-tap1/2象素:8-tap 1/4象素:2-tap 1/2象素:2-tap1/2象素:6-tap 1/4象素:2-tap 1/2象素:4/2-tap 1/4象素:4-tap

16、 1/2象素:4-tap 1/4象素:4-tap 参考帧1个参考帧1个参考帧1个参考帧16 个参考帧1 个参考帧2 个参考帧 B 帧特征前向/后向 前向/前向 后向/后向 2 个运动矢量 前向/后向 前向/前向 后向/后向 2 个运动矢量 前向/后向 前向/前向 后向/后向 2 个运动矢量 前向/后向 前向/前向 后向/后向 2 个运动矢量 前向/后向 2个运动矢量 前向/后向 对称的 1 个运动矢 量 去块效应滤 波无有有有有有 熵编码VLCVLC VLC、算术编码VLC, CAVLC, CABAC多 VLC 码表自适应 VLC 码表 帧编码类 型帧、场、PAFF帧、场、PAFF帧帧、场、P

17、AFF、 MBAFF 帧、场、PAFF帧、场、PAFF 类(profile)Simple、Main、High 等 19 个类Baseline、Main、 Externed、High (FRExt) Simple、Main、 Advanced 一个类 帧类 型I、P、BI、P、BI、P、B、SI、SPI、P、B、SI、SPI、P、B、BII、P、B 取样格式4:2:0、4:2:24:2:04:2:04:2:0、4:2:2、4:4:4、 灰度、RGB 4:2:04:2:0 21 * Men Aidong, Multimedia Telecommunication Centre, BUPT n H.

18、264 编解码器的实现意味着放宽通常的复杂度(存储和 计算)限制,相对于 MPEG2编解码器,粗略估计: 解码能力需要增加 4-5x 编码能力需要增加 10x 折中:最好的质量和最小的带宽消耗,高度复杂计算使得 ASIC 昂贵,实现复杂。 视频编码实现:H.264 MD:模式判决 TQ:变换和量化 MC:运动补偿 ME:运动估计 VLC:变字长码 22 * Men Aidong, Multimedia Telecommunication Centre, BUPT Copy IP 存储 DVR IP 视频电话、会议 DTV H.264 ISTB VOD H.264 视频应用环境 IP 视频流 D

19、TVMPEG2 over IP STB 3GPP VOD SIP / H.264 over IP 转码 视频监控 H.264 over LAN / IP HFC 转码 转码 视频编码应用:领域 23 * Men Aidong, Multimedia Telecommunication Centre, BUPT 小结 n 现代视频编码体系结构没有革命性的改变,基于混合视频编码方案, 但不断改进,越来越精巧和完善,使得压缩率和图像质量不断提高, 复杂度也大大增加: 新的关键技术特征: 增强的运动补偿 小尺寸的整数变换 增强的熵编码 CAVLC 和 CABAC 其它:增强的去块效应滤波器等 在相同质

20、量下,节省比特率 50 以上,主观质量感觉比客观 PSNR 指标 更好。 复杂度增加,编码器 3-10x,解码器 2-5x n 最新发展的标准有 H.264/MPEG AVC、SMPTE VC1/MS WMV9和 我国的 AVS。 n 研究方向是可伸缩的视频编码(Scalable Video Code,SVC),不同的应用 可以由一个共同的码流来实现,目前已经公布的视频编码标准都没有 这个功能。 24 数字音频压缩技术 Digital Audio Compression * Men Aidong, Multimedia Telecommunication Centre, BUPT 引言数字音频

21、的数据量 n 数字化是趋势 信息量非常大,高传输带宽或存储容量 5.1 声道环绕立体声: 648KHz18bits.184Mbit/s n 减少代表原始声音信号的信息量 更好利用现有频率资源 便于计算机处理和存储 宽带网中高质量传输 26 * Men Aidong, Multimedia Telecommunication Centre, BUPT n 波形编码 将波形直接变换成数字码流。特点:比特率较高、解码后质量较高、延 时较小。可以分为:时域波形编码,如PCM、ADPCM、M等;频域波形 编码,如:子带编码(SBC)、自适应变换编码(ATC)等。 PCM原理(1937年,法Alec Re

22、eres) 电子管 PCM(46年,Bell实验室) 晶体管 PCM(62年,市话扩容,64kb/s) 单片IC PCM(70年代,微波、卫星、光纤) 增量编码原理(1946年,法 De Loraine) 自适应增量 CVSD(60年代末,军用,32、16kb/s) CVSD(Continuously Variable Slope Delta Modulator) (连续变化斜率增量调制器) 其他编码(70年代,ADPCM、SubBand、ATC、APC等) 在16kb/s以上得到较好的话音质量。 特点:话音质量好,但编码速率高。 音频编码历史:数字语音(1) 27 * Men Aidong,

23、 Multimedia Telecommunication Centre, BUPT n参数编码 从信源信号的某个域中提取特征参数,并变换成数字码流。如:各种 声码器。 波形编码通道声码器(39年,Dudly,二次大战保密电话) LPC声码器(67年,Atal、Schroeder) 同态声码器(69年,Oppenheim) 共振峰声码器(71年,Rabiner、Schafer、Elanagan) MBE声码器(88年,Griffin、Lim) 波形插值(91年,W.B. Kleijn) 2.4kb/s、1.2kb/s、较好;600-800b/s可懂。 特点:编码速率低,自然度差、解码后质量较低

24、、延时 较大。 音频编码历史:数字语音(2) 28 * Men Aidong, Multimedia Telecommunication Centre, BUPT n 混合编码器 将以上二种方法混合,利用线性预测、VQ、A-B-S、感觉加权、后 滤波等技术。如:G723.1,G728,G729,GSM的语音编码,IS-95的 语音编码等。 多脉冲激励线性预测(MPELP 1982 Atal、Remde) 规则脉冲激励线性预测(RPELP 1985 Deprettere、Kroon) 码本激励线性预测(CELP 1985 Manfred、Schroeder、Atal) 8-16kb/s,高质量。

25、特点:话音质量高、编码速率低, 但算法复杂。 音频编码历史:数字语音(3) 29 * Men Aidong, Multimedia Telecommunication Centre, BUPT n 主要应用于娱乐与鉴赏,对于重建信号的音质有很高的要 求,目前采用比特率较高的波形编码技术进行压缩。可以 直接在时域进行,也可以转到频域或其他变换域进行。 n 1982年激光唱盘 (CD: Compact Disk)上市。MD:Mini- Disk,日本索尼公司采用ATRACAdaptive Transform Acoustic Coder压缩技术。 n 1987数字音频磁带录音 (DAT: Digi

26、tal Audio Tape) 问世。 n DAB (Digital Audio Broadcasting) 源于欧洲。 n AC3 来自 Dolby 公司 n 音频编码历史:宽带音频 30 * Men Aidong, Multimedia Telecommunication Centre, BUPT 音频编码性能评价(1) n 编码速率(Kbps、Kb/s) 信号带宽:可懂度、自然度、透明度。 2003400Hz、507000Hz、2015000Hz、1020000HZ。 采样速率:8KHz、16KHz、32KHz、44.1/48KHz。 样值比特数(b/样点),总速率 R(kb/s)。 固

27、定码率及可变码率。 n 重建语音质量 客观评价: 信噪比 分段信噪比 (一般15dB以上较好,20dB以上相当好) 31 * Men Aidong, Multimedia Telecommunication Centre, BUPT 音频编码性能评价(2) 编解码延时(ms) 公众网(25ms)、点对点、广播、存储 回声控制或回声抵消 正常通话秩序 与重建质量关系 算法复杂度 硬件、成本 浮点、定点 MIPS、RAM、ROM 其他 抗随机误码和突发误码能力 抗丢包和丢帧能力 对不同信号编码能力 级联或转接能力 32 * Men Aidong, Multimedia Telecommunicat

28、ion Centre, BUPT 语音压缩(音频编码) ITU-T G.711(1988) 语音PCM编码标准,64kbit/s G.722(1988) 7kHz音频编码标准, 64kbit/s G.728(1992) LD-CELP语音编码标准, 16kbit/s G.723.1 低速率语音编码建议,具有 两种速率6.3kbit/s和 5.3kbit/s。 MPEG MP3:MPEG1 Audio Layer-3的 简称从MPEG-1标准衍生的、开 放的编码方案50K-100Kbit/s ACC MPEG2音频压缩 MP4 * Men Aidong, Multimedia Telecommu

29、nication Centre, BUPT 声音压缩编码理论基础 n 冗余(Redundance) 信号一部分可由另一部分重建或另外表达形式简单说明,称为信号有冗 余 去除冗余实现压缩编码 信号冗余是变化的,故不能产生恒定码流输出 n 不相关 (Irrelevance) 听觉不能感觉的那部分信号,它对声音信号的确定或音色和发音位置没 有贡献 不相关信号部分不传输 利用掩蔽效应来掩盖量化失真 n 人耳听觉特性 人耳分辨能力 人耳对不同频段声音的敏感程度不同,通常对低频比对高频更敏感 人耳对语音信号的相位不敏感 人耳掩蔽效应 Masking Effect 34 * Men Aidong, Mult

30、imedia Telecommunication Centre, BUPT 现有标准:语音编码标准 (1) 35 * Men Aidong, Multimedia Telecommunication Centre, BUPT n PCM:脉冲编码调制 n ADPCM:自适应差分脉冲编码调制 n LD-CELP:低延时码本激励线性预测编码 n CS-ACELP:共轭结构代数码本激励线性预测编码 n ACELP:代数码本激励线性预测编码 n MP-MLQ:多脉冲激励最大似然量化 n SB-ADPCM:子带自适应差分脉冲编码调制 n LPC-10:线性预测编码-10 n MELP:混合激励线性预测编

31、码 n CELP:码本激励线性预测编码 n RPE-LT:长时间预测规则脉冲激励线性预测编码 n VSELP:矢量和激励线性预测编码 n IMBE:Inmarsat多带激励语音编码 n QCELP:Qualcomm码本激励线性预测编码 n EVRC:增强型变速率编码 现有标准:语音编码标准 (2) 36 * Men Aidong, Multimedia Telecommunication Centre, BUPT n MP3 MPEG-1 layer 3 最多用户 对于苛刻素材,192kbps 时接近 CD质量 n Ogg Vorbis 开发源码 免费 IPR free 质量与 MP3 相近,

32、但不同素材之间变化很大 n AAC MPEG2 和 MPEG4 对于 CD 质量的要求,它具有最低的码率 对于苛刻素材,约128kpbs 时接近 CD 质量 对于高码率 ,Quicktime and RealAudio 采用 AAC n Windows Media 微软专有 通过 Window OS,具有巨大用户量 好于 MP3,WMA9 质量上接近 AAC 包括无失真和多声道编码 现有标准:Internet Codecs(3) 37 * Men Aidong, Multimedia Telecommunication Centre, BUPT 视频会议中音频编解码比较 G.711G.728/G.723MP3 传输带宽64K16K/ 8K/6.3K 压缩 PCM 编码,无压缩有损压缩 音频范围3003400Hz3003400Hz2020KHz 语音质量 一般较差好 48K 高保真压缩 原始码率512Kbit/秒64Kbit/秒64Kbit/秒 谢谢!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 其他


经营许可证编号:宁ICP备18001539号-1