摘要:数字音视频编解码标准(AVS)是中国自主制订的数字电视、IPTV等音视频系统的基础性标准。AVS标准第2部分视频(AVS1-P2)属高效的第二代视频编码技术,相比于第一代标准MPEG-2,编码效率提高2~3倍,并且实现方案简洁,因此,AVS视频标准已经为IPTV,数字电视广播等应用做好了充分的技术准备。同时,AVS标准具有专利许可方式简洁、相关标准配套的优势。这将为中国的IPTV、数字电视广播等重大信息产业应用及民族IT产业发展起到积极的推动作用。
关键词:数字音视频编解码标准;AVS标准第2部分;视频编码标准;数字电视广播
Abstract:AudioVideocodingStandard (AVS), independently developed and owned by China, is a fundamental standard applied in digital TV, IPTV and other audio/video based systems. AVS Part 2 (AVS1-P2), the video part, defines the highly efficient second generation video coding technology, with the coding efficiency 2-3 times higher than the first generation standard like MPEG-2. Moreover, its implementation is simple and easy. Therefore, AVS1-P2 has made full technical preparation for such applications as IPTV and digital TV broadcast. Meanwhile, AVS possesses the advantages of simple intellectual property warranty and cooperative standards support. It will effectively push the development of national IT industry of China and its important information applications like IPTV and digital TV broadcast.
Keywords:AVS;AVS1-P2;video coding standard; digital TV broadcast
基金项目:国家“863”计划项目(2002AA119010、2004AA119010);国家自然科学基金重点项目(60333020)
从1952年贝尔实验室Cutler等人进行差分脉冲编码调制(DPCM)技术的研究开始,视频压缩编码技术经历了50余年的发展。在这一过程中,逐渐形成了变换编码、预测编码、熵编码3类经典技术,分别用于去除视频信号的空域冗余、时域冗余及统计冗余。并基于这些经典技术,逐渐形成了以块为单元的预测加变换的混合编码框架。到目前为止,已有的视频编码标准都基于这一框架,包括国际电信联盟(ITU-T)的H.261/3/4视频编码建议以及国际标准化组织/国际电工委员会(ISO/IEC)的MPEG-1/2/4视频编码标准。这些标准及其技术对视频信号提供了一种高效表达方式,使得巨大的视频数据能够在有限带宽下传输以及在有限空间下存储。其中,MPEG-2标准在世界范围内得到了广泛应用,已经成为电视广播应用的基础性支撑标准。但MPEG-2标准制订于1994年,属第一代视频编码技术,近10年视频编码技术的发展,使得MPEG-2标准在新一代IPTV、高清数字电视广播、无线移动媒体通信、流媒体服务等方面的应用上不再高效与经济。新的应用需要新的高效信源编码方案。
数字音视频编解码标准(AVS)标准第2部分:视频(AVS1-P2)[1]的技术规范完成于2003年12月,该标准面向标清高清视频编码应用。AVS视频标准吸收了国内外研究机构近年来的优秀研究成果,属于高效的第二代视频编码技术。相比于MPEG-2标准,编码效率提高2~3倍。如果以AVS视频标准进行标清视频广播应用,可以将MPEG-2标准所需的5~6 Mb/s传输带宽降低到1.5~3 Mb/s。因此,即使在不进行大规模宽带光纤网络升级的情况下,借助于AVS视频技术,IPTV应用也可以在现有家用数字用户线(DSL)网络的2 Mb/s带宽下进行大规模实施。在新的宽带网络上,AVS视频标准将使业务量翻番。
在获得高编码效率的同时,AVS视频标准尽可能保持了低的计算实现复杂度。当编码高清视频信号时,AVS视频获得了与先进视频编码标准AVC/H.264主要档次(Main Profile)相当的编码效率,但解码器的实现复杂度只有其60%~70%。在专利许可方面,AVS通过简洁的一站式许可政策,解决了MPEG-4 AVC/H.264被专利许可问题缠身难以产业化的弊端,并且专利许可费用大大低于国际同类标准。
1.AVS视频技术
1.1混合编码框架
AVS1-P2视频标准采用经典的混合编码框架,如图1所示。此框架与以往视频标准相同,但由于不同标准制订时出于对不同应用的考虑,在技术取舍上对复杂度-性能的衡量指标各不相同,因而在复杂性、编码效率上的表现也各不相同。比如,一般认为H.264的编码器大概比MPEG-2复杂9倍,而AVS视频标准则由于编码模块中的各项技术复杂度都有所降低,其编码器复杂度大致为MPEG-2的6倍,但编码高清序列AVS视频标准具有与H.264相近的编码效率。
在图1所示框架下,视频编码的基本流程为:将视频序列的每一帧划分为固定大小的宏块,通常为16×16像素的亮度分量及2个8×8像素的色度分量(对于4?誜2?誜0格式视频),之后以宏块为单位进行编码。对视频序列的第一帧及场景切换帧或者随机读取帧采用I帧编码方式,I帧编码只利用当前帧内的像素作空间预测,类似于JPEG图像编码方式。其大致过程为,利用帧内先前已经编码块中的像素对当前块内的像素值作出预测(对应图1中的帧内预测模块),将预测值与原始视频信号作差运算得到预测残差,再对预测残差进行变换、量化及熵编码形成编码码流。对其余帧采用帧间编码方式,包括前向预测P帧和双向预测B帧,帧间编码是对当前帧内的块在先前已编码帧中寻找最相似块(运动估计)作为当前块的预测值(运动补偿),之后如I帧的编码过程对预测残差进行编码。编码器中还内含一个解码器,如图1中青绿色部分所示。内嵌解码器模拟解码过程,以获得解码重构图像,作为编码下一帧或下一块的预测参考。解码步骤包括对变换量化后的系数进行反量化、反变换,得到预测残差,之后预测残差与预测值相加,经滤波去除块效应后得到解码重构图像。以上编码框架包含如下关键技术:
帧内预测
多参考帧预测
变块大小运动补偿
1/4像素插值
整数变换量化
高效B帧编码模式
熵编码
环路滤波
1.2AVS关键技术介绍
(1)帧内预测
AVS视频标准采用空域内的多方向帧内预测技术。以往的编码标准都是在频域内进行帧内预测,如MPEG-2的直流系数(DC)差分预测、MPEG-4的DC及高频系数(AC)预测。基于空域多方向的帧内预测提高了预测精度,从而提高了编码效率。AVC/H.264标准也采用了这一技术,其预测块大小为4×4及16×16,其中4×4帧内预测时有9种模式,16×16帧内预测时有4种模式。
AVS视频标准的帧内预测基于8×8块大小,亮度分量只有5种预测模式,大大降低了帧内预测模式决策的计算复杂度,但性能与AVC/H.264十分接近。除了预测块尺寸及模式种类的不同外,AVS视频的帧内预测还对相邻像素进行了滤波处理来去除噪声。关于帧内预测技术的详细描述参见文献[2]。
(2)变块大小运动补偿
变块大小运动补偿是提高运动预测精确度的重要手段之一,对提高编码效率起重要作用。在以前的编码标准MPEG-1、MPEG-2中,运动预测都是基于16×16的宏块进行的(MPEG-2隔行编码支持16×8划分),在MPEG-4中添加了8×8块划分模式,而在H.264中则进一步添加了16×8、8×16、8×4、4×8、4×4等划分模式。但实验数据表明小于8×8块的划分模式对低分辨率编码效率影响较大,而对于高分辨率编码则影响甚微,如图2所示。在高清序列上的大量实验数据表明,去掉8×8以下大小块的运动预测模式,整体性能降低2%~4%,但其编码复杂度则可降低30%~40%。因此在AVS1-P2中将最小宏块划分限制为8×8,这一限制大大降低了编解码器的复杂度。
(3)多参考帧预测
多参考帧预测使得当前块可以从前面几帧图像中寻找更好的匹配,因此能够提高编码效率。但一般来讲2~3个参考帧基本上能达到最高的性能,更多的参考图像对性能提升影响甚微(如图3所示),复杂度却会成倍增加。H.264最多可采用16个参考帧,并且为了支持灵活的参考图像引用,采用了复杂的参考图像缓冲区管理机制,实现较繁琐。而AVS视频标准限定最多采用两个参考帧,其优点在于:在没有增大缓冲区的条件下提高了编码效率,因为B帧本身也需要两个参考图像的缓冲区。
(4)1/4像素插值
MPEG-2标准采用1/2像素精度运动补偿,相比于整像素精度提高约1.5 dB编码效率;H.264采用1/4像素精度补偿,比1/2精度提高约0.6 dB的编码效率,因此运动矢量的精度是提高预测准确度的重要手段之一。影响高精度运动补偿性能的一个核心技术是插值滤波器的选择。AVC/H.264亚像素插值半像素位置采用6拍滤波,这个方案对低分辨率图像效果显著。由于高清视频的特性,AVS视频标准对1/2像素位置插值采用4拍滤波器[3],其效果与6拍滤波器相同,优点是大大降低了访问存取带宽,是一个对硬件实现非常有价值的特性。
(5)B帧宏块编码模式
在AVC/H.264标准中,时域直接模式与空域直接模式是相互独立的。而AVS视频标准采用了更加高效的空域/时域相结合的直接模式,并在此基础上使用了运动矢量舍入控制技术[4], AVS标准B帧的性能比H.264中B帧性能有所提高。此外,AVS标准还提出了对称模式[5],即只编码前向运动矢量,后向运动矢量通过前向运动矢量导出,从而实现双向预测。此方案与编码双向运动矢量效率相当。
(6)整数变换与量化
AVS视频标准采用整数变换代替了传统的浮点离散余弦变换(DCT)。整数变换具有复杂度低、完全匹配等优点。由于AVS1-P2中最小块预测是基于8×8块大小的,因此采用了8×8整数DCT变换矩阵。8×8变换比4×4变换的去相关性能强,在变换模块,AVS标准编码效率相比H.264提高2%(约0.1 dB)。同时与H.264中的变换相比,AVS标准中的变换有自身的优点,即由于变换矩阵每行的模比较接近,可以将变换矩阵的归一化在编码端完成,从而节省解码反变换所需的缩放表,降低了解码器的复杂度[6]。
量化是编码过程中唯一带来损失的模块。以前典型的量化机制有两种,一种是H.263中的量化方法,一种是MPEG-2中的加权矩阵量化形式。与以前的量化方法相比,AVS标准中的量化与变换归一化相结合,同时可以通过乘法和移位来实现,对于量化步长的设计,量化参数每增加8,相应的量化步长扩大1倍。由于AVS标准中变换矩阵每行的模比较接近,变换矩阵的归一化可以在编码端完成,从而解码端反量化表不再与变换系数位置相关。
(7)熵编码
熵编码是视频编码器的重要组成部分,用于去除数据的统计冗余。AVS视频标准采用基于上下文的自适应变长编码器[7]对变换量化后预测残差进行编码。其具体策略为,系数经过“之”字形扫描后,形成多个(Run,Level)数对,其中Run表示非零系数前连续值为零的系数个数,Level表示一个非零系数;之后采用多个变长码表对这些数对进行编码,编码过程中进行码表的自适应切换来匹配数对的局部概率分布,从而提高编码效率。编码顺序为逆向扫描顺序,这样易于局部概率分布变化的识别。变长码采用指数哥伦布码,这样可降低多码表的存储空间。此方法与H.264用于编码4×4变换系数的基于上下文的自适应变长编码器(CAVLC)具有相当的编码效率。相比于H.264的算术编码方案,AVS的熵编码方法编码效率低0.5 dB,但算术编码器计算复杂,硬件实现代价很高。
(8)环路滤波
起源于H.263++的环路滤波技术的特点在于把去块效应滤波放在编码的闭环内,而此前去块效应滤波都是作为后处理来进行的,如在MPEG-4中。在AVS视频标准中,由于最小预测块和变换都是基于8×8的,环路滤波也只在8×8块边缘进行,与H.264对4×4块进行滤波相比,其滤波边数变为H.264的1/4。同时由于AVS视频滤波点数、滤波强度分类数都比H.264中的少,大大减少了判断、计算的次数。环路滤波在解码端占有很大的计算量,因此降低环路滤波的计算复杂度十分重要。
1.3编码效率对比
以上是从编码模块各个方面认识AVS,从中不难看出AVS视频标准对每项技术都进行了复杂性与效率的权衡,为所面向的应用提供了很好的解决方案,努力降低复杂度,并保证高的编码效率。
表1给出了2005年8月中国国家广电总局广播电视规划院主持完成的AVS1-P2视频标准测试结果,整体结论为性能优良。考虑到目前使用MPEG-2标准实施高清电视广播时,一般使用20 Mb/s的码率;使用MPEG-2标准实施标清电视广播时,一般使用5~6 Mb/s的码率。对照测试结果可以得知,AVS视频码率为MPEG-2标准的一半时,无论是标准清晰度还是高清晰度,编码质量都达到优秀。码率不到其三分之一时,也达到良好到优秀。因此在比MPEG-2视频编码效率提高2~3倍的前提下,AVS视频质量完全达到大范围应用所需的“良好”要求。
表2、表3分别给出了AVS1-P2与MPEG-2标准以及AVS1-P2与MPEG-4 AVC/H.264标准主要档次的客观编码性能对比,结果为相同码率条件下峰值信噪比(PSNR)的增益。可以看出,AVS1-P2相对于MPEG-2标准编码效率平均提高2.56 dB,相比于H.264标准编码效率略低,但平均只有0.11 dB的损失。
2.AVS标准的特色
AVS视频标准高效的技术、简洁的实现方案为其成功应用奠定了基础。但要得到市场认可,还需要其他方面优势的配合。MPEG-4标准没有广泛应用的一个重要原因是过度的专利保护所导致的高额专利费限制了技术的推广。因此,AVS标准制订之初就认真分析了国内外标准和知识产权领域的经验教训,充分考虑知识产权问题对标准推广的
影响,定义专利技术被标准接受的基本原则为:为保证标准的先进性,AVS标准不排斥各种专利技术,但专利进入AVS标准必须遵守一定的条件,必须将专利的利益索求限制在一个合理的水平上,以保证标准的公益性。AVS通过简洁的一站式许可方式,解决了MPEG-4 AVC/H.264被专利许可问题缠身难以产业化的弊端。AVS视频标准不同于H.264标准,后者是一个独立的视频标准,而AVS标准是一套包含系统、视频、音频、媒体版权管理在内的完整标准体系,这保证了实际应用系统所需的技术完备性。因此AVS视频标准具有技术高效、实现方案简洁,专利许可政策简单、许可费用低廉,相关标准配套的特色。
3.结束语
AVS1-P2已经由国家标准化管理委员会批准,正式成为国家标准,并于2006年3月1日起正式实施。AVS标准将凭借其先进的技术和低廉简洁的专利许可方式为中国IPTV、高清数字视频广播等重大信息产业应用起到积极的推动作用。
4.参考文献
[1]GB/T20090.2-2006 信息技术先进音视频编码,第2部分:视频[S]. 2006.
[2]ZHANGNan,YIN Bao-cai, KONG De-hui, et al. Spatial prediction based intra-coding[C]//Proceedings of the 2004 IEEE International Conference on Multimedia and Expo (ICME´2004), Vol 1. Jun. 27-30, 2004, Taibei, China. New York, NY,USA:IEEE, 2004:97-100.
[3]WANGRong-gang,HUANG Chao, LI Jin-tao, et al. Sub-pixel motion compensation interpolation filter in AVS[C]//Proceedings of the 2004 IEEE International Conference on Multimedia and Expo (ICME´2004), Vol 1. Jun. 27-30, 2004, Taibei, China. New York, NY,USA:IEEE, 2004:93-96.
[4]JIXiang-yang,ZGAO De-bin, GAO Wen, et al. New scaling technique for direct mode coding in B pictures[C]//IEEE International Conference on Image Processing (ICIP 2004). Oct 24-27, 2004, Singapore. Piscataway, NJ,USA:IEEE, 2004:469-472.
[5]JIXiang-yang,ZHAO De-bin, GAO Wen, et al. New Bi-prediction techniques for B pictures coding[C]//Proceedings of the 2004 IEEE International Conference on Multimedia and Expo (ICME´2004), Vol 1. Jun.27-30, 2004, Taibei, China. New York, NY,USA:IEEE, 2004: 101-104.
[6]MASi-wei,GAO Wen, FAN Xiao-peng. Low complexity integer transform and high definition coding[C]//Proceedings of SPIE 49th Annual Meeting,Vol 58. Aug 02-06, 2004, Denver, CO, USA. Bellingham,
WA,USA:SPIE Press, 2002:547-554.
[7]WANGQiang,ZHAO De-bin, MA Si-wei, et al. Context- based 2D-VLC for video coding[C]//Proceedings of the 2004 IEEE International Conference on Multimedia and Expo (ICME´2004), Vol 1. Jun.27-30, 2004, Taibei, China.New York, NY,USA:IEEE, 2004: 89-92.
作者简介:
高文,中国科学院计算技术研究所研究员,中国科学院研究生院教授、博导,北京大学、哈尔滨工业大学教授,数字音视频编解码技术(AVS)标准化工作组组长,计算机学报主编,中国图像图形学会副理事长,中国软件行业协会副理事长,国务院学位委员会计算机学科评议组成员,ISO/IECJTC1/SC29/WG11(MPEG)国际标准化委员会中国代表团团长,IEEE视频信号处理和通信技术委员会委员。王强,哈尔滨工业大学在读博士,主要从事视频编码技术、熵编码技术研究工作,已在国际会议及期刊上发表4篇学术论文,并获得北京市科技进步一等奖。马思伟,中国科学院计算技术研究所毕业,博士。现工作于中国科学院计算技术研究所,主要从事视频压缩方面的研究工作,包括视频编解码器设计、编码优化等研究内容,参与了国际标准H.264、中国标准AVS的制订,已提交3项国际标准技术提案,发表13篇技术论文,申请专利10项,获中国科学院院长奖特别奖。