【摘要】随着网络多媒体技术的发展,采用 MPEG-4技术向计算机用户提供 VOD业务已经大量出现,由于都是MPEG(运动图像专家组)这个组织提出的建议,因此一般地认办MPEG-4是MPEG-2的一个延续版本。事实上,这两者之间有着较大的差别。本文对MPEG-2与MPEG-4作一些简单的介绍和比较。
熟悉数字视音频技术的人对MPEG一定不陌生,这是ISO组织运动图像专家组(Moving Picture Expert Group)的简称,该组织成立于 1988年,多年来一直致力于制定与有关研制视频压缩、音频压缩及多种压缩数据流复合及同步方面的国际标准。继1990年公布MPEG-1的标准以来,先后公布了MPEG-2标准(1994年)以及MPEG-4标准(1996年),目前正在研究制定MPEG-7标准。其中,大家所熟知的VCD和DVD分别采用了MPEG-1和MPEG-2技术,而MPEG-4则是最近一阶段随着网络多媒体发展而大量被采用的技术。从原理来看,MPEG-2是MPEG-1的延伸,而MPEG-4的编码出发点与MPEG-2相比则有较大的差异。因此,本文旨在介绍MPEG-2与MPEG-4这两个标准。
1 MPEG-Z技术
MPEG-2的初衷是为广播级电视质量(CCIR6601格式)的视音频信号定义的压缩编码标准,但最终结果是成为了一个通用的标准,能在很大范围内对不同分辨率和不同输出比特率的图像信号进行有效编码。
MPEG-2的编码技术主要基于两个概念:即时间相关性与空间相关性。所谓时间相关性指的是物体前后运动的连续性,例如,一扇门的开启不可能是开关两个状态,而一定是关、微开、开等一系列的连续动作,因此利用前一次的动作可以预测下一次的动作;空间相关性指的是空间内相邻物体的色彩和亮度是一个渐变过程,而非一个突变过程。有一点美术常识的人都很容易明白,即白黑的过渡是渐进的,而非突变。如果将空间每一点及时间上每一帧进行独立编码,虽然能够表达所有的信息,但是带宽非常大,几乎没有一样载体可以经济地传送这种信号;另一方面从信息学的角度来看,也包含着大量的冗余信息。数据压缩正是基于这样的角度,采用相应的编码方式将大量的冗余信息去除,保留有用的信息,有效节省带宽。
图1表示了一个典型的视频编码器和解码器的结构框图,它包含具有运动补偿的帧间预测、DCT变换、量化、熵编码、以及与固定速率的信道相适配的速率控制等部分。
MPEG-2技术综合采用了3大基本编码技术,即预测编码、变换编码和统计编码。压缩技术采用多种编码手段消除系统的冗余信息,归纳起来将有以下四个方面。
①利用二维DCT减少图像的空间冗余度;
②利用运动补偿预测减少图像的时间域冗余度;
③利用视觉加权量化减少图像的“灰度域”冗余度;
④利用熵编码来减少图像“频率域”上统计特性方面的冗余度;
此外,MPEG-2在MPEG-1的基础之上扩充了“可伸缩性”和“可分级性”两个概念,所谓“可伸缩性”指的是对码流的一部分进行编码和对码流的全部解码获得的图像分辨率(或信噪比等)要低。MPEG-2所支持的可伸缩的视频编码方式共有时间、空间、信噪比及数据分割等四种。“可分级性”则是指在MPEG-2中用范畴(Profile)以及层次两个定义来描述不同的编码参数集。每个范畴是前一个的合集(Profile),层次则规定了空间和时间分辨率的上限。表1、表2、表3分别表示了所定义的范畴、层次。
表3中的MP@ML(主范畴/中层次)为当前电视行业所大量采用的方式,两种高层次为HDTV而用的。
表4则相应地给出了不同分辨率等级下的码率情况。
表4
MPEG-2标准的第3部分详细地描述音频部分的压缩,并在MPEG-1的基础之上,增加了AC-3编码方式。对音频部分信号采用3种压缩模式,称为层次1、2和3。随着层次的增加,复杂度相应增加,层次具有向下兼容性,即层次3的解码器可以对层次2或层次1编码的码流进行解码。
层次 2与 MUSICAM(Masking Pattern Adapted Universal Subband Integrated Coding and Mul-tiplexing)压缩方法相同。对于频率在20kHz以下的音乐信号,以 48kHz(或 44.1kHz)采用并用16(或18)比特量化,采用上述的方法可以将双声道立体声的一个声道压缩成96或128kb/s。层次1是层次2的简化形式,它将单声道压缩到192或256kb/s。层次3即我们通常说的MP3,采用了 MUSICAM和 ASPEC(Adaptive Spectual Perceptual Entropy Coding)两种算法的结合,压缩后的比特率为每声道64kb/s。
AC-3则是对6个声道的音频进行压缩的标准,这6个声道分别为左、中、右、左环绕、右环绕和低频增强,其中前5个声道的带宽为3Hz20kHz,最后一个声道限制在120Hz。所有声道的采样率均为48kHz,每个取样值量化到1622b,并采用TDAC分析仪将音频信号划分成子带,然后根据人的听觉心理-生理特征对不同子带信号采取不同的量化以实现数据的压缩。多个声道的总数据率最后压缩成320kb/s。
2 MPEG-4技术
从技术角度来看,MPEG-4标准与MPEG-2标准的基点大相径庭,MPEG-4不再将图像看成是一个矩形像素阵列的序列,把音频看成是一个多声道或单声道的声音,而是深入到组成一个场景的视频、音频对象的语义中去,对不同的主体采用不同的编码方式,例如把一幅图像中活泼的白猫和毛线团以及背景中的房间分别进行编码。各种视、音频源不限于自然界,也可以是合成源,最终在解码端进行组合。因此MPEG-4是完全基于对象的一种编码方式。当然MPEG-4采用了比MPEG-2更为先进的压缩方式,因此简单说,基于内容的压缩、更高的压缩比和时空可伸缩性是MPEG-4的3个最重要的特点。
MPEG-4几乎涵盖了MPEG-2的所有功能,并支持基于内容的独立编码和解码。此项功能又成为基于内容的可分级性,这一机制为压缩域中对图像或视频内容的交互提供了最基本机制,而无须在接收机做进一步的分割或代码转换。
MPEG-4自制定之日起,就受到了密切关注,从1993年开始着手制定,到预定完成时间(1997年)似乎仍很不成熟,因而转向全面支持目前标准尚未全面支持的应用。例如,移动通信中的声像业务、与其它多媒体数据(如计算机产生的图形、图像)的集成和交互式多媒体服务等。MPEG-4发展的艰难历程可以从两个方面加以说明。
(1)MPEG-4标准在制定时想适用于所有的应用和环境,并想采用第二代压缩算法。但是实际由于当时第二代算法中的很多算法都很不成熟,因此结果使得MPEG-4的压缩技术变的难度很高,使得其不得不中途变节,加长了应用的时间、丧失了占据市场的先机;
(2)由于时间上的延迟,本希望应用于各种场合,结果反变成没有适用的场合。从低信息量的视讯电话、视讯会议、到储存媒体的VCD、DVD,到最高品质的HDTV,各种标准已经确定,各相关产品也已经陆续上市。而厂商受限于研发及销售成本和时间的考虑,不太可能为了新的标准而重新开发产品。
3 结论
通过以上的介绍不难看出,MPEG-2与MPEG-4之间最根本的区别在于编码的出发点的不同,前者是基于矩阵相素图像的压缩,后种是基于图像中不同物体的压缩;前者发展的比较成熟,并已经成为广播电视行业的标准,后者主要针对于低码率场合应用,适用相对范围宽。从发展趋势上看,MPEG-2将会在有线电视网上进一步发展,而MPEG-7则是MPEG-4的进一步发展,主要适用于基于对象的查询,并将在IP网上将会得到进一步发展。
摘自《中国CATV》