Video Object编码技术
依据视觉特性的纹理编码目前仍处于理论研究阶段,其目标是:建立常见纹理局部特征符号集,定义描述纹理分布、走向的多媒体语言。以人脸为例:人脸定义参数(FDP)描述了特定人脸纹理形状模型与通用人脸模型之间的差别,通过接收到的各种FDP,能把通用的人脸模型变换成由其形状和纹理确定的特定人脸。人脸动画参数(FAP)描述了特定的人脸表情与中性表情的变化关系,通过接收到的各种FAP能生成人脸的各种表情以及与声音同步的嘴唇活动等。这样的合成编码不仅可极大地提高编码效率(可获得1kbps的超低码率),而且为制作新的人脸等对象提供了方便。
分级编码 多媒体的应用场合具有不同的信道带宽、处理能力、显示能力及用户需求,要求在解码端支持时域、空间及质量的上伸缩性,即分级编码。分级编码可以通过视频对象层VOL(Video Object Layer)的数据结构来实现。每一种分级编码都至少有2层VOL,低层称为基本层,高层称为增强层。空间伸缩性可通过增强层强化基本层的空间分辨率来实现,因此在对增强层中的VOP进行解码之前,必须先对基本层中相应的VOP进行解码。同样对于时域伸缩性,可通过增强层来增加视频序列中某个VO(特别是运动的VO)的帧率,使其与其余区域相比更为平滑。
三、 新的技术标准--MPEG 4
首次采用VO编码技术的视频编码标准是由MPEG 4。MPEG 4于1999年年初正式成为国际标准(标准号为ISO/IEC 14496),在1999年12月的后继版本中增加了可变形、半透明视频对象及其工具的先进功能,它进一步提高了编码效率,并与第一版反向兼容。
1、MPEG 4标准的构成
1) DMIF(The Dellivery Multimedia Integration Framework):多媒体传送整体框架协议。MPEG-4标准将众多的多媒体应用集成于一个完整的框架内,旨在为多媒体通信及应用环境提供灵活的算法及工具,用于实现音视频数据的有效编码及更为灵活的存取。它解决了多领域中多媒体应用个性化交互操作的问题。
2) 解码器:定义了MPEG-4系统特殊的解码模式(SDM),要求特殊的缓冲区和实时模式。
3) 音频编码:支持自然声音和合成声音,支持音频的对象特征。
4) 视频编码:支持自然和合成的视觉对象,合成的视觉对象包括2D、3D动画和人面部表情动画等。
5) 场景描述BIFS(Binary Format for Scene description):关于一组VO的时空结构关系的参数信息,主要描述了各VO在一具体背景下的相互关系与同步等问题,以及VO及其背景的知识产权保护等问题。BIFS与VO对象特征信息的编码、传输是相对独立的。场景描述信息编码及其的独立传输是实现用户端编辑操作的关键:在解码之后和场景合成之前,用户可以通过对BIFS参数的重新设置来对VO 进行多种编辑操作,如增减、缩放、平移,甚至一些特技效果。
下面的表格反映了MPEG体系的部分技术指标。MPEG-4是高比率有损压缩(比如将一个9 GB的DVD视频压缩拷贝到只有700MB空间的CD-ROM上),其图像质量始终无法与MPEG-2相比。当MPEG-4与MPEG-2的码率输出相同时,其质量仍稍逊于MPEG-2。同时,MPEG 4对硬件的要求也较高。事实上,我们注意到MPEG-4在保证令人满意的图像质量的情况下,更注重较低的数据率和灵活的交互功能。
2、MPEG 4编码器
MPEG 4编码简化原理图如图一。
对于输入视频序列,通过分析确认n个视觉目的对象为编码对象,将其认定为n个VO(n=1,2,3…),对每一个VO编码后形成这个VO的VOP数据流。VOP的编码包括对运动(采用运动预测方法)及形状、纹理(采用变换编码方法)的编码。由于VOP具有任意形状,因此要求编码方案可以处理形状(Shape)和透明(Transparency)信息,这就是与只能处理矩形帧序列的现有视频编码标准的根本区别。在MPEG-4中,矩形帧被认为是VOP的一个特例,这时编码系统不用处理形状信息,退化为类似于MPEG-1、MPEG-2的传统编码系统,同时也实现了与现有标准的兼容。除去VO的其余图像部分
《Video Object编码技术(第3页)》