APP下载

基于多视点视频的差错控制技术*

2010-06-25廖小僮张兆杨

电视技术 2010年3期
关键词:深度图视点矢量

廖小僮,马 然,安 平,张兆杨

(上海大学 通信与信息工程学院;新型显示技术及应用集成教育部重点实验室,上海 200072)

1 引言

多视点视频体现了下一代多媒体应用网络化、交互性和真实感的发展方向,目前对于多视点视频的研究受到越来越多的国内外学者的广泛关注。一方面,与传统的单视点视频(即二维视频)相比,多视点视频传输数据量极大,必须进行有效的压缩编码。目前,关于多视点视频的压缩方法已有很多,例如,HHI(Fraunhofer Heinrich Hertz Institute)提出的分层B帧的视点/时间域混合预测结构[1],因具有较高的压缩效率已被联合视频组 (Joint Video Team,JVT)建议为参考预测结构。另一方面,多视点及立体视频通信中的差错控制也变得更加重要,因为通过不可靠的信道如无线网络、因特网传输视频流正逐渐成为主流。而且由于其压缩特点,一个视点发生比特错误或者出现丢包错误,不仅会引起错误在该视点时间和空间方向上的传播与扩散,而且由于采用了视点间预测,还会在视点间产生错误蔓延,人眼对几种错误的混合也更加敏感,看到的影像一片混乱,不具深度感。所以研究多视点及立体视频的差错控制具有更大的挑战性和重要性。笔者主要针对多视点编码的3种主流的编码结构探讨其差错控制技术。

2 多视点及立体视频编码结构

2.1 MVC(Multiview Coding)参考预测结构

HHI提出的分层B帧的视点/时间域混合预测结构,如图1所示。

图1 MVC参考预测结构示意图

每个视点采用分层B帧预测结构,有效去除时间方向上的冗余;在视点间采用IBPBP预测结构有效去除视点间的冗余。为了简单起见,图1只给出了3个视点(S0,S1和S2)的示意图,其中S0是基本视点,S1和S2是非基本视点。基本视点S0相对其他视点独立编解码。非基本视点按视点间预测关系可分为P视点(S2)和B视点(S1)。编码时,基本视点S0优先级最高,其次是P视点(S2),最后是B视点(S1)。

2.2 双目视差结构

对于最简单的多视点视频,即立体视频,可采用文献[2]中提到的预测结构,如图2所示。

图2 双目视差预测结构

图2中立体视频由左、右双目视点构成。其中,左视点的序列仅采用运动补偿预测去除时间方向上的冗余,右视点的序列采用运动补偿预测(Motion Compensation Prediction,MCP)加视差补偿预测(Disparity Compensation Prediction,DCP)有效去除时间与视点间的冗余。

2.3 单视点彩色图加深度图结构

除了图2的双目视差预测编码框架,立体视频还可以采用二维视频(即单视点彩色图)加深度图的形式进行编码[3],而且这种表示形式已经被MPEG组织标准化,由于其相比双目视差传输方式具有更好的灵活性及相对较低的码率,日益引起了学者的广泛研究,因此探索单视点加深度图编码结构的差错控制技术也是十分必要的。

3 基于多视点视频的差错控制技术

为了提高视频传输的稳健性,差错控制技术可在信源端、信宿端及信道的各个环节进行,大致可分为3类:信源端差错复原编码、解码端错误隐藏及编解码交互差错控制。

3.1 基于MVC参考结构的差错控制技术

一般说来,差错复原编码的基本思想是在编码时加入一定的冗余信息使得编码码流具有抗差错的能力。图1所示的MVC参考预测结构太过复杂,编码端复杂度高,数据量庞大;如果再采用基于信源端差错复原编码技术会进一步增加编码复杂和冗余度,很不适用多视点视频。错误隐藏是一种解码端的后处理技术,其优点是不需要增加编码端的负担,充分利用时空域和视点间的高度相关性恢复受损的视频,更适合这种编码复杂度高的编码模式。

文献[4-6]讨论了多视点视频错误隐藏的情况。其中文献[4]介绍的方法在于得到受损区域运动矢量,而文献[5-6]旨在直接恢复受损区域纹理信息。文献[4]研究了在整帧丢失情况下的一种快速隐藏算法,它首先将常用的六参数多视点视频图像的全局视差模型简化到2个参数,得出2个视点相应块具有一致的运动场,然后根据全局视差找到丢失宏块在所依赖视点中的相应宏块,并将此相应宏块的运动矢量和模式照搬于丢失宏块进行恢复。

文献[5-6]都是为了直接得到丢失区域纹理理信息,但方法不同。文献[5]通过对丢失块在时间和视点方向的最优匹配块进行加权恢复出丢失块。首先引用解码端运动矢量估计[7]找出丢失块的运动矢量,并与预先设定的门限比较,从而判定丢失块是快速或慢速运动块。若为快速运动块,视点间隐藏效果要比时间隐藏效果好,因此来自视点间的最优匹配块比时间最优匹配块应分配更大的权值,反之亦然。而文献[6]介绍的4-D频率选择性外插算法是一种适合多视点视频的错误隐藏算法,同时利用丢失区域空间上的邻域像素值、时域方向的前后帧及相邻摄像机视点的信息来恢复丢失块。此算法需要建立一个四维函数模型,这个函数模型是相互正交的四维基础函数的加权线性组合。通常,一组四维基础函数可由4-D离散傅立叶变换组成的函数构成,通过选择4-D离散傅立叶变换基础函数及扩展系数使建立的四维函数模型覆盖受损区域,即可恢复受损的视频区域。

3.2 基于双目预测结构的立体视频差错控制技术

图2所示预测框架的双目序列作为最简单的多视点视频,其差错控制方案是多视点视频中研究得相对较多的。下面分别从编码端差错复原编码、解码端错误隐藏2个不同角度介绍基于这种框架下的立体视频差错控制技术。

在编码端,常见的视频差错复原编码有分层编码和多描述编码。分层编码是可分级编码的一种特殊情况,将视频分成基本层和若干个增强层来适应网络带宽的波动性以及不同的终端用户需要,并与传输中的不平等差错保护相结合。文献[8]根据优先级将立体视频分为3层。优先级指的是不同的帧对整个立体视频视觉质量的影响程度。根据图2所示的预测关系,如果丢失左视点的I帧,会导致错误在其后由运动补偿和视差补偿而生成的左视点和右视点序列中扩散,因此左视点序列的I帧相对来说最重要;其次,左视点的P帧独立于右视点进行编码,且供右视点帧进行视差预测,所以左视点的P帧重要性排第二;优先级最差的是右视点的P帧。然后,将不同优先级的立体视频与不平等差错保护策略相结合,进而提升了错误保护能力。

抵抗传输错误的另一种方法是多描述编码。目前,关于立体视频的多描述编码的研究比较少,其中以文献[9]提出的两种方案最有代表性。方案一基于空间可分级生成两个描述:在描述1中包括以原始空间分辨力编码的左帧和经过空间下采样后的右帧;描述2则由以原始空间分辨力编码的右帧和经过空间下采样后的左帧构成。这种方案适合视点间相关度较低的序列,此时冗余度低于10%。方案二则基于文献[10]中提到的多状态思想,将左、右序列的奇数帧作为描述1,而左、右序列的偶数帧作为描述2。这种方案适合于视点间相关度比较高的立体视频序列。

在解码端,除了可利用空间和时间的相关性外,基于双目序列的错误隐藏技术能否充分利用视点间的相关性来提高错误隐藏性能是关键,因为利用一个正确的视差矢量比用一个错误的运动矢量甚至一个正确的运动矢量来重建丢失块的效果都要好[11],这是因为左、右双目(人眼的距离为62~76 mm)视频的差别极小。文献[11]利用重叠块补偿修复右视点中发生错误的块。首先根据块匹配准则[12]从受损宏块周围的正确传输宏块中选择一个最优的矢量,为由最优矢量所确定的替代块分配最高的权值,同时根据这个矢量是运动或视差矢量确定一个最优视点,为来自最优视点的替代块分配比来自其他视点的块较大的权值;然后对这些侯选替代块的每个像素值进行加权平均得到一个新的替代块,这种错误隐藏方法也较容易推广到基于图1预测结构的情况。

然而当传输错误导致一个片或一整帧不能正确解码时,文献[11]的方法则不能运用于这种情况下的错误隐藏。文献[13]讨论了右帧整帧丢失的情况,此时可根据视差矢量的时间相关性、预测模式的时间和空间相关性进行恢复。

3.3 单视点彩色图加深度图结构的差错控制技术

深度图实际上是一幅灰度图,与相对应的单视点彩色图具有相同的空间分辨力,它的每一个像素表示彩色图中对应的像素在三维场景中的位置。正是基于深度图和彩色图之间这种关联性,这两种图具有大致相同的运动矢量[14]。因此,在某些特定的码流限制场合下,可以采用运动矢量共享的原理进行压缩,即不编码深度图的运动矢量,在解码时直接由彩色图的运动矢量替代深度图的运动矢量。文献[15]将运动矢量共享这种思路移植到差错隐藏中:当深度图的运动矢量在传输中丢失时,将相应正确接收到的彩色视频帧的运动矢量作为深度图的运动矢量进行修复;文献[16]进一步将这种方法与边界匹配准则结合,当彩色图的运动矢量丢失时,将深度图中对应块与丢失区域邻域块及参考帧对应块的运动矢量、零运动矢量及中值/均值运动矢量一并作为丢失彩色图的侯选运动矢量,然后按照边界匹配准则选取最优的运动矢量,实验证明这种方法是有效的。

除了可充分利用深度图与彩色图的运动矢量之间的相关性来恢复丢失块,文献[17]将基于可分级的多描述编码方法运用于此编码结构,将彩色图作为基本层,将经空间下采样后的深度图和原始空间分辨力的彩色图分别作为增强层1和增强层2,然后每层都利用文献[10]中提到的多状态的思想分成两个描述,分别经不同网络路径传输。这种可分级的多描述编码方案不仅可以对抵抗包丢失等差错有较好的稳健性,且对网络带宽波动及用户终端接收设备特性有较好的适应性。

4 总结

随着多视点视频的商业用途越来越广泛,对多视点视频的差错控制技术的研究也日益受到重视。对于多视点视频,错误隐藏也许会更加普遍和适用,因为多视点提供了除时间和空间相关性之外的视点间相关性。差错复原编码(分层编码、多描述编码)虽然降低了编码效率,但对于在带宽波动比较剧烈、噪声比较大或是丢包率比较高的信道上传输时是一种较优的选择方式,仍是未来有价值的研究邻域之一。

[1]MERKLEP,SMOLICA,MULLERK,etal.Efficientpredictionstructures for multiview video coding[J].IEEE Trans.Circuits and Systems for Video Technology,2007,17(11):1461-1473.

[2]FEHN C.Depth-Image-Based Rendering(DIBR),compression and transmission for a new approach on 3DTV[J].Proceedings of SPIE Stereoscopic Displays and Virtual Reality Systems XI,2004(1):93-104.

[3]FEHN C,DE R,BARRE L,et al.Interactive 3-D TV∶Concepts and key technologies[J].Proceedings of the IEEE,2006(94): 524-538.

[4]LIU Shujie,CHEN Ying,WANG Ye-kui,et al.Frame loss error concealment for multiview video coding[C]//Proc.IEEE International Symposium on Circuits and Systems,2008.[S.l.]:IEEE Press,2008:3470-3473.

[5]CHUNG T,SONG K,KIM C-S.Error concealment techniques for multi-view video sequences[M]//Advances in Multimedia Information Processing-PCM 2007:Volume 4810.[S.l.]:Springer Berlin/Heidelberg,2007:619-627.

[6]FECKER U,SEILER J,KAUP A.4-D frequency selective extrapolation for error concealment in multi-view video[C]//Proc.2008 IEEE 10th Workshop on Multimedia Signal Processing.[S.l.]:IEEE Press,2008:267-272.

[7]ZHANG J,ARNOLD J F,FRATER M R.A cell-loss concealment technique for MPEG-2 coded video[J].IEEE Trans.Circuit Syst.Video Technol.,2000,6(10): 659-665.

[8]TAN A S,AKSAY A,BILEN C,et al.Error resilient layered stereoscopic video streaming[C]//Proceedings of the International Conference on True Vision Capture,Transmission and Display of 3D Video(3DTV′07).Kos Island,Greece:[s.n.],2007.

[9]NORKIN A,AKSAY A,BILEN C,et al.Schemes for multiple description coding of stereoscopic video[M]//Multimedia Content Representation,Classification and Security:Volume 4105.[S.l.]:Springer Berlin/Heidelberg,2006:730-737.

[10]APOSTOLOPOULOS J G.Error-resilient video compression via multiple state streams[C]//Proc.of Int.Workshop on Very Low Bit rate Video Coding,1999.Kyoto,Japan:[s.n.],1999:168-171.

[11]XIANG Xinguang,ZHAO Debin, WANG Qiang,et al.A novel error concealment method for stereoscopic video coding[C]//Proc.2007 IEEE International Conference on Image Processing:Volume 5.[S.l.]:IEEE Press,2007:101-104.

[12]CHEN T,ZHANG X,SHI Y Q.Error concealment using refined boundary matching algorithm[C]//Proc.IEEE Int.Conf.Inf.Technol.Res.Educat.[S.l.]:IEEE Press,2003:55-59.

[13]PANG Linjuan,YU Mei,JIANG Gangyi,et al.An approach to error concealment for entire right frame loss in stereoscopic video transmission[C]//Proc.2006 International Conference on Computational Intelligence and Security.[S.l.]:IEEE Press,2006:1665-1670.

[14]GREWATSCH S,MULLER E.Sharing of motion vectors in 3D video coding [C]//International conference on Image processing(ICIP),2004.[S.l.]:IEEE Press,2004:3271-3274.

[15]HEWAGE C T E R,WORRALL S T,DOGAN S,et al.A novel frame concealment method for depth maps using corresponding colour motion vectors[C]//3DTV Conference 2008.Istanbul,Turkey:[s.n.],2008:149-152.

[16]YAN Bo.A novel H.264 based motion vector recovery method for 3D video transmission[J].IEEE Trans.Consumer Electronics,2007,11(53):1546-1552.

[17]KARIM H A,HEWAGE C T E R,WORRALL S,et al.Scalable multiple description video coding for stereoscopic 3D [J].IEEE Trans.Consumer Electronics,2008,5(54): 745-752.

猜你喜欢

深度图视点矢量
一种基于WMF-ACA的深度图像修复算法
矢量三角形法的应用
基于深度图的3D-HEVC鲁棒视频水印算法
一种基于局部直方图匹配的深度编码滤波算法
基于矢量最优估计的稳健测向方法
叠加速度谱在钻孔稀少地区资料解释中的应用
三角形法则在动态平衡问题中的应用
视点
让你每天一元钱,物超所值——《今日视点—2014精萃》序
两会视点