高效率的多视点视频编码预测结构

2012-06-26雷海军何业军

电视技术 2012年18期

雷海军，杨辉，何业军

（深圳大学 a.计算机与软件学院；b.信息工程学院，广东深圳 518060）

3D视频，又叫立体视频，主要包括双目立体视频、多视点视频和多视点深度增强视频，因其具有立体感、高质量、多媒体体验和交互性等特点，越来越受到学术界和工业界的重视，并投入大量精力对其相关技术进行深入研究[1]。2012年1月1号19:30开播了3D电视试验频道，3D电视大大提升了电视的功能和审美性，为人们带来新的视听享受，有利于扩大内需。3D电视试验频道的开播是我国广播电视发展史上的一个新的里程碑，标志着我国广播电视紧跟世界发展潮流，迈入了新的发展阶段。

多视点视频是一种有效的3D视频表示方法，能够更加生动地再现场景，由不同视点的多个摄像机从不同视角拍摄同一场景得到的一组视频信号，多视点视频编码既要考虑同视点间的冗余又要考虑相邻视点之间的冗余，具有编码复杂度高和数据量大等特点。多视点视频编码技术作为3D视频的关键技术之一，在三维立体电视（3D Television，3DTV）、自由视点电视（Free-viewpoint Television，FTV）和三维远程医疗（3D Telemedicine）等领域中有着非常广阔的应用前景[2]。多视点视频编码目前采用HHI提出的分层次B帧预测结构比SIMULCAST预测结构获得更好的编码压缩效率，消除了视点内和视点间的部分冗余[3-4]，但是压缩效率还有待进一步提高，本文在此方面做了些研究工作。

1 采集与应用

与传统二维视频的采集不同，多视点视频序列数据的采集需要多个摄像机从不同角度同步采集。根据实际应用需要的不同，需要搭建不同的采集装置。比较典型的采集装置有平行相机（包括1D，2D）、汇聚和环形相机等，图1给出了几种由日本Nagoya大学提供的采用100个相机进行同步采集的相机阵列配置示意图[5]。

图1 各种多视点视频采集装置

多视点视频编码的应用框架图如图2所示，编号为0到N的多个视频序列数据在多视点视频编码中心根据配置的预测结构进行编码，编码生成的码流由Web服务器经过网关输出到因特网，然后传输到应用端，在应用端通过解码器接收码流并且进行解码操作，具体的应用端可以包括高清晰度电视（HDTV）、3DTV、FTV等，在解码端需要解码的视频个数根据需要而定。

图2 多视点视频编码应用框架图

2 本文提出的预测结构的对比及分析

研究具有高效压缩效率的预测结构成为MVC研究当中的一项重要任务，多视点视频编码框架JMVC[6-7]采用兼顾时域预测和视点间预测的分层次B帧预测结构获得了良好的压缩效率。在文献[8-10]中对多种预测结构进行了分析，在文献[11]中提出了KS_IBP，KS_IPP，AS_IBP和SIMULCAST等预测结构，其中KS_IBP，KS_IPP预测结构的锚定帧分别采用IBP和IPP结构的视点间预测，而非锚定帧只采用水平方向的预测，因此率失真性能没有兼顾时域和视点间预测的AS_IBP预测结构好，JMVC采用多参考帧预测编码方式，通过率失真模型选取最佳的参考帧，来获取更高的压缩效率。

HHI提出的分层次B帧预测结构如图3所示，由于其高效的压缩性能而被JVT选为标准参考预测结构，该预测结构水平方向采用分层次B帧，视点间采用IBP结构，水平方向的分层次B帧由最近的高层次两帧预测而得，例如，B2水平方向由I0，B1预测而得。S0为基本视点，其中奇数编号视点（S1，S3，S5）的锚定帧和非锚定帧参考同一时刻相邻视点，如S1视点B2帧在垂直方向参考S0视点B2帧，S2视点B2帧，偶数编号视点（S2，S4，S6）的锚定帧参考上一相邻偶数编号视点，如S2视点I0帧垂直方向参考S0视点的I0帧。由分层次B帧预测结构分析可知，偶数编号视点S2，S4，S6的锚定帧的预测来源于上一相邻偶数编号视点，非锚定帧只采用水平预测，根据相邻视点间的差异性最小特性，本文提出的新的预测结构AS_EIPP（Enhance AS_IPP）如图4所示，水平方向和垂直方向分别代表时间方向和视点方向，AS_EIPP预测结构Gop长度为12，水平方向采用分层次B帧预测结构，视点间采用IPP结构，S0为基本视点，S1，…，S7视点的锚定帧和非锚定帧都参考同一时刻上一个相邻视点进行垂直方向的视差预测，相邻视点之间的差异性最小，相对于AS_IBP可以进一步提高压缩效率，同时S2，…，S7视点的锚定帧和非锚定帧的后向参考分别来自S0，…，S7，即达到一个增强效果，进一步提升压缩效率。

图4 AS_EIPP预测结构

多视点视频编码采用多参考帧编码模型，锚定帧和非锚定帧都有水平和垂直方向的多个参考帧，根据率失真最佳模型选择最佳参考帧（V*ref），拉格朗日函数代价为式中：S代表视频数据；I代表编码参数集合，包括编码模型、运动矢量、参考帧索引等；λ代表拉格朗日乘积因子；D（S，I）和R（S，I）分别代表率失真值和比特数。V*ref包括在I之内，最佳的参考帧为

式中，Φ代表当前编码帧的整个参考帧的集合。

3 实验结果与分析

3.1 实验说明

1）PC机配置及操作系统环境：CPU主频为2.83 GHz，内存为4 Gbyte，操作系统为Win7，多视点视频编码系统版本号JMVC8.3.1。

2）量化参数（QP）值取22，27，32，37和42，搜索范围为96，Gop长度大小为12，参考帧数为2。

平均峰值信噪比为

式中：PSNRY，PSNRU，PSNRV分别表示像素Y，U和V分量的峰值信噪比。

比特变化率为

式中：Ri和Rj分别表示参考结构和当前结构的比特率。

平均码率为

式中：Rview,i表示第i个视点的比特率。

3）多视点视频测试序列：BallRoom，Exit和Vassar[12]的基本属性如表1所示，各编码61帧、8个视点。

表1 多视点视频测试序列基本参数

3.2 实验结果及分析

3个测试序列的实验数据如表2所示，给出了峰值信噪比和码率的数据统计。由表2可知AS_EIPP预测结构具有最高的压缩效率，以BallRoom序列为例，相对于SI⁃MULCAST，当 QP=22时：KS_IBP，KS_IPP，AS_IBP 和AS_EIPP比特率分别减少171 kbit/s，140 kbit/s，249 kbit/s和317 kbit/s，比特率幅度分别减少7.8%，9.5%，13.9%和17.7%；当QP=27时：比特率分别减少163 kbit/s，137 kbit/s，231 kbit/s和242 kbit/s，比特率幅度分别减少16.9%，14.2%，22.2%和25.2%；当QP=32时：比特率分别减少121 kbit/s，105 kbit/s，150 kbit/s和163 kbit/s，比特率幅度分别减少22.6%，19.6%，28.0%和30.4%；当QP=37时：比特率分别减少82 kbit/s，73 kbit/s，97 kbit/s和103 kbit/s，比特率幅度分别减少26.3%，23.4%，33.1%；当QP=42时：比特率分别减少47 kbit/s，42 kbit/s，54 kbit/s和51 kbit/s，比特率幅度分别减少为26.2%，23.4%，30.1%和31.8%。

表2 预测结构实验结果数据对比

由表2的数据分析可知，AS_EIPP预测结构具有最好的压缩效率，与AS_IBP预测结构相比，比特率减少幅度在1.7%～4%。随着QP值的增大，比特率越来越小，相对于SIMULCAST，比特率减少幅度呈上升趋势。率失真曲线对比如图5所示。

4 小结

通过分析多种多视点视频编码的预测结构，提出了一种新的预测结构AS_EIPP，实验结果表明，与其他预测结构相比，该预测结构具有较好的率失真性能与压缩效率。多视点视频编码主要是基于H.264/AVC编码框架设计的，提高编码效率是该研究领域的核心问题之一，多视点视频编码复杂度大，其中模式决策、多参考帧选择和运动估计是多视点视频编码中最耗时的部分，经实验统计占到总个编码时间的97%以上，下一步工作将会对编码复杂度进行研究，研究高性能算法，以提高多视点视频编码的实时性。

[1]MERKLE P，MULLER K，WIEGAND T.3D video:acquisition,cod⁃ing,and display[J].IEEE Trans.Consumer Electronics，2010，56（2）：946-950.

[2]霍俊彦，常义林，李明，等.多视点视频编码的研究现状及期展望[J].通信学报，2010，31（5）：113-118.

[3]赵鹏，何小海，王正勇，等.一种多视点视频颜色校正方法[J].电视技术，2011，35（21）：29-31.

[4]廖小僮，马然，安平，等.基于多视点视频的差错控制技术[J].电视技术，2010，34（3）：11-13.

[5]何萍.多视点视频编码中的快速算法研究[D].宁波：宁波大学，2010.

[6]VETRO A，WIEGAND T，SULLIVAN G J.Overview of the stereo and multiview video coding extensions of the H.264/MPEG-4AVC standard[J].Proceedings of the IEEE，2011，99（4）：626-642.

[7]VETRO A，PANDIT P，KIMATA H，et al.Joint multiview video mod⁃el(jmvm)8.0[C]//Proc.JVT of ISO/IEC MPEG&ITU-T VCEG 27th Meeting.Geneva：[s.n.]，2008：23-29.

[8]FEZZA S A，FARAOUN K M，OUDDANE S.A comparison of pre⁃diction structures for multi-view videoc coding based on the H.264/AVC standard[C]//Proc.7th International Workshop on Systems,Sig⁃nal Processing and their Applications,2011.[S.l.]：IEEE Press，2011：111-114.

[9]HUO Junyan，CHANG Yilin，MA Yanzhuo.Efficient prediction struc⁃ture for key pictures in multiview video coding[C]//Proc.Sysposium on Photonics and Optoelectronics,2011.[S.l.]：IEEE Press，2011：1-4.

[10]HO Y S，OH K J.Overview of multi-view Video coding[C]//Proc.14th International Workshop on Systems,Signals and Image Pro⁃cessing,2007 and 6th EURASIP Conference focused on Speech and Image Processing,Multimedia Communication and Services.[S.l.]：IEEE Press，2007：5-12.

[11]MERRKLE P，SMOLIC A，MULLER K，et al.Efficient prediction structures for multiview video coding[J].IEEE Trans.Circuits and Systems for Video Technology，2007，17（11）：1461-1473.

[12]MERL.Has provided the ballroom,exit and vassar sequence[EB/OL].[2012-03-10].http://www.merl.com.pub/avetro/mvc-testseq/orig-yuv/.