APP下载

基于Non-dyadic自适应GoP结构的H.264/SVC算法改进

2010-06-25于鸿洋

电视技术 2010年1期
关键词:直方图分级编码

周 熙,于鸿洋,张 萍

(电子科技大学 电子工程学院,四川 成都 610054)

1 引言

为了适应网络的异构,JVT在原来H.264/AVC的基础上,提出了可分级的视频编码扩展H.264/SVC[1-3]。在SVC中,时间可分级特性是其中很重要的一部分。在SVC草案设计初始的时候,是用运动补偿时域滤波(MCTF)的方法来实现时域可分级特性。仅管MCTF有着开环结构不会引起误差漂移等一些优点,但是MCTF的编码复杂性和效率改进的有限性使得JVT放弃了MCTF,而改用分级B帧来实现时域可分级[4-5]。

分级B帧的预测结构如图1所示,图中,每一帧下方的数字表示该帧的编码顺序,帧号下面的TN表示该帧所在的分层。

图1中展示了两种不同的分级B帧预测结构:Dyadic预测和Non-dyadic预测。图1a中是传统的分级B帧预测,首先,T0层进行前向预测,形成关键帧(图中以黑色显示),然后T0层之间进行双向预测,形成T1层,T1和T0层之间再进行双向预测,形成T2层,如此下去,直到构成一个完整的GoP。当需要提取一定的时间分辨力时只需要将相应的层及以下所有的层提取出来就可以。以图1a为例,假设序列的原始帧率为30 f/s(帧/秒),那么提取15 f/s时,只需要把T2层和以下所有的层提取出来;提取7.5 f/s时,只需提取出T1和T0层。由图1a可以看出,Dyadic预测的帧数是以2为底的指数增长的,从小到大依次为1,2,4和8,与每种时间分级的帧数相对应,所以Dyadic预测结构下GoP大小(SGop)也必须为2的指数,此时可以提取出lb SGop个时间分级。

图1b的Non-dyadic预测结构有些许不同:预测的帧数不再是成指数增长的,从低到高依次为1,3,6和12,因此,所需的GoP大小也不必是2的指数。这种结构下,GoP大小的限制被放宽。Dyadic和Non-dyadic预测方式都符合H.264/AVC规范。

在以GoP为单元进行编码的H.264/SVC模型中,每一层的GoP的大小是固定的,但是往往不同的视频内容可能有着各自最合适的GoP大小。基于此,笔者提出了AGS改进算法。

2 AGS原理

图1 分级B帧的预测结构

同一段视频序列用不同的GoP大小进行编码的效率是不相同的。具体来说,视频内容变化剧烈的图像GoP应该越小越好,这样将要编码的序列限制在一个小的时间段内,图像之间的相关性才不会明显减弱,编码效率也就越高。反之,如果视频内容变化平缓,那GoP应该越大越好,就可以充分利用图像间的相关性。这就是AGS的出发点。AGS曾被用在SVC的MCTF中,但现在MCTF已被移除。而在分级B帧上做AGS研究的还比较少。

AGS里每个GoP传统的预测结构是Dyadic预测,因此,GoP大小被限制为2N,N非负整数。在这种结构下,每种GoP尺寸有不同的时间分级,整个序列的时间分级的级数由最小GoP(SminGop)来决定,即时间分级的级数由为lb SminGop+1。现有的很多关于AGS的研究基本上都是基于这种结构[6-9],这种结构有一个缺点,就是没有充分利用到帧间的相关性。举个例子来说,假设有一个编码序列,设定SminGop为4,第1帧到第14帧之间相关性很强,适于编码到一个GoP,而第15帧以后适于编码到另一个GoP,那么用Dyadic结构预测时,自适应结果就很可能是8 SminGop+4 SminGop+4 SminGop,如图2a所示。

Non-dyadic预测结构比Dyadic结构在GoP上有更大的弹性,那么Dyadic结构下GoP尺寸满足式(1)所示的关系

而Non-dyadic结构满足式(2)所示的关系。从该式可以看出,Non-dyadic结构的关系是线性的。

图2 AGS的预测结构

因此,采用Non-dyadic预测结构,就会更充分的利用帧间相关性,结果就可能变为12 SminGop+4 SminGop。如图2b所示。因此,Non-dyadic相比Dyadic可以具有更好的编码性能。另外,一些AGS的研究中引入了场景切换检测(Scene Change Detection,SCD)[10],即 GoP 在场景切换处被截断,以提高编码效率,但是GoP截断后会导致时域可分级性失效,从而不能进行时间可分级,因此,本文并没有采用这种方法。

决定了所采用的GoP预测结构,下一步就是如何确定当前的最佳的GoP大小。在文献[8]中,每种GoP都被计算一次,然后从中选择最佳编码效率的GoP作为最后的大小。这种方法尽管可以获得很高的PSNR,但是复杂度大大增加。因此,找到一个复杂度低又不失编码效率的方法成为研究的重点。借鉴于视频边缘检测的块直方图差(Bock Histogram Difference,BH)的概念[11],笔者找到了一个编码效率较高而复杂度低的AGS算法。

3 Block Histogram Difference

BH这个概念最先被用在视频索引与存储的场景切换检测算法上,BH在场景切换检测中,被用做检测场景切换的因子。BH是基于图像的直方图绝对误差和(Sum of Absolute Difference,SAD),SAD 的计算公式为

式中:SADhist表示直方图绝对误差和,l表示直方图等级,n表示第n帧,Hn(l)表示第n帧的第l级的直方图值。计算Hn(l)的时候,可以基于整个图像来统计,也可以基于部分图像来统计。基于整个图像来统计时,被称为DOH(Difference of Histogram),当基于块(此处的块不一定和H.264编码时的宏块大小相同)来统计时,就是要讨论的BH。BH计算公式为

图3 测试序列的BH图(截图)

图3中,Akiyo值较小,这是由于Akiyo序列的变化相对较平缓;Bus和Bus2序列的变化剧烈些,所以BH值较大;而Coastguard序列的BH值在Akiyo和Bus之间。Coastguard序列在第23~25帧之间有一个峰,这是因为这之间突然有大部分背景出现,所以造成一个峰值。图4显示了背景出现的过程。利用BH,就可以度量图像序列的变化程度。这种度量很适合用在AGS里。

4 AGS算法

基于BH,可以量化一个序列内图像的变化程度,称这个变化程度为视频变化因子 (Video Change Factor,VCF)。长度为N的序列的VCF计算如下

用VCF(N)和指定的阈值作比较,就可以用来判断最合适的SGoP

图4 Coastguard第22~25帧图像

式中:T表示阈值。⎿」运算表示向下取整。但是,直接使用式(7)会处理不了一种特别的情况,如在将要编码的图像序列中,第5帧和第6帧之间有一个场景切换(就是从一个场景切换到另一个场景),而序列的第1~4帧之间的SCF因子变化很小,以至于可以忽略,在这种情况下,场景切换时带来的BH值的突变很可能被抵消掉,用式(7)作判决时,场景切换的两帧图像将很可能会被编码到同一个GoP中。而正常情况下,场景切换处的两帧应该分属于不同的GoP。鉴于此,对式(7)的GoP判决方式进行了如式(8)的改进。

式中:α表示另一个阈值。式中最后一个条件表示,如果下一帧图像的BH明显大于之前图像的BH平均值时,那么GoP应该从此处截断,这样就可以将场景切换的影响减少到最小。AGS的整个算法的流程图如图5所示。

图5 AGS算法的流程图

图6 AGS实验结果

5 实验结果及改进

将6种编码方式做了对比实验:GoP 为 2,4,8 和 16的常规SVC编码、使用Dyadic AGS的SVC编码和使用Non-Dyadic AGS的SVC编码。AGS实验参数如下:直方图采用64个等级,块的大小为16像素,AGS采用的最小GoP为 4,阈值 T为 155,阈值 α为 3。测试是基于JSVM9.18 模型。 每种编码方式分别用 20,22,24,…,50,共16个量化参数QP进行编码。

所有的测试序列都被经过了时间的下采样。这是因为原始序列的变化幅度不是很大,经过下采样后,会增加VCF,从而可以测试GoP更小的情况。实验分别对Akiyo,Bus,Silent,Foreman,Akiyo+Bus和 Silent+Foreman 进行了测试。实验结果显示,Akiyo和Bus序列的改进不是很大,基至略微下降,这是因为这两个序列内容的变化相对稳定,所以最佳GoP会也不会有大的改变,AGS没有起到过多的作用。Bus测试序列的结果如图6a所示。而Silent和Foreman序列的变化则相对剧烈些,AGS从而起到了一定的效果,Foreman的结果如图6b所示,从图中可以看出,相比较最佳的常规SVC编码(此时GoP为8)而言,平均约有0.06 dB的改善。序列Akiyo+Bus和Silent+Foreman是将两个不同序列联接起来,这样AGS更能够起到自适应的作用,Silent+Foreman的实验结果如图6c所示,采用AGS后,相比较最佳的常规SVC编码(此时SGoP为16)而言,平均约有0.13 dB的改善。图6也显示出Non-dyadic相比Dyadic结构也有一定程度的改进。

6 结论

本文主要讨论了对H.264/SVC编码算法的改进,提出了在分级B帧的基础上应用Non-dyadic AGS来改进编码效率的算法,算法利用Non-dyadic预测结构来做分级预测,场景切换的BH概念来计算最佳的GoP大小。实验结果表明,Non-dyadic AGS对于那些内容变化不稳定的视频序列能够发挥不错的效用,能进一步地提高编码效率。

[1]ITU-T and ISO/IEC JTC 1.ITU-T Recommendation H.264 and ISO/IEC 14496-10 (MPEG-4 AVC).Advanced Video Coding for Generic Audio/Visual Services[S].Version 9.[S.l.]:ITU-T and ISO/IEC JTC 1,2009.

[2]WIEGAND T,SULLIVAN G J,BJøNTEGAARD G,et al.Overview of the H.264/AVC video coding standard[J].IEEE Trans.Circuits and Systems for Video Technology,2003,13(7):560-576.

[3]SCHWARZ H,MARPE D,WIEGAND T.Overview of the scalable video coding extension of the H.264/AVC standard[J].IEEE Trans.Circuits and Systems for Video Technology,2007,17 (9):1103-1120.

[4]SCHWARZ H,MARPE D,WIEGAND T.Analysis of hierarchical B pictures and MCTF[C]//Proc.2006 IEEE International Conference on Multimedia and Expo.[S.l.]:IEEE Press,2006:1929-1932.

[5]SCHWARZ H, MARPE D,WIEGAND T.Comparison of MCTF and closed-loop hierarchical B pictures.JVT-P059[R].[S.l.]:Joint Video Team,2005.

[6]YOKOYAMA Y.Adaptive GoP structure selection for real-time MPEG-2 video encoding [C]//Proc.2000 IEEE International Conference on Image Processing:Volume 2.[S.l.]:IEEE Press,2000:832-835.

[7]PARK G H,PARK M W,JEONG S,et al.Adaptive GoP structure for SVC.M11563[R].[S.l.]:MPEG Standards Contribution,2005.

[8]PARK G H,PARK M W,JEONG S,et al.Improve SVC coding efficiency by adaptive GoP structure(SVC CE2).JVT-O018[R].[S.l.]:Joint Video Team,2005.

[9]CHIOU C-W,TSAI C-M,LINFAST C-W.Mode decision algorithms for adaptive GoP Structure in the scalable extension of H.264/AVC[C]//Proc.2007 IEEE International Symposium on Circuits and Systems.[S.l.]:IEEE Press,2007:3459-3462.

[10]DING Jun-Ren.Joint adaptive GoP and SCD coding for improving H.264 scalable video coding[C]//Proc.2007 IEEE International Symposium on Multimedia Workshops.[S.l.]:IEEE Press,2007:96-103.

[11]LEE J,DICKINSON B W.Hierarchical video indexing and retrieval for subband-coded video[J].IEEE Trans.Circuits and Systems for Video Technology,2000,10(5):824-829.

猜你喜欢

直方图分级编码
符合差分隐私的流数据统计直方图发布
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
用直方图控制画面影调
Genome and healthcare
分级诊疗路难行?
中考频数分布直方图题型展示
分级诊疗的“分”与“整”
基于空间变换和直方图均衡的彩色图像增强方法