APP下载

基于统计建模的VVC快速码率估计算法

2023-01-09祁伟殷海兵王鸿奎黄晓峰牛伟宏

电信科学 2022年12期
关键词:码率预估编码

祁伟,殷海兵,王鸿奎,黄晓峰,牛伟宏

基于统计建模的VVC快速码率估计算法

祁伟,殷海兵,王鸿奎,黄晓峰,牛伟宏

(杭州电子科技大学通信工程学院,浙江 杭州 310018)

为降低新一代通用视频编码(versatile video coding,VVC)标准率失真优化过程的编码复杂度,提出一种基于统计建模的快速码率估计算法。首先,算法充分考虑依赖性量化(dependent quantization,DQ)的量化行为和熵编码中的上下文依赖,提出可以准确刻画编码过程中上下文状态迁移的码率特征,初步预估变换单元(transform unit,TU)中部分语法元素的码率;其次,基于系数分布特性,定义系数混乱度特征和稀疏度特征来区分系数分布差异带来的码率影响,并构建TU级码率模型;最后,算法根据码率构成特性将大尺寸TU和小尺寸TU分开建模实现更精准的码率预估。通过统计方式对大量样本进行回归训练,得到最终的线性码率模型,并应用于VVC的模式决策中。实验结果表明,所提出算法在随机访问(random access,RA)配置下,可以实现16.289%的复杂度降低,而码率变化率(Bjontegaard delta bit rate,BD-BR)仅增加1.567%。

码率预估;通用视频编码;率失真优化;回归训练

0 引言

为满足不断增长的视频压缩需求,JVET(Joint Video Exploration Team)提出新一代通用视频编码[1],其中采用诸多新的编码技术,如多种划分模式、多变换核选择、改进的熵编码[2]和依赖性量化[3]等。相比上一代高效视频编码(high efficiency video coding,HEVC)[4],VVC以复杂度增加为代价,提高约50%的视频编码效率。

在VVC中模式决策过程基于率失真优化(rate distortion optimization,RDO)[5]技术实现。尽管丰富的多模式预测和自适应DQ技术的使用极大提升了编码性能,但是大量的候选模式通过预测、变换、量化和熵编码过程获取码率代价,这加剧了率失真优化过程的计算复杂度和串行依赖,为视频编码标准的实际应用带来困难。

因此一些学者针对率失真优化过程中的码率计算复杂度问题展开研究。在H.264/AVC[6]中,Sarwer等[7]基于上下文自适应变长编码(context adaptive variable length coding,CAVLC)特性,使用变换块系数绝对值之和、高频区域非零系数位置和非零系数数量来预估对应残差块码率;Zhao等[8]基于零均值广义高斯分布模型,使用量化系数加权和来预测变换块码率;Tu等[9]简化RDO流程,使用变换域中非零系数数量与变换系数和来预估变换块码率。在H.265/HEVC中,一些学者[10-12]从信息熵角度出发,统计各语法元素的二元结果,计算0和1符号的信息熵,以此来预估系数码率;Hu等[13]和Huang等[14]从硬件友好的角度出发,使用变换系数和位置信息进行快速的系数码率预估;Sheng等[15]基于上下文自适应二进制算术编码(context-based adaptive binary arithmetic coding,CABAC)特性,使用量化系数幅度和位置特征来预估系数块码率;Liu等[16]根据上下文分类特性对系数组(coefficient group,CG)进行二元分类,并使用6个系数分布特征预估部分语法元素码率;Sun等[17]在变换域建立阈值区分变换系数是否量化为0,并使用变换系数幅值和位置信息预估码率;孟翔等[18]对不同位置的量化系数进行自适应加权,并结合位置特征,实现较为准确的变换块码率预估。然而已有算法均是在H.264和H.265平台上实现的,而VVC使用多种划分方式和改进的熵编码等,导致现有算法很难深入描述VVC中上下文更新时影响码率变化的根本因素,因此进行系统精确的码率建模仍面临挑战。

针对以上问题,本文提出一种基于统计建模的VVC快速码率估计算法减少模式决策复杂度。首先,本文基于DQ量化行为和熵编码特性提出可以准确刻画编码过程中上下文状态迁移的码率特征,初步估计部分语法元素码率;其次,本文从系数分布特性出发,提出系数混乱度特征和稀疏度特征来减小预测误差,并构建整个变换单元(transform unit,TU)级码率模型;最后,根据码率构成特性,将TU分为大尺寸和小尺寸建模处理,可以更准确地预估码率。

1 语法元素编码结构

在模式决策过程中,VVC通过拉格朗日公式进行率失真代价的计算:

第1次系数扫描编码时,有效系数标志(significant coefficient flag,SCF)表示当前系数是否非零,系数大于1标志(greater than 1,GT1)表示系数绝对值是否大于1,奇偶校验标志(parity,PAR)表示系数绝对值减去2后的奇偶性,系数大于3(greater than 3,GT3)标志表示当前系数绝对值是否大于3。第2次系数扫描时,剩余(remaining,REM)系数标志表示系数绝对值减去4的剩余部分。VVC对第1次扫描中已经编码的上下文比特数量有所限制[2],如果在扫描位置开始时,变换块中SCF、GT1、PAR和GT3编码的比特总数超过一定值,则在此处终止第1次和第2次系数扫描,剩余扫描位置的系数绝对值||在第3次扫描过程中进行旁路编码,由语法元素剩余系数绝对值标志(dec-abs-level,DEC)表示。在第4次系数扫描时,系数符号标志(coefficient sign flag,CSF)表示当前系数是否为正。VVC语法元素扫描编码图如图1所示,其中闪电标志表示在此处终止第1次和第2次系数扫描。

图1 VVC语法元素扫描编码图

在DQ选择最优量化索引的率失真优化过程和熵编码过程中,会对语法元素进行复杂的上下文建模和概率状态更新,这会带来极大的上下文依赖。此外DQ量化技术基于维特比搜索算法进行最优量化路径的选择,这样可以实现更好的比特节省,但是其计算复杂度更高且不利于硬件并行化处理。因此如何避免复杂的DQ量化和上下文更新进行系统准确的码率建模对于快速的码率估计算法是非常关键的。

2 量化系数码率模型

首先本文使用相对简单的硬决策量化(hard decision quantization,HDQ)[19]代替复杂度较高的DQ量化方式。其次,为了准确预估量化系数比特,本文基于DQ量化行为和熵编码中的语法元素上下文分类原则开发整体码率特征,并验证和使用能够表示系数分布特性的混乱度和稀疏度特征,共同开发了TU级码率模型。最后在建模过程中发现VVC中存在小于16个系数[2]的TU,即2×2、2×4、4×2尺寸的TU,这些小尺寸TU和大尺寸TU的码率构成相差很大,因此本文将它们分开进行码率建模。

2.1 大尺寸TU上下文特征

在现有码率估计算法中,Liu等[16]根据上下文分类原则对系数组进行二元分类,并使用6个系数分布特征预估CG内语法元素SCF、GT1和GT3的码率。该算法在H.265平台上可以较为准确地预估系数块码率,但是VVC中上下文转换原则发生改变[2],使得其码率特征很难深入刻画上下文状态转换时码率变化的根本因素。VVC局部邻域模板图和频区分布图如图2所示。图2(a)为VVC从当前量化系数与邻近系数之间的依赖关系出发提出的局部邻域模板,其中黑色方块表示待编码系数,灰色方块表示其局部邻域系数。根据局部统计特性[20],语法元素SCF、PAR、GT1和GT2的上下文概率模型受多种因素影响,包括有当前系数位置、局部邻域系数的部分重建值之和、局部邻域中非零系数数量和DQ状态。局部邻域系数部分重建值之和表示如下。

2.2 位置参数和系数分布特征

图3 TU级别R1与真实码率之间的关系

图4 不同TU尺寸和不同QP下语法元素的码率占比结果

其中,表示变换单元的尺寸。当QP为37时,系数分布特征与真实码率之间的关系如图5所示。

2.3 大尺寸TU最终码率模型

经过上述分析,大尺寸TU最终码率模型如下。

图5 系数分布特征与真实码率之间的关系

2.4 小尺寸TU最终码率模型

由于小尺寸TU系数较少,处于不同扫描位置的系数对码率代价造成的影响区别较大,因此本文使用加权量化系数[18]的方法来描述位置信息对码率代价的不均匀贡献,并使用全局混乱度特征减小预估码率与真实码率间的误差。最终模型如下。

图6 大尺寸TU预估码率与真实码率之间的关系

图7 小尺寸TU预估码率与真实码率之间的关系

3 实验结果分析

首先为评估第2节提出的码率模型精度,本文对不同情况下预估码率和真实码率的误差进行统计,并对不同区间误差的概率进行归一化处理,码率误差的归一化概率如图8所示。其中,方形符号、三角符号和圆点分别表示文献[17]、文献[18]和本文提出的码率预估算法的误差归一化概率图,需要说明的是,编码块预估码率会在真实码率附近浮动,当预估码率小于真实码率时,对应预测误差为负值。测试序列为纹理细节较多的BasketballDrillText。可以看出,Sun等[17]提出的算法由于特征相对较少,对码率变化的深层原因描述不够精准,导致模型精度不够稳定,误差相对较大。而孟翔等[18]提出的模型由于VVC中上下文分类原则转变导致其算法适用性不强,模型精度相对较低。因此本文提出的码率预估算法相对更加准确,预估误差也更小。

图8 码率误差的归一化概率

在Sun等[17]的算法中,将TU中变换系数幅度,非零系数位置和最后一位非零系数位置作为特征进行码率建模。由于算法码率特征较少,很难深入描述上下文更新时码率变化的根本因素,在VVC中造成较大的性能损失。具体地说,对于一些高分辨率视频序列,如Tango2、Campfire和ParkRunning3,Sun等[17]的算法BD-BR分别上升1.83%、1.92%、1.65%,而本文算法在这些序列的BD-BR分别上升1.52%、1.75%、1.25%。同时对于一些低分辨率视频序列,如BasketballPass、RaceHorses和BasketballDrillText,Sun等[17]的性能损失分别为2.06%、2.46%、2.59%,本文算法在这些序列的性能损失分别为1.10%、1.44%、1.57%。这说明对于不同分辨率的视频序列,本文算法皆比Sun等[17]的算法实现更好的编码效率。而在时间复杂度方面,对于高分辨率视频序列,如Tango2和Campfire,时间节省分别为20.34%和17.65%,最大值和最小值相差2.69%,而本文在高分辨率对应视频序列时间节省分别为21.36%和19.86%,最大值和最小值相差仅1.5%。同时对于低分辨率视频序列如BasketballDrillText和SlideShow,时间节省分别为12.32%和8.14%,两者相差4.18%,而本文算法中对应低分辨率视频序列时间节省分别为11.03%和8.67%,两者相差仅2.46%。这说明对于不同分辨率的视频序列,而本文算法相比Sun等[17]的算法时间节省更加均匀,算法适用性更好。

表1 在Random Access下模型性能

在孟翔等[18]所提算法中,对位于不同位置的量化系数进行自适应加权,并根据上下文分类依据对CG进行分组,在HEVC中可以实现相对准确的码率预估。但是VVC中划分模式的增加和上下文选取原则的改变[2]使得文献[15]的算法在VVC中的效果并不突出。具体地说,对于一些纹理细节较多的视频序列,如FoodMarket4、BQSquare和BasketballDrillText,其BD-BR分别上升2.03%、2.15%、1.68%,而在本文的算法中其性能分别提升0.09%、0.13%、0.11%。对于背景较为均匀的视频序列,如RitualDance、BlowingBubbles和SlideEditing,其BD-BR分别上升1.12%、1.22%、1.19%,在本文的算法中其性能分别提升0.01%、0.25%、0.24%。因此对于纹理细节不同的视频序列来说,本文从上下文选取原则角度出发建立的TU级码率模型相较于孟翔等[18]的算法可以实现更加准确的码率预估,性能损失更小。而在时间复杂度方面,孟翔等[18]的算法码率模型参数较多,因此RDO节省时间较少。具体地说,对于纹理细节较多的视频序列,如FoodMarket4和BasketballDrillText,时间节省分别为19.93%和10.26%,而本文算法对应时间节省为20.91%和11.03%。而对于背景较为均匀的视频序列,如RitualDance和BlowingBubbles,时间节省分别为18.2%和14.84%,而本文对应时间节省为19.47%和15.24%。可以看出无论是在纹理细节较多还是背景相对均匀的视频序列中,本文算法相比于孟翔等[18]所提算法可以实现更大的时间节省。

4 结束语

本文针对VVC率失真优化过程中复杂的码率计算问题,提出一种基于统计建模的快速码率估计算法。算法首先充分考虑依赖性量化的量化行为和熵编码中的上下文依赖,提出一种准确预估部分语法元素码率的初步模型;然后提出混乱度和稀疏度特征描述系数整体分布对码率的影响,并进一步形成TU级码率模型;最后根据码率构成特性,算法将大尺寸TU和小尺寸TU分开建模实现更精准的码率预估。实验结果表明,在RA配置下,提出方案在性能基本不变的情况下节省16.289%的率失真优化时间。

[1] BROSS B, WANG Y K, YE Y, et al. Overview of the versatile video coding (VVC) standard and its applications[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 31(10): 3736-3764.

[2] SCHWARZ H, COBAN M, KARCZEWICZ M, et al. Quantization and entropy coding in the versatile video coding (VVC) standard[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 31(10): 3891-3906.

[3] SCHWARZ H, NGUYEN T, MARPE D, et al. Hybrid video coding with trellis-coded quantization[C]//Proceedings of 2019 Data Compression Conference (DCC). Piscataway: IEEE Press, 2019: 182-191.

[4] SULLIVAN G J, OHM J R, HAN W J, et al. Overview of the high efficiency video coding (HEVC) standard[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(12): 1649-1668.

[5] SULLIVAN G J, WIEGAND T. Rate-distortion optimization for video compression[J]. IEEE Signal Processing Magazine, 1998, 15(6): 74-90.

[6] WIEGAND T, SULLIVAN G J, BJONTEGAARD G, et al. Overview of the H.264/AVC video coding standard[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2003, 13(7):560-576.

[7] SARWER M G, PO L M. Fast bit rate estimation for mode decision of H.264/AVC[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2007, 17(10): 1402-1407.

[8] ZHAO X, SUN J, MA S W, et al. Novel statistical modeling, analysis and implementation of rate-distortion estimation for H.264/AVC coders[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2010, 20(5): 647-660.

[9] TU Y K, YANG J F, SUN M T. Efficient rate-distortion estimation for H.264/AVC coders[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2006, 16(5):600-611.

[10] CHEN W G, WANG X. Fast entropy-based CABAC rate estimation for mode decision in HEVC[J]. SpringerPlus, 2016, 5(1): 1-10.

[11] CHEN H C, CHANG T S. Fast rate distortion optimization with adaptive context group modeling for HEVC[C]//Proceedings of 2017 IEEE International Symposium on Circuits and Systems. Piscataway: IEEE Press, 2017: 1-4.

[12] SHARABAYKO M P, PONOMAREV O G. Fast rate estimation for RDO mode decision in HEVC[J]. Entropy, 2014, 16(12): 6667-6685.

[13] HU L D, SUN H M, ZHOU D J, et al. Hardware-oriented rate-distortion optimization algorithm for HEVC intra-frame encoder[C]//Proceedings of 2015 IEEE International Conference on Multimedia & Expo Workshops. Piscataway: IEEE Press, 2015: 1-6.

[14] HUANG X F, JIA H Z, CAI B B, et al. Fast algorithms and VLSI architecture design for HEVC intra-mode decision[J]. Journal of Real-Time Image Processing, 2016, 12(2): 285-302.

[15] SHENG Z, ZHOU D, SUN H, et al. Low-complexity rate-distortion optimization algorithms for HEVC intra prediction[C]//Proceedings of International Conference on Multimedia Modeling. Cham: Springer, 2014: 541-552.

[16] LIU Z Y, GUO S C, WANG D S. Binary classification based linear rate estimation model for HEVC RDO[C]//Proceedings of 2014 IEEE International Conference on Image Processing. Piscataway: IEEE Press, 2014: 3676-3680.

[17] SUN H M, ZHOU D J, HU L D, et al. Fast algorithm and VLSI architecture of rate distortion optimization in H.265/HEVC[J]. IEEE Transactions on Multimedia, 2017, 19(11): 2375-2390.

[18] 孟翔, 殷海兵, 黄晓峰. 基于统计建模的HEVC快速率失真估计算法[J]. 电信科学, 2021, 37(1): 58-68.

MENG X, YIN H B, HUANG X F. Statistical modeling based fast rate distortion estimation algorithm for HEVC[J]. Telecommunications Science, 2021, 37(1): 58-68.

[19] SCHWARZ H, NGUYEN T, MARPE D, et al. Hybrid video coding with trellis-coded quantization[C]//Proceedings of 2019 Data Compression Conference (DCC). Piscataway: IEEE Press, 2019: 182-191.

[20] SCHWARZ H, NGUYEN T, MARPE D, et al. Improved quantization and transform coefficient coding for the emerging versatile video coding (VVC) standard[C]//Proceedings of 2019 IEEE International Conference on Image Processing. Piscataway: IEEE Press, 2019: 1183-1187.

[21] BOSSEN F, BOYCE J, LI X, et al. JVET common test conditions and software reference configurations for SDR video[EB]. 2019.

[22] BJONTEGAARD G. Calculation of average PSNR differences between RD-curves [EB]. 2001.

Statistical modeling based fast rate estimation algorithm for VVC

QI Wei, YIN Haibing, WANG Hongkui, HUANG Xiaofeng, NIU Weihong

College of Communication Engineering, Hangzhou Dianzi University, Hangzhou 310018, China

To reduce the coding complexity of the rate-distortion optimization process of the latest video coding standard versatile video coding (VVC), a fast rate estimation model based on statistical modeling was proposed. Firstly, the quantization behavior in dependent quantization (DQ) and the context dependency in entropy coding were fully considered. Features that could describe context state transition in the coding process were proposed to estimate rate of some synatax elements in a TU preliminarily. Secondly, coefficient chaos and sparsity features were proposed to distinguish the influence of coefficient distribution difference on the rate cost based on the coefficient distribution characteristics which built a TU level rate model. Finally, large-size transform unit (TU) and small-size TU was modeling respectively according to the rate composition character to achieve more accurate rate estimation. A large number of parameters were trained by regression model through statistical methods, and the final linear rate model was obtained which was applied to the mode decision. Experimental results show that the proposed algorithm can achieve 16.289% complexity reduction with 1.567% BD-BR increase for RA configuration.

rate estimation, VVC, RDO, regression training

TN919.81

A

10.11959/j.issn.1000–0801.2022279

2022–05–13;

2022–10–20

殷海兵,yhb@hdu.edu.cn

国家自然科学基金资助项目(No.61972123,No.62031009);浙江省尖兵研发攻关计划项目(No.2022C01068)

祁伟(1995– ),男,杭州电子科技大学硕士生,主要研究方向为视频编解码。

殷海兵(1974– ),男,博士,杭州电子科技大学教授,主要研究方向为数字视频编解码。

王鸿奎(1990– ),男,博士,杭州电子科技大学讲师,主要研究方向为感知视频编码。

黄晓峰(1988– ),男,博士,杭州电子科技大学教授,主要研究方向为感知视频编码。

牛伟宏(1998– ),男,杭州电子科技大学硕士生,主要研究方向为视频编解码。

s: The National Natural Science Foundation of China (No.61972123, No.62031009), Zhejiang Provincial Pioneer Research and Development Project (No.2022C01068)

猜你喜欢

码率预估编码
美国银行下调今明两年基本金属价格预估
移动视频源m3u8多码率节目源终端自动适配技术
生活中的编码
一种基于HEVC 和AVC 改进的码率控制算法
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
Genome and healthcare
基于状态机的视频码率自适应算法
SVM分类模型预估网站商业价值
多光谱图像压缩的联合码率分配—码率控制方法