基于上下文立方匹配的双向运动估计视频帧率上转换算法

2022-11-01郝培男孙逢圆

信阳师范学院学报（自然科学版） 2022年4期

李然，郝培男，孙逢圆

(1. 信阳师范学院计算机与信息技术学院，河南信阳 464000；2. 桂林电子科技大学广西无线宽带通信与信号处理重点实验室，广西桂林 541004)

0 引言

帧率上转换(Frame Rate Up-Conversion，FRUC)是一种视频后处理技术，其通过在相邻帧插入中间帧的方式，提升视频帧率，以改善视频序列的视觉质量[1]。FRUC作为视频行业中重要的基础技术之一，在软硬件资源受限场合中得到了广泛应用。例如，低比特率视频编码为确保低传输速率，在编码端以丢帧方式降低帧率，而在解码端利用FRUC恢复原始帧率[2]；慢动作回放利用FRUC推理出空白时隙中的物体动作，在极短时隙内展示更丰富的物体运动细节[3]；液晶显示器通过FRUC减少运动模糊宽度，提升显示画面的清晰、流畅度[4]。在普及的低速成像设备中，如何发掘蕴含在视频序列中的潜在时空相关性，利用FRUC技术尽最大可能地输出逼近真实的高帧率视频，成为工业界与学术界的研究热点[5-7]。

为了更好地复原物体运动细节，运动补偿概念引入到FRUC，提出了运动补偿FRUC(Motion Compensated FRUC，MC-FRUC)技术[8-9]，其可有效抑制运动模糊，因此，获得了广泛关注[10-11]。MC-FRUC算法主要由运动估计和运动补偿插值(Motion Compensated Interpolation，MCI)组成[12-13]。运动估计用于计算相邻帧间的运动向量场，而MCI根据运动估计输出的运动向量场由相邻帧内插出中间帧，由此可知，运动估计对内插精度有重要影响，因而，大量研究工作致力于改善运动估计准确度。例如，BAO等[14]利用高阶多项式对视频像素的强度和位置进行时间建模，并利用动态滤波方法对所建模型进行求解，获取最优的估计值。CHOI等[15]利用基于卷积神经网络的运动向量平滑技术处理运动向量，以提高内插帧的质量；ZHANG等[16]通过训练残差网络改善内插帧质量，其投入大量数据训练网络，然后在传统FRUC结果上利用所训练网络处理内插帧。这些算法有一定的增益，但其过程耗费成本较高，在实际应用中不便于实施。

块匹配算法(Block Matching Algorithm，BMA)是运动估计的核心，根据BMA执行方式，可将运动估计算法分为两类：单向运动估计(Unidirectional ME，UME)和双向运动估计。UME的单向映射方式造成内插帧中某些块有多个运动向量穿过或无运动向量穿过，引起像素重叠或空洞问题。BME执行快速高效，可避免UME存在的像素重叠、空洞问题，因此，BME被大多数MC-FRUC算法所采用[17]。在BME中，BMA采用双向绝对误差和(Sum of Bidirectional Absolute Differences，SBAD)作为匹配准则，然而，受运动对称性假设影响，内插块的真实运动向量并不总是具有最小SBAD值，尤其在遮挡、纹理区域，块失配现象较严重。

为了推算真实运动向量，一些工作通过在BMA中添加特征项来改善BME准确度，常见的特征项有边缘[18]、梯度[19]、显著性[20]等，而上述特征项无法突出内插块与周围块间的区别。ROMANO等[21]提出利用自相似描述子[22]表示各块的上下文特征，其度量了各块与其周围块间的相似性，并将自相似性变化作为各块上下文特征拼接至其四周，构造出上下文子块(Context Patch，Con-Patch)。Con-Patch可缓解由运动对称性假设失效带来的块失配，但是其仅表达出各块的上下文关联，而忽略了块内像素间的上下文信息，因此，Con-Patch提升内插帧视觉质量的潜能并未完全发挥。由此可知，在Con-Patch的工作基础上，如何发掘上下文特征以充分描述块内各像素间上下文关联有待进一步解决。

针对Con-Patch存在的缺陷，本文提出上下文立方(Context Cube，Con-Cube)，以紧凑形式充分描述各块内所有像素的上下文特征，融入至BME中的BMA，以改善MC-FRUC内插性能。本文工作的主要贡献在于Con-Cube的构造。首先，以块内像素为中心提取子块，采用自相似性描述子生成子块的相关平面；接着，计算相关平面的直方图，将其作为当前像素的上下文特征；最后，将块内所有像素的上下文特征与对应像素连接，生成Con-Cube，将其融合至SBAD匹配准则，可有效抑制块失配。实验结果表明，所提出的基于Con-Cube的MC-FRUC算法可生成具有更好主客观视觉质量的内插帧。

1 基于Con-Cube的MC-FRUC算法

Con-Patch充分描述了各块间的上下文关联信息，但未考虑块内像素间的上下文关联信息，当块内包含多种物体时，块间上下文特征无法反映块内像素间的剧烈变化，而导致Con-Patch改善内插帧质量的潜能未能充分发挥。在Con-Patch的基础上，本文以紧凑形式充分描述各块内所有像素的上下文特征，构造出Con-Cube，并利用Con-Cube进行双向上下文特征匹配，确保高准确度的BME，提升MC-FRUC内插性能。

1.1 算法框架

1.2 Con-Cube提取

Con-Patch未表示块内像素的相互关联，当块内像素具有快变化的统计特性时，Con-Patch无法体现像素间的自相似性，造成块的区分特征不突出，以致制约双向块匹配准确度提升。针对上述不足，提出的Con-Cube逐一描述块内各像素的自相似性，具体提取流程如图1所示。

图1 Con-Cube提取流程Fig. 1 Illustration on the construction of Con-Cube

(1)

(2)

图2 相关平面统计分布的可视化实例Fig. 2 Visualization of correlation surface and statistical distribution

1.3 双向上下文匹配

下面介绍以Con-Cube为基本执行单元的双向上下文匹配，其执行流程如图3所示。

图3 双向上下文匹配执行流程Fig. 3 Illustration on bidirectional context match

(3)

(4)

双向上下文匹配兼顾像素差异和其相应的上下文特征差异，以逐像素的上下文关联度量显著增强块的区分特征，可有效抑制遮挡、局部相似区域易发的块失配问题，从而改善MC-FRUC的内插质量。

2 结果与分析

2.1 参数设置

子块尺寸p、尺度因子σ与间隔数bin是表征像素上下文特征的重要参数，而正则化因子β将决定上下文特征对双向匹配误差的影响力，因此，有必要讨论其对内插性能的影响。逐一更改上述参数取值，采用提出算法内插所有测试视频序列各帧，计算平均的峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)、结构相似性(Structural SIMilarity, SSIM)及执行时间，以衡量各参数取值对内插性能的影响。图4展示了子块尺寸p对Con-Cube内插性能的影响，其中p的取值范围为[3, 9]，而σ、bin、β分别固定为10、10、4。

由图4可知，随着p的增加，PSNR、SSIM值下降，而执行时间增长，表明小子块尺寸有利于提升内插质量，且可防止过多的计算量投入。图5展示间隔数bin对Con-Cube内插性能的影响，其中bin的取值范围为[4, 12]，而p、σ、β分别固定为3、10、4。

图4 子块尺寸p对Con-Cube内插性能的影响Fig. 4 Effects of the parameters p on the performance of Con-Cube

图5 间隔数bin对Con-Cube内插性能的影响Fig. 5 Effects of the parameters bin on the performance of Con-Cube

由图5可知，间隔数bin与PSNR、SSIM值呈正相关性，表明取较大bin值有利于提升内插质量，然而，随着bin增大，执行时间迅速增长，表明较大的bin值会增加计算负担。间隔数bin越大，Con-Cube的元素增多，当实施双向匹配时，需要投入更大的运算量。图6展示尺度因子σ对Con-Cube内插性能的影响，其中σ取值范围为[4, 14]，而p、bin、β分别固定为3、10、4。

图6 尺度因子σ对Con-Cube内插性能的影响Fig. 6 Effects of the parameters σ on the performance of Con-Cube

由图6可知，当σ取10时，PSNR、SSIM值达到最大。尺度因子σ用于规范化相关平面的取值，它的取值大小不会影响提取Con-Cube的计算量，但会对相关平面取值的分布产生一定影响。图7展示正则化因子β对Con-Cube内插性能的影响，其中β的取值范围为[1, 5]，而p、bin、σ分别固定为3、10、10。

由图7可知，随着β增加，PSNR、SSIM值逐渐提升，但当β大于4时，增长速率开始放缓，表明不易加大上下文特征对匹配误差的贡献，取适中的值较为恰当。综上，为了确保所提出的Con-Cube算法有良好的内插性能，实验中将p、σ、bin、β分别设置为3、10、10、4。

2.2 客观评估

表1展示了提出的Con-Cube算法与对比算法BME、Con-Patch内插测试序列各帧的平均PSNR、SSIM值及执行时间。

图7 正则化因子β对Con-Cube内插性能的影响Fig. 7 Effects of the parameters β on the performance of Con-Cube

表1 BME、Con-Patch与Con-Cube上转测试序列的平均PSNR、SSIM和执行时间对比Tab. 1 Average PSNR, SSIM and execution time comparisons of test sequences recovered by BME, Con-Patch and Con-Cube

对比PSNR值可以看到，对于任何序列Con-Cube均优于BME、Con-Patch，其中对于Mobile序列时，相比于BME、Con-Patch，均产生了3.61 dB、3.55 dB的最大PSNR增幅。对于所有序列的平均PSNR值，Con-Cube分别比BME、Con-Patch高出1.02 dB、1.26 dB。对比SSIM值，可看到对于任何序列Con-Cube依旧保持优势，仅对于Akiyo序列，相比于BME，减少了0.000 3。对于所有序列的平均SSIM值，Con-Cube分别比BME、Con-Patch高出0.015 2、0.018 6。对于平均执行时间，BME所用时间最小，单帧内插平均需0.52 s；Con-Patch所需时间最大，单帧内插平均需13.12 s；Con-Cube略低于Con-Patch，单帧内插平均需11.83 s。图8展示了Con-Cube、BME及Con-Patch内插Foreman、Mobile、Bus及Football序列各帧的PSNR、SSIM曲线对比，可以看到，对比于BME、Con-Patch，在大多数情况下，Con-Cube均获得了更高的PSNR、SSIM值。由上述结果可知，提出的Con-Cube可有效改善MC-FRUC的内插质量，且具有适中的计算复杂度。

图8 不同算法内插Foreman、Mobile、Bus及Football序列各帧的PSNR、SSIM曲线对比Fig. 8 Comparison of PSNRs and SSIMs of Foreman, Mobile, Bus and Football interpolated by different algorithms

2.3 主观评估

图9展示BME、Con-Patch及Con-Cube内插Foreman序列第78帧的主观视觉结果。该帧有大面积的静止背景、头部移动以及面部表情的变化。

图9 不同算法重建Foreman序列第78帧的主观视觉质量对比Fig. 9 Visual results on the 78-th interpolated frame of Foreman sequence using different FRUC algorithms

由图9可以看到，BME、Con-Patch的内插结果在面部与背景的边界和鼻部区域产生严重的块效应，而Con-Cube复原出清晰的面部，且人物与背景的交界区域没有任何模糊。

图10展示BME、Con-Patch及Con-Cube内插Mobile序列第50帧的主观视觉结果。各帧包含画面的整体平移、火车运动及球体滚动。

图10 不同算法重建Mobile序列第50帧的主观视觉质量对比Fig. 10 Visual results on the 50-th interpolated frame of Mobile sequence using different algorithms

由图10可知，在台历的数字区域，BME、Con-Patch的内插结果产生了严重的错乱，且滚动的球体出现重影，而Con-Cube产生清晰的数字，且火车、球体均有良好的复原质量。

图11展示BME、Con-Patch及Con-Cube内插Bus序列第62帧的主观视觉结果。在该帧中，画面跟随公交车运动快速平移。BME、Con-Patch复原的公交车车头区域有明显的模糊，铁栅栏出现错位，而Con-Cube有效抑制车头模糊，铁栅栏基本复原完整。

图11 不同算法重建Bus序列第62帧的主观视觉质量对比Fig. 11 Visual results on the 62-th interpolated frame of Bus sequence using different algorithms

图12展示了BME、Con-Patch及Con-Cube内插Football序列第26帧的主观视觉结果。在该帧中，运动员快速无规则移动，整体画面抖动。在BME、Con-Patch的内插结果中，多个运动员碰撞的区域产生了严重的形变、模糊，复原效果极不舒适，而对于Con-Cube，尽管形变、模糊依然存在，但相比于BME、Con-Patch有了极大的缓解。

图12 不同算法重建Football序列第26帧的主观视觉质量对比Fig. 12 Visual results on the 26-th interpolated frame of Football sequence using different algorithms

由上述结果可知，相比于BME、Con-Patch，提出的Con-Cube可确保内插帧具有良好的主观视觉质量。

3 结论

提出了一种基于Con-Cube的MC-FRUC算法，其贡献为构造Con-Cube，缓解BME中由运动对称性假设失效带来的块失配，以提升内插质量。首先，针对参考帧内各块，逐像素提取子块，采用自相似描述子计算其相关平面；接着，生成相关平面的归一化直方图，作为各像素的上下文特征，增加为块的新维度，构造出Con-Cube；然后，以内插帧中各块为中心，采用运动时间对称性假设，执行基于Con-Cube的双向上下文匹配，输出内插帧的运动向量场；最后，根据内插帧的运动向量场，实施MCI生成最终的内插帧估计。实验结果表明，所提出的算法有效改善了MC-FRUC的性能，确保了内插帧具有良好的主客观视觉质量。