基于深度学习的低质视频人脸增强识别方法

2021-09-14刘鑫

电脑知识与技术 2021年22期

刘鑫

摘要：针对低质新闻视频人脸比对识别问题，本文提出了一种关键帧增强与改进视觉Transformer模型相结合的低质新闻视频人脸比对方法，主要优点为：（1）基于内容和聚类结合，实现新闻视频关键帧的精简优化提取;（2）引入改进VDSR模型的超分辨率重建模块，对低质关键帧的人脸特征信息进行有效增强;（3）构建基于改进视觉Transformer的人脸识别比对模型，实现高精度的人脸比对。在网络新闻视频数据集上进行实验表明，该方法具有良好的人脸比对识别效果。

关键词：人脸识别;关键帧增强;聚类;VDSR模型;视觉Transformer

Abstract： This work proposed a video face recognition method based on key frame enhancement and improved vision Transformer model and applied to low-resolution news video face recognition. The advantages are three folds：（1） the key frames are optimally extracted based on content and clustering; （2） the face feature of low-resolution key frame is enhanced based on the improved VDSR model; （3） high precision face recognition is obtained based on improved vision Transformer model. Experiments on news videos illustrate the good performance of the proposed approach.

Key-Words：face recognition; key frame enhancement; cluster; VDSR; vision Transformer

1引言

新聞视频是世界各个国家对政要人物的官方言论、政外活动等行为进行披露和报道的重要渠道，也是基于网络开源数据进行大国关系趋势分析、国家政策分析等研究的重要基础，因此从海量新闻视频中进行政要人物的快速检索比对具有非常重要的意义，有助于实现政要人物动态跟踪，以及热点政外事件发现跟进等[1]。但是新闻视频由于视频源控制、上传压缩等因素常常导致视频质量较差，存在着分辨率低、画面模糊、人物多角度多光照等问题，另外，新闻视频一般时间较长，且画面内容经常来回切换（一是报道事件画面和新闻主播画面的来回切换，二是报道过程中的政要人物画面和其他画面的来回切换）。上述两方面的因素都使得基于低质新闻视频进行准确而有意义的政要人物比对变得十分困难。

视频人脸识别比对也被称为视频人脸检测识别。从近几十年人脸检测识别的发展历程来看，视频人脸识别比对技术主要分为基于几何特征的方法、基于匹配的方法、基于统计的方法和基于深度学习的方法四类。基于几何特征的方法[2]通过计算人脸面部（眼睛、嘴巴、鼻孔、轮廓等）特征矢量之间的角度、距离等几何关系来描述人脸器官之间的结构，并利用这些几何关系进行人脸识别比对。基于匹配的方法[3]通过计算待识别人脸图像与预置的标准化模板之间的差值，当差值小于阈值时则识别比对成功。基于统计的方法将人脸图像映射为特征向量或矩阵，通过统计学习的方式学出不同人脸图像之间的特征区别，从而达到识别人脸的目的，该类方法主要有特征脸法[4]、基于隐马尔科夫模型的方法[5，6]、基于神经网络的方法[7，8]等。基于深度学习的方法[9，10]在基于神经网络的方法基础上发展而来，利用深度神经网络强大的表达能力，学习到人脸图像更为复杂的特征，从而提高人脸识别效果。上述方法各有优缺点，对于时长较长的新闻视频，难以兼顾处理速度与识别准确率，并且在模糊画质的情况下，识别效果会变得更差。

本文针对时长较长、画面来回切换、画质较差的新闻视频政要人物识别比对问题，结合深度学习的前沿研究成果，提出了一种基于关键帧增强与改进视觉Transformer模型相结合的低质新闻视频人脸比对方法，通过新闻视频关键帧精简优化提取、低分辨率关键帧增强和高精度人脸识别比对模型的综合使用，系统性地解决了低质新闻视频政要人物比对中关键帧提取冗余导致的耗时较长，以及低分辨率情形下的人脸图像比对准确率较低两大难题。

2 算法模型

本文提出的基于关键帧增强与改进视觉Transformer模型相结合的低质新闻视频人脸比对方法流程如图1所示，主要包括基于内容与聚类结合的视频关键帧提取模型、基于改进VDSR的关键帧超分辨率重建模块以及基于改进视觉Transformer的人脸识别比对模型。首先，新闻视频集中的视频经过基于内容与聚类结合的视频关键帧提取模型后，得到精简化的有效关键帧图像集;由于关键帧图像集画面质量较低，再引入基于改进VDSR的关键帧超分辨率重建模块，得到高分辨率的关键帧图像集，实现关键帧的增强;最后将待比对人物图像和增强后的关键帧图像同时输入到基于改进视觉Transformer的人脸识别比对模型，实现最终高精度的视频人物比对结果。

2.1 基于内容与聚类结合的视频关键帧提取

在新闻视频人物比对之前先进行视频关键帧提取的意义在于，用关键帧来表示视频涵盖的主要内容，通过关键帧来进行人物比对避免了逐帧比对的繁琐，确保比对效率。通过对大量的新闻视频的前期研究，我们发现一个镜头片段内往往是新闻主播画面、报道人物画面或报道事件画面等，其内容相对变化不大，因此基于内容的提取方法[11]天然适用于新闻视频的关键帧提取。最简便有效的基于内容的视频关键帧提取方法以提取每一帧的颜色、纹理、形状等视觉特征为基础，当视频帧的视觉特征发生较大变化时，从一定程度上表明了其内容的变化。这种方法思路简单且易于计算，但由于新闻报道画面经常来回切换，一是报道内容画面和新闻主播画面来回切换，二是报道过程中政要人物画面和其他画面来回切换，因此很容易出现关键帧冗余。