基于视觉显著性车辆监控视频关键帧提取方法

2019-06-14仲梦洁张艳彬

计算机技术与发展 2019年6期

仲梦洁，张艳彬

(南京邮电大学通信与信息工程学院，江苏南京，210003)

0 引言

道路监控视频数据由于其摄像头静止、拍摄环境质量差等特点使其含有大量的冗余数据。为克服视频数据量越大、检索效率越低的矛盾，视频关键帧提取技术应运而生。关键帧是视频中最重要、最具代表性的图像帧，它反映了一个视频的主要内容，该技术能够去除视频数据中大部分冗余信息仅保留视频数据有用的部分[1-3]。

研究人员为提取能够充分反映视频信息的关键帧，提出了各种改进的视频数据量压缩方法。Ejaz等[4]针对基于镜头的关键帧提取中存在的普遍问题即许多方法将镜头第一帧作为关键帧这一弊端，提出了一种基于显著性的帧间差视频摘要方法。袁晶等[5]针对道路监控视频中特定车辆图像序列的关键帧提取问题，在运动对象检测的基础上，提出一种关键帧提取方法。将积分通道特征和面积特征作为图像特征描述子，结合AdaBoost训练分类器，实现道路监控视频车辆序列图像中关键帧的提取。蓝章礼等[6]为从固定摄像头的道路监控视频中有效地提取出关键帧，提出了基于相关系数的关键帧提取算法,但算法中阈值不能自动选取,需要根据不同的应用场景凭经验选取。Lai等[7]提取颜色特征、纹理特征形成静态视觉注意模型，提取运动强度、方向形成动态视觉显著性模型，并将两种显著性模型进行线性融合形成视觉注意力曲线，最后将显著性具有局部最大值的帧取出作为关键帧。刘云鹏等[8]针对道路监控视频，提出了一种基于高层语义和低层特征相结合的视觉注意模型，突出了道路监控中高度关注的交通对象和交通事件，有效地提取有较高应用价值的关键帧。

文中提出的关键帧提取方法主要解决的问题是如何快速检索出在道路监控中含有最丰富车辆信息的关键帧。该方法针对的监控视频是限定视频，视频内容以车辆的运动为主。为了定量描述视频帧中车辆包含的信息量，采用基于视觉显著性的车辆监测技术，依据视觉显著性技术，提取FT、LBP和边缘三种底层特征图以及车牌相似图，将根据车牌相似图优化后的三大底层特征加权平均融合得到显著性具有局部最大值的帧取出作为关键帧。提取的关键帧是运动车辆从进入到离开监控区域的序列图像帧中车辆信息最丰富的图像，实现道路车辆监控视频中车辆数据的有效压缩。

1 监控视频中基于视觉显著性的车辆关键帧提取流程

提出的关键帧提取流程如图1所示。

图1 监控视频中基于视觉显著性的车辆关键帧提取流程

首先对运动车辆进行目标检测、跟踪及背景分离得到前景图像；其次提取车辆图像的FT、LBP、边缘三种底层特征图及车牌相似图，为突显车牌区域同时减少非车牌区域对三种底层特征显著性区域的干扰，采用车牌相似图对三种底层特征进行优化，得到优化后的三种底层特征；在多特征图融合阶段，采用多特征加权平均融合得到多特征融合图像；最后在多特征融合图像中进行比较，选取运动轨迹中车辆显著性程度最大的多特征融合图像对应的视频帧作为车辆关键帧。

2 基于视觉显著性的车辆关键帧提取技术方案

2.1 车辆检测、跟踪与分割

为了获取车辆相应的运动状态以及运动轨迹，需要首先对运动目标进行检测与跟踪。车辆检测以及跟踪目前已经有了比较成熟的算法，综合考虑计算复杂度、准确度和鲁棒性等因素，同时考虑监控画面质量较差的问题，车辆检测算法采用效果较好的混合高斯模型[9]。

目标跟踪算法采用CamShift算法[10]。CamShift基本思想是以视频图像中运动物体的FT信息作为特征，对输入图像的每一帧分别作MeanShift运算，并将上一帧的目标中心和搜索窗口大小作为下一帧MeanShift算法的中心和搜索窗口大小的初始值，如此迭代下去，就可以实现对目标的跟踪。

为减少图像背景区域对前景目标显著性的干扰，文中采用基于标记的分水岭算法[11]对背景与前景目标进行分割。针对传统基于梯度的分水岭算法由于局部最小值过多造成分割后的分水岭较多的不足，采用基于标记点的分水岭算法，其思想是水淹过程从预先定义好的标记像素开始，较好地克服了过度分割的不足。

2.2 车牌特征图提取

根据颜色空间改进后的加权欧氏距离来提取车牌特征。颜色距离指的是两个颜色之间的差距，通常距离越大，两个颜色相差越大，反之，两个颜色越相近。由于RGB空间是线性的并且相互正交，而人眼的视觉系统并不是线性的，RGB空间并不能反映人眼对颜色的感知，相对应的颜色距离也不能很好地反映两个颜色是否相近。所以采用了改进的加权欧氏距离来计算颜色相似度，具体公式如下：

(1)

其中，ΔC为与车牌的颜色距离，1/ΔC为车牌颜色相似度值；C1,R,C1,G,C1,B分别为该像素点的RGB分量；C2,R,C2,G,C2,B分别为标准车牌底部颜色像素点的RGB分量。由于车牌为蓝底白字的车辆较多，因此将车牌蓝底白字的车辆作为研究重点。则C2,R为0，C2,G为0，C2,B为255。得到车牌相似度之后，就可知道该像素点趋近于车牌的程度，若车牌相似度值越大，该像素点的颜色越接近车牌的颜色。

车牌特征计算公式如下：

(2)

其中，W(i,j)为该帧第(i,j)个像素点的车牌颜色相似度的权重；P(i,j)为该帧中第(i,j)个像素点的车牌颜色相似度值即为1/ΔC；Pmin和Pmax分别为该帧像素点的车牌颜色相似度中的最小值和最大值。对Plate进行归一化即得到车牌特征图。由公式可以看出，当车牌颜色相似度值P(i,j)越大时，权重W(i,j)越大，则像素点的值越大，由此使车牌区域有较大的显著性。

2.3 底层特征图提取

文中选取LBP(局部二值模式)[12]提取图像的纹理特征。因其具有的灰度不变和旋转不变的性质，可避免由光照显著改变而引起的实验结果的误差。LBP算子的基本思想是定义在像素3*3的邻域内，以邻域中心像素为阈值，相邻的8个像素的灰度值与其进行比较，若周围像素大于中心像素值，则该像素点的位置被标记为1，否则为0。3*3邻域内的8个点经比较可产生8位二进制数，转化为十进制数即可得到中心像素的LBP值，并用这个值来反映该区域的LBP信息。具体计算公式如下：

(3)

其中，(xc,yc)为中心像素的坐标；p为邻域的第p个像素，ip为邻域像素的灰度值；ic为中心像素的灰度值；s(x)为符号函数：

(4)

文中颜色特征提取采用基于图像频域分析的显著性算法即FT算法[13]。该算法首先将原图像由RGB颜色空间转换为LAB颜色空间，对LAB颜色空间三通道分别取均值得Lμ，aμ，bμ，由此得到Iμ即平均图像特征向量。随后将原图像进行高斯滤波，得到Iwhc即图像高斯滤波后对应的矢量。最后计算输入图像的平均矢量Iμ和高斯滤波后的矢量Iwhc间的欧氏距离作为显著图S(x,y)。其中Iμ，Iwhc，S(x,y)具体公式如下：

(5)

LAB模式弥补了RGB和CMYK两种色彩模式的不足。它是一种设备无关的颜色系统，是用数字化的方法来描述人的视觉感应，一个理论上包括了人眼可以看见的所有色彩的色彩模式。LAB颜色空间中的L分量用于表示像素的亮度；a和b是两个颜色通道。a表示从红色到绿色的范围；b表示从黄色到蓝色的范围。

Canny算子[14]边缘检测时具有信噪比良好、计算量小以及定位性能较好等优点，因此采用Canny算子来提取物体的边缘特征。Canny算子对图像进行边缘检测主要分为四步进行：对图像进行二维高斯滤波；通过一阶微分计算图像的灰度梯度幅值和方向；对计算出的梯度幅值进行非极大值抑制；通过双阈值确定图像的边缘。由于Canny算子使用两种不同的阈值分别检测强边缘和弱边缘，且仅当弱边缘与强边缘相连时，才将弱边缘包含在输出图像中。这种方法不容易被噪声填充，更容易检测出真正的弱边缘。

2.4 底层特征图优化

由于车牌是人们高度关注的信息，且车牌区域相较于整个车辆区域所占面积较小，为突显车牌区域并减轻其他非车牌区域对FT、LBP与边缘三种底层特征的干扰，文中采用车牌特征图像对FT、LBP与边缘三种底层特征图像分别进行优化。优化思想是使车牌特征作为生成FT、LBP、边缘特征大小的条件，车牌相似度越小，则给FT、LBP、边缘特征越大的惩罚，使FT、LBP与边缘特征值变小，处理公式为：

(6)

其中，LBP(i,j)、Plate(i,j)、FT(i,j)、Edge(i,j)分别表示LBP特征图、车牌特征图、FT特征图、边缘特征图中第(i,j)个像素值。由式6可以得出优化后的底层特征比原底层特征在车牌区域较突出，非车牌区域得到了抑制，但仍保有原特征的信息。

2.5 特征融合及关键帧提取

由于根据车牌特征图像对FT、LBP与边缘三种特征图像分别进行优化，车牌特征的有效信息都包含在FT、LBP与边缘三种特征图像中，则在多特征融合时采用FT、LBP与边缘三种底层特征平均加权融合的方法，从而得到融合显著图。文中关键帧提取算法处理的问题可以具体描述如下：

(7)

3 实验结果分析

因为缺乏道路中车辆监控视频的公共测试数据集，为测试文中算法的效果和性能，实验采用了在天桥上拍摄的道路中车辆视频，共6个数据集。

实验环境：实验采用Intel (R) Core (TM) i5-3230 CPU @2.60 GHz(4 CPUS)，显卡为NVIDIA GeForce GT 650 M。操作系统为64位Windows 10专业版，开发环境为Visual Studio 2013,Opencv为Opencv-3.0。

实验中每个数据集的每一帧图像都是采用CamShift算法对目标车辆区域进行跟踪。第一个和第二个数据集是车辆由远处直行逐渐靠近监控摄像机的情况，分别有50帧和81帧。第三个和第四个数据集是车辆直行行驶速度较慢且离摄像机较近的情况，分别有75帧和70帧。第五个和第六个数据集是车辆直行行驶速度较快且离摄像机适中的情况，分别有61帧和60帧。

图2为实验所用的各个数据集描述图，每个数据集取三帧图像进行描述。

图2 各种数据集描述图

由于文中的关键帧提取算法是以多特征融合显著图的显著性值为参考，融合的三种特征都采用车牌特征对其进行了优化，突显了车牌区域，所以采用车牌识别置信度的方法来评价该关键帧提取算法的有效性。采用HyperLPR来进行车牌识别得到车牌置信度。HyperLPR是一个使用深度学习针对中文车牌识别的实现，与开源的其他框架相比，其检测速度和鲁棒性和多场景的适应性都要好于目前开源的框架。HyperLPR车牌识别置信度使用softmax回归函数将神经网络输出转成概率分布作为车牌识别的置信度。

(8)

为了更加清晰地展示实验效果，实验中计算了6个数据集中的车牌识别置信度，其结果如表1所示。表1中的车牌识别失败或识别错误是指没有检测到车牌或者检测到车牌，但是车牌识别错误。车牌识别正确是指检测到了车牌，并且车牌识别正确。HyperLPR检测到车牌则将识别出的车牌与其置信度大小显示，通过将识别出的车牌与正确车牌进行比较，将正确识别的置信度保留，识别错误的置信度大小置为零。

表1 数据集的识别结果

在数据集1中，由于车辆离摄像机的距离较远，视频帧不够清晰，导致前22帧中虽然能检测到车牌但是车牌识别错误，所以在数据集1中前22帧有很多车牌识别失败或识别错误的帧；在数据集2中，由于车辆从很远处朝着摄像机方向行驶，在第1帧到第30帧由于车辆在摄像机中所占面积较小，无法检测到车牌。在第31到45帧随着车辆离摄像机越来越近，车辆在摄像机中所占面积变大，有的可以检测到车牌，但是车牌识别错误，因此在数据集2中前45帧均为车牌识别失败或识别错误的帧；在数据集3中，车辆离摄像机距离较近，在前29帧基本都能检测到车牌，但是由于将正确车牌中的Q识别为0，导致车牌识别错误，因此在数据集3中前29帧有很多车牌识别失败或识别错误的帧；数据集4中，由于车辆行驶速度较慢且离摄像机较近，因此数据集4中车牌识别正确帧置信度范围较高；在数据集5和数据集6中，车辆虽离摄像机距离适中，但由于速度较快，数据集5的前21帧和数据集的前12帧大多为车牌识别失败或识别错误的帧。在数据集1的第45～50帧、数据集2的第70～81帧、数据集3的第69～75帧、数据集4的第56～70帧、数据集5的第54～61帧、数据集6的第55～60帧，由于在图像帧中检测不到车牌区域或者车牌区域不在摄像机范围内无法检测到车牌，因此为车牌识别失败或识别错误的帧。

从表1的第五行和第六行可以看出，文中算法提取出的关键帧置信度值均优于数据集中车牌识别正确的置信度平均值，文中算法虽然用车牌特征优化了三种底层特征，但仍保留了车辆三种底层特征信息，因此文中算法提取出的关键帧并不是车牌识别置信度最大值所对应的帧，但也优于数据集的大多数帧，也证明文中算法提取出的关键帧可以为车牌识别等提供样本，提高车牌识别的置信度。

人们对从进入视频到离开监控区域的运动车辆的车牌、车型、车辆颜色、车辆品牌、驾驶员是否系带了安全带、副驾驶是否坐人等信息都有一定的关注度，因此用车牌特征优化了三种底层特征，但仍保留了车辆三种底层特征信息。由图2各个数据集描述图可知，当车辆离摄像机较远时，车辆的车型、颜色、品牌标识都不够清晰，无法得到具体准确的信息；当车辆离摄像机很近时，车辆的车型、颜色能够看得很清晰，但车辆的品牌标识在车辆前脸处，有可能已经不在摄像机范围内，无法得到车辆的品牌信息；由图3可以看出，关键帧包含丰富的车辆信息。图3中文中算法提取的关键帧中所关注的运动车辆均能清晰准确地得到车辆车型、车辆颜色、车辆品牌等信息，且数据集2、5、6提取的关键帧可以明显地观察到驾驶员系带了安全带；其他数据集由于光照原因导致玻璃反光，无法明显地观察到驾驶员是否系带安全带，副驾驶是否坐人。这证明文中提出的关键帧提取算法能提取监控区域的序列图像帧中车辆信息较丰富的图像，实现道路车辆监控视频中车辆数据的有效压缩，且能够有效地为后续车牌识别等提供样本，提高车牌识别的准确率。

图3 文中算法提取的关键帧

4 结束语

针对道路监控视频中车辆的关键帧提取问题，在视觉显著性的基础上，提出一种关键帧提取方法。采用车牌相似度优化车辆的FT、LBP与边缘三种底层特征，通过加权平均融合优化后的FT、LBP与边缘三种底层特征得到多特征融合图像，最后选取出车辆显著性程度最大的融合图像对应的视频帧为关键帧，实现了道路车辆监控视频中车辆数据的有效压缩。