一种基于视频的多目标追踪与分割算法

2021-04-06苏松源杜长青诸雅琴

计算机技术与发展 2021年3期

黄涛，苏松源，杜长青，诸雅琴，陈勇

(1.国网江苏省电力工程咨询有限公司，江苏南京 210024；2.教育部网络与信息集成重点实验室(东南大学)，江苏南京 210096;3.东南大学网络空间安全学院，江苏南京 210000)

0 引言

在计算机视觉领域中多目标检测和追踪发展很快，在很大程度上，这些进步是由强大的深度学习驱动的，比如Fast/Faster RCNN[1]和MDNet[2]算法等用于目标检测和目标追踪，这些方法在概念上很直观，并且具有灵活性以及快速的检测时间。

实例分割在目前来说具有很大的挑战性，因为它需要将图像中的所有对象正确地检测出来，对每个对象也需要精准的分割。因此需要结合计算机视觉中的对象检测、目标分类、边界框定位以及语义分割。基于以上要求，人们可能会认为需要复杂的方法才能获得良好的结果。目前现有的目标追踪算法只是将目标框起来进行追踪。因此，该文介绍一种检测精度更高的、灵活快速的模型，可以将视频中的目标轮廓识别出来并进行追踪。

该文介绍的为基于改进的Mask-RCNN[3]目标追踪算法，是在Mask-RCNN[3]的基础上进行了改进。由于Mask-RCNN[3]在每个感兴趣的区域(RoI)上添加一个用于预测分割掩码[4]的分支，与现有的用于分类和边界盒回归的分支并行，并且RoIAlign[5]在候选区域的每个单元中计算出四个坐标位置，然后用双线性内插的方法[6]计算出这四个位置的值，最后进行最大池化操作。虽然提高了精度，但对一张图片分割需要耗费很长时间，无法对视频目标进行实时追踪。

该文针对现有问题提出了如下两点改进：

(1)在原有的Mask-RCNN[3]模型中加入光流分析法来加快对图片中目标的识别，减少对图片的分割运行时间。

(2)先加入直方图差值的方法提取视频中的关键帧，再将此放进改进后的Mask-RCNN模型进行目标追踪，可以有效减少普通帧的干扰。

1 相关工作

目标追踪领域自身的特性如下：复杂的实际应用环境，相似的背景环境，各种各样的遮挡等外界因素以及追踪的目标形态变化，大小变化各式各样的旋转以及运动速度变化等等。而且当目标跟踪算法投入到实际应用时，会出现一个很重要的问题—实时性问题。过去几十年以来，目标跟踪的研究取得了长足的进展。从Meanshift[7]、Particle Filter[8]和Kalman Filter[9]等经典跟踪方法，到基于统计学和积分的方法，再到近几年出现的深度学习相关方法，使得目标追踪领域越来越热门。

目标跟踪算法主要分为两类：

生成式模型[10]：通过在线学习方式建立生成目标模型，然后根据目标模型来寻找对应的图像区域，但这一类方法没有考虑目标所在的背景区域信息，从而丢失了一部分信息，导致了此类算法的跟踪效果不够理想。。

判别式模型：将目标追踪的问题分两部分完成，首先将目标和背景信息提取出来放入到训练器中进行训练，从而将目标从图像序列背景中分离出来，然后得到该目标所在当前帧的位置。

该文提出的基于改进的Mask-RCNN目标追踪算法属于判别式模型，在原有基础上通过引入光流分析和直方图提取关键帧的策略来达到实时追踪的效果。

2 Mask-RCNN算法原理

Mask-RCNN[3]是由Faster-RCNN[2]改进而来的，在Faster-RCNN[2]对RoI Pooling做了改进并提出了RoI Align，这样改进后不再进行取整操作，而是用双线性插值来更精确地找到每个块对应的特征。使得为每个RoI取得的特征能够更好地对齐原图上的RoI区域。与此同时，增添mask branch预测K个种类的mm二值掩膜输出，引入预测K个输出的机制，允许每个类都生成独立的掩膜，避免类间竞争。这样做解耦了掩膜和种类预测，提高了分割效果。

如图1所示，Mask-RCNN[3]算法流程如下：

图1 Mask-RCNN网络结构

(1)输入图像；

(2)将整张图片输入CNN进行特征提取；

(3)用RPN生成推荐窗口(proposals)，每张图片对应N个窗口，然后在卷积神经网络的最后一层卷积特征图上对这N个窗口进行映射；

(4)特征提取完毕后，通过RoI Align池化层使得每个RoI生成的特征图的尺寸大小一致；

(5)最后通过分类预测、边界框预测和mask掩膜预测进行回归生成对应的分割图片。

2.1 ROI Align模型

ROI Align[5]很好地解决了之前算法池化操作中两次量化造成的区域不匹配的问题。

由于预选框的位置通常是由模型回归得到的，一般来讲是浮点数，而池化后的特征图要求尺寸固定。所以ROI Align进行了重新设计：

(1)遍历每一个候选区域，保持浮点数边界不做量化。

(2)将候选区域分割成mm个单元，每个单元的边界也不做量化。

(3)先在每个单元中固定四个坐标位置，然后用双线性内插的方法[6]计算出这四个位置的值，最后进行最大池化操作。

2.2 基于FCN网络的mask特征

如图2所示，ROI Align操作生成的ROI区域固定大小的特征图，经过4个卷积操作后，生成14×14大小的特征图；然后经过上采样生成28×28大小的特征图；最后通过卷积操作生成大小为28×28，深度为80的特征图。上述过程为全卷积网络，这样可以保证mask分支的每一层都有mm大小的空间布局，不会缺少空间维度的向量。并且与全连接层预测mask相比，FCN需要更少的参数，可以得到更好的效果。

图2 Mask网络分支

3 算法改进

Mask-RCNN[3]算法虽然能识别目标轮廓，但对一张图片分割需要耗费很长时间，无法对视频目标进行实时追踪。该文引入光流分析法对视频中关键帧进行提取，可以有效减少分割时间，达到对目标的实时跟踪。

3.1 光流分析法

光流分析法是利用时域中图像序列里像素的变化以及相邻帧之间的相关性来找到前一帧与当前帧之间的对应关系，从而计算出相邻帧之间目标的运动信息的一种方法。

该文在Mask-RCNN[3]模型在相邻帧提取出候选区域后加入LK光流法，在相应的区域中先进行特征点提取，有效减少背景特征，使后面的mask提取和边界框预测时间大幅度缩短。

模型结构如图3所示。

图3 改进网络结构

3.2 视频关键帧提取

视频帧[11]是视频进行显示的基本结构单元,关键帧是从视频帧中提取出来的，是表述镜头的关键性图像帧,又叫代表帧，其可减少视频索引的工作量和数据量。由于视频中有很多帧和需求无关，所以进行关键帧提取，将有用的帧筛选出来与分割模型相结合来提高检测精度。

该文基于图像信息[12]进行特征提取，采用直方图差值算法来提取关键帧。通过把颜色特征作为主要特征，先将GRB颜色空间转换为HSV，然后通过对H色调和S饱和度进行颜色识别来进行关键帧的提取。

常用的颜色特征表征有直方图、颜色聚合量、颜色相关图等，由于直方图可以很直观地得到每个像素的颜色比例分布，可以方便帧之间的对比，所以该文采用颜色直方图进行描述，提取流程如图4所示。

3.3 视频多目标追踪设计

该文采用视频关键帧提取技术和改进后的Mask-RCNN算法进行实验，通过对MOT16视频集[13]输入训练，进行关键帧提取，根据每一帧图片的大小及目标个数来学习对该图片分割需要花费多长时间，训练出分割模型后，对第一帧开始分割并同时预测出分割时间，紧接着跳到该时间之后的那一帧继续进行分割并预测，来达到自适应多目标检测与追踪。

分割模型中时间损失率函数L计算为：

其中，T0表示对图片的预测时间，T1表示图片分割的实际时间，λ表示损失系数。

图4 视频帧提取流程

通过测试，使用多目标视频帧分割可以在0.05 s左右分割一次，基本达到实时分割的效果。性能如表1所示。

表1 算法性能测试

该表格中总提取时间为对整个视频提取关键帧所用的时间，分割时间为一次实例分割所用的时间。

4 实验

文中使用的数据为MOT16视频集[13]。通过MOT基准测试集[14]的测试序列来评估多目标跟踪算法实现的性能。为了验证改进的算法在多目标跟踪上的精确性和实用性，选用了MOT16视频集[13]进行实验，并和普通Mask-RCNN[3]算法在目标跟踪上的效果进行了对比，结果如表2所示。

表2 各算法性能对比

由表2可以看出，改进后的算法比普通的Mask-RCNN算法在时间上快了3倍左右，基本可以对实时目标进行追踪。

同时文中还对现已存在的视频多目标跟踪算法进行对比，具体如表3所示。

表3 多目标跟踪算法对比

由表3可知，改进的Mask-RCNN算法在MOTA[18]和MOTP上均高于其他已知的经典算法，FAF[19]和ML也有所下降，实现了在短时间的情况下对轮廓进行精准切割，这是Deep SORT[16]等追踪算法所达不到的。图5为截取的一段视频，其中几帧作为实例展示出来，是用M8手机拍摄的1 280×720像素的1'15"视频，1 s提取关键帧为20，图6显示的是对该视频中间15 s的预测时间和实际时间的差值。

图5 目标追踪与分割

由图6可知，改进Mask-RCNN算法在15 s内对300帧进行了目标跟踪，由于引进了光流分析和视频关键帧提取，使得对每一帧的预测时间和实际处理时间为0.05 s左右，相差不超过0.01 s，相比普通Mask-RCNN[3]算法在实时性上有了大幅度提高。并由图5可以看出，该算法在实时目标追踪的同时，也对目标轮廓进行了精准分割，保证了目标检测精度。

图6 预测时间与实际时间对比

5 结束语

该文采用了一种简单、灵活的对象实例分割框架，可以有效地检测出图像中的对象类别，并且在该模型的基础上进行改进，通过引入光流分析法与视频帧分割方法达到多目标追踪的目的，并且与其他经典目标追踪算法相比在保证实时性的同时多了精准的轮廓分割。通过输入视频流，来实时追踪目标并且对其进行实例分割，基本可以用于实践需要，且对于在实际应用中的多目标检测具有一定的参考价值。