APP下载

融合重检测机制的卷积回归网络目标跟踪算法

2019-10-23贾永超何小卫郑忠龙

计算机应用 2019年8期
关键词:目标跟踪

贾永超 何小卫 郑忠龙

摘 要:针对基于人工特征的背景感知相关滤波(CACF)算法在形变、运动模糊、低分辨率情形跟踪效果较差以及跟踪器遇到严重遮挡等情形容易陷入局部最优而导致跟踪失败的问题,提出一种融合重检测机制的卷积回归网络(CRN)目标跟踪算法。在训练阶段,将相关滤波作为CRN层融入进深度神经网络,使网络成为一个整体进行端到端训练;在跟踪阶段,通过残差连接融合不同网络层及其响应值,同时引入重检测机制使算法从潜在的跟踪失败中恢复,当响应值低于给定阈值时激活检测器。在数据集OTB-2013上的实验表明,所提算法在50个视频序列上精确度达到88.1%,相比原始CACF算法提高9.7个百分点,在具有形变、运动模糊等属性的视频序列上相比原始算法表现更优秀。

关键词:目标跟踪;相关滤波;卷积回归网络;端到端;重检测

中图分类号: TP183; TP391.41

文献标志码:A

Object tracking algorithm combining re-detection mechanism and convolutional regression network

JIA Yongchao, HE Xiaowei*, ZHENG Zhonglong

College of Mathematics and Computer Science, Zhejiang Normal University, Jinhua Zhejiang 321004, China

Abstract: Concerning the problem that Context-Ware Correlation Filter (CACF) algorithm based on artificial features has poor tracking performance under the situations of deformation, motion blur and low resolution and when the tracker encounters conditions like severe occlusion, it is easy to fall into local optimum and cause tracking failure, a new object tracking algorithm combining re-detection mechanism and Convolutional Regression Network (CRN) was proposed. In the training phase, the correlation filter was integrated into the deep neural network as a CRN layer, so that the network became a whole for end-to-end training. In the tracking phase, different network layers and their response values were merged through residual connections. At the same time, a re-detection mechanism was introduced to make the tracking algorithm recover from the potential tracking failure, and the re-detector would be activated when the response value was lower than the given threshold. Experimental results on the dataset OTB-2013 show that the proposed algorithm achieves 88.1% accuracy on 50 video sequences, which is 9.7 percentage points higher than the accuracy of original CACF algorithm, and has better results compared with original algorithm on video sequences with attributes like deformation and motion blur.

Key words: object tracking; correlation filter; Convolution Regression Network (CRN); end-to-end; re-detection

0 引言

目标跟踪要解决的问题是在只给定第一帧数据情况下在视频序列中预测目标的大小、位置等参数,目标跟踪是多个领域中,诸如智能监控、人机交互、视频分析等的核心问题之一[1],存在诸如尺度变化、遮挡、光照变化、形变、快速移动等挑战,因此,设计准确、高效的目标跟踪算法仍然是一个值得持续关注的课题。在过去几十年来,目标跟踪的研究取得了长足的发展,在这期间出现了包括均值漂移(Mean shift)[2-3]、粒子滤波(Particle Filter)[4]和卡尔曼滤波(Kalman Filter)[5]等经典的跟踪算法。近些年来,相关滤波(Correlation Filter)是比较引人瞩目的跟踪框架[6],其中比较有代表性的自适应相关滤波目标跟踪[7]算法是第一次将相关濾波引入到目标跟踪领域,以近700帧/s(frames per second, fps)的速度远远超过同时期其他优秀算法;

2012年,Henriques等[8]提出的核化循环矩阵目标跟踪(Circulant Structure of tracking-by-detection with Kernels, CSK)算法通过在频域上用循环移位的方法进行稠密采样,同时利用循环矩阵可对角化的性质保证算法的实时性;

2015年,Henriques等[9]在CSK工作的基础上进一步提出了高速核化相关滤波(High-Speed Tracking with Kernelized Correlation Filters, KCF)算法,在保证速度的同时又提高了目标跟踪的精度;

针对KCF算法只利用有限背景信息这一缺点,Mueller等[10]提出改进算法——背景感知相关滤波(Context-Aware Correlation Filter, CACF)算法,通过对原始算法增加背景信息块,增强了滤波器的判别能力,从而进一步提高了算法精确度。

基于相关滤波的跟踪算法在取得一系列进展的同时也存在共同的缺点,这些方法所使用的特征大多基于方向梯度直方图(Histogram of Oriented Gradients, HOG)、颜色特征(color name)等人工特征,导致这些方法在遭遇遮挡、形变、背景驳杂等环境时容易造成跟踪失败;而相比传统的手工特征,近年来新崛起的深度学习特征具有更加强大的视觉表达能力[11],使得深度神经网络在目标检测和分类等领域展现出其强大的统治力。在目标跟踪领域,深度神经网络的应用滞后于其他视觉任务,主要由于目标跟踪只给定当前跟踪视频序列第一帧的限位框(bounding box),因此很难获取大量的适用于跟踪的先验样本,这导致当前很多采用深度神经网络的目标跟踪算法[12]直接迁移学习其他任务(比如分类和检测)训练的网络,同时在跟踪过程中进行在线微调。Ma等[13]提出的层级特征视觉跟踪(Hierarchical Convolutional Features for visual tracking, HCF)算法利用卷积网络不同层特征进行目标跟踪。熊昌镇等[14]提出的稀疏卷积策略减少了卷积特征维度,采用间隔更新方法提高跟踪了速度,但这会损失一部分精确度。Qin等[15]提出的底层深度跟踪(Hedged Deep Tracking, HDT)算法,通过使用分类任务预训练VGGNet或ResNet等网络,在跟踪过程中通过随机梯度下降方法(Stochastic Gradient Descent, SGD)进行在线微调来实现目标跟踪。由于这些网络规模大、参数多,导致算法运行速度很慢,HCF算法速度仅为2fps。基于以上分析本文提出如下三点改进方案:

1)卷积回归网络(Convolution Regression Network, CRN)。将岭回归作为卷积网络中一层进行端到端训练,网络专为目标跟踪任务训练,获得的特征表达能力更强。

2)重检测机制。模型遇到遮挡等情况会导致预测目标位置不准确,当错误积累叠加时跟踪器容易发生漂移,重检测机制可以将跟踪器从潜在的跟踪失败中恢复。

3)残差连接。利用卷积神经网络不同层特征,通过残差连接可以获得更鲁棒跟踪结果。

1 背景感知相关滤波

相关滤波算法通过循环采样的方法来获取丰富的训练样本,基本方法为通过一个基向量循环移位来实现循环密集采样。将采集到的图像块拉伸成一维向量,通过n次相乘形成不同的循环样本,将样本块组合在一起形成矩阵,称其为循环矩阵。根据文献[9]循环矩阵具有如下性质:

其中:离散傅里叶矩阵 F 是一个常量矩阵,H表示共轭转置。通过式(1)可以简化线性回归的解。

通过最小化式(2)来获取滤波器 w :

对式(2)求导,令对 w 的导数为零可以得到滤波器的解为: w =( A T0 A 0+λ1 I )-1 A T0 y ,其中T 表示转置。因为 A 0是循环矩阵,可以用式(1)对角化进行化简,因此函数的解在频域简化为:

其中:⊙代表哈曼达积,   是 w 的傅里叶变换。

为了增强相关滤波器判别能力,将相关滤波器结合全局背景约束,合理地利用背景信息,形成背景感知的相关滤波算法CACF。算法中的背景感知是通过在目标周围采样k个背景图像块构造新的回归公式:

其中: X 0是原始样本块 x ′0通过循环移位形成的,新增背景块 x ′i通过循环移位形成 X i。

式(4)在傅里叶空间的闭式解为:

在检测阶段,用学习到的滤波器 w 和搜索图像块 z 作卷积运算,矩阵 Z 是由图像块 z 循环移位获得。目标位置就是响应值最大的位置。在频域上的检测公式为:

2 融合重检测机制的卷积回归网络

本文算法首先通过将卷积回归网络加入常规网络层,使其成为一个整体进行端到端的训练,在训练过程中进行岭回归运算,在反向传播过程中调整回归参数,通过残差连接不同网络层及其输出的响应值,得到最终响应值。同时为解决严重遮挡等情况下算法漂移,建立了一个重检测机制,在跟踪过程中通过响应值设置一个阈值系统,用于监督是否进行重检测,当响应值小于给定阈值时激活重检测,为避免陷入局部最优,重检测模型进行全局检测,形成最终算法——融合重检测机制的卷积回归网络跟踪算法(algorithm combining Re-detection mechanism and Convolutional Regression Network, ReCRN)。

2.1 网络训练

区别于传统的相关滤波算法,本文算法将岭回归作为卷积回归网络进行端到端训练,传统岭回归中的参数由人工设定,本文通过网络训练调整参数,使其更适合目标跟踪任务。由于目标周围包含有用的背景信息,这些信息对于增强回归网络判别力十分重要,因此对于输入的样本块包含目标周圍背景。在训练期间通过解决一个最优化问题完成反向传播,由于卷积回归层为非常规设计,因此要求其反向传播参数。定义损失函数如下:

[7] BOLME D S, BEVERIDGE J R, DRAPER B A, et al. Visual object tracking using adaptive correlation filters [C]// Proceedings of the 2010 Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 2544-2550.

[8] HENRIQUES J F, RUI C, MARTINS P, et al. Exploiting the circulant structure of tracking-by-detection with kernels [C]// Proceedings of the 2012 European Conference on Computer Vision, LNCS 7575. Berlin: Springer, 2012: 702-715.

[9] HENRIQUES J F, RUI C, MARTINS P, et al. High-speed tracking with kernelized correlation filters [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.

[10] MUELLER M, SMITH N, GHANEM B. Context-aware correlation filter tracking [C]// Proceedings of the 2017 Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 1387-1395.

[11] 管皓,薛向陽,安志勇.深度学习在视频目标跟踪中的应用进展与展望[J].自动化学报,2016,42(6):834-847. (GUAN H, XUE X Y, AN Z Y. Advances on application of deep learning for video-object tracking [J]. Acta Automatica Sinica, 2016, 42(6): 834-847.)

[12] 王鑫,侯志强,余旺盛,等.基于多层卷积特征融合的目标尺度自适应稳健跟踪[J].光学学报,2017,37(11):232-243. (WANG X, HOU Z Q, YU W S, et al. Target scale adaptive robust tracking based on fusion of multilayer convolutional features [J]. Acta Optica Sinica, 2017, 37(11): 232-243.)

[13] MA C, HUANG J-B, YANG X K, et al. Hierarchical convolutional features for visual tracking [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 3074-3082.

[14] 熊昌镇,车满强,王润玲.基于稀疏卷积特征和相关滤波的实时视觉跟踪算法[J].计算机应用,2018,38(8):2175-2179. (XIONG C Z, CHE M Q, WANG R L. Real-time visual tracking algorithm based on correlation filters and sparse convolutional features [J]. Journal of Computer Applications, 2018, 38(8): 2175-2179.)

[15] QI Y, ZHANG S, QIN L, et al. Hedged deep tracking [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington,DC: IEEE Computer Society, 2016: 4303-4311.

[16]  WU Y, LIM J, YANG M-H. Online object tracking: a benchmark [C]// Proceedings of the 2013 Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 2411-2418.

[17] BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully-convolutional siamese networks for object tracking [C]//  ECCV 2016:  Proceedings of the 2016 European Conference on Computer Vision, LNCS 9914. Cham: Springer, 2016: 850-865.

猜你喜欢

目标跟踪
多视角目标检测与跟踪技术的研究与实现
基于改进连续自适应均值漂移的视频目标跟踪算法
基于重采样粒子滤波的目标跟踪算法研究
空管自动化系统中航迹滤波算法的应用与改进
智能视频技术在电力系统领域的应用
基于车牌识别的机混车道视频测速算法
自车速测量中的目标检测与跟踪技术
基于SIFT特征和卡尔曼滤波的运动目标跟踪方法
基于目标跟踪的群聚行为识别
图像跟踪识别技术在煤炭运量视频管理系统中的研究