典型相关滤波跟踪算法的比较与分析

2020-07-23林彬单明媚郑浩岚王华通

现代电子技术 2020年5期

林彬单明媚郑浩岚王华通

摘要：为综合评价现有的相关滤波类算法，对典型的相关滤波跟踪器进行全面的比较与分析，从而为进一步完善相关滤波器的设计提供指引。从相关滤波跟踪理论的一般框架切入，重点对当前四种具有代表性的相关滤波跟踪器即KCF，DSST，HCF和ECO展开研究，分别从理论分析以及在大规模公开数据集OTB100上的实验表现详细地比较各算法的优劣。比较与分析结果表明，使用卷积特征的算法在跟踪准确性和鲁棒性上相比单纯使用人工特征的算法具有显著优势，然而跟踪速度也会急剧下降，具有尺度估计模块的跟踪器能够得到更优的跟踪成功图表现。最后对深度学习结合相关滤波方法存在的实时性不足、长时跟踪等问题进行分析，并对未来的发展趋势进行了展望。

关键词：计算机视觉; 目标跟踪; 相关滤波; 深度学习; 卷积特征; 尺度估计

中图分类号： TN911?34; TP391 文献标识码： A 文章编号： 1004?373X（2020）05?0030?06

Comparison and analysis of typical correlation filter tracking algorithm

LIN Bin， SHAN Mingmei， ZHENG Haolan， WANG Huatong

（College of Science， Guilin University of Technology， Guilin 541004， China）

Abstract： Comprehensive comparison and analysis on typical correlation filter trackers are performed to synthetically evaluate the existing correlation filter algorithm， thereby providing guidance for further improving the design of correlation filter. Firstly， the general framework of correlation filter tracking theory is taken as the start; and then， the current four representative correlation filter trackers of KCF， DSST， HCF and ECO are researched focally， and the advantages and disadvantages of each algorithm are compared in detail from both theoretical analysis and experimental performance on large?scale public data set OTB100. The results show that the algorithms with convolutional features have significant advantages in tracking accuracy and robustness in comparison with the algorithm with artificial features， but the tracking speed will decrease sharply; the tracker with scale estimation module can obtain superior performance on tracking success plot. Finally， the poor real?time performance and long?term tracking in the deep learning combined with the correlation filtering algorithm are analyzed， and the development trend in the future is prospected.

Keywords： computer vision; object tracking; correlation filter; deep learning; convolutional feature; scale estimation

0 引言

视频目标跟踪作为计算机视觉领域的一项核心技术，是目标识别、目标行为分析和视频内容理解等各种后续高层视觉处理任务的基础。目标跟踪理论最早是在军事领域被提出的。随着科技的发展，现代武器的自动化、智能化大幅提升，目标跟踪技术的运用有利于提高军事打击的命中率。在民用领域，目标跟踪算法己经广泛应用于视频监控、智能交通、人机交互、行为分析、虚拟现实以及自动驾驶等领域。通常，目标跟踪任务需要在视频序列的第一帧给出目标的初始位置（一般使用矩形框进行标注），跟踪算法则自动计算出目标在后续每帧图像中的位置、大小等运动信息。在实际应用中，由于受到光照变化、摄像头抖动、目标发生形变或尺度变化、目标被遮挡等一系列干扰因素的影响，如何对运动目标进行准确、鲁棒地跟踪，仍然是一个极具挑战性的问题。

根据外观模型的构建方式可将目标跟踪算法分为生成式方法和判别式方法两类。生成式方法首先对目标进行特征提取和表观建模，然后在下一帧中找到与模型最为相似的区域即为目标的预测区域。判别式方法的基本思想是用检测来做跟踪，将跟踪问题转化成为一個区分目标和背景的二分类问题。

相比于生成式方法，判别式方法有效地利用了图像中的背景信息，使跟踪算法能够更好地适应复杂的环境变化。判别式方法是目前目标跟踪领域的主流方法，基于相关滤波的跟踪算法属于判别式方法。

Bolme等最早将相关滤波理论引入目标跟踪领域，提出基于最小化均方误差（Minimizing the Output Sum of Squared Error，MOSSE）的相关滤波跟踪算法[1]，跟踪速度达到669 f/s，引起了领域内的广泛关注。之后，基于MOSSE相关滤波器框架之上的一系列算法相继被提出，改进的方面主要包括：特征改进[2?5]、尺度估计[6?9]、多核算法[10]、模型更新[11]、处理边界效应（Bound Effect）[12?14]、基于分块（Part?based）算法[15?16]等。

值得一提的是，文献[2?5]涉及的特征均为浅层的人工特征，如方向梯度直方图（Histogram of Oriented Gradient，HOG）特征和颜色空间（Color Name，CN）特征等。近年来，深度学习（Deep Learning）技术在图像分类、图像分割、目标检测等领域取得了巨大的成功，研究者开始将卷积神经网络（Convolutional Neural Network，CNN）框架应用到目标跟踪中，文献[17?20]均采用将CNN提取的卷积特征与相关滤波框架相结合的方式，提高了算法的跟踪精度和鲁棒性。

本文首先对相关滤波跟踪算法的基本理论进行阐述，然后对目前具有代表性的四种相关滤波跟踪算法进行详细介绍，并结合实验深入分析并比较它们的性能，为后续研究者对相关滤波跟踪算法进一步的研究工作奠定了基础。

1 相关滤波跟踪理论

相关滤波跟踪的基本思想是利用第一帧的目标样本来训练滤波器，在后续帧中通过相关滤波操作寻找图像搜索区域的最大响应位置，并将此位置标注为新的目标中心，并在后续的跟踪过程中不断更新滤波器。相关滤波跟踪方法由于在相关滤波器的训练和响应图生成阶段利用快速傅里叶变换（Fast Fourier Fransform，FFT）将时域转换到频域进行计算，从而极大地提高了运行效率。

相关滤波跟踪算法的一般框架和执行过程如图1所示。

1）在第一帧给定的目标位置提取图像块，训练得到初始的相关滤波器，在后续的每一帧中，根据上一帧的位置提取新的图像块作为当前帧的搜索区域进行特征提取，并利用余弦窗口平滑图像块的边缘像素。

2）将训练好的相关滤波器作用于搜索区域生成响应图，在响应图中寻找最大响应位置作为目标在当前帧的估计位置，即跟踪结果。响应图的计算如下：

[G=F⊙H*] （1）

式中：[F]为目标区域特征的频域表示;[H]为滤波器模板的频域表示;[H*]表示[H]的共轭转置;[G]表示最终响应;[⊙]表示矩阵对应元素相乘。

3）根据新的位置提取图像块，在提取特征后对滤波器模板进行训练和更新。在训练滤波器模板的过程中，需要构造目标函数，使得期望输出与实际输出之间的误差尽可能小。该优化问题可以表示如下：

[minH*iFi⊙H*-Gi2] （2）

式中[i]表示第[i]个训练样本。由式（2）可得滤波器模板的封闭解，即：

[H*=iGi⊙F*iiFi⊙F*i] （3）

相比于传统基于粒子滤波、稀疏表示等计算量极大的跟踪方法而言，相关滤波跟踪方法能够更好地适应视频处理的实时性需求，因此，近几年基于相关滤波的跟踪方法开始在领域内逐渐占据主导位置。

2 典型相关滤波算法

本节将详细介绍当前具有代表性的四种相关滤波跟踪算法的特性。具体包括：核化相关滤波（Kernelized Correlation Filter，KCF）跟踪器、判断尺度空间跟踪器（Discriminative Scale Space Tracker，DSST）、多层卷积特征（Hierarchical Convolutional Features，HCF）跟踪器和高效卷积操作（Efficient Convolution Operators，ECO）跟踪器。

2.1 KCF算法

在MOSSE框架的基础上，文献[2]提出了著名的KCF算法，主要贡献体现在以下三个方面：

1）针对跟踪领域中训练样本不足的问题（实际只有第一帧样本，MOSSE对其进行仿射变换，从而得到多个训练样本），创新性地提出了一种循环密集采样的方法，即利用中心图像块循环移位来产生虚拟样本。由于考虑了所有的循环样本，KCF训练得到的相关滤波器具有很强的判别性。

2） KCF将MOSSE中单通道的灰度特征拓展到了31维的HOG特征。单通道的灰度特征对于目标的特征表达能力非常有限，极易受到相似环境的影响，从而导致跟踪失败。而HOG特征对光照变化、颜色变化以及运动模糊等方面不敏感，能够提升相关滤波跟踪算法的鲁棒性，并且，多通道的特征提取過程为进一步的多特征融合提供了基础。

3）在求解相关滤波器方面，KCF算法引入了核函数，将原线性空间中的岭回归映射到了非线性空间，并成功地利用了循环矩阵特有的傅里叶空间对角化性质简化非线性空间中的求解，从而提升算法的执行效率。

2.2 DSST算法

尺度变化是目标跟踪中的一个挑战因素，MOSSE和KCF均没有考虑尺度问题。当目标尺度缩小时，会造成选取的图像块中包含大量背景信息，当目标尺度扩大时，会造成选取的图像块中只包含目标的局部信息，这两种情况都会引起跟踪漂移[21]。

为解决尺度变化问题，Danelljan等人提出的DSST算法在KCF的基础上引入了尺度估计[6]。除了用于估计目标中心的平移滤波器外，DSST算法还单独训练了一个一维的尺度滤波器，在估计出目标在当前帧的位置中心后，再在该位置处提取多个不同大小的图像块，并使用尺度滤波器进行尺度估计，以最大响应对应的尺度作为最优尺度。

可以看到，融合了卷积特征和人工特征的ECO仍然在各种条件下表现最优，具有很好的鲁棒性;HCF的鲁棒性仅次于ECO，但是由于只使用卷积特征且缺少尺度自适应策略，在光照变化和尺度变化的重叠率方面不如DSST;而DSST虽然对于光照变化和尺度变化取得了较好的效果，但在形变和遮挡两种情况下表现最差;KCF只使用人工特征且没有考虑尺度问题，在各个挑战因素均处于劣势，鲁棒性相对较差。

表2给出了四种跟踪算法在100组视频上的平均处理速度。可以看出，尽管KCF和DSST在准确性和鲁棒性方面不如HCF和ECO，但是从高效性方面来说具有明显的优势，尤其是KCF;相比于HCF，ECO，一系列的去冗余操作使算法在运行效率上有不少的提升，但是卷积特征的提取过程仍然比较耗时，尚无法满足实时性需求。

3.2 定性分析

为了进一步评估各算法的跟踪结果，从OTB100中挑选了部分具有代表性的视频序列对跟踪结果进行了定性比较，如图3所示。按照先从左至右、再从上到下的顺序，视频序列依次为Board，Girl2，Bird2，Human2，Bolt2，Rubik，Freeman1，Singer1。

由圖3可见，ECO在这8组视频中均能够保持对目标稳定地跟踪，尤其是在Girl2这一组视频序列上存在行人对目标遮挡、目标出现运动模糊等情况，除了ECO，其他的算法均丢失了目标;CF2总体表现也较为良好，在Girl2以外的7组视频中跟踪成功，但是从Rubik和Singer1中可以看出算法没有解决尺度问题;DSST在Rubik和Singer1中能够有效地适应目标的尺度变化，和ECO一样在这两组视频上表现较好，但在其他的6组视频中均出现了漂移;KCF对Bird2，Rubik，Singer1这3组视频跟踪成功，其他均失败，且没有解决尺度问题。

总体来说，凭借深度学习强大的特征能力，使用卷积特征能够有效提升相关滤波跟踪算法的准确性和鲁棒性，但同时也会极大地降低算法的高效性。如何平衡算法的精度和速度，是目前目标跟踪算法设计过程中一个需要着重考虑的关键点。另外，尺度变化在跟踪领域中较为常见，在设计跟踪算法的同时应该考虑尺度自适应问题，以及纵横比自适应的问题（目前该方面的研究工作较少），从而提高算法的重叠率。

4 结论

本文对相关滤波跟踪算法的研究现状和基本理论进行了归纳和介绍，并选择了四种典型的相关滤波跟踪算法进行详细地阐述，并结合实验对它们的性能表现进行充分地验证和比较分析。通过实验不难看出，目标跟踪领域的研究已经取得了很大的进步，尤其是深度学习技术的引入，使得算法精度得到了大幅提升。但是，OTB数据集中的场景仍然相对简单，视频长度也都较为短小。为了适应更复杂的现实场景，要设计出更高精度、高鲁棒性且满足实时性需求的目标跟踪算法仍需开展大量研究工作，未来的研究方向和发展趋势可能包括以下几点：

1）目前大部分结合深度学习的目标跟踪算法速度都较慢，由于实际应用有很强的实时性需求，因此不适合使用层数太多的CNN网络（且已经训练好的用于分类的网络模型），如何针对跟踪问题设计一个适合的轻量化网络进行特征的提取，将是一个值得研究和探讨的问题。

2）相关滤波跟踪方法在跟踪过程中一旦出现漂移，将会导致滤波器模板被破坏，无法从错误的跟踪状态中恢复过来，因而难以适应实际应用中的长时跟踪（Long?term Tracking）场景。一些研究工作通过引入目标检测技术，在跟踪失败时通过检测器重新定位目标，从而辅助跟踪器重新建立目标模板[26?27]。如何更好地利用检测算法快速准确地定位目标位置，解决长时跟踪问题，将成为目标跟踪领域要解决的主要问题之一。

3）跟踪问题中，只有第一帧目标的位置信息，跟踪物体的先验信息严重缺乏，这就要求模型实时更新以保持对变化中目标的刻画。但是，模型更新容易引入噪声导致跟踪漂移。近期，一些算法采用孪生网络（Siamese Network）结构保存先验信息[28?30]，代替模型的在线更新，在算法的精度和速度方面均展现了良好的性能，已经成为领域内一个新的热点，值得进一步的研究。

参考文献

[1] BOLME D S， BEVERIDGE J R， DRAPER B A， et al. Visual object tracking using adaptive correlation filters [C]// Procee?dings of the IEEE Conference on Computer Vision and Pattern Recognition. San Francisco， US： IEEE， 2010： 2544?2550.

[2] HENRIQUES J F， RUI C， MARTINS P， et al. High?speed tracking with kernelized correlation filters [J]. IEEE transactions on pattern analysis and machine intelligence， 2015， 37（3）： 583?596.

[3] DANELLJAN M， KHAN F S， FELSBERG M， et al. Adaptive color attributes for real?time visual tracking [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus， US： IEEE， 2014： 1090?1097.

[4] ZHU Guibo， WANG Jinqiao， WU Yi， et al. MC?HOG correlation tracking with saliency proposal [C]// Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. Palo Alto， US： AAAI， 2016： 3690?3696.

[5] BERTINETTO L， VALMADRE J， GOLODETZ S， et al. Staple： complementary learners for real?time tracking [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas， US： IEEE， 2016： 1401?1409.

[6] HUANG Dafei， LUO Lei， CHEN Zhaoyun， et al. Applying detection proposals to visual tracking for scale and aspect ratio adaptability [J]. International journal of computer vision， 2017， 122（3）： 524?541.

[7] DANELLJAN M， H?GER G， KHAN F S， et al. Accurate scale estimation for robust visual tracking [C]// Proceedings of the British Machine Vision Conference. Nottingham， UK： BMVA press， 2014： 1?150.

[8] LI Yang， ZHU Jianke. A scale adaptive kernel correlation filter tracker with feature integration [C]// Proceedings of the European Conference on Computer Vision Workshop. Berlin： Springer， 2015： 254?265.

[9] DANELLJAN M， H?GER G， KHAN F S， et al. Discriminative scale space tracking [J]. IEEE transactions on pattern ana?lysis and machine intelligence， 2017， 39（8）： 1561?1575.

[10] 林海涛，钟海俊，王斌，等.基于相关滤波的目标快速跟踪算法研究[J].现代电子技术，2018，41（2）：21?25.

[11] WANG M， LIU Y， HUANG Z. Large margin object tracking with circulant feature maps [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu， US： IEEE， 2017： 4800?4808.

[12] DANELLJAN M， H?GER G， KHAN F S， et al. Learning spatially regularized correlation filters for visual tracking [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Santiago： IEEE， 2015： 4310?4318.

[13] GALOOGAHI H K， SIM T， LUCEY S. Correlation filters with limited boundaries [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston， US： IEEE， 2015： 4630?4638.

[14] LUKE?IC A， VOJ?R T， ZAJC L C， et al. Discriminative correlation filter with channel and spatial reliability [C]// Procee?dings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu， US： IEEE， 2017： 4847?4856.

[15] LI Yang， ZHU Jianke， HOI S C H. Reliable patch trackers： robust visual tracking by exploiting reliable patches [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston， US： IEEE， 2015： 353?361.

[16] FAN H， XIANG J. Robust visual tracking via local?flobal correlation filter [C]// Proceedings of the Thirty?first AAAI Conference on Artificial Intelligence. Palo Alto， US： AAAI， 2017： 4025?4031.

[17] MA Chao， HUANG J B， YANG Xiaokang， et al. Hierarchical convolutional features for visual tracking [C]// Proceedings of the IEEE International Conference on Computer Vision. Santiago： IEEE， 2016： 3074?3082.

[18] DANELLJAN M， H?GER G， KHAN F S， et al. Convolutional features for correlation filter based visual tracking [C]// Proceedings of the IEEE International Conference on Computer Vision Workshop. Santiago： IEEE， 2016： 621?629.

[19] DANELLJAN M， ROBINSON A， KHAN F S， et al. Beyond correlation filters： learning continuous convolution operators for visual tracking [C]// Proceedings of the European Con?ference on Computer Vision. Berlin： Springer， 2016： 472?488.

[20] DANELLJAN M， BHAT G， KHAN F S， et al. ECO： efficient convolution operators for tracking [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu， US： IEEE， 2017： 6931?6939.

[21] 卢湖川，李佩霞，王栋，等.目标跟踪算法综述[J].模式识别与人工智能，2018，31（1）：61?76.

[22] KRIZHEVSKY A， SUTSKEVER I， HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of the International Conference on Neural Information Processing Systems. Massachusetts： MIT Press， 2012： 1097?1105.

[23] SIMONYAN K， ZISSERMAN A. Very deep convolutional networks for large?scale image recognition [C]// Proceedings of the International Conference for Learning Representations. La Jolla， US： ICLR Press， 2015： 1?32.

[24] HE Kaiming， ZHANG Xiangyu， REN Shaoqing， et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas， US： IEEE， 2016： 770?778.

[25] WU Yi， LIM J， YANG M H. Object tracking benchmark [J]. IEEE transactions on pattern analysis and machine intelligence， 2015， 37（9）： 1834?1848.

[26] MA Chao， YANG Xiaokang， ZHANG Chongyang， et al. Long?term correlation tracking [C]// Proceedings of the IEEE Con?ference on Computer Vision and Pattern Recognition. Boston： IEEE， 2015： 5388?5396.

[27] LIN Bin， LI Ying， XUE Xizhe， et al. Robust long?term correlation tracking using convolutional features and detection proposals [J]. Neurocomputing， 2018， 317（1）： 137?148.

[28] BERTINETTO L， VALMADRE J， HENRIQUES J F， et al. Fully?convolutional Siamese networks for object tracking [C]// Proceedings of the European Conference on Computer Vision. Berlin： Springer， 2016： 850?865.

[29] TAO R， GAVVES E， SMEULDERS A W M. Siamese instance search for tracking [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas： IEEE， 2016： 1420?1429.

[30] GUO Qing， FENG Wei， ZHOU Ce， et al. Learning dynamic Siamese network for visual object tracking [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice， Italy： IEEE， 2017： 1781?1789.

猜你喜欢

目标跟踪计算机视觉深度学习

多视角目标检测与跟踪技术的研究与实现

机器视觉技术发展及其工业应用

基于改进连续自适应均值漂移的视频目标跟踪算法

大数据技术在反恐怖主义中的应用展望

深度学习算法应用于岩石图像处理的可行性研究

典型相关滤波跟踪算法的比较与分析

猜你喜欢

杂志排行

现代电子技术的其它文章