类孪生网络目标跟踪算法综述

2022-02-07陈硕

计算机应用文摘·触控 2022年1期

关键词：判别相关滤波;孪生网络;Transformer

中图法分类号：TP242 文献标识码：A

作为计算机视觉领域的一项基础任务，视觉目标跟踪仍存在挑战性，其致力于从一个视频序列的第一帧中给出目标信息，去定位视频序列后续每帧中该目标的目标框。同其他计算机视觉任务一样，目标跟踪也面临光照、遮挡和形变因素的挑战。目标的尺度、外观随着时间变化增加了跟踪的难度，导致目标跟踪的精度下降，甚至跟踪失败。这些挑战使得设计一个实时高精度的跟踪器仍然十分困难。

近几年，随着卷积神经网络的兴起，使用卷积神经网络提取深度特征再进行跟踪相对于传统使用手工提取特征的方法取得了巨大的进展。其中，基于模版匹配的方法因其分类和边界框回归上具有很强的鲁棒性而脱颖而出。这种方法主要是通过分别从模版和搜索区域中提取特征，再在模版特征和搜索区域特征之间做相关操作来预测后续每一帧搜索区域上的目标在各个位置出现的概率，以此确定目标的位置信息。其主要分为判别相关滤波跟踪器和孪生网络跟踪器。这两种方法可以简单描述为一个类孪生网络的框架。

不过，无论是判别相关滤波跟踪器还是孪生网络跟踪器，在处理一个视频序列中每一帧的图像时都是一个独立的过程。在完成最后的跟踪任务之前，并没有通过某种方法去建立前后帧之间的关联，忽略了帧与帧之间丰富的时间、空间信息，这个局限导致类孪生跟踪器的性能无法进一步提高。针对远距离（全局）交互信息的建模问题，Transformer架构具有天然的优势。Transformer在自然语言处理的任务以及语音处理中已经取得了巨大的成功。研究者期望Transformer能在目标跟踪任务中发挥自身优势，缓解上述帧与帧之间时间、空间信息被忽略的问题，Transformer开始被引入目标跟踪任务中，相比传统方法取得了巨大的进展。

本文从基于相关滤波的跟踪器、基于孪生网络的跟踪器以及基于Transformer的跟踪器等方面进行阐述。

1类孪生网络跟踪器

首先，简单回顾主流的视觉跟踪框架。一般大部分主流跟踪器、相关滤波跟踪器和孪生网络跟踪器可以简单描述为类孪生网络架构。上半分支使用模版学习一个跟踪模型，下半分支通过跟踪模型在搜索区域进行模版匹配以确定目标的位置。

孪生网络跟踪器把模版t和搜索区域x作为卷积神经网络Ψ的输入，它们通过以下卷积相关操作生成响应置信图：

r（t，x=Ψ（z）?Ψ（x）+b1 （1）

其中，?表示卷积相关操作，b1表示偏置项。孪生网络跟踪器依赖于通过模版学习到的卷积核Ψ（z）实现模版匹配。

在深度学习的判别相关滤波跟踪器中，通过以下最小化岭回归学习一个滤波器f：

min‖f?Ψ（t）-y‖²+λ‖f‖²（2）

其中，y表示以模版t中目标位置为中心的高斯分布，λ是正则项。当学习到滤波器f后，判别相关滤波跟踪器用来区分目标和背景，通过r=f?Ψ（x）来生成响应，确定搜索区域中目标的位置。

2相关滤波跟踪器和孪生网络跟踪器

2.1相关滤波跟踪器

基于相关滤波的跟踪方法核心思想是：在给定的第一帧中，通过解决最小化岭回归问题，根据MOSSE滤波器原理训练一个滤波器，利用该滤波器与搜索区域做相关运算，最大输出响应的位置即为当前帧的目标位置。为了增强滤波器的鲁棒性，通常使用目标的多个样本作為训练样本。同时，通过在线更新模版的方法更新滤波器。这些方法可以判断目标在当前帧的位置，但在估计目标的尺度问题上存在很大的困难，通常采用多尺度的策略应对目标尺度变化的问题，然而对于目标的形变仍然没有太好的方法。近几年，随着深度学习的兴起，通过解决最小化岭回归问题训练滤波器被证明可以通过深度学习网络架构解决，这些方法通过卷积神经网络学习一个判别卷积核作为目标分类网络，使用这个判别卷积核去和搜索区域做卷积相关操作以生成置信图，以此判断目标的位置，同时使用其他神经网络（例如IoUNet）去回归目标的边界框。ATOM把目标跟踪分为：在线训练的目标分类网络和离线训练的目标评价网络。其中，目标估计网络使用IoUNet的网络结构;目标分类使用一个两层的深度回归网络结构。通过采用基于共轭梯度和牛顿高斯的方法加速分类网络的训练。Prdimp方法从概率论的角度解决目标边界框的回归问题，主要是通过最小化网络预测的目标概率分布和标签分布之间的KL散度来训练网络。

2.2孪生网络跟踪器

最近特别流行的追踪方法是基于孪生网络的方法，SiamFC是该方法的先驱者。通过使用同一个离线训练的卷积神经网络作为骨干网络，分别从模板和搜索区域提取深度特征，在模版特征和搜索区域特征之间做相关操作，以计算两者的相似度来判断目标在当前帧中的位置。同时，基于孪生网络的跟踪方法很受关注。SiamRPN把目标检测器中RPN的方法迁移到目标跟踪中，以此来实现边界框的回归。SiamRPN以端到端的方法来训练目标分类和边界框的回归，通过分类来判断目标在当前帧中的位置，并通过回归来确定边界框的大小。SiamRPN++使用修改过的ResNet做为骨干网络提取模版和搜索区域的特征，提取多个特征层的特征分别做分类和回归，把最后的结果级联获得鲁棒性更强的特征表示，再进行最终的目标分类和边界框回归。

3基于Transformer的跟踪器

Transformer由谷歌大脑提出，应用于机器翻译任务。简单来说，Transformer架构分别由以注意力模块为基本组件的Encoder和Decoder组成，通过Encoder和Decoder把一个输入序列（sequence）转换成另一个输出序列（Sequence）。注意力模块通过计算一个序列中元素之间的相似性作为权重，以加权求和的方式抽取信息，从而在一整个输入序列中整合全局关系信息。交叉注意力模块用来整合两个不同序列之间的全局关系信息。得益于Transformer可以并行计算的特性，以及特别的记忆机制，其在自然语言处理和语音处理领域正在逐步取代循环卷积神经网络的地位。在目标跟踪任务中，基于孪生网络的跟踪器和基于相关滤波的跟踪器都在一定程度上忽略了帧与帧之间丰富的时间和空间信息，为了缓解该问题，Transformer开始被应用到目标跟踪任务中。

TrTr使用了经典的Transformer中的Encoder?Decoder模块取代了孪生网络跟踪器中的相关操作卷积层，使用该模块融合模版特征和搜索区域特征，之后使用三个独立的头来处理Transformer模块输出的融合特征，其中一个用于分类，另外两个用于边界框的回归。TrTr使用的Transformer模块仅仅融合了第一帧模版特征和搜索区域特征，损失了历史帧信息。STARK提出了一个基于Transformer的跟踪框架，在骨干网络提取搜索区域特征和模版特征之后，分别转换成向量，然后拼接在一起输入到一个类似DETR中的Encoder?Decoder模块中，通过该模块整合搜索区域和模版之间的全局信息，输入到全卷积网络来预测目标的边界框。同时加入更新机制以及动态的更新模板，从而使Encoder?Decoder模块在最大程度上利用帧与帧之间丰富的时间、空间信息。

除此之外，Trdimp使用類孪生网络的架构，分为两个分支，在DiMP的基础上增加了一个TransformerEncoder?Decoder模块去处理骨干网络提取的特征。在上面的分支中，Encoder接受一组骨干网络提取的模版特征作为输入，产生编码特征，用于学习判别卷积核的同时也作为Decoder的输入;在下面的分支中，Decoder把编码特征和当前搜索区域特征作为输入，通过注意力机制融合模版特征和搜索区域特征输出融合特征，最后使用判别卷积核对融合特征进行卷积生成响应图，以确定目标的位置。

Transformer在目标跟踪中的应用主要是作为特征增强模块来整合视频序列中帧与帧之间的时间、空间信息，缓解了传统类孪生网络跟踪器忽略帧与帧之间时间、空间信息的问题。使得目标跟踪的研究取得了长足的进步。

4结束语

本文总结了目标跟踪领域的经典方法，主要为基于相关滤波跟踪器以及基于孪生网络的跟踪器。这两种方法具有局限性——忽略了视频序列中帧与帧之间的信息。Transformer在整合全局信息方面有着天然的优势，因此被引入目标跟踪领域。Transofmer和传统类孪生网络跟踪器进行整合，使得跟踪器的性能取得了巨大的提高。目前，在目标跟踪领域，Transformer还只是作为特征增强模块来应用，基于Transformer的类跟踪器还依赖CNN作为骨干网络进行特征提取。在未来，完全使用Transformer搭建一个目标跟踪框架是一个十分有研究价值的问题。

作者简介：

陈硕（1994—），硕士，研究生，研究方向：计算机视觉。

计算机应用文摘·触控

2022年1期

类孪生网络目标跟踪算法综述

杂志排行

计算机应用文摘·触控的其它文章