APP下载

基于时空上下文的视觉跟踪自适应超特征融合*

2021-02-25冯明辉

计算机与数字工程 2021年1期
关键词:滤波器卷积性能

冯明辉

(福建中烟工业有限责任公司 厦门 362000)

1 引言

视觉跟踪是计算机视觉领域的一个热门研究问题,有着广泛的应用,例如智能视频监控[1],自动驾驶[2],医疗诊断[3],虚拟现实[4]。视觉跟踪的主要任务是估计后续帧中目标的未知状态,只有第一帧中目标的初始状态(例如,通常是位置或比例)可用。目前,主流的跟踪算法一般分为两类,一类是基于相关滤波框架的跟踪算法,另一类是基于深度卷积神经网络的跟踪算法。这两种方法各有优缺点。

基于相关滤波器的方法[11~22,27~31]已于2010年引入视觉跟踪社区,并取得了令人印象深刻的跟踪性能。由于计算量低,基于CF 的跟踪器可以通过快速傅立叶变换(FFT)将时域中复杂的卷积计算转换成频域中简单的元素乘法运算。这种方法通常使用手工制作的特征(如 HOG[5],Corlor Names[6])来处理跟踪过程中各种目标和背景外观的变化。

特征级融合方法[6~8]已经被广泛应用,并且已经做出了相当大的努力来提高跟踪性能,但是仍然有很大的改进空间。方法[7]有效地结合了多种手工制作的特征,如HOG 和颜色名称,其中HOG 特征对光照变化敏感,颜色名称对变形和运动模糊具有鲁棒性。HCFTstar[8~10]有效地结合了多层深层层次卷积特征,在跟踪过程中,目标对象经常会遇到各种复杂的外观场景挑战。不正确的更新方法很容易导致跟踪漂移,并会对后续帧的跟踪性能产生负面影响。目前,大多数跟踪算法[12,19~20,27]逐帧更新他们的模型,这些方法没有考虑跟踪是否准确。

2 相关工作

2.1 基于相关滤波器的跟踪算法

近年来,相关滤波器在视觉跟踪算法中非常成功,因为它可以通过使用快速傅立叶变换来提高计算效率,并且可以有效缓解样本模糊问题。MOSSE追踪器[11]首次将相关滤波器理论引入视觉跟踪,通过基于灰度图像学习最小误差平方和滤波器。随后提出了大量基于相关滤波器的跟踪算法。已经做出了相当大的努力来改进跟踪性能,改进包括核化相关滤波器[12~13]、模型优化方法[14]。

2.2 跟踪算法的深度学习

为了增强跟踪的鲁棒性并实现最先进的跟踪性能,基于深度学习的方法已经广泛应用于视觉跟踪领域,并且精度已经取得了显著的进步。例如,Danelljan 等[32]采用了基于区别性相关滤波器框架的深层卷积特征,而不是传统手工制作的特征。马等[33]利用不同层次卷积特征的性能特征进行视觉跟踪,通过推断每一层的最大置信度来实现从粗到细的翻译估计。宋等[34]提出了一种鲁棒的卷积残差学习跟踪方法,该方法将特征提取、响应图生成和模型更新集成到一层卷积神经网络。李等[35]在暹罗网络框架上引入了RPN(地区提案网络),通过离线的端到端训练网络实现实时和最先进的跟踪性能。

3 自适应超特征融合算法

3.1 时空上下文跟踪框架

大多数跟踪算法通常使用余弦窗口来减轻边界效应,这限制了搜索窗口的区域并抑制了目标周围的上下文信息。CACF框架的主要目标是获得一个最佳滤波器w,用于所有由带有滑动窗口的循环移位产生的训练样本D0,并且傅立叶域中循环矩阵的性质可以用于最小化以下回归公式:

其中数据矩阵D0表示矢量化图像块d0的所有循环移位,w 是学习的相关滤波器。回归目标y是2D 高斯的矢量化图像,λ1表示正则化权重参数。

上下文感知框架想要训练一个对目标图像块具有高响应,对上下文图像块接近零响应的滤波器,通过将上下文块作为正则项添加到标准公式中来实现(参见式(1))。

这里,λ1,λ2是正则化权重因子,参数λ2用于控制上下文补丁回归为零。

3.2 尺度判别相关滤波

在视觉跟踪过程中,目标物体经常容易遇到尺度变化。在本文的工作中,为了有效地处理尺度变化,本文引入了一种精确的尺度估计方法,基于检测跟踪框架上的区分相关滤波器。这是通过在比例金字塔上训练一个比例鉴别相关滤波器,然后根据最佳置信度框架估计比例来实现的。以目标为中心用于比例估计的图像块大小为

其中P 和R 分别表示当前帧中的宽度和高度,ɑ 表示比例因子,S 表示比例滤波器的大小。目标是获得最佳尺度相关滤波器h。这是通过最小化以下目标函数来实现的:

其中g 表示期望的相关输出,l 表示特征的维数,λ是规则系数。上述频域解决方案由以下公式给出:

其中G 和F 代表复杂的共轭。为了获得准确的结果,式(8)中H1的分母分别更新如下:

3.3 算法模型

3.3.1 自适应特征融合方法

本文从目标对象中提取了一些特征,如手工制作的特征,如(HOG、颜色直方图),分层卷积特征,如(VGGNet中的conv5-4和conv4-4层)。首先,本文线性加权每个层次卷积特征:

Response_deep1 和 response_deep2 分 别 是对应于conv5-4 和conv4-4的响应值。

其中fuse_r1 和fuse_r2 分别是深度特征和手工特征的权重。由于深度特征具有比手工特征更高的辨别性能,因此深度特征的权重更高,手工特征的权重相对更低。

3.3.2 自适应模型更新方法

当目标遇到复杂的外观变化时,如遮挡、光照变化和视线之外。这些长期积累的信息将直接影响后续序列的跟踪质量,然后影响整个跟踪模型并导致跟踪漂移。为此本文提出了一种有效的模型更新机制。PSR定义如下:

其中G(x)是计算的响应图。Gmax(x)是响应图G(x)的峰值。s1是峰值周围的峰值旁瓣区域,这是本文中响应图面积的15%,μs1和σs1是旁瓣面积的平均值和标准偏差。

图1 显示了PSR 平均值的跟踪结果,本文知道目标对象经历了显著的外观变化,峰值越尖锐,模型噪声越少,满足更新条件,其中平均PSR 值大于响应峰值,应该考虑模型更新。

图1 PSR平均值分布

4 实验分析

4.1 OTB基准数据集的整体跟踪性能

本文算法与14 种最先进的追踪器进行比较,包括使用手工制作的特征(即LMCF[14]、SRDCF[27]、START _ CA[26]、START[7]和 ECO-HC[31]以及使用深度特征(即 UCT[37]、CREST[34]、DeepSRDCF[32]、DeepLMCF[14]流行的跟踪基准数据集[20~21]。该数据集由50 个视频和100 个带有11 种不同属性的视频全注释视频序列组成,以便于分别进行跟踪分析和评估。本文使用[20]中提供的三个指标评估OTB-50 和 OTB-100 上的 13 个跟踪器,并使用距离精度(DP)和重叠成功率(OS)报告跟踪结果。距离精度(DP),显示其估计中心位置在地面真相给定阈值距离内的帧的百分比;重叠成功图。图2 说明了所提出的算法在OTB-50 基准数据集上的距离精度(DP)、重叠成功图(OS)方面比13 种最先进的方法表现得好得多。所提出的跟踪器性能良好,DP 为82.7%,OS为59.5%,其中平均DP 为82.7,超过了最近的最新跟踪器,结果证明了利用所提出的方法从强大的超特征中训练更多的辨别性跟踪器的重要性。图3 说明了所提出的算法在OTB-100 基准数据集上的距离精度(DP)、重叠成功图(OS)方面比13 种最先进的方法表现得好得多。所提出的跟踪器性能良好,DP 为86.6%,OS 为64.2%,其中平均DP为86.6。这些跟踪结果进一步证明了所提出方法的有效性。

图2 本文算法与其他算法比较1

4.2 基于属性的跟踪评估

在本节中,本文使用OTB-2015 数据集上的11个带注释的不同属性,进一步评估了建议跟踪器的跟踪性能:光照变化(IV)、比例变化(SV)、遮挡(OCC)、变形(DEF)、运动模糊(MB)、快速运动(FM)、面内旋转(IPR)、面外旋转(OPR)、视野外旋转(OV)、背景杂波(BC)、低分辨率(LR)。由于页面有限,本文只报告7 个属性结果的重叠成功图,借助于自适应模型更新方法,该算法对快速运动、运动模糊、视野外、平面内旋转和旋转外的场景表现出更强的鲁棒性,并且超特征融合对目标外观变化保持了强大的辨别能力。

图3 本文算法与其他算法比较2

5 结语

本文提出了一种有效的自适应超特征融合方法,用于鲁棒视觉跟踪。本文在响应级别线性融合了多个强大的特征,如HOG、颜色直方图和层次卷积特征。本文框架通过提出的自适应融合方法充分利用了不同特征的优势,实现了精确的平移估计。引入输出约束传递方法来控制响应图遵循高斯分布,以处理目标外观变化。为了减轻噪声更新引起的模型漂移,提出了一种有效的自适应模型更新方法,以确保可靠的跟踪。

猜你喜欢

滤波器卷积性能
UIO-66热解ZrO2负载CoMoS对4-甲基酚的加氢脱氧性能
夏季五招提高种鹅繁殖性能
基于全卷积神经网络的猪背膘厚快速准确测定
浅谈有源滤波器分析及仿真
基于多模谐振器的超宽带滤波器设计
基于图像处理与卷积神经网络的零件识别
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
桌面端,GTX 1650并不是千元价位的显卡好选择
FIR滤波器线性相位特性的研究