结合置信度评估与再检测的目标长时跟踪

2022-12-30王英先马社祥

计算机工程与设计 2022年12期

王英先，马社祥

(天津理工大学集成电路科学与工程学院，天津 300384)

0 引言

近年来，基于DCF的目标跟踪算法[1-5]以其实时的速度而受到研究者的关注。但是，很多挑战性因素对算法的性能有很大的影响，如遮挡、出视野和变形等。STRCF[6]算法以迭代的方式求解滤波器，Staple[7]算法将相关滤波响应与颜色直方图响应加权融合，MCCT[8]算法集成多个DCF跟踪器，可以有效解决变形和遮挡问题。但是随着目标跟踪时间的增长，具有短期记忆的相关滤波很容易丢失目标。长时目标跟踪算法[9,10]可以准确检测到跟踪失败，当目标再次出现时恢复鲁棒跟踪，但是支持向量机遍历整个搜索区域来再检测目标，浪费计算资源和时间。近年来，一些算法[11-13]将深度特征与相关滤波相结合，在精度和稳定性方面取得了长足的进步，但深度特征的提取具有高度复杂性。

针对以上问题，本文提出一种结合置信度评估与再检测的目标长时跟踪算法。本文在Staple算法基础上，根据滤波响应的平均峰值相关能量值[14]与颜色直方图得分评估跟踪结果的可靠性，并由此决定是否启动再检测模块，同时自适应更新模型。再检测模块通过DIOU[15]约束筛选掉不可靠的候选位置，增加惩罚项计算候选框得分。最后经过判断选择机制，决定是否将跟踪结果替换为检测结果。实验结果表明，本文算法在目标长期被遮挡或出视野的情况下，可以保持较好的时效性和鲁棒性。

1 相关滤波算法

本文将Staple作为基本跟踪器，跟踪任务分解为目标的平移估计与尺度估计两部分。图像特征块x的大小为M×N，将图像特征块的循环移位xi作为样本去训练分类器，通过最小化目标函数得到最优的滤波器模型w*

(1)

式中：第一项表示训练样本xi与回归目标yi之间的均方误差，yi为高斯型标签，wT表示滤波器系数w的转置。第二项中的λ是正则化参数，用于防止过拟合。

对于输入图像块z，利用核函数k将非线性问题转化为线性问题

(2)

式中：φ(xi) 表示样本xi在对偶空间的映射。在频域中计算对偶空间系数α

(3)

(4)

式中：F-1表示傅里叶反变换，δ为高斯核函数参数。

测试图像z与滤波器的响应图计算公式为

(5)

式中：⊙表示两个矩阵之间的元素相乘。

对当前滤波器模型进行插值处理，实现在线更新

(6)

HOG特征取决于目标的空间结构，对形变和运动模糊比较敏感，但是对颜色变化可以有效地进行跟踪。直方图特征对颜色比较敏感，不足以区分背景与目标，但是不考虑像素的位置，不受边界效应影响，可以有效地处理目标形变和运动模糊的问题。通过最小化回归函数得到最优的直方图权重向量β

(7)

式中：φx⊂Rl表示图像块x在有限域H⊂Z2中的l通道特征图像，y为相应的标签。脊回归的解为

(8)

式中：pj(O) 表示第j个直方柱元素总和在目标区域O的像素比例，pj(S) 表示第j个直方柱元素总和在周围背景区域S的像素比例，j为特征的维度数量。测试图像z的颜色直方图响应计算公式为

RC=βTφz(u)

(9)

对颜色直方图模型进行在线更新

(10)

基于全局颜色直方图的响应与基于模板的相关滤波响应是互补的，将颜色直方图响应RC和基于Hog的相关滤波响应RCF以固定的系数相结合

R=(1-γ)RCF+γRC

(11)

式中：γ为融合互补因子。根据目标融合响应最大值所在位置和尺度滤波器得到最优尺度大小，确定为基本跟踪器目标估计位置Pd。

2 算法设计

2.1 算法流程

本文在相关滤波Staple算法的基础上进行改进，总体框架如图1和表1所示，该算法主要分为3部分：自适应更新的基本跟踪器、实现跟踪性能判断的置信度评估模块和高效的再检测模块。当面对遮挡和出视野等干扰时，基本跟踪器的结果是不可靠的，这时置信度评估模块会激活检测器。为了避免背景信息使模型污染，检测器是自适应更新的，大大提高了检测器的性能与速度。

表1 本文算法具体流程

图1 算法总体框架

2.2 置信度评估与自适应更新机制

为提高目标跟踪的鲁棒性，需要判断跟踪结果的可靠性，对跟踪结果的准确评估可以有效激活再检测模块。并且当跟踪结果不可靠时，停止更新模型，提高了跟踪效率，保证了跟踪质量。本文受LMCF[14]算法启发，为了衡量响应的波动程度，将相关滤波响应的APCE值作为一项置信度得分

(12)

式中：Rmax和Rmin分别表示滤波响应的最大值和最小值，Ri,j表示响应图第i行第j列的元素，m和n分别表示响应图的宽和高。

对于不同的跟踪序列，响应图的置信得分往往差异很

第i帧的颜色直方图得分表示为

(13)

激活再检测模块的条件为

(14)

为了进一步说明两种置信度评估策略的有效性，以Couple视频序列进行分析说明，如图2和图3所示，虚线表示可靠帧历史平均值与系数的乘积，以此作为阈值评估每一帧的可靠性。目标在第90到94帧之间发生形变且快速运动，基本跟踪框漂移到相似背景区域，颜色直方图得分与APCE值急剧下降，激活再检测模块；第103帧到107帧背景复杂，基本跟踪框不能准确定位到目标区域，APCE值低至阈值以下，有效激活再检测模块。

图2 Couple序列的基本跟踪框

图3 在Couple序列中置信度评估

传统的方法是在每帧中更新模型，模板容易被背景信息和其它噪声污染，小误差的累计会导致模型漂移，而且实时的更新会降低算法的运行速度。本文从每帧的跟踪结果中提取训练样本，根据自适应更新方案决定是否丢弃样本，相关滤波器和颜色直方图模型仅在高置信度的视频帧中进行更新。相关滤波模型的学习率随着融合响应的APCE值与可靠帧APCE平均得分的比值自适应变化，相关滤波模型与颜色直方图模型的学习率分别表示为

(15)

(16)

其中，P和Q为预设的常数，υ为惩罚系数，χ为功率指数，HCF和HC表示比例阈值。

2.3 再检测模块

一般来说，目标的移动是平滑的，目标丢失后再次出现在视野，通常位于丢失位置的周围区域。为了避免滑动窗口搜索的复杂性以及扩大的搜索区域引入干扰，当跟踪失败时，在前一帧跟踪位置进行高斯分布随机扰动，搜索半径为20像素，在每一个采样点所在位置选取样本，将基本跟踪器确定的目标尺度作为样本的长与宽，生成多个候选跟踪框Bi来粗略预测目标位置

Bi=G(Bgt,σ2)

(17)

式中：G表示高斯函数，Bgt表示上一帧跟踪结果，σ为标准差。

评估每一个样本跟踪框会增加算法计算量，在实际应用中对实时性要求高。本文提出用DIOU约束减少候选数量，同时表征预测位置与前一帧可靠位置之间的重叠率与距离特性，在预测候选框与上一帧跟踪框之间没有重叠或者完全包含条件下，仍然可以作为不同预测候选框的度量标准，计算公式为

(18)

式中：IOU和ρ(B,Bgt) 分别表示候选预测框与上一帧跟踪框的交并比和中心点之间欧氏距离，c表示两个框最小包围框的对角线长度。计算候选框的DIOU值并进行降序排列，保留前65%的候选框。

由式(11)计算剩余候选位置的相关滤波响应与颜色直方图响应的融合，最终候选跟踪框得分表示为Si

(19)

式中：Ri表示第i个候选的融合响应，第二项为过大位移惩罚项。得分最高的候选跟踪框确定为检测器预测位置Pt，具体过程如图4所示。在DragonBaby序列中的第5帧，目标跟踪位置置信度较低，激活再检测模块，首先在前一帧跟踪结果周围生成50个稀疏候选框。其次，计算50个候选位置的DIOU值并进行排序，保留前33个候选框。最后计算候选框的融合响应值与惩罚项，将得分最高位置作为再检测结果。

图4 在DragonBaby序列中目标丢失再检测

通过比较候选得分和可靠帧历史得分均值，评估检测器预测位置Pt的可靠性，预测位置可靠则将基本跟踪器跟踪结果替换为检测结果，预测位置不可靠则保留跟踪结果，确定最终的目标位置为P*

(20)

式中：CAPCE(R) 和CC分别表示检测器预测位置Pt的APCE得分与颜色直方图得分，TCF和TC表示将跟踪结果替换为检测结果的阈值，确保只有当检测结果优于可靠帧跟踪结果时才进行替换。

3 实验与分析

3.1 实验设置

在该算法中，通过大量实验比较参数的不同设置对于性能的影响，得出表现效果最佳的参数值，融合互补因子γ为0.3，比例阈值LCF和LC分别为0.4和0.7，HCF和HC分别为0.6和0.7。参数P和Q分别为0.02和0.01，惩罚系数υ为0.8，功率指数χ为3次。再检测模块初始候选位置为50，高斯随机扰动半径为20，TCF和TC分别为0.6和0.8，其它参数按照Staple算法中的建议进行初始化。

将本文算法与5种先进的跟踪器进行比较：MCCT[8]、PDCF[16]、SRDCF[17]、Staple[7]和SAMF[18]，对比跟踪器均使用人工获取的特征，且都基于相关滤波算法。算法开发平台为Matlab R2016b，硬件环境为2.80 GHz CPU，Inter(R) Celeron(R) G1840，8 GB内存，Windows7操作系统，所有实验保持参数固定。

3.2 基于OTB-2015数据集评估

OTB-2015数据集[19]包含100组标注属性的视频序列，数据集使用一次评估OPE评估算法性能，包括速度、精度图和成功图。精度图计算预测的中心位置与真值之间误差e在一系列像素阈值内的帧百分比，成功图计算预测的包围框与真值之间的重叠率o，计算公式分别为

(21)

(22)

其中， (xt,yt) 表示第t帧预测目标位置中心， (xg,yg) 表示当前帧真实目标位置中心；Rt表示第t帧预测跟踪框，Rg表示当前帧真实跟踪框。在图例中，评估了每种跟踪算法在20像素阈值处的精度得分(PS)和成功图的曲线下面积(AUC)。图5为6种算法在OTB-2015数据集下的精度图与成功图，MCCT集成多个DCF跟踪器，具有高性能，PS得分83.3%，AUC得分77.7%。PDCF通过可靠性和不可靠评估标准增强了算法的鲁棒性，PS得分82.2%，AUC得分77.2%。SRDCF扩大了搜索区域，利用丰富的负样本增加了跟踪器的鲁棒性，但同时计算量很大，PS得分78.8%，AUC得分72.8%。Staple以KCF为基础，充分利用空间分布和颜色统计特性形成互补学习，实现实时跟踪，因为颜色特征的非刚体性质，算法在一定程度上可以适应显著的外形变化，PS得分78.4%，AUC得分69.9%。SAMF在性能和速度上均表现较差。当目标被长时间完全遮挡或出视野时，上述跟踪器会丢失目标，本文算法Ours精确度与成功率均实现了最佳的结果，PS得分85.5%，AUC得分79.8%。与基本跟踪器Staple算法相比，PS得分提高9.1%，AUC得分提高14.2%。与先进跟踪器MCCT相比，PS得分提高2.6%，AUC得分提高2.7%。

图5 6种算法在OTB-2015数据集的测试结果

计算时间是跟踪算法的关键指标，表2为6种算法的平均跟踪速度，加粗表示最优算法，下划线表示次优算法。本文算法在Staple算法的基础上增加置信度评估与再检测模块，提高了算法的鲁棒性，但一定程度上增加了计算量，因此跟踪速度慢于Staple算法。但是不同于滑动窗口的复杂性，本文再检测模块采用简单高效的候选预测方式，通过DIOU进行粗略筛选，最后通过相关滤波模型在频域快速求解岭回归问题，实现对目标的精确定位，速度优于MCCT算法和PDCF算法，满足25 FPS的实时性要求。

表2 6种算法在OTB-2015数据集的平均跟踪速度

基于属性的分析可以评估算法对于不同挑战性因素的适应性，OTB-2015数据集包含了跟踪过程中描述不同场景的11种属性：光照变化(IV)、平面外旋转(OPR)、尺度变化(SV)、遮挡(OCC)、变形(DEF)、运动模糊(MB)、快速运动(FM)、平面内旋转(IPR)、出视野(OV)、背景杂波(BC)和低分辨率(LR)。表3和表4以百分比的数据形式分别表示6种算法在不同属性中的精确度和成功率。本文所提算法在精确度和成功率方面均表现出优异的性能。遮挡和出视野是长时跟踪中最具有挑战性的场景，在遮挡方面，PS得分优于MCCT跟踪器2.8%，AUC得分优于MCCT跟踪器4.1%；在出视野方面，PS得分优于MCCT跟踪器3.3%，AUC得分优于MCCT跟踪器7.1%。本文算法相比于基本跟踪器Staple算法在遮挡、出视野和变形场景下精确度分别提高了10.1%、17.2%和7.4%，在遮挡、出视野和变形场景下成功率分别提高了17.3%、31.9%和10.7%。自适应更新策略可以使滤波器模型在面对严重的遮挡和出视野时避免受到污染，但是跟踪器无法及时地适应目标外形和背景的变化，因此在面对目标外形变化和复杂背景干扰时，跟踪性能较差于MCCT跟踪器。另一方面，人工特征的提取一定程度上会影响算法的整体性能，之后的工作会考虑深度特征的引用。

表3 6种算法在OTB-2015数据集属性评估中的精确度/%

表4 6种算法在OTB-2015数据集属性评估中的成功率/%

为了进一步验证置信度评估与DIOU约束的有效性，本文在OTB-2015数据集上进行相应的消融实验，如表5所示，展示了本文在Staple算法基础上依次增加置信度评估、再检测模块与DIOU约束对跟踪性能的影响，结果包括精确度、成功率与运行速度。结果显示，基本跟踪器Staple算法没有置信度评估模块与再检测模块，PS和AUC得分分别为0.784和0.699，速度高达55.8 FPS。将相关滤波响应APCE值与颜色得分作为置信度进行模板自适应更新，有效防止模型污染，PS得分与AUC得分分别提升4.6%和8.9%。当置信度评估跟踪性能较差时，增加再检测模块，高效获取50个预测候选框，将置信度得分最高的候选框作为检测结果，对目标进行重新定位，可以显著提升跟踪性能，与Staple基础算法相比，PS得分与AUC得分分别提升7.9%和13.0%，但是同时大大增加计算量，速度降为Staple跟踪器的36.7%。使用DIOU约束有效限制候选位置数量，只保留DIOU得分前33个预测候选框，并引用惩罚项增加再检测准确性与成功率，大大减少了检测所需要的时间，速度提升为28.6 FPS。具有完整模块的算法实现了最佳的结果，各个模块不同程度上提升了跟踪器的性能，保证算法实时运行的同时，可以对目标进行鲁棒跟踪。

表5 各模块消融实验

3.3 定性分析

图6包含5组具有各种挑战性因素的视频序列，为了清晰可见，将排名前4的本文算法Ours、MCCT算法、PDCF算法和SRDCF算法的跟踪结果可视化，5组视频序列的属性见表6。

表6 跟踪序列及属性

图6 4种算法在5组视频序列中的跟踪结果

在Lemming序列中，目标被完全遮挡后重新出现在视野，SRDCF算法在第383帧跟踪失败，其它算法均可以重新定位到目标；在第1018帧SRDCF算法重新定位到目标，但由于长期的错误模板累积，尺度发生较大偏差，准确度较低；在第1046帧目标发生平面外旋转，且背景较复杂，SRDCF算法再次丢失目标，MCCT跟踪框漂移，只有本文算法Ours和PDCF算法稳定地跟踪到目标。

在DragonBaby序列中，目标在第29帧进行平面外旋转，SRDCF算法至此丢失目标；目标在第43帧快速运动，并产生运动模糊，MCCT算法无法定位目标，PDCF算法跟踪框逐渐偏离目标；在第86帧目标进行快速运动，只有本文算法Ours可以及时定位到目标。

在Shaking序列中，背景复杂且光照变化较大，目标进行一系列旋转动作，SRDCF算法和PDCF算法在第193帧发生跟踪框漂移；SRDCF算法和PDCF算法在第296帧已经完全跟踪到错误的目标上，MCCT算法也发生跟踪框漂移；在第355帧，只有本文算法Ours稳定跟踪目标。

在Couple序列中，MCCT跟踪框在第96帧漂移到相似背景区域；受背景杂波干扰，MCCT算法和PDCF算法在第110帧均丢失目标；在第111帧，只有本文算法Ours和MCCT算法能够准确定位到目标。

在Box序列中，目标被部分遮挡，在第499帧重新出现在视野，只有本文算法Ours可以快速定位到目标；目标在第512帧产生运动模糊，只有本文算法Ours可以稳定跟踪目标；在第683帧，PDCF算法和MCCT算法再次定位到目标，但由于长时间的失败跟踪，已经无法恢复原有的精确度，而本文算法Ours可以进行鲁棒跟踪。

为了更好地说明本文算法在平面内旋转、平面外旋转、遮挡和光照变化场景下的跟踪性能，图7分别给出2种算法在3组不同视频属性下的跟踪轨迹，视频序列属性见表6。

图7 2种算法在3组视频序列中的跟踪轨迹

在Rubik序列中，目标在第312帧进行平面内与平面外旋转，造成MCCT算法丢失目标，在整个序列不同时间段(第300帧～400帧、第1000帧～1100帧和第1930帧～1997帧)，本文算法具有稳定性，实现目标的长时跟踪。

在Walking2序列中，目标在第198帧被相似行人遮挡，MCCT算法跟踪框漂移到相似目标，最终跟踪失败。

在Skating1序列中，目标进行旋转动作，舞台背景较为复杂，MCCT算法在第358帧难以适应光照的变化，跟踪轨迹逐渐偏离目标，而本文算法未发生偏移。

4 结束语

本文基于相关滤波算法，针对目标在遮挡和出视野等场景下跟踪失败问题，提出一种结合置信度评估策略与再检测机制的长时跟踪算法。利用相关滤波响应的APCE值与颜色直方图得分评估基本跟踪器与再检测结果性能，高置信度的评估标准可以高效地启动再检测模块，并且防止滤波器和模板被污染。再检测模块通过DIOU约束在跟踪失败的情况下生成较高质量的候选位置，提高算法的鲁棒性与实时性。本文算法使用Staple作为基本跟踪器，在频域中进行计算，实现了优越的效率。在OTB-2015数据集上的实验结果表明，该算法可以有效地处理目标长时跟踪中发生的遮挡和出视野等问题，在实时运行时的性能优于许多先进跟踪器。