基于多模态模板的抗遮挡Staple跟踪算法

2023-05-05黄育明戴奕婧李丽惠严嘉怡陈振雕陈颖频

探测与控制学报 2023年2期

黄育明 ,戴奕婧,李丽惠,何博,严嘉怡,陈振雕,陈颖频,3

(1.闽南师范大学物理与信息工程学院,福建漳州 363000;2.漳州职业技术学院电子信息学院,福建漳州 363000;3.电子科技大学数学科学学院,四川成都 611731)

0 引言

目标跟踪技术已广泛应用于相机跟踪聚焦、无人机的目标跟踪、人脸识别跟踪、人物整体跟踪、运行车辆跟踪和交互系统中的动作跟踪等场景,是计算机视觉领域的热点之一。

目标跟踪有基于生成式和判别式模型的方法。生成式模型中,跟踪算法以上一帧目标框的几何状态为参考产生大量随机样本,与目标模板最相似的样本被当作跟踪结果[1-2];而判别式模型则通过训练分类器来区分目标和背景,响应最高的候选样本被选作预测结果[3]。自Bolme等人首次提出最小输出平方和[4](MOSSE)滤波器算法以来,判别类相关滤波目标跟踪算法取得了广泛的发展。文献[5]利用核检测技术与核方法提出一种基于循环跟踪结构的跟踪算法,这是由基于自适应相关滤波器的视觉跟踪[4]方法改进而来的。此后,文献[6]又提出基于方向梯度直方图[7](HOG)特征的核相关滤波器高速跟踪(KCF)方法,跟踪效果显著提升。为充分挖掘背景信息,文献[8]提出上下文感知跟踪滤波器(CACF),首次提出上下文感知的概念,将背景负样本引入相关滤波能量泛函并将其回归为0,有效提高相关滤波判别背景与目标的能力。除了对样本进行处理,有学者将样本的手工特征和深度特征进行视觉融合以精确地描述目标及背景的外观表示[9-10]。虽然上述工作实现了很好的跟踪效果,但由于相关滤波的样本采样以周期性边界为假设前提,导致出现边界上不连续的情况,即边界效应。针对这一问题,文献[11]提出空间正则化判别相关滤波器(SRDCF),通过对空间滤波器加权,提高目标区域滤波器系数的幅度,以此解决周期性边界引起的边界效应。在此基础上,文献[10]提出时空正则化相关滤波器(STRCF),增加了时间一致性,有效应对形变挑战。文献[12]提出Staple算法,将颜色信息和HOG特征融合,一定程度上缓解了边界效应。文献[13]提出背景感知相关滤波器(BACF),提出样本裁剪的思路,全域搜索样本,提高正负样本置信度,并将高置信度正负样本一起引入到相关滤波器的学习与检测中,进一步提高滤波器判别背景与目标的能力。尺度估计是目标跟踪框架中一个重要组成部分,文献[14]提出多特征尺度自适应跟踪器(SAMF),对输入样本做多尺度变换,形成尺度样本池,再用相关滤波器对尺度样本池的样本逐一滤波,取最大响应对应的尺度作为最优尺度,解决KCF尺度不变的缺陷。文献[15]提出空间多尺度一维滤波器(DSST),避免SAMF中的二维图像相关操作,进一步提高了尺度搜索效率。文献[16]提出马尔可夫随机场(MRF)模型,通过局部分块的相对位置与初始帧局部分块的相对位置的比例来估计尺度。文献[17]提出局部-全局相关滤波器(LGCF),利用局部分块中心点的距离自适应地估计对象的比例,同时解决局部遮挡问题。针对遮挡问题,文献[18]提出异常抑制相关滤波器(ARCF),在BACF的基础上增加了相邻滤波器响应的移位峰值能量正则约束,有效应对遮挡、变形等场景的挑战。目标跟踪中,对目标及背景的外观变化进行实时更新滤波器至关重要。目标被遮挡时采集到的样本会污染滤波器导致跟踪偏移[19],应对方法是设计一些标准来评估跟踪结果的可靠性,去除不可靠样本或不更新滤波器。这些标准包括置信度得分[20]、最大响应[21]、峰值旁瓣比[21]、平均峰值能量[22]。

综上所述,基于相关滤波框架的目标跟踪算法发展十分迅速,也解决了一些特定的问题,但是,大多跟踪算法在应对目标受遮挡场景下的跟踪效果较为一般。例如:Staple算法由于缺少上下文样本信息,未能有效区分遮挡物与目标,使得目标在遮挡场景下目标模板与滤波器被遮挡物污染,最终导致跟踪失败;此外,Staple算法在尺度变化和抗遮挡场景下的鲁棒性不足,性能还存在提升空间。针对上述问题,本文提出一种基于多模态模板的抗遮挡Staple跟踪算法。

1 Staple算法基本原理

1.1 相关滤波跟踪算法

1.1.1单通道相关滤波

首先介绍第一种形式,相关形式为

(1)

式(1)中,x∈HW×1表示目标样本加权余弦窗后的列向量形式,H和W分别表示目标的长和宽所占像素的大小,h∈HW×1表示复数域的滤波器,y∈HW×1表示相关响应值,其矩阵形式mat(y)为二维高斯窗函数,★表示相关算子,mat表示向量矩阵化算子,vec表示矩阵向量化算子,λ表示平衡参数,用于平衡保真项与岭回归正则项。本文为从频域上直接计算相关滤波器,将式(1)写成卷积形式为

(2)

根据卷积定理,将式(2)写成频域形式:

式(4)中,除号表示点对点相除算子。

(5)

对应的空域响应为

式(6)中,F-1表示傅里叶逆变换,real表示取实部算子。

1.1.2多通道相关滤波

若抽取HOG[7]特征、CN[23]特征、灰度特征、CNN[24]特征等多通道特征(假定通道数为L)时,滤波器空域多通道回归目标函数则应改为

(7)

其频域表达式为

(8)

(9)

(10)

1.2 Staple算法简介

Staple算法提出了一个基于相关滤波与颜色直方图的特征互补响应计算方法,如式(11)所示:

r(z)=γcfrcf(z)+γhistrhist(z)。

(11)

模板得分rcf(z)是基于HOG特征的相关滤波器的跟踪响应图,直方图得分rhist(z)是基于颜色特征的直方图,定义为

(12)

式(12)中,ψ[u]=ek(u)∈J×1是一个独热编码的向量(该向量在位置k(u)的数值为1,其他位置数值为0),表示对样本z中的像素点u∈H所提取的颜色特征,H表示样本z所在区域,β∈J×1表示颜色直方图的回归滤波器。与相关滤波响应不同,颜色直方图对目标图像的空间排列不敏感。

最后将两个得分加权求和,设置γcf=1-α和γhist=α,其中α是人为选取的参数。

1.2.1相关滤波器求解

相关滤波的目标函数与1.1.2节一致,滤波器更新可采取在线更新方式,将式(9)改写为

(13)

1.2.2颜色直方图的滤波器求解

Staple算法在对象O和背景区域B上对每个像素的颜色特征进行线性回归,其目标函数为

(14)

式(14)中,Nj[A]=|{u∈A:k(u)=j}|为区域A中颜色特征为j的像素数。式(14)的解为

ρj(A)=Nj(A)/|A|是特征为j的像素占目标区域像素的比例,其中颜色特征j=1,…,J。

在线版本中,通过式(16)更新模型参数:

2 基于多模态模板的Staple跟踪算法

Staple算法用余弦窗加权信号,导致相关滤波器学习到的背景信息较少,当目标发生形变或者背景干扰的时候容易产生跟踪漂移,同时影响外观模型的更新,进而导致其尺度自适应跟踪功能受到影响;此外,Staple算法在大面积遮挡的情况下无法持续稳定地跟踪目标。因此,本文提出一种基于多模态模板池的抗遮挡策略。

2.1 上下文感知相关滤波跟踪

图1 引入上下文局部块示意图Fig.1 The schematic diagram for the context block

基于此,本文提出模型拟学习一个滤波器h,提高它对含目标斑块的响应值。不含目标上下文斑块的响应值则置零。通过向标准公式添加上下文补丁作为正则项来实现这一点,由参数λ2控制,最终目标块回归到y,上下文感知模型如下:

(17)

式(17)中,K值为4,xCk表示样本x左、右、上、下毗邻的与原样本大小一致的上下文感知样本,λ1,λ2是模型正则化参数。

将式(17)改写为频域表达式,即

(18)

(19)

对于L个多通道特征,则滤波器应修正为

(20)

式(20)中,xl表示样本的第l个特征,xCk,l表示xCk的第l个特征。

对于新样本z,其频域相关滤波响应为

(21)

接着进行反傅里叶变换即可获得空域上样本的响应值,即

2.2 尺度自适应滤波器设计

式（5）～（7）中，m代表 “一带一路” 沿线各国，j代表出口国， t代表年份， β1，…，β6是待估参数，εt为随机误差项。被解释变量 EMm，t、Qm，t和 Pm，t分别代表出口扩展边际、数量边际和价格边际，通过上文介绍的三元边际分解公式（1）～（4）计算得到。

图2 尺度自适应滤波器示意图Fig.2 Schematic diagram of scale adaptive filter

尺度自适应滤波器的目标函数设计为

(23)

式(23)中,ys∈1×N表示尺度训练标签,其元素定义为表示期望响应高斯函数的标准差;表示第d个通道尺度滤波器的反折信号。

将式(23)改写为频域表达式,即

(24)

(25)

对于新样本z,为确定其最优尺度,也需对样本进行金字塔式采样,获取N个尺度的面片,然后获取多尺度特征矩阵Fz∈D×N,类似地,将该矩阵按行做分块处理,得则其尺度响应为

(26)

对式(26)进行反傅里叶变换即可获得尺度相关响应:

(27)

然后选取尺度响应最大的位置所对应的尺度作为目标最终尺度。

2.3 基于多模态模板池的抗遮挡策略

在目标跟踪过程中,模板更新策略至关重要,若不更新模板则无法及时感知目标的表观变化。当遇到遮挡或运动模糊等情况仍无原则地更新模板则会引入无效的表观变化。由于Staple算法采用的是每一帧均更新的策略,导致其在遇到强烈遮挡的情况下容易产生漂移。

为解决遮挡问题,本文建立目标的历史多模态目标池,存取目标在历史上的不同外观面片。当新的一帧目标图像出现时,首先利用相关滤波器获取响应最大的样本,对该候选样本提取HOG特征,将其与历史多模态资源池样本进行比对。如与历史上某个时间的硬阳性样本相似度超过设定的阈值,则认为此候选样本可靠,并将对应的面片放入多模态目标池;反之,若该候选样本与历史上各硬阳性样本相似度都很低,则判定此样本为不可靠样本,此时应避免引入该候选样本对滤波器进行更新。

下面简要介绍利用多模态目标池相似性的抗遮挡方法。

首先构建多模态目标池,对于第一帧而言,因为没有历史数据,所以将第一帧的面片填满多模态目标池,即tn=x(1)(n=1,2,…,N),其中x(1)表示第一帧面片,tn表示多模态目标池T的第n个列向量。从第二帧开始,假定相关响应获取的最优样本的面片为b,提取T(:,n)与b的HOG特征,如式(28)—式(29)所示:

式(28)中,HOG表示方向梯度直方图提取算子。

根据下式可判断目标是否被遮挡:

max(cos(htn,hb))>τ,

(30)

式(30)中,τ是一个取值范围为[0,1]的阈值。当max(cos(htn,hb))大于所设阈值时,表明目标未被遮挡,此时可将b更新到目标模板池中,并淘汰模板池中第2到第N个模板中与b相似度最低的面片;当式(30)不成立时,则认为该样本被遮挡,不将b更新到历史多模态模板池,且不更新前景、背景颜色直方图以及滤波器。

3 实验验证

本文采用OTB100[25]数据集测试提出的算法。首先进行三个消融实验:有无背景感知模型、有无抗遮挡功能和有无尺度自适应功能对比实验,以便直观地了解改进算法的性能;然后进行跟踪速度对比实验,直观了解各改进策略对跟踪速度的影响;最后将提出方法与其他先进跟踪器做定量对比实验,进一步验证本文算法的优越性。

3.1 消融实验

3.1.1有无背景感知模型对比实验

为了验证加入背景感知模型是否会对跟踪结果产生影响,本节通过对有背景感知的Staple-CA算法和无背景感知的Staple算法进行实验,如图3所示。BlurCar1视频序列的第272帧目标背景未发生变化时,代表有背景感知模型的Staple-CA算法的实线跟踪框和代表无背景感知模型的Staple算法的虚线跟踪框都可以对目标实现较好的跟踪。

第764帧时,目标背景发生变化,虚线跟踪框产生轻微漂移,实线跟踪框依然能够很好地跟踪。第770帧时,镜头晃动剧烈,虚线跟踪框漂移量变大,实线跟踪框对目标跟踪精准。第817帧,目标在经历了背景剧烈变化及快速运动后,虚线跟踪框已无法跟踪目标,实线跟踪框对目标跟踪依然准确。

图3 有无背景感知模型对比实验Fig.3 Comparison experiment with and without background perception model

如表1所示,有背景感知的Staple-CA算法的平均中心点误差为4.92像素,平均跟踪重叠率为0.78,较没有背景感知的Staple算法平均中心点误差降低了51.41像素,平均跟踪重叠率提升了0.25。这说明有背景感知功能的Staple-CA算法能够在背景变化及目标快速运动的场景下实现跟踪。

表1 有无背景感知模型性能指标对比Tab.1 Comparison of data with and without background perception models

3.1.2有无抗遮挡功能对比实验

为了验证抗遮挡功能的有效性,对比有抗遮挡功能的Staple-CA-AO算法与没有抗遮挡功能的Staple-CA算法,如图4所示。

Jogging-1视频序列的第25帧目标没有受到遮挡时,代表无抗遮挡功能的Staple-CA算法的虚线跟踪框和代表有抗遮挡功能的Staple-CA-AO算法的实线跟踪框都可以很好地对目标进行跟踪。第75到80帧间,目标受到强烈遮挡后重新出现在视频画面中,虚线跟踪框无法捕捉到目标,而实线跟踪框依然可以准确地跟踪目标。第138帧,受之前遮挡的影响,虚线跟踪框仍无法跟踪到目标,而实线跟踪框依然准确地跟踪目标。

图4 有无抗遮挡功能对比实验Fig.4 Comparison experiment with or without anti-occlusion function

如表2所示,有抗遮挡功能的Staple-CA-AO算法的平均中心点误差为6.41像素,平均跟踪重叠率为0.76,较无抗遮挡功能的Staple-CA算法平均中心点误差降低了84.68像素,平均跟踪重叠率提升了0.59。这说明有抗遮挡功能的Staple-CA-AO算法能够在目标受到强烈遮挡后重新出现的场景下实现跟踪。

表2 有无抗遮挡功能性能指标对比Tab.2 Comparison of data with and without anti-occlusion function

3.1.3有无尺度自适应功能对比实验

为了验证尺度自适应功能的有效性,对是否有尺度自适应功能的Staple-CA算法进行实验,如图5所示。

Car4视频序列的第28帧目标尺度没有变化时,代表无尺度自适应功能的Staple-CA算法的虚线跟踪框和代表有尺度自适应功能的Staple-CA算法的实线跟踪框的尺寸没有区别。第131、312和578帧中,目标尺度经历了先变小后变大的过程,虚线跟踪框对目标进行跟踪时尺寸始终为同一大小,而实线跟踪框则随着目标尺度的变化自适应地调整跟踪框大小。

图5 有无尺度自适应模块对比实验Fig.5 Comparison experiment of a scale module

如表3所示,有尺度自适应功能的Staple-CA算法的平均中心点误差为2.13像素,平均跟踪重叠率为0.88,较无尺度自适应功能的Staple-CA算法平均中心点误差降低了3.49个像素点,平均跟踪重叠率提高0.39,这说明尺度自适应功能可对目标实现更精准的跟踪。

表3 有无尺度自适应模块性能指标对比Tab.3 Comparison of data with and without the scale adaptive module (SAM)

3.2 跟踪速度比较与分析

跟踪速度是目标跟踪中的一个重要因素,因此,为了直观展示几种改进策略的时间复杂度,对比了有无尺度自适应功能、有无背景感知功能及有无抗遮挡功能在部分视频中的帧率。速度测试是在Intel Core i7-4720HQ 笔记本CPU上进行的。

如表4所示,没有尺度自适应功能的Staple算法运行速度最快,在测试的视频中平均帧率达到了76.37 帧/s,较有尺度自适应功能的Staple算法平均帧率高26.51 帧/s。有背景感知功能的Staple-CA算法的平均帧率为33.54 帧/s,较没有背景感知功能的Staple算法的平均帧率低16.32 帧/s。有抗遮挡功能的Staple-CA-AO算法比没有抗遮挡功能的Staple-CA算法平均帧率低12.33 帧/s。

表4 所提出的改进策略在一些视频中的帧率Tab.4 Frame rates of the proposed improvement strategyin some videos

3.3 定量分析

通过与其他9种先进算法CSR-DCF[26]、SRDCF[11]、LCT2[27]、DCF-CA[8]、KCF[6]、DSST[15]、STRUCK[28]、Staple[12]和Staple-CA[8]在OTB数据集上进行不同场景跟踪性能的对比。

图6展示了在OTB100数据集中排名前8的算法精确度和成功率图,图中右上角显示算法排名情况。Staple-CA-AO的精确度和成功率均排名第一,达到了83.4%和75.1%。

图6 算法的精确度和成功率综合比对图Fig.6 A comprehensive comparison chart of the accuracy and success rate of the algorithm

表5给出了各跟踪算法在不同视频序列中取得的平均跟踪重叠率,其中数值越大表明跟踪性能越好。本文算法Staple-CA-AO在Bird2、David3、Girl2、KiteSurf、Skiing、Subway、Tiger1序列中的平均跟踪重叠率分别为0.83、0.78、0.74、0.71、0.41、0.76、0.74,均高于其他9个主流算法,总平均值也达到0.75,在10个算法中排名第一。

表6给出了各跟踪算法在不同视频序列中取得的平均中心点误差,其数值越小表明与目标真实位置的误差越小。本文算法Staple-CA-AO在Bird2、Deer、Girl2、KiteSurf、Skiing、Subway、Tiger1视频序列的中心点误差分别为6.08、3.97、7.96、2.85、3.83、2.56、8.44像素,高于其他9个主流算法,总平均值像素误差为5.05像素,在10个算法中排名第一。其中Girl2序列在存在尺度变化、遮挡、形变、运动模糊、平面外旋转等多因素的影响下依然可以对目标很好地跟踪,而且在比对算法中也是跟踪效果最好的。