基于通道权重融合特征的目标跟踪算法①

2021-01-21周盛宗

计算机系统应用 2020年12期

郭利,周盛宗

1(福建师范大学数学与信息学院,福州 350117)

2(中国科学院福建物质结构研究所,福州 350002)

近年来,目标跟踪在视频监控、运动分析、人机交互、自动驾驶及交通安防等领域获得了长足发展.但大多数目标跟踪算法不但在面对光照变化、运动模糊、快速运动、背景混乱、遮挡等复杂环境下跟踪失败,而且在目标变形、旋转、姿势变化等剧烈变化时也表现欠佳.因此,有必要继续探索健壮的目标跟踪算法.

以往研究表明,有效的特征一般能较好的表示跟踪目标并快速运算,代表性的有颜色特征[1]、纹理特征[2]、灰度特征[3]、超像素特征[4]、Lab 特征[5]等.得益于特征引入频域,将矩阵乘法运算转化为点乘运算,基于相关滤波的目标跟踪算法获得了长足发展.譬如：基于单通道灰度特征的MOSSE[6]和CSK[7]、基于11 通道颜色特征的CN[8]、基于31 通道HOG 特征的KCF[9]、基于42 通道特征(31 维HOG 特征、10 维颜色特征、1 维灰度特征)的SAMF[10]、基于HOG 特征和颜色特征的Staple[11]、基于HOG 特征和Lab 特征的SACFT[12]等.这些算法一般将不同特征简单叠加或以固定比例组合,未考虑实时特征组合对目标跟踪的影响.针对该问题,赵高鹏等[13]基于峰值旁瓣比融合灰度特征和LBP 特征,陈法领等[14]基于峰值旁瓣比和相邻帧间的响应一致性融合纹理特征和颜色特征,尹宽等[15]基于融合特征器的可信度选择合适线性组合方式,常敏等[16]基于平均峰值-相关能量方法融合不同特征.与几位学者从特征类别层面融合特征的做法不同,本文算法从特征通道层面融合特征,该算法通过各通道对响应值的贡献度调整权重,构建实时特征组合,进而控制特征融合,从而提升跟踪效果.

本文算法的亮点主要表现在以下几个方面：(1)引入通道权重矩阵,不破坏循环矩阵性质,不影响闭合求解；(2)先对特征矩阵和权重矩阵点乘,不影响框架将矩阵乘运算转化到傅里叶域下求点乘；(3)基于各通道响应值构建权重更新策略,及时捕捉目标运动状态,灵活构建特征组合.

相关实验结果表明：通道权重在特征融合过程中,发挥着很大的作用；本文提出的特征融合算法在跟踪目标时能有效提升精确度和成功率.

1 基于通道权重融合特征的目标跟踪算法

为了能够使用多维度特征,Galoogahi 等[17]提出多通道相关滤波算法.该算法设定：

式中,N是样本数目,D是循环移位的位数,yi(j)是期望相关响应的第j个元素,K是特征通道数目,h(k)是第k通道的过滤器,是[第i]帧第k通道的向量化,Δτj表示循环位移操作,是对做j步的循环位移,λ是规范化系数.

在跟踪过程中,各个通道对响应值的贡献度不同,而该算法将各通道等同看待.因此,提出基于通道融合特征的目标跟踪算法.该算法的目标函数如下：

式中,N、D、yi(j)、K、、h(k)、、Δ τj、λ 同式(1)中变量意义相同,是对做j步的循环位移.

1.1 引入特征权重

与式(1)相比,式(2)中添加了.该项通过各通道响应值占比(见式(3))构建,与相乘实现自适应特征组合,一定程度上发挥着特征权重的作用.具体实现如下：

1.2 引入区域评估机制

为保证的准确性,对式(3)中的引入区域评估机制.该机制基于一个前提和一个区域特性.该前提设定如下：

式中,(posm,posn)是最佳坐标位置,M是搜索区域的宽度,N是搜索区域的高度,(m,n)是第i帧第k通道(m,n)处的响应值.

1.3 引入滑动窗口机制

为缓解这一问题,引入滑动窗口机制.该机制限定模型仅依据当前帧及其以前的部分帧,来更新通道权重.在减缓通道特征累加风险的同时,捕捉最近的模型变化,舍弃较久远的变化.该机制设定如下：

式中,是第I+1 帧第k通道的权重,是第k通道的初始值,ratiow是权重学习率,是第i帧第k通道的权重,n是参与权重更新的帧数目.

2 算法实现

目标函数式(2)可以化简为：

式中,y是回归目标yi的集合,Xβ是是的循环矩阵,ω是线性回归方程的投影矩阵.

2.1 求解线性回归

求解式(7)得：

式中,X、Xβ、y同式(7)中对应变量意义相同,I是单位矩阵.

在复数空间的傅里叶域下：

式中,XH是X的复共轭转置,XH=(X∗)T.

2.2 求解非线性回归

引入核机制[9],将线性问题的输入映射到非线性空间φ (x),则 ω可以表示为：

式中,α是对偶空间.

在傅里叶域下,有：

式中,帽 ∧表示对应的离散傅里叶变换.

2.3 核函数选择

选择高斯核[9]：

选择线性核[9]：

式中,C表示特征通道数目.

2.4 检测阶段

选择高斯核[9]：

选择线性核[9]：

其中,z为样本的特征矩阵,zβ=z⊙β,表示对z的第j通道施加特征权重,C表示特征通道数目.

式中,f(z)表示样本特征z的响应值,F−1表示反傅里叶变换,帽 ∧表示对应的离散傅里叶变换.

2.5 更新阶段

根据式(3)、式(5)、式(6)更新,并将代入式(12)得到,进一步更新模型：

2.6 算法流程

具体算法流程如算法1 所示.

算法1.本文算法Frame1 Frame2 FrameN y∈Rm×n cen0输入：视频序列,,…,,回归目标,初始帧的目标中心位置 .cencurframe输出：当前帧curframe 的目标中心位置 .For frame＞0 1:N IF ① 在前一帧preframe 目标中心位置的周围,划定检测区域并采集样本；Zhog∈Rm×n×31 Zcolor∈Rm×n×10 Zgrey∈Rm×n×1 Zcur=[Zhog,Zcolor,Zgrey]∈Rm×n×42 Zβ=Zcur⊙β Zβ ˆZβ cenpreframe② 对采集到的样本提取纹理特征、颜色特征和灰度特征,对特征执行操作,再对做FFT,得到频域特征；f(z)f(z)③ 使用高斯核时,利用式(13)、式(15)、式(17)求响应值；使用线性核时,利用式(14)、式(16)、式(17)求响应值；cencurframe=argmax④ End⑤ 利用式(3)、式(5)、式(6)更新通道权重；⑥ 使用高斯核时,利用式(15)、式(12)、式(18)更新外观模型；使用线性核时,利用式(16)、式(12)、式(18)更新外观模型；End(posm,posn)(f(z))

3 实验结果与分析

3.1 实验数据

实验选取了公开数据集OTB-2015[18]的100 组视频序列,围绕光照变化(Illumination Variation,IV)、尺度变化(Scale Variation,SV)、遮挡(Occlusion,OCC)、变形(Deformation,DEF)、运动模糊(Motion Blur,MB)、快速运动(Fast Motion,FM)、平面内旋转(In-Plane Rotation,IPR)、平面外旋转(Out-of-Plane Rotation,OPR)、超出视野范围(Out-of-View,OV)、背景杂乱(Background Clutters,BC)、低分辨率(Low Resolution,LR)等11 种挑战情况进行展开.

3.2 评价指标

本文主要用到3 个评价指标,分别是精确度(precision)、成功率(success rate)和跟踪速度(speed).精确度是在跟踪序列中准确跟踪到的帧所占的比重,这些帧的目标中心与真实位置的距离小于某个阈值,该指标越大越好；成功率是在跟踪序列中准确跟踪到的帧所占的比重,这些帧的跟踪框与真实框的重叠率大于某个阈值,该指标越大越好；跟踪速度是每秒跟踪的帧数,一般采用帧/秒(fps)表示.

(1)精确度

精确度求解如下：

式中,pre(j)是阈值取ε (j) 时的精确度.1 {bool}在bool等于true 时为1,bool等于false 时为0.表示第i帧的目标中心位置与其真实位置的欧式距离.表示所有欧式距离小于ε (j) 的帧数,frames表示某视频序列的帧数.

(2)成功率

成功率求解如下：

式中,suc(j) 是阈值取ξ (j) 时的精确度,1 {bool}在bool等于true 时为1,bool等于false 时为0,表示第i帧的目标框,表示第i帧的真实目标框,∩表示交集,∪表示并集,P(B)为B框内的像素个数,表示像素比大于ε (j) 的帧数,frames表示某视频序列的帧数.

3.3 实验环境及参数设置

实验电脑的处理器是Intel(R) Core(TM) i7-7500U CPU(2.9 GHZ),内存是8 GB,开发软件为Matlab R2014b.算法参数设置如下：高斯核的方差 δ为0.5,Hog 特征的细胞单元大小为4×4,Hog 特征的方向为9,Hog 特征31 通道,gray 特征1 通道,颜色特征10 通道,模型的学习率lr为0.01,第k通道的初始值=1,通道的权重学习率ratiow=0.22.

3.4 实验结果分析

(1)定量分析

为了定量评估本文算法(WSAMF)的有效性,我们对比了WSAMF、SAMF、KCF、CN 在OTB-2015[18]数据集的100 组视频序列的表现.我们做了两组实验,第一组实验取距离阈值0 ≤ε(j)≤50像素、重叠率阈值0 ≤ξ(j)≤1,第二组实验取距离阈值0 ≤ε(j)≤15像素、重叠率阈值0 .5 ≤ξ(j)≤1.

第一组实验用于评估算法的综合性能,第二组实验用于测试算法的有效性.因为在实际的目标跟踪过程中,目标中心位置与实际中心位置的距离超过15 像素,算法基本跟踪失败；目标框与真实框的重叠率小于0.5 时候,算法基本无效；所以,我们在第一组实验的基础上,做了第二组实验.

第一组实验：距离阈值 0 ≤ε(j)≤50像素、重叠率阈值0 ≤ξ(j)≤1.结果如图1所示.

图1(a)为算法执行一次的精度图,该图显示算法随着距离阈值 ε (j)从0 像素到50 像素的精确度变化.图1(b)为算法执行一次的成功率图,该图显示算法随着重叠率阈值 ξ (j)从0 到1 的成功率变化.通过图1可以看出,相比SAMF、KCF、CN,WSAMF 在精确度上分别提升0.78%、8.5%、27.3%,成功率则分别提升1.3%、21.5%,42.9%.

图1 4 种算法的跟踪情况

为了综合评估本文算法(WSAMF)的性能,在公开数据集OTB-2015 的100 个视频序列上,取距离阈值0 ≤ε(j)≤50 像素、重叠率阈值0 ≤ξ(j)≤1,对比WSAMF、SAMF、KCF、CN 在不同属性下精确度和成功率,WSAMF 都取得相对不错的跟踪效果,具体结果见表1、表2.

表1 4 种算法在11 种属性下的精确度

表2 4 种算法在11 种属性下的成功率

第二组实验：距离阈值 0 ≤ε(j)≤15像素、重叠率阈值0 .5 ≤ξ(j)≤1.结果如图2所示.

图2(a)为算法执行一次的精度图,该图显示算法随着距离阈值 ε(j)从0 像素到15 像素的精确度变化.图2(b)为算法执行一次的成功率图,该图显示算法随着重叠率阈值 ξ (j)从0.5 到1 的成功率变化.通过图2可见,相比SAMF、KCF、CN,WSAMF 在精确度上分别提升2.9%,27.6%,52.6%,成功率则分别提升5.6%,34.6%,63.8%.

为了测试本文算法(WSAMF)的有效性,在公开数据集OTB-2015 的100 个视频序列上,取距离阈值0 ≤ε(j)≤15像素、重叠率阈值0 .5 ≤ξ(j)≤1,对比WSAMF、SAMF、KCF、CN 在不同属性下精确度和成功率,WSAMF 都取得不错的跟踪效果,具体结果见表3、表4.

图2 4 种算法的跟踪情况

表3 4 种算法在11 种属性下的精确度

表4 4 种算法在11 种属性下的成功率

通过以上两组实验可以看出,本文算法在综合性能、有效性上,都有一定提升.

(2)定性分析

为了更加直观的评估算法性能,我们对KCF、CN、SAMF 和WSAMF 在basketball(DEF)、Jogging-2(OCC)、Car4(IV)、Singer1(IV)、boy(OPR)、doll(SV)和Walking2(SV、OCC)等7 个视频序列上进行了定性分析.为了区分4 种算法,我们选用不同的颜色跟踪框表示.其中,红色实线为KCF 算法,绿色虚横线框为CN 算法,蓝色点横线框为SAMF 算法,黑色虚点线框为WSAMF 算法.

图3中,目标在跟踪过程中发生了形变,KCF、CN 在第259 帧和第266 帧只定位目标局部,SAMF 在第271 帧和第547 帧则包含了相对多一点的背景信息,只有WSAMF 能够更好的跟踪这些目标.

图4中,目标在跟踪过程中发生了遮挡,KCF、CN 在第59 帧、第60 帧、第61 帧和第64 帧发生漂移,SAMF 则包含了相对多一点的背景信息,只有WSAMF能够更好的跟踪这些目标.

图5中,目标在跟踪过程中光照变暗,KCF、CN、SAMF 在第202 帧、第203 帧、第218 帧和第220 帧包含了相对多一点的背景信息,只有WSAMF 能够更好的跟踪这些目标.

图3 4 种算法在Basketball 序列上的跟踪情况对比

图4 4 种算法在Jogging-2 序列上的跟踪情况对比

图5 4 种算法在Car4 序列上的跟踪情况对比

图6中,目标在跟踪过程中光照增强,KCF、CN 在第41 帧、第75 帧、第86 帧和第131 帧包含了相对多一点的背景信息,SAMF 在第131 帧包含了相对多一点的背景信息,只有WSAMF 能够更好地跟踪这些目标.

图6 4 种算法在Singer1 序列上的跟踪情况对比

图7中,目标在跟踪过程中发生球面外旋转,KCF和CN 在第459 帧、第462 帧、第584 帧和第596 帧只跟踪到目标的一部分,而SAMF 则跟踪到多一点的背景信息,只有WSAMF 能够更好的跟踪这些目标.

图7 4 种算法在boy 序列上的跟踪情况对比

图8中,目标在跟踪过程中发生尺度变化,KCF、CN 在第3526 帧、第3669 帧、第3721 帧和第3737帧发生不同程度的漂移,SAMF 跟踪到少一点的目标信息,只有WSAMF 能够更好的跟踪这些目标.

图9中,目标在跟踪过程中发生遮挡、尺度变化,KCF、CN 在第375 帧、第487 帧和第489 帧发生不同程度的漂移,SAMF 在第206 帧、487 帧和489 帧跟踪到多一点的背景信息,只有WSAMF 能够更好的跟踪这些目标.

图8 4 种算法在doll 序列上的跟踪情况对比

图9 4 种算法在walking2 序列上的跟踪情况对比

(3)跟踪速度

为了直观的展示跟踪速度,在OTB-2015 数据集上任意选取basketball、Jogging-2、Car4、Singer1、boy、doll 和Walking2 等7 个视频序列上,对跟踪情况进行对比,具体情况见表5.

表5 4 种算法的跟踪速度(fps)

单从表中数据来看,4 种算法都达不到实时要求,这主要是受电脑硬件条件限制.在硬件条件获得一定提升后,WSAMF 应该可以满足实时性跟踪要求.

另外,需要补充说明的是,同一种算法在不同数据集下跟踪速度有一定差异,这主要是因为不同数据集的跟踪目标、搜索区域数据复杂度不同,导致计算量不同,进而导致跟踪速度有差异.

4 结语

本文算法根据各通道对响应值的贡献度调整权重,构建实时特征组合,进而控制特征融合.与现有的基于类别融合特征的算法不同,该算法从通道层面融合特征.实验表明该算法能够有效提升目标跟踪的精确度、成功率,整体性能优于对比算法.实验中发现,在目标趋近于完全遮挡的过程过慢时,由于算法未对目标中背景剔除,则容易出现不同程度的跟踪漂移甚至失败.因此,如何剔除目标中的背景信息或有效区分目标、背景,将是下一步研究的工作重点.