APP下载

基于ResNet短期视觉的视频跟踪算法

2022-09-28任红格

计算机仿真 2022年8期
关键词:精确度残差滤波器

任红格,梁 晨,史 涛

(1. 华北理工大学电气工程学院,河北 唐山 063210;2. 天津城建大学控制与机械工程学院,天津 300384)

1 引言

视觉目标跟踪是计算机视觉领域中最重要的部分之一,在机器人视觉,人工智能监控,AR等方面有广泛的应用前景[1]。在实际的跟踪任务中,一般在第一帧中指定目标区域并在后续帧中实现跟踪。尽管目标跟踪技术在过去半个世纪的时间里取得了非常多的成果,但仍然由于光线变化,形变,运动骤变和遮挡等因素,还是具有研究意义。相比较于机器,人类的视觉系统在这方面具有明显优势。计算机跟踪器的关键是通过对目标特征的建模分析,而人类视觉通过对三维环境的感知、对颜色刺激的敏感以及记忆系统来分析环境和目标[3]。在本文中,通过模拟人类的视觉颜色刺激和短期记忆系统来建立神经网络模型,进一步克服之前的视觉追踪挑战。

一般认为,认知心理记忆模型中,人类记忆系统由三个主要的要素构成:感觉记忆,短期记忆和长期记忆。感觉记忆是一个将周围环境信息输入记忆系统,记忆系统收到外部刺激后,保持刺激并发送到短期记忆的过程。在短期记忆过程中,目标信息有一个预演的过程,之后记忆系统会针对刺激产生相对的反应,尽管短期记忆不能被长期保存,但其中的信息可以被视作有很高的可塑性,其中对于跟踪问题的启发尤为重要。长期记忆主要是对反复接受的信息进行整理编码,容量接近无限,并且可以保持很长一段时间,通过在长期记忆的内容中检索,转到短期记忆中来回忆信息,因而长期记忆能够一定程度上代表稳定性较高的事件信息。

在目标追踪任务中,如何在光照、尺度发生变化时跟踪器依然保持稳定,在面对遮挡时依然能够不丢失目标,同时保持一定的实时性和鲁棒性,依旧是这个领域最大的挑战。深度神经网络的发展一定程度上影响了相关研究对于跟踪器的认知,特征的重要性被前所未有的突出。fHOG和深度特征的引入[4]使得跟踪器在保持实时性能和精确度方面做出了很大突破,更具辨识力的特征设计和提取成为跟踪的重点。优秀的特征往往能使得算法在跟踪中面对遮挡以及其它干扰时能保持鲁棒。

在这篇文章中,提出了一个基于残差网络的短期记忆视觉矫正模型(SMRN)跟踪算法来尝试解决上述问题。与人类认知记忆系统相似,SMRN通过ResNet[5]提取特征,之后使用核相关滤波器对目标进行建模跟踪。通过短期视觉记忆模块来进行尺度矫正。同时提出了一种通过认知记忆机制调整更新模型外观的自适应学习方法。

2 提出的算法

鉴于残差网络(ResNet)在训练方面的优秀性能和强大的泛化性,本文算法将以ResNet为提取特征的方法,通过多通道提取深度特征,配合KCF[6]进行跟踪定位,之后通过短期记忆尺度矫正模块进行尺度矫正,得出的算法将在公共数据集平台OTB100上进行结果测试。

2.1 算法的总体结构

所提算法的结构如图1所示,大致分为特征提取和目标跟踪,模型尺度矫正估计等两个部分,之后根据跟踪结果对尺度模型进行更新。

图1 算法的总体结构

2.2 ResNet结构和特征提取

图2显示了基层和残余层的结构。

图2 残差网络基本结构

本文将H(X)表示为输入X的最佳映射,将FB(X)表示为基础层的输出。本文不倾向于叠加更多的层来近似H(X),而是希望这些层近似剩余函数:FR(X)=H(X)-FB(X)。因此,预期网络输出可以表述如下:

F(X)=FB(X)+FR(X)=FB{X,(WB)}+FR{X,(WR)}

(1)

映射FR(X,{WR})表示残差学习,而WR是带有偏差的卷积层的一般形式,为了简化符号,省略了ReLU。在小滤波器规模的动态学习中,本文采用了三层结构。它们被设置为捕获基层输出中不存在的残余。最后,输入X通过基础和残差映射进行回归,生成输出响应映射。

网络层数的增加和图像的特征表达效果并不是成正比的,在5层以内的浅层网络往往能取得不错的识别效果。经过大量实验证明,ResNet的conv4层及其前层的跟踪效果优于其它层,如表1所示,所以在本文算法中主要采取conv4层用于特征提取。

表1 不同层性能对比

2.3 KCF目标定位

假设输入图像中的感兴趣区域(ROI,region of interest) 大小为m×n×3,经过残差网络提取后,得到的特征大小分别为m1×n1×k1、m2×n2×k2和m3×n3×k3,ki表示第i(i=1,2,3)个特征通道数。其中每个特征分别经过相关滤波器,得到的响应图大小均为s×t,然后对各个响应图进行加权求和,对应权值为γi,得到位于响应图中响应值最大的点为中心位置。想要区分目标和背景,试图训练非线性分类器代替之前的滤波框架,引入高斯核,KCF核相关滤波器α可以表示为

(2)

2.4 提出的短期记忆尺度矫正估计算法

人类视觉记忆中,感觉记忆时间最短,大约只有0.1秒,长期记忆在一分钟左右,本算法为应对遮挡,光线变化等因素,所选择的短期记忆方式通常在1-2秒,通过建立短期视觉记忆尺度变化信息库,以时间长度T为一个周期,取每一帧之前T时间内的尺度变化率

(3)

并设定一个阈值λ,超过λ就启动尺度矫正

(4)

通过对目标位置进行采样,建立33个尺度金字塔,提取其HOG特征(d维),经过尺度滤波器[9],得到响应最大的目标位置,尺度滤波器为

(5)

其中:G为利用高斯函数构建的响应值,G*表示G的共轭,Fl表示第l维特征的傅里叶变换,d为特征维数。

尺度滤波器的分子项、部分分母项分别为

Al=G*⊙Fl

(6)

(7)

响应值y为

(8)

y中最大值位置对应目标最佳尺度.Zl表示输入图像第l维特征的傅里叶变换.

2.5 模型更新

在确认第t帧的位置和尺度之后,出于对算法鲁棒性的考量,还需要在t+1帧跟踪前对位置滤波器和尺度滤波器进行更新。位置滤波器更新策略如下

αt=(1-η)αt-1+ηα(t)

(9)

其中:αt-1为对第t帧图像跟踪前求得的滤波器模板,α(t)为根据第t帧图像求得的滤波器模板η为位置滤波器的学习率.对第t帧图像跟踪后,尺度模型更新策略为

(10)

(11)

其中η′为尺度滤波器的学习率.

3 实验结果分析

3.1 实验环境和参数选择

在windows10系统下,采用matlab2018作为实验平台。硬件配置如下:英特尔1.8GHz的CPU,8GB内存,英伟达760m显示适配器。位置滤波器的学习率η=0.03,正则项λ=10-4.尺度滤波器的尺度因子a=1.03,采样个数S=30,学习率η′=0.025,正则项λ=10-4.

3.2 算法性能分析

测试数据采用当下广泛应用的OTB数据集,通过选取100个视频序列中的60个包含光照尺度变化,遮挡等典型跟踪任务的挑战序列来运行算法。表2、表3详细列出了 11 种普遍挑战下算法的成功率和精确度数据,最优结果用粗体标注,次优结果用斜体表示。

如图所示,由于算法在充分考虑了目标模型尺度变化的基础上采用了较强特征表征能力的深度残差网络提取特征,所提SMRN框架在几乎所有挑战属性序列上表现都很好,在保证了稳定性的前提下实现了准确性和实时性的提升。综上所述,所提出的算法在具有光照变化,遮挡属性的视频序列上表现出较好的跟踪性能,同时因为记忆矫正的引入使得在形变,目标遮挡等复杂环境下仍然保持了一定的鲁棒性。

表2 所提算法和其它算法成功率对比(加粗为最优,斜体为次优,下同)

表3 所提算法和其它算法精确度对比

在 OTB100 的所有视频上对相关算法进行测试,成功率曲线和精确度曲线如图3,4 所示。除去2016年的顶级算法C-COT[10],与成功率位于第3的 HCF 算法相比,所提算法的成功率和精确度分别提高了 1. 2% 、5.7 %; 与精确度位于第 3的Staple算法相比,所提算法的成功率和精确度分别提高了 2. 9% 、0. 6%。

图3 精确度

图4 成功率

3.3 算法速度

因为ROI大小随着序列尺度的变化而变化,大尺度的目标在进行卷积时不可避免的会拖慢算法运行速度。在以实时性为主要着眼点的相关滤波算法中,所提SMRN算法达到了基本实现实时性的4 f/s,具体对比如表4所示。

表4 算法速度对比

4 结论

本文提出了一种基于ResNet和短期记忆尺度变换的视频跟踪算法,在通过利用深度残差网络特征提取的基础上,使用和相关滤波模板得到响应位置并进行尺度采样,利用短期视觉机制进行尺度矫正估计,并在OTB100数据集上测试可行性,与其它算法进行了对比。实验结果表明,所提出的算法在具有一定实时性的基础上能够较好地面对尺度,光照的变化以及遮挡,在保证精确度的前提下也具有鲁棒性,同时也说明深度网络在目标跟踪领域仍具有一定的可挖掘潜力。

实验的同时也发现多层次的神经网络各层的特征提取能力不同,如何在特征提取的基础上进行多通道特征融合进而实现复杂情况下的目标识别检测跟踪依然是接下来研究的方向。

猜你喜欢

精确度残差滤波器
多级计分测验中基于残差统计量的被试拟合研究*
浅谈有源滤波器分析及仿真
用于处理不努力作答的标准化残差系列方法和混合多层模型法的比较*
CIC插值滤波器的研究
放缩法在递推数列中的再探究
数形结合
FIR滤波器线性相位特性的研究
测量数据的残差分析法
连续型过程的二元残差T2控制图
近似数1.8和1.80相同吗