APP下载

基于特征聚合的模型预测跟踪方法

2022-02-07王春媛马才良王婉君汤辰玉

智能计算机与应用 2022年12期
关键词:特征提取卷积特征

张 乐,韩 华,王春媛,马才良,王婉君,汤辰玉

(上海工程技术大学 电子电气工程学院,上海 201620)

0 引言

视觉目标跟踪是计算机视觉领域一个重要的研究方向。现已广泛地应用在公共安防[1-5]、自动跟踪[6]等方面。目标跟踪旨在当给定视频序列的第一帧的目标边界框的情况下,利用跟踪算法在视频序列的后续帧中定位该目标的准确位置,并同样使用边界框在视频帧中进行目标的框定。尽管目标跟踪领域在多方面探讨中已经取得了可观进展,然而在一些类似于光照变化、遮挡、背景干扰等场景中也亟待更深入系统的研究。

近年来,在目标跟踪方面涌现出众多的研究成果。尤其是基于暹罗(Siamese)网络[7]的跟踪算法,凭借着平衡的跟踪准确性和速度获得了相关学者极大的关注。暹罗网络的思想是将目标跟踪任务视为一个相似性匹配问题。具体来说,基于相似性匹配的跟踪方法是以端到端的方式从大量的数据集中离线学习一个通用的相似性匹配函数,训练目标是使同一个物体的相似性最大,不同物体的相似性最小。

尽管基于暹罗网络的跟踪算法已经取得不小进展,然而仍有改善和可提升空间。一方面,一些跟踪算法仅仅采用有限的数据增强策略,这对于训练一个鲁棒性的跟踪器是不够的。因此,有必要释放训练数据的潜力来训练跟踪算法。另一方面,基于暹罗网络的一般跟踪方法仅仅使用特征提取网络的最后一层的输出作为最终提取的特征图。这会导致跟踪器无法拥有比较强的判别能力。

为了解决上述问题,本文提出了一种特征聚合的模型预测目标跟踪方法。在模型层面,本文提出的多层特征聚合策略可以获得更加高质量的特征图。

1 本文算法研究

1.1 跟踪系统框架

本文的跟踪系统框架如图1 所示。使用本文改进的特征提取网络进行特征的提取,并对特征提取网络的最后2 个网络层进行特征聚合操作,以获得更加具有判别力的特征图。随后这些特征图进入模型预测模块中进行目标的在线更新操作。再将更新得到的模板作为一个卷积核与测试集的特征图进行卷积操作。最终,模型输出待跟踪目标的具体位置信息。

图1 本文的跟踪系统框架Fig. 1 The tracking system framework of this paper

1.2 改进的特征提取网络

为了提高定位的准确性、降低计算量以及完成后续的多层特征聚合操作,本文对原始的特征提取网络ResNet-50[8-9]进行了如下的改进:

(1)由于卷积操作中较大的步幅会降低定位的准确性,因此将特征提取网络中的第三和第四个卷积层的步幅大小从2 设为1。

(2)由于特征聚合操作的网络层需要相同的通道数,故将第四个卷积层的通道数从2 048 变为1 024。

(3)在第三和第四层的后面分别加上一个卷积核大小为1×1 的卷积层来分别提取2 个层的特征,并命名为Conv3 和Conv4。

改进的ResNet-50 层级结构见表1。

表1 改进的ResNet-50 层级结构Tab.1 Improved ResNet-50 hierarchical structure

1.3 特征聚合策略

在目标跟踪领域,许多研究已经证明浅层的特征图包含目标更多的位置信息,深层的特征图包含目标更多的语义信息。这些语义信息对目标外观差异有着较好的不变性。

在目前研究发展基础上,本文提出了一个多层特征聚合策略,该策略将特征提取网络的最后2 个特征提取层进行聚合来获得更加具有判别力的特征图。

本文提出的多层特征聚合框架图如图2 所示。由图2 可看到,Conv3 和Conv4 分别用来提取卷积块3(Block3)和卷积块4(Block4)的特征。因此,一共可以获得2 张特征图。

图2 多层特征聚合框架图Fig. 2 Multi-layer feature aggregation framework diagram

为了描述每张特征图的波动水平和感兴趣目标的置信度,本文使用公式(1)来计算每一个特征图的平均峰相关能量(average peak-to-correlationenergy):

其中,是该特征图中的最大值;是该特征图的最小值;Vw,h是矩阵V中第w行第h列对应的值;E是算术平均算子。

当计算APCE值后,每张特征图的权重可以由式(2)计算求得:

当计算αi后,使用式(3)进行特征图的聚合:

其中,Ωi为Conv(i)输出的特征图。

2 实验与分析

2.1 实验参数设定

本文对算法的训练和评估参数进行了设置,具体参数如下。

(1)训练方案:使用GOT10k[10]和LaSOT[11]数据集的训练集部分作为数据集,并从这2 个数据集中采样20 000个视频序列作为训练数据集。训练阶段的初始学习率为0.001。优化器ADAM 每15 个世代(epoch)衰减0.2。动量设置为0.9,一共训练50 个世代,整个训练的时长大约为24 h。

(2)评估设计:本算法使用VOT2018[12]和UAV123[13]作为评估数据集并使用PySOT 作为评估平台。首先生成本算法的.txt 格式跟踪结果,随后通过PySOT 平台对不同的评估数据集进行评估,最终生成本文算法与不同跟踪算法的比较结果。

2.2 算法结果分析

为了量化所提出算法的跟踪表现,本文分别在VOT2018 以及UAV123 评估数据集上进行评测,并与其他具有竞争力的跟踪算法进行对比分析。

2.2.1 VOT2018 评估分析

VOT2018 由60 个包含不同属性的RGB 视频序列组成。与大多数研究者相似,本文使用VOT 中的准确度(A)、鲁棒性(R)和平均期望均值(EAO)来评估不同的跟踪算法。EAO作为一个跟踪算法最终的评估指标。通常EAO值越大,该跟踪算法的性能越好。表2 为本文算法与4 个具有竞争力的跟踪算法的对比结果。

表2 VOT2018 上不同跟踪算法的比较Tab.2 Comparison of different tracking algorithms on VOT2018

由表2 分析可知,本文算法在对比的4 个跟踪算法上表现居于第一。其仅仅在准确率上比SiamRPN++算法低了1.17%,但在鲁棒性和EAO指标上均优于对比的其他跟踪算法。而且本文的算法在EAO指标上比第二名SiamRPN ++算法高了3.86%,比基线算法DiMP(本文使用LaSOT 和GOT10k 的训练集训练DiMP 算法得出的结果)高了4.88%。这些结果充分证明了本算法的优势。

2.2.2 UAV123 评估分析

UAV123 数据集包含123 个由低空无人机采集的视频序列。根据UAV123 的评估标准,本文采用成功图(success plot)和精确图(precision plot)来对不同的算法进行比较。图3 为不同跟踪算法在UAV123 上的成功率对比图和精确度对比图。图4为不同跟踪算法在UAV123 数据集上12 个不同跟踪属性的对比结果图。

由图3 分析可知,本文所提出的算法在成功率和精确率方面均取得第一的位置。在成功率方面,DiMP 为0.604,本文的算法成功率为0.631,超过了第二名DiMP 算法4.5%。在精确率方面,本文的算法为0.846,超过了第二名DiMP 算法4.4%。这些结果充分说明了本文算法具有优秀的跟踪性能。

图3 UAV123 上不同跟踪算法的比较Fig. 3 Comparison of different tracking algorithms on UAV123

由图4 可看到,本文的算法在UAV123 所有8 个跟踪属性上的表现均高于基线算法,且有11 个跟踪属性都取得了第一的位置。这些结果说明了本文所提出的数据增强策略和特征聚合策略的有效性。

图4 UAV123 不同属性的跟踪结果图Fig. 4 Graph of tracking results for different attributes on UAV123

3 结束语

为了获得更加鲁棒性的特征图、从而在模型预测器中进行具有判别力的跟踪表现研究,本文分别从数据和模型两个方面进行改进。在数据方面,新引入了颜色抖动以及自定义了运动模糊数据增强方式;在模型方面,首先对特征提取网络ResNet-50 进行了改进,然后在ResNet-50 的最后2 个特征提取层进行了特征聚合操作。最终训练的跟踪模型分别在VOT2018 和UAV123 数据集中进行了评估。在VOT2018 上,本文的算法取得了第一的位置,并在EAO指标上比第二名算法高出了3.86%,比基线算法DiMP 高出了4.88%。在UAV123 上,本文的算法同样为最好的水平,同时在准确度和精确度上比第二名算法分别提高了4.5%,4.4%。这些结果充分说明了本文所提出算法在跟踪方面有着更好的表现。

猜你喜欢

特征提取卷积特征
根据方程特征选解法
离散型随机变量的分布列与数字特征
基于3D-Winograd的快速卷积算法设计及FPGA实现
卷积神经网络的分析与设计
基于Gazebo仿真环境的ORB特征提取与比对的研究
从滤波器理解卷积
不忠诚的四个特征
基于Daubechies(dbN)的飞行器音频特征提取
基于傅里叶域卷积表示的目标跟踪算法
Bagging RCSP脑电特征提取算法