APP下载

三联神经网络与区域自适应策略融合的目标跟踪方法

2021-03-19王建中张驰逸孙庸

北京理工大学学报 2021年2期
关键词:模板变化分类

王建中, 张驰逸, 孙庸

(北京理工大学 机电学院,北京 100081)

目标跟踪算法被广泛应用于安防、工业、军事、服务等各个领域,一直是计算机视觉研究的重要课题. 通常的跟踪方法主要是在给定的视频序列上,由初始帧及其对应的目标位置作为跟踪器的输入,在后续的视频帧中跟踪器自主实现对目标位置的更新. 目标跟踪算法的发展面临着光照变化、快速运动模糊、背景相似干扰、外形变化、尺度变化、遮挡、出视野等难点问题[1]. 如何有效地提高跟踪器系统的鲁棒性以应对这些问题是跟踪算法的主要挑战.

按照跟踪算法实现目标位置更新原理的不同,跟踪算法可分为生成类(generative)和判别类(discriminative). 生成类算法是在当前帧针对目标区域建模,在一帧中挑选画面各处与模型相似度最高的区域作为目标位置的更新区域,同时在下一帧或下一个循环中实时更新模型的方法. 比较典型的生成类算法有kcf[2]、粒子滤波[3,4]、mean-shift[5]、eco[6]等. 这类算法一般具有速度较快的特点,在特征选择上以较低等级的特征类型为主,如颜色特征[7]、Hog特征等. 这类算法在面对上述难点问题时表现不佳.

判别类算法是将目标区域作为正样本,将背景信息作为负样本,利用机器学习的方式训练分类器,实现分类器在下一帧中找出置信度最高的区域作为目标预测的方法. 通过模拟生物神经系统行为特征的方式,深度学习神经网络在提取前景和背景特征后能较大程度保留特征信息并突出某些细节特征信息. 典型的判别类算法有MDNet[8]、CNN-SVM[9]、SiameseFC[10]等.

由于深度学习依赖大量相互独立的数据集,而现有的公开数据集如VOT[11]、OTB等所包含的视频序列数量较少、训练样本间差异性不大,因此目前深度学习方式的判别类跟踪算法鲁棒性不足. 本文针对单目标跟踪任务结合判别类孪生网络模型和生成类实时更新模型的思想提出一种基于SiameseRPN[12]的三联区域候选神经网络和跟踪区域自适应策略融合的跟踪算法,使模型在面对目标背景相似干扰、目标状态变化等问题时拥有更好的跟踪效果.

1 三联区域候选神经网络结构

本文在孪生区域候选神经网络(siamese region proposal network,SiameseRPN)算法模型的基础上进行改进,提出三联区域候选神经网络(triple region proposal network,TripleRPN).

一般孪生网络包含两个具有相同结构、共用同一个参数和权重的网络. 在初始化阶段,对初始帧根据目标位置进行裁剪,经过神经网络提取后将其特征图作为模板保存. 在跟踪阶段,对当前帧根据上一帧目标预测位置进行裁剪,经过神经网络提取后的特征图与初始帧特征图进行欧式距离计算,以得分最高处为中心更新目标位置. 由于一般孪生网络算法只在初始帧更新模板,当目标发生较大变化时模板不足以表达目标特征变化,算法易受到背景中特征相似物体干扰,使算法预测目标位置偏离真实值丢失目标.

借鉴相关滤波算法的思路,在保留初始帧模板的同时,实时更新目标状态变化. 在一般孪生网络算法中添加额外的网络处理前一帧的跟踪结果并更新模板. 本文所提出的TripleRPN算法模型如图1所示,由输入层(input)、特征提取网络(三联网络TripleNet)和区域候选网络(RPN[13])组成.

图1 TripleRPN网络模型Fig.1 TripleRPN network model

模型经过输入层对原始三通道图像以目标预测位置为中心在原图上截取边长为Sz的正方形区域(式1),若原图像不足以填充区域,则以各通道平均像素值填补空白,对截取后的正方形区域缩放,使图像满足尺寸统一的要求.

(1)

式中:w为原图宽;h为原图高.

特征提取网络由3个具有相同的网络结构、参数和权重的网络1~3组成,其结构为删去Padding层的AlexNet[14]网络,具体参数如表1所示. 在初始化阶段,网络1对裁剪缩放为127×127大小的初始帧图像提取特征图并将其作为初始帧模板;在跟踪阶段,网络2对裁剪缩放为255×255大小的当前帧提取特征图并将其作为待检测模板;网络3对裁剪缩放为127×127大小的前一帧提取特征图并将其作为更新帧模板. 初始帧模板只在初始化阶段更新一次,待检测模板和更新帧模板在跟踪过程中实时更新.

表1 AlexNet网络结构参数Tab.1 AlexNet structure parameters

区域候选网络由分类分支(classification branch)和边界框回归分支(regression branch)组成. 将上述模板按照“初始帧模板-待检测模板”和“更新帧模板-待检测模板”分为两组作为RPN网络的输入. 在分类分支中初始帧模板和更新帧模板经过一个卷积层(Conv2d)处理成4×4×(2k×256)大小(k为锚点数),待检测模板经过一个卷积层处理为4×4×256大小,经过互相关(cross correlation)处理得到两组17×17×2k大小的分类得分图,将两组对应的结果进行加权平均(见式(2)),得到TripleRPN的分类得分图. 同理经过边界框回归分支可得TripleRPN的17×17×4k大小的坐标特征图. 选择TripleRPN分类分支得分最高处和与其对应的边框回归分支的边界框(bounding box)作为跟踪器对该帧的计算结果.

(2)

式中s1,Δ1,s2,Δ2分别代表“初始帧模板-待检测模板”组、“更新帧模板-待检测模板”组在RPN网络中所得的分类分支和边界框分支结果;s3,Δ3为三联网络在RPN网络后的实际输出;m,n为权重系数,满足m+n=1的条件.

2 跟踪区域自适应策略

本文提出的TripleRPN在每一帧的跟踪计算中都将前一帧的结果用于更新帧模板的更新,该策略提高模型对目标状态变化的敏感性,但简单场景下对系统的成功率有一定的影响. 当跟踪结果的bounding box偏移真实值后,网络3会将背景信息当作前景信息记录到模板中,影响后续帧的跟踪结果,并持续累积误差使整体跟踪效果随着时间推移而下降. 此外TripleRPN相比一般孪生网络多出一条网络3参与实时计算,在持续跟踪中耗时成本增长较多. 由于在一个较长持续时间的跟踪任务中,场景和目标发生快速剧烈变化的频率较低,一般孪生网络满足简单场景中持续跟踪的要求,因此在持续过程中只有网络1、网络2(SiameseRPN)参与目标位置更新,当当前帧跟踪存在失效可能性时,则引入网络3更新模板并重新预测目标位置.

以RPN网络的分类分支得分最大处的值(siameseRPN score)作为跟踪模型中SiameseRPN和TripleRPN切换的评价依据,并按照跟踪框bounding box和人工标注框ground truth的重叠率IOU[15](式(3))判断模型的工作效果.

(3)

式中:A为跟踪器所得bounding box;B为真实值ground truth.

以某一视频序列为例(图2)观察SiameseRPN Score的变化曲线,可以发现在失效帧处SiameseRPN Score值较低并呈现快速下降的趋势. 因此在持续跟踪时,仅当SiameseRPN Score低于某阈值时,算法启用网络3更新模板.

图2 某视频中孪生网络失效发生时分类得分与IOU得分Fig.2 Distribution of classification score and IOU when siamese network fails in a video

综上,本文提出跟踪区域自适应策略(tracking area adaptation,TAA),其流程如图3所示. TAA在每一帧的跟踪过程中以“初始帧-当前帧”组在RPN网络的分类分支结果作为输入值,当“初始帧-当前帧”组分类分支得分(cls1)低于设定的阈值a时,认为存在跟踪失效的可能并启用 “更新帧-当前帧”组分支,将两组结果按照式(2)加权得出TripleRPN的输出. 若TripleRPN的分类得分(cls2)与“初始帧-当前帧”组分类得分的差值大于设定阈值b,则判定TripleRPN的结果有效并更新目标位置,否则以“初始帧-当前帧”组结果更新目标位置. 其中阈值a、b的值在模型训练阶段获得. 在各次训练过程中a、b分别从0至1以0.1为步长参与模型的训练,并取迭代过程中平均IOU最高时a、b的组合.

图3 TAA策略流程Fig.3 TAA strategy process

3 实验与分析

3.1 样本数据集及训练

使用Object Tracking Benchmark[16](OTB2015) 数据集作为网络的训练集和测试集. 该数据集由100个经人工标注跟踪目标真实位置的视频序列组成,包含目标尺度变化、环境光照变化、图像运动模糊、目标形状特征变化、目标遮挡变化等情况.

为提高训练速度、加快梯度下降,本文采用经过ImageNet数据集预训练后的权重作为网络的初始化参数. 为加快后期迭代速度,保证训练时参数更新的稳定性,避免训练中陷入局部最小梯度,采用冲量算法更新参数.

(4)

式中:x为需要更新的参数;v0为本次迭代中参数x的更新量;v为上一次迭代中参数x的更新量;lr为本次迭代中设定的学习率;m为冲量常数.

每次迭代训练过程中,从各视频序列中随机选取连续的8帧图像进行训练,学习率按照对数分布由0.01下降到0.000 01,共计进行50次迭代训练.

3.2 测试及结果分析

在测试阶段,为详细测试模型在不同类型场景下的表现,将OTB2015视频序列按照场景变化人工划分为以下几种类型:快速运动模糊、背景相似干扰和目标状态变化,分类结果如下:快速运动模糊分类共包含42个视频序列、背景相似干扰分类共包含31个视频序列、目标状态变化分类共包含17个视频序列.

SiameseRPN、TripleRPN和TAA+TripleRPN三种算法在OTB测试集上的部分结果如图4所示. 可以看出TripleRPN相比SiameseRPN在目标发生快速运动模糊时有更好的鲁棒性,但在持续跟踪中bounding box会产生较大偏移. 而与跟踪区域自适应TAA相结合的TripleNet则较好地解决了这个问题,在保证系统面对背景相似干扰场景跟踪准确度的同时提高对快速运动模糊和目标状态变化场景的适应性. 如Biker视频序列中所示,目标在场景中快速位移且目标从正脸变为侧脸再变为后脑勺,目标状态发生了快速变化,此时SiameseRPN和TripleRPN都失效,而TAA+TripleRPN则实现了对目标的稳定跟踪.

图4 跟踪效果比较(至上而下分别为Soccer、Biker、Woman、Deer序列)Fig.4 Comparison of tracking effects (top to bottom are Soccer、Biker、Woman and Deer)

本文采用OTB标准中的OPE(one pass evaluation)作为算法模型的评价指标,包括AUC(成功率曲线与坐标轴所围成的面积)和CLE(准确率中值),以此评价不同算法的性能. 如图5所示,TripleRPN相比SiameseRPN在完整测试集上跟踪性能较低,这是由于TripleRPN更新帧模板更新较频繁,当预测目标位置偏离真实值时,TripleRPN会将背景信息作为前景信息保存,干扰下一帧的目标跟踪区域,使跟踪器性能下降. 而TAA+TripleRPN相结合的算法相比SiameseRPN在跟踪效果上有着一定的提升,AUC由65.40%提高到66.31%,CLE由87.78%提高到88.28%. 如图6所示在快速运动模糊分类中TAA+TripleRPN相比SiameseRPN跟踪效果提升较小. 如图7、图8所示,TAA+TripleRPN在背景相似干扰分类和目标状态变化分类中相比SiameseRPN提升效果显著,在背景相似干扰分类中AUC由63.69%提高到65.10%,CLE由83.79%提高到86.63%;目标状态变化分类中AUC由65.90%提高到67.44%,CLE由89.87%提高到92.32%. 在CPU为I5-6300,GPU为GTX1060的平台上,TAA+TripleRPN对测试集的平均跟踪速度相比SiameseRPN由63.8帧/s下降至54.1帧/s,实时性满足日常使用要求.

图5 OTB数据集测试结果Fig.5 Results on the OTB data set

图6 快速运动模糊分类测试结果Fig.6 Results on the fast motion blur data set

图7 背景相似干扰分类测试结果Fig.7 Results on the background similar inteference data set

图8 目标状态变化分类测试结果Fig.8 Results on the target state changes data set

为进一步验证TAA+TripleRPN跟踪算法实际应用效果,本文采集了室内外的实际场景视频序列并进行验证测试. 图9(a)~11(a)为光照适中的室内场景,跟踪目标为深褐色猫,在视频中目标移动较快呈现运动模糊的现象,并且背景中出现与猫形体类似的黑色长条状物体干扰. 图9(b)~11(b)为光照阴暗的室外人行道场景,目标为身着白色服装行人,在视频序列中其余行人对目标的跟踪产生背景相似干扰. 图9(c)~11(c)为光照明亮的室内场景,目标为身着黑色服装男性,在视频中目标姿态由立姿变为蹲姿再变为立姿,由正面朝向镜头变为侧身移动,目标状态发生较大改变,并且目标移动过程中出现遮挡的现象. 验证测试表明在持续跟踪过程中,TAA+TripleRPN相融合的算法在面对快速运动模糊、背景相似干扰、目标状态变化、遮挡等场景时无失效现象,跟踪效果良好,如图9~11对应各帧序fi的跟踪框所示.

图9 快速运动模糊和背景相似干扰视频序列场景中的跟踪效果Fig.9 Tracking effect in scenes with fast motion blur and background similar interference

图10 背景相似干扰视频序列场景中的跟踪效果Fig.10 Tracking effect in scenes with background similar interference

4 结 论

主要基于孪生区域生成网络的跟踪算法研究,提出了三联区域候选神经网络与跟踪区域自适应策略相融合的跟踪方法TAA+TripleRPN. 该方法依据区域回归网络分类分支的得分判断孪生网络是否存在失效的可能性,通过引入枝干网络来更新匹配模板的方式提高算法对目标变化的敏感性,同时提高算法在长时跟踪时的鲁棒性. 在OTB2015数据集上,上述方法AUC达到66.31%,CLE达到88.28%,速度达到54.1fps. 相比一般的孪生网络,在背景相似干扰场景中,AUC由63.69%提高到65.10%,CLE由83.79%提高到86.63%;在目标状态变化场景中, AUC由65.90%提高到67.44%,CLE由89.87%提高到92.32%. 在实际场景的应用与验证中,该方法跟综速度较快,跟踪效果良好,具有良好的实用性.

猜你喜欢

模板变化分类
高层建筑中铝模板系统组成与应用
铝模板在高层建筑施工中的应用
特高大模板支撑方案的优选研究
Inventors and Inventions
这五年的变化
按需分类
教你一招:数的分类
说说分类那些事
经理人的六大变化
喜看猴年新变化