APP下载

基于分层数据关联的在线多目标跟踪算法

2018-04-26李明华刘正熙

现代计算机 2018年5期
关键词:外观轨迹关联

李明华,刘正熙

(四川大学计算机学院,成都 610065)

1 问题的提出

多目标跟踪系统的目的是在监控场景中能估计出多个运动目标的连续平滑的轨迹,它在视频监控,事件检测以及行为识别中都有重要的应用。因此,研究多目标跟踪技术是计算机视觉领域的重要课题之一。

由于目标检测技术[1-3]的快速发展,tracking-by-detection成为了一种广泛使用的多目标跟踪框架。在tracking-by-detection框架中,目标检测器通过线下训练,可以在视频的每一帧提供出跟踪目标的包围框,然后通过数据关联技术把这些包围框分别匹配已存在的跟踪目标,从而产生连续的运动轨迹。按照数据关联算法的不同,多目标跟踪技术分为在线的[4-7]和离线的[8-11]。然而,在一些复杂的场景,由于跟踪目标的相互遮挡和背景的遮挡,这些先进的目标检测技术仍然解决不了目标丢失的问题。

因此,许多学者提出离线的多目标跟踪方法用于解决这些由于长时间的遮挡而造成的目标丢失问题。连接概率数据关联算法(JPDA)[8-9]在视频的每一帧中基于当前帧提供的目标包围框和已存在的跟踪目标的连接概率相似度进行数据关联。多假设跟踪算法(MHT)[10-11]为每一个跟踪目标所有可能的轨迹假设建立一棵关系树,计算跟踪轨迹的概率并选择最大概率的轨迹组合。这些离线的多目标跟踪算法不仅要使用当前帧的信息,而且要考虑未来一段时间窗口内视频帧的信息,所以这些离线方法都有一定的时间延迟,不适用于实时的视频监控系统。

SORT跟踪算法提出了一个简单的在线trackingby-detection跟踪框架,该框架使用线性卡尔曼滤波作为运动模型预测目标的运动,使用匈牙利算法匹配相邻帧之间的目标。使用这样一种简单的在线跟踪框架却能够在公开的多目标跟踪数据集上获得卓越的性能效果,并且这个框架的帧率能达到260Hz,速度上超越了绝大部分在线跟踪方法。该框架的缺点是只使用了目标的运动特征,而没有使用目标的外观特征,并且没有考虑到目标之间的遮挡问题。

本文提出了一种改进版的tracking-by-detection框架。该框架采用了基于深度学习的外观特征,并且采用了分层的数据关联方法。该方法根据卷积特征的相似度把数据关联分成两个步骤。第一层关联只考虑高相似度的目标匹配对,因为高相似度的两个待匹配的候选对象属于同一个目标的概率非常大。第二层关联处理剩余的低相似度的目标匹配对,相似度低说明目标可能发生形变或者被其他跟踪对象遮挡。

2 算法实现

本文提出的多目标跟踪框架采用Faster R-CNN检测器[3]检测出候选目标,使用卡尔曼滤波迭代地预测目标的运动状态,接着使用卷积神经网络提取出目标的深度外观特征,根据目标的外观相似度和运动相似度使用匈牙利算法匹配候选目标和目标轨迹。本节着重介绍特征提取和分层数据关联。

2.1 特征提取

特征提取用于数据关联的相似度计算。本文融合了强特征和弱特征来进行数据关联。强特征是用卷积神经网络提取的深度外观特征,而弱特征则使用了目标的运动特征。每种特征都有其优点以及作用。当目标连续可见并且没有显著的外观变化时,深度外观特征能够较好地区分两个候选对象是不是同一个目标。而当目标的外观发生改变或者遇到遮挡问题时,运动特征和形状特征结合了跟踪目标上下文的时空信息辅助数据关联。

本文提出了一种深度外观描述子用于描述跟踪目标的外观,该描述子采用类似于AlexNet[12]的卷积神经网络结构微调而成。首先我们用ImageNet数据集的预训练模型初始化卷积神经网络的权值,然后使用行人重识别数据集[13]离线微调该神经网络,该数据集包含32000个标注的行人标签。我们的卷积神经网络训练模型包含5层卷积结构和3层全连接层,在全连接层后面接上一个Softmax层用于目标的分类。在特征提取阶段我们仅提取第5个卷积层输出的4096维特征,我们用 feati来表示第i个目标的特征,深度外观特征相似度定义为:

运动特征的使用基于这么一个假设,即当视频的帧率足够高时,现实场景中的目标在连续帧中的运动轨迹是连续平滑的。运动特征充分利用了运动目标的时空上下文信息,我们使用速度和方向来表述跟踪目标的运动属性。由于余弦相似度只能描述运动目标的方向一致性,本文考虑使用调整余弦相似度来描述运动目标的方向一致性和速度一致性。运动特征相似度表示如下:

2.2 分层数据关联

数据关联是tracking-by-detection多目标跟踪框架的核心内容,大部分跟踪算法把数据关联问题看成一个全局最优匹配问题。但是这种方法有一个缺点,就是当目标发生外观变化或者目标被遮挡时,会导致目标错误匹配的情况。本文提出了一种分层的数据关联策略,假设这样一个场景:当目标在连续的视频帧中出现,并且外观没有发生比较大的变化,且没有被其他物体遮挡时,相邻帧中属于同一个目标的候选对象外观相似度值会非常大,这时我们仅使用目标的深度外观相似度用于数据关联能取得非常好的效果。当目标遇到遮挡情况或者自身的外观发生了严重变化时,相邻帧中的同一个目标的外观相似度可能会变得很小,这时我们就要引入运动特征来辅助判断相邻帧目标的相似性。

考虑第t帧的数据关联问题,当前帧t通过目标检测器得到一系列的目标检测框Dt,另外已知第t-1帧的目标轨迹Tt-1,我们采用匈牙利算法[14]分别把这些检测出的候选对象安排到不同的目标轨迹中,就得到了当前帧t的目标轨迹Tt,匈牙利算法所使用的代价矩阵定义如下:

为了减少目标遮挡和目标形变的带来的数据关联错误问题,我们把数据关联分成两层进行,不同层的数据关联采用不同的相似度函数。在第一层关联我们只考虑外观相似度高于阈值Ta的匹配项,外观相似度高说明目标没有发生较大的形变或者被其他物体遮挡,因此,第一层关联的相似度函数的外观影响因子ω1设为1,运动影响因子ω2设为0。第二层数据关联的匹配对的外观相似度较低,说明目标发生了外观变化或者遭遇遮挡。此时单纯依靠外观特征不能做出正确的匹配决策,而需要引入运动特征来辅助判断,经实验验证把外观影响因子ω1设为0.4运动影响因子ω2设为0.6能达到较好的效果。本文整体框架的工作流程如下所示:

输入:当前帧的检测框:Dt={d1,d2,...,dn},上一帧的目标跟踪轨迹:Tt-1={tr1,tr2,...,trm}

1:使用神经网络提取检测框的卷积特征

2:使用卡尔曼滤波预测跟踪目标的运动状态

3:根据目标的卷积特征和运动特征计算相似度矩阵At=Affinity(Dt,Tt-1)

4:根据外观相似度阈值Ta把相似度矩阵分为高相似度矩阵和低相似度矩阵

表1 该跟踪程序在MOT16数据集上的性能估计

8:根据时间阈值Tt保留或者删除匹配失败的目标跟踪轨迹

输出:根据6,7,8步得到当前帧的目标跟踪轨迹Tt={tr1,tr2,...,trk}。

3 实验结果评估

该多目标跟踪系统在MOT16[15]公开的数据集上进行实验估计,该数据集包含静止的和运动的相机镜头下的监控场景,适用于多目标跟踪的分析。实验结果如表1所示,评价指标解释如下:MOTA(↑)估计多目标跟踪的精确度,MT(↑)表示跟踪轨迹和真实轨迹至少有80%重叠的概率,ML(↓)表示跟踪轨迹和真实轨迹最多有20%重叠的概率,FP(↓)表示误报的次数,FN(↓)表示漏检的次数,IDS(↓)表示目标ID转变的次数,Frag(↓)表示轨迹断裂的次数。(↑)说明该项指标越大越好,(↓)说明该项指标越小越好。

图1 MOT16公开数据集的MOT16-06测试视频图像序列

其中JPDA_m是连接概率数据关联跟踪方法,MHT_DAM是多假设跟踪方法,SORTwHPD16是sort跟踪方法,从表1中可以看出本文提出的多目标跟踪系统在MOT16数据集上的表现效果要远远高于上述跟踪方法。

4 程序运行效果

该程序运行的效果如图1所示,分别展示了跟踪程序在视频序列第55帧,第75帧以及第95帧的运行结果。

5 结语

本文提出了一种分层的数据关联方法用于多目标跟踪框架,并结合了卷积神经网络的深度外观特征和跟踪目标本身的运动信息,在MOT16多目标跟踪公开数据集上取得了较好的结果,该程序的实现使用C++语言编写,并依赖于OpenCV视觉库和Caffe深度学习框架,该算法可用于解决实际监控场景中的目标跟踪问题,具有一定的实际意义。

参考文献:

[1]N.Dalal and B.Triggs.Histograms of Oriented Gradients for Human Detection.In Proc.CVPR,2005.

[2]P.F.Felzenszwalb,R.B.Girshick,D.McAllester,and D.Ra-manan.Object Detection with Discriminatively Trained Part Based Models.PAMI,32(9):1627-1645,2010.

[3]Ren,S.,He,K.,Girshick,R.B.,Sun,J.:Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks.In:NIPS(2015).

[4]J.Zhang,L.Lo Presti,S.Sclaroff.Online Multi-Person Tracking by Tracker Hierarchy.In Proceeding of the IEEE Conference on Advanced Video and Signal Based Surveillance(AVSS),2012.

[5]Z.Wu,J.Zhang,and M.Betke.Online Motion Agreement Tracking.In Proc.BMVC,2013.

[6]A.Bewley,G.Zongyuan,F.Ramos,and B.Upcroft.Simple online and Realtime Tracking.in ICIP,2016:3464-3468.

[7]F.Yu,W.Li,Q.Li,Y.Liu,X.Shi,J.Yan.POI:Multiple Object Tracking with High Performance Detection and Appearance Feature.In BMTT,SenseTime Group Limited,2016.

[8]T.E.Fortmann,Y.Bar-Shalom,and M.Scheffe.Sonar Tracking of Multiple Targets Using Joint Probabilistic Data Association.IEEE J.Ocean.Eng.,vol.8,no.3,pp.173-184,1983.

[9]S.H.Rezatofighi,A.Milan,Z.Zhang,Qi.Shi,An.Dick,I.Reid.Joint Probabilistic Data Association Revisited.in ICCV,2015:3047-3055.

[10]D.B.Reid.An Algorithm for Tracking Multiple Targets.IEEE Trans.Autom.Control,vol.24,no.6,pp.843-854,1979.

[11]C.Kim,F.Li,A.Ciptadi,J.M.Rehg.Multiple Hypothesis Tracking Revisited.inICCV,2015:4696-4704.

[12]B.Alexe,T.Deselaers,V.Ferrari.Measuring the Objectness of Image Windows.IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI),2012.

[13]L.Zheng,L.Shen,L.Tian,S.Wang,J.Wang,Q.Tian.Scalable Person Re-identification:A Benchmark.In CVPR,2015.

[14]J.Munkres.Algorithms for the Assignment and Transportation Problems.J.of the Society of Industrial and Applied Mathematics,5(1):32-38,March 1957.

[15]A.Milan,L.Leal-Taixé,I.Reid,S.Roth,K.Schindler.MOT16:A benchmark for Multi-Object Tracking.CoRR,2016.

猜你喜欢

外观轨迹关联
外观动作自适应目标跟踪方法
鸟类能识别植物的外观等
A Shopping Story to Remember
解析几何中的轨迹方程的常用求法
不论外观还是声音,它都很美 Yamaha(雅马哈)A-S3200合并功放
轨迹
轨迹
“一带一路”递进,关联民生更紧
奇趣搭配
智趣