结合在线学习的尺度自适应多目标跟踪算法

2018-08-17李建增

电光与控制 2018年8期

成悦，李建增

(陆军工程大学石家庄校区，石家庄 050003)

0 引言

近几年，计算机视觉越来越体现出它在人工智能方面的重要性，而视频目标跟踪技术也得到了较快的发展。航拍技术是近几年新兴的一种侦察手段，无论是在军用还是民用方面都有着极大的应用前景,其中，目标跟踪技术是必不可少的一个环节。目前，视频单目标跟踪技术已经较为完善，但多目标跟踪问题仍然面临很多困难与挑战。

多目标跟踪除了有单目标跟踪所面临的目标尺度变化、旋转变化、背景变化、相似目标干扰、遮挡干扰等问题外，还需要处理多个被跟踪目标之间的互动，如两个被跟踪目标距离过近、相互遮挡，目标候选点之间的匹配与关联等。

目标跟踪首先要对目标进行建模。为了建立目标的外观模型,前人应用了众多有效的方法：文献[1-2]主要运用了提取目标颜色特征作为跟踪依据的方法进行建模；文献[3]采用颜色直方图和LBP特征对大量人体分块样本进行离线训练；文献[4]利用角点采样的方法来实现相互遮挡的多目标分离问题；文献[5]利用光流进行数据关联；文献[6]采用光流法将轨迹片段链接成完整的轨迹。当前，HOG特征[7]、SURF特征[8-9]、ORB特征[10]等都是用于描述目标特点的比较成熟的方法。综合前人归纳的特征提取方式的优缺点，本文最终确定了采用颜色直方图和HOG特征相结合的方式进行特征提取。

基于在线学习的跟踪算法是近几年新兴的一种通过建立在线更新的分类器来实现目标跟踪的方法。传统的离线学习跟踪算法[11-12]就是在跟踪前用大量的目标外观特征对分类器进行训练，一旦开始跟踪，分类器就不再进行更新了，所以这类方法必须提前掌握大量的目标外观特征。由于目标特征在开始跟踪前并不容易获得，所以在线学习的方法越来越受到专家学者的青睐。文献[13]提出了在线Boosting跟踪算法，可以自主地选择特征池中的特征，取得了很好的效果；文献[14]提出了Adaboost级联分类器，把多个弱分类器级联变为强分类器，最终确定目标位置；文献[15]提出了效果较好的TLD(Tracking-Learning-Detection)算法[16-19]，把跟踪过程分为了3个模块，相互配合，达到了长期稳定跟踪目标的理想效果。除此之外，在线学习方法还有很多，采用SVM分类器是较为经典的一种方法，很多跟踪算法[20-22]都采用它进行正负样本的区分。

1 本文算法

图1为本文算法的流程图。

图1 本文多目标跟踪算法流程图

本文所提算法基于颜色信息和梯度信息对目标进行建模，并结合无损卡尔曼滤波(UKF)预测目标下一帧位置。同时，对每一帧新得到的正负样本进行半在线学习，无遮挡情况下不断更新分类器，使其具有长时间跟踪能力。为了提高跟踪精度，加入尺度自适应模块，使跟踪框随目标大小的变化而变化，确保每次分类器学习的准确度。此外，本文算法也加入了遮挡处理和数据关联机制，使遮挡条件下多目标跟踪具有更好的鲁棒性。

2 外观特征模型

在近几年流行的基于检测的跟踪方法中，提取目标的特征是目标跟踪的前提。本文采用以下两种特征相结合的方式进行目标的特征提取。

1) 颜色直方图。颜色是人眼区分物体之间运动状态最直观的方法，它对摄像机拍摄角度的变化、光照变化、轻微的遮挡等环境变化不敏感。图像颜色有多种表达方式，由于HSV颜色空间更符合人眼的分辨，故本文采用HSV空间对目标特征进行提取。

本文均匀地将色调H分成8份，饱和度S和亮度V各分成3份，并赋予相应的权值

(1)

式中：fc是目标颜色直方图特征向量；αH,αS,αV分别是H,S,V的相对权重，由它们确定直方图的维数。维数越多，计算复杂度越大；维数越少，丢失的有用信息就越多，更容易使目标丢失或误检漏检。

2) 梯度直方图(HOG特征)。梯度特征是目前计算机视觉领域很常用的一种描述图像局部纹理的特征。这个特征先计算图片某一个区域中不同方向上梯度的值，然后进行累积，得到直方图，就可以作为特征输入到分类器里面。本文利用滑窗将预测区域内每个block划分为4个cell，每个cell有9维特征向量，这样就得到了36维HOG特征向量fh。

每个目标提取以上两种特征进行目标的区分和关联，对于目标集I中每个目标i，检测响应ri的特征描述子为φ(fc,fh)，其中，HOG特征负责初次筛选待匹配目标，颜色直方图负责验证和处理两目标间距离较近时的候选目标与已有目标之间的数据关联。颜色相似度采用巴氏系数计算，假设两个经过归一化处理的离散颜色直方图的相应颜色概率分布分别为p={p(u)}u=1,…,m和q={q(u)}u=1,…,m，则巴氏系数可表示为

(2)

系数的取值范围为0～1，ρ值越大，表明相似性越高。如果两个图像相同，则相应的颜色直方图会完全一样，此时ρ=1。

3 在线学习与跟踪

由于本文应用背景需要根据第一帧手动选择要跟踪的目标，没有固定的模板，所以也无法提前训练好样本，因此就需要用到在线学习的方法。

3.1 初始化

视频在第一帧的时候要进行初始化，手动选择想要跟踪的一个或多个目标，同时提取第i个跟踪框里的目标特征作为正样本spi，形成正样本集{Sp}。设跟踪框的相关参数为Bi={xi,yi,wi,hi}，其中，(xi，yi)为跟踪框的左上角坐标，wi为宽，hi为高。定义结构C={B1,B2,…,B|I|}为当前帧所有目标外观模型得分的集合。

选好正样本后，在与任何一个正样本没有重合部分的位置，随机选取2倍于正样本数量的负样本Sni对分类器进行训练，负样本集为{Sn}，并赋予负样本负的权值，使分类器具备短距离小形变条件下跟踪多个目标的能力，为接下来对于后面几帧不断进行在线学习并更新分类器中的目标模型做好准备。

3.2 目标位置预测

位置预测通常采用卡尔曼滤波，但实际系统大多具有较多噪声，是非线性系统。因此，为了提升本文算法的跟踪精度，结合文献[23]中较为成熟的UKF算法对目标下一帧所在的大致位置进行预测，作为本文算法缩小搜索范围的辅助措施。

UKF滤波方法以UT(Unscented Transform)变换为基础，采用卡尔曼线性滤波框架，具体采样形式为确定性采样，相较PF滤波的随机性采样，避免了粒子退化的问题。UKF滤波采样点数较少，相比线性卡尔曼滤波，计算量虽有所上升，但影响不大。故本文算法通过较先进的UKF滤波估计目标下一帧可能出现的最优点，得到以最优点为中心，做长宽分别为跟踪框的2.5倍的搜索框，并在搜索框内进行局部滑窗搜索，确定下一帧跟踪框的确切位置，以此来缩小搜索范围，提高算法的速度和鲁棒性。

3.3 分类检测与在线学习

在线学习是能够使目标跟踪长期、稳定的一项重要手段，它通过不断地更新分类器来使跟踪具有无论目标的形态如何变化都能准确地分离出前景和背景的能力。支持向量机(SVM)是一个由分类超平面定义的判别分类器，它以其简洁有效的特点成为分类器中最为经典实用的一个。本文算法采用改进的SVM方法[3]进行目标分类与机器学习。

首先利用上一节得到的目标预测位置来确定搜索框位置，在搜索框内采用与上一帧跟踪框尺寸相同的滑窗进行检测。使用上一帧训练好的分类器对每一个滑窗进行分类，从而获取相应搜索框内目标的具体位置。

接下来需要对分类器进行更新。为了使结构SVM损失l能够达到最小化，首先更新参数

(3)

(4)

通过式(4)可以得到与最优框最相似但没有重叠部分的样本，即支持向量的难例。

用ω∈W代表结构SVM损失函数的梯度，即

▽ωl(W;M,C)=▽ωs(C*;M,W)-▽ωs(C;M,W)=Φ*-Φ

(5)

(6)

式中，Φ={φ1(fc,fh),…,φ|I|(fc,fh)}。最后，参数更新通过

(7)

来完成。式中,k是一个用于调节更新灵敏度的超参数。

3.4 尺度自适应

尺度变化是目标跟踪中经常遇到的一个困难，会使跟踪出现偏差甚至失败。本文算法为解决此问题，采用快速DSST算法[24]中所使用的一维相关滤波器对目标尺度变化进行有效且快速的判断，建立尺度金字塔并选择响应最大的尺度对跟踪框的宽ωi和高hi的值进行自适应调整，使跟踪框能够随着目标尺度的变化而变化。用于尺度评估的目标样本尺寸选择原则为

(8)

式中:ωi，hi分别为目标在前一帧的宽和高;a=1.02为尺度因子;S是尺度总级数，其大小决定着尺度变化范围，但也影响着算法速率,综合考虑二者取S=25。

首先在搜索范围内以当前帧目标位置为中心，采用HOG特征，提取t种不同尺度的样本f1,f2,…,ft，作为训练样本，采用高斯函数作为期望的滤波器响应g=[g1,g2,…,gt],通过建立最小化代价函数构造最优相关滤波器h

(9)

式中:d是HOG特征的总维度;l是其中某个维度;λ是正则项系数，为了防止上式分子为零，变换到频域如下

(10)

对上式分子分母同时以η为学习率进行更新，目标位置即为相关滤波器响应最大位置

(11)

为避免分类器更新过程中的误差积累，本文算法保留5帧前的目标区域与当前帧响应最大区域进行对比，若相似度小于某一个阈值表明目标被遮挡，则放弃本次分类器更新，直接以预测位置作为目标位置进行下一帧的处理，直到搜索框内出现与遮挡前目标相似度较高的区域，则判定为目标再次出现，继续进行分类器的更新。

4 遮挡处理与数据关联

多目标跟踪与单目标跟踪一样，也会存在着遮挡问题，但多目标不仅有外物对目标的遮挡，还存在着目标之间的交叉与遮挡。此外，还有下一帧检测到的目标与现有目标之间的相互关联问题需要解决，以防ID混乱，目标交换。由于自由模型跟踪器是逐帧搜索，并不完全依赖于目标检测，所以其ID转换的可能性比较小，数据关联的难度也比较低。

4.1 外物遮挡

如果一个或多个目标被外界物体遮挡，即在预测的搜索框内无法找到上一帧学习到的目标模板或相似度过低，且被遮挡目标与其他各目标的跟踪框之间的重叠度大于阈值B，则判定为外物遮挡。

此时的处理办法与单目标跟踪处理遮挡情况类似，采用UKF方法对目标下一帧位置进行预测，并假设预测点为目标真实位置进行下一帧的预测，直到在某一帧中重新出现目标。在遮挡条件下停止进行在线学习，防止更新到错误的模板。

此外，对于目标被遮挡20帧以上的长时间消失和在视野边缘消失的情况，判定其为目标消失，在目标集内删除其编号并释放空间。

4.2 相互遮挡

当有目标被遮挡且被遮挡的目标与其他目标的跟踪框之间的重叠度大于阈值B时，判定为多目标之间的相互交叉与遮挡。

多个目标交叉时，模板会出现混叠，此时分别对多个目标采用UKF方法预测目标下一帧位置并进行迭代，此时停止更新分类器，直到目标再次分开，采用HOG特征检测到完整的目标轮廓后提取其颜色信息，并以此与遮挡前的每个目标进行BH系数计算，选取最优值进行前后匹配并继续进行在线学习，如图2所示。

图2 遮挡后可能出现的情况分析及本文算法匹配示意图

5 实验与分析

实验是在VS2010开发平台上，利用VC++语言和开源代码Open CV联合编程实现的。硬件系统中，处理器为Inter(R)Core(TM) i5 CPU 3230M@2.6 GHz，内存为4.00 GB，硬盘为500 GB，操作系统为Windows7。实验视频选用2012年慕尼黑科技大学发布的应用在ECCV里面的数据集，分别对本文算法、SPOT法[3]和Possegger法[1]在尺度变换、遮挡干扰和形变条件下进行测试。

图3、图4和图5分别是本文算法在尺度变换、遮挡干扰和目标形变这3个条件下进行目标跟踪的效果图，跟踪框左上角为相应目标的编号，为防止混淆，图左上角为帧数,视频名称依次为弯道、天桥、行人、滑雪。经过多次实验，根据结果确定相关参数，取λ=0.01，k=1，B=0.3。

图4 遮挡干扰跟踪效果图Fig.4 Tracking effects under the condition of occlusion interference

本文采用的评价指标为准确度和精确度。准确度的计算为:跟踪器确定的跟踪框与实际跟踪框的重叠度超过50%判定为正确跟踪，一帧中全部目标都正确则该帧跟踪正确;正确跟踪的帧数占全部帧数的比例为准确度。精确度为预测中心与实际跟踪框中心的像素距离，如果一帧中有多个目标，则记录多个像素距离的平均值。表1所示数据为分别进行10次实验后取的平均值。表中：“↑”表示该参数越大效果越好；“↓”表示该参数越小效果越好。

图5 目标形变跟踪效果图

Fig.5 Tracking effects under the condition of target deformation

表1 3种算法在以上4个视频中的评价指标对比

由图3～图5和表1可知，本文算法可以跟踪车辆、行人以及任何在第一帧指定的物体，且对于尺度变换、遮挡干扰和目标形变等问题具有一定的处理能力。由于加入了尺度自适应模块,使得跟踪器在跟踪大小变化的目标时，跟踪框可以随着目标的变化而变化，从而提取到更准确的模板信息并进行不断的在线学习，更新分类器，最终达到一个较理想的跟踪效果。对于遮挡问题，无论是外物遮挡还是目标间相互遮挡，本文算法都可以在遮挡过程中对目标下一时刻位置进行预测，并在目标出现或者分离之后重新跟踪上目标。本文算法处理高速形变目标的效果不如以上两种情况下的实验效果，会出现跟踪框不稳定的现象，这是由于轮廓的快速变换使得权重不能精准地分配，但仍然能够根据颜色特征得到目标的大致位置并完成跟踪。

图6是SPOT法、Possegger法和本文算法在人脸定位方面的实验对比图，其中，红色为本文算法，蓝色为Possegger法[1]，黄色为SPOT法。表2为相应跟踪效果参数指标对比，针对单个人脸的跟踪较为直观地展示本文算法的跟踪效果。

图6 人脸视频实验效果对比图

SPOT法Possegger法本文算法准确度/%0.870.640.96精确度21.868.99.3速度/(帧·s-1)25.320.736.2

通过表1和表2可知，本文算法性能优于其他两种算法，而且在跟踪处理速度方面，本文算法对单目标跟踪的平均处理速度为36 帧/s，完全能够达到工程上对于实时性的要求。虽然其他两个算法在单目标跟踪的过程中同样可以满足实时性，但由表1可知，在同时跟踪多个目标的时候，其他两个算法速度较慢，视频播放中存在卡顿，而本文算法基本能够满足实时性，在视频流畅播放的情况下跟上目标。

6 小结

本文针对多目标跟踪过程中常见的尺度变化、遮挡等问题提出了一种在第一帧手动选取目标的自由模型多目标跟踪算法。本文算法的优点是：采用两种特征进行组合建模，模型更具有代表性；且改进了在线学习方法的机制，在保证鲁棒性的同时减少错跟的可能性；采用改进的相关滤波器进行尺度的自适应，确保每次分类器学习的准确度。此外，本文算法也加入了遮挡处理和数据关联机制，在目标被短暂遮挡的情况下具有一定的鲁棒性，而且重新出现后仍能保持编号继续跟踪。经过实验验证，本文算法达到了一个较理想的跟踪效果，在不牺牲实时性的条件下提高了跟踪的精度和成功率。