APP下载

基于卷积网络特征的逆向稀疏建模的目标跟踪

2018-04-18孙文静朱文球王业祥刘少林

计算机应用与软件 2018年3期
关键词:鲁棒性逆向粒子

孙文静 朱文球 王业祥 刘少林

(湖南工业大学计算机学院 湖南 株洲 412007)

0 引 言

目标跟踪是计算机视觉领域的一个非常重要的突破,也是许多研究学者现在的主要研究方向。目前,目标跟踪已经在智能监控、智能交通、人机交互、医学图像等方面得到广泛应用。目标跟踪问题可以被理解为在一个场景中估计目标的运动轨迹,然而在跟踪过程中,目标可能会发生遮挡、尺度、形状等变化,对于场景环境,如光照变化、噪声、复杂背景等也会影响目标跟踪的鲁棒性和准确性。

在传统的目标跟踪方法中,大多采用颜色、纹理、HOG、Harr、SIFT、SURF等单一特征进行目标建模,或者使用多种特征融合进行目标建模,从而使提取的目标特征更具有表达能力、抗变性和可区分性。针对目标表观变化和遮挡问题,在文献[1-2]中又引入了分块思想。虽然基于传统特征的目标跟踪方法已取得一定的成绩,但是以上特征都是人工设计,有时只能适用某一特定目标的跟踪,如Harr特征适用于人脸检测,HOG特征适用于行人检测;其次,只提取目标的一种或几种低层特征,并不能较全面地表示目标的特性;再次,如提取SIFT特征、多种融合特征,计算比较复杂,在一定程度上会降低目标跟踪的实时性。2006年,Hinton等[3]的突破性进展表明:多层神经网络模型有很强的特征学习能力,深度学习模型学习到的特征数据对原始数据有更本质的代表性。近年来深度学习已被广泛地应用到语音识别、图像识别和自然语言处理领域,通过神经网络能够从数据中自动学习更抽象、更丰富、表达能力更强的高层特征。2013年,Wang等[4]把深度学习成功应用到了目标跟踪中,并取得较好的成绩。其后,Wang等[5]通过分析低层网络特征包含更多目标细节,高层网络特征偏向目标整体语义信息的特点,利用全卷积网络(VGG-16)提取的高低层特征实现了目标跟踪 ,在一定程度上解决了目标漂移问题,同时对目标本身的形变具有更加鲁棒的效果。针对目标与背景出现角色转换的问题,Nam等[6]提出了MDNet。Cui等[7]利用多向神经网络来建模和挖掘对整体跟踪有用的可靠目标部分,最终解决预测误差累计和传播导致的跟踪漂移问题。因此,本文也将采用卷积网络实现特征提取。同时受到签名认证连体网络[8]的启发,并且在文献[9-10]中,也都采用了类似的网络结构,在人脸检测与图片相似度判别方面有一定的优势。基于这种思想,本文的网络结构也将使用连体网络,一个用于正样本的特征提取,另一个用于视频帧的特征提取。在文献[11-13]中,采用正向稀疏约束选取候选目标,虽然提高了性能,大量的正负模板增加了计算量。本文加入逆向稀疏建模思想,对候选样本进行选择,减少了模板数量,从而实现了较为鲁棒的目标跟踪。

1 相关内容

1.1 粒子滤波理论

在视觉目标跟踪中,最常采用例子滤波跟踪框架预测下一帧目标和更新目标位置。设xt表示t时刻的目标状态,yt表示t时刻的视频帧,y1:t表示初始1~t时刻所有的视频帧。目标跟踪的含义是利用直到当前时刻所有视频帧估计出当前时刻目标状态的后验分布,即p(xt|y1:t)。粒子滤波框架主要包含预测和更新两步:

1) 预测阶段:利用上一时刻视频帧的状态对当前时刻目标状态进行估计:

(1)

式中:p(xt|xt-1)描述了目标状态在相邻时刻之间的转移,称为转移分布。

2) 更新阶段:利用yt对后验分布p(xt|y1:t)进行更新:

(2)

式中:p(yt|xt)代表当前给定目标状态时的概率,成为似然分布。

(3)

1.2 稀疏表示理论

设模板集合T={ti∈Rd×1},i=1,2,…,m,d表示模板图像的特征维数,m表示模板个数(包含正负模板)。在目标跟踪过程中,粒子滤波算法会产生许多粒子,也就是候选样本集Y={yj∈Rd×1},j=1,2,…,n,n表示粒子个数。正向稀疏表示思想就是用模板集合T中的几个模板来线性表示每一个候选样本yj,即yj=Tα。为了保证α的稀疏性,通过添加稀疏约束条件进行限制,即求解如下表达式:

(4)

式中:‖·‖2、‖·‖1分别表示L2范数和L1范数,μ是正则化参数,α是稀疏相关系数,表示所有模板与候选样本yj的相关性,系数值越大,相关性越大。

2 基于卷积网络特征的逆向稀疏建模

2.1 卷积网络与特征提取

本文采用五层卷积神经网络,在每一层卷积操作后通过非饱和的ReLU激活函数进行激活,在第一、第二层的激活后又添加了池化操作,具体网络结构如图1所示。网络输入图片可以是灰度图片,也可以是彩色图片,最终网络输出大小为6×6的256维的特征集。

图1 卷积网络结构

2.2 逆向稀疏建模

在粒子滤波跟踪算法[11-13]中,经常通过求解如下的L1范式最小化问题,对粒子进行非负稀疏约束表示,从而评估每个粒子的重要性。但是对于模板集除了需要包含正模板,还需要引入负模板,以此来避免跟踪目标漂移,并且大量的L1范式计算将会降低目标跟踪的时效性。

受到正向稀疏理论的启发,本文算法采用逆向稀疏思想判断候选样本与模板的相关性,即用候选样本稀疏表示模板,具体表示过程如图2所示。目标模板为要跟踪的目标(正模板),在候选样本集中也只有与目标相近的候选样本才和正模板有较大的相关性。因此上述逆向稀疏理论可转化为如式(5)的求解问题。相比正向稀疏表示,逆向稀疏表示每一帧也只需对一个模板进行求解,减少了大量计算。

(5)

图2 逆向稀疏建模示意图

经过卷积网络处理后输出的特征是高维的,为了简化计算,将模板和候选样本集平铺成矩阵再进行稀疏约束优化求解。

2.3 最佳粒子选择

上述逆向稀疏求解将得到每种特征对应的稀疏系数,那么模板的重建残差为:

(6)

(7)

2.4 目标模板更新

在跟踪过程中,目标会出现姿态、尺寸、遮挡等变化,如果模板保持不变,会出现目标漂移或者丢失的现象,所以很有必要采用某种模板更新策略。对于模板更新太过频繁而导致累积误差造成的跟踪漂移,Mei等[14]根据候选样本与模板的相似性更新模板;Wei等[15]在此基础上,对负模板更新加以距离限制,即远离目标区域8像素距离;Zhuang等[11]利用欧式距离来判别是否更新正模板。

本文算法采用模板重建残差来判断是否更新模板。在上一节中得到每一维特征的重建残差,对应特征重建残差向量为E=[e1,e2,…,e256],如果误差小于一定阈值θ,则用最佳候选粒子对应的特征进行替换;否则保持不变。由于模板特征维数高,在不断更新的过程中,既可能保留了之前视频帧的目标特征,也可包含最近视频帧的特征,对目标的本身变化具有一定的鲁棒性。

2.5 算法流程

1) 输入:当前帧:Ft

2) 初始化,将第一帧的粒子集和手动标注的目标调整为127×127大小图片后送入卷积网络,进行特征提取,其中目标特征集直接作为正模板。

4) 利用式(5)进行对特征平铺矩阵求解稀疏系数矩阵β。

5) 利用残差式(6)评估目标重建误差。

6) 通过最大后验概率和式(7)估计出最佳粒子。

7) 模板更新:如果模板每一维特征重建误差小于一定阈值θ,则用最佳粒子对应维数的特征进行替换;否则,保持不变。

8) 保留当前帧的目标位置和更新后的目标模板。

9) 循环3~8操作,直到视频结束。

10) 输出整个视频的目标跟踪结果。

3 实验结果与分析

实验中以MATLAB 2014b为编程工具,在Ubunhtu 16.04操作系统环境下进行实验,为了加速计算,本机配置了独立显卡(Quadro K1200,显存256 MB)。本文算法中的参数λ值为0.25,θ为0.6。测试视频数据集来源于http://cvlab.hanyang.ac.kr/tracker_benchmark/datasets.html,主要选取了包含复杂背景、遮挡、快速运动和光线变化环境因素的数据集:Skating1、Freeman4、Faceocc1、MotorRolling、Car4、Shaking。实验分析部分采用其他5种跟踪算法与本文算法在定性和定量两个标准上评估。对比方法包括基于核的在线结构输出预测的Struck[16]算法、基于增强分类器的OAB[17]算法、基于区域积分直方图的Frag[18]算法、采用加速梯度方法的最小化L1范数的L1APG[19]跟踪算法,以及跟踪学习检测的TLD[20]算法。

3.1 定性分析

图3、图4、图5分别展示了5种跟踪算法与本文算法在复杂背景、遮挡、快速运动和光线变化环境下的跟踪对比。

图3 光线变化因素

图4 速度变化因素

图5 复杂背景和遮挡因素

1) 光线变化。图3主要展示了车辆经过铁桥时光线从亮到暗再从暗到亮的跟踪效果。下图182帧和187帧是亮度从量到暗的跟踪效果,Frag算法发生了漂移,后续帧直接丢失目标。218帧和236帧展现了从暗到亮的跟踪效果,OAB、Struck、L1APG均出现漂移。虽然TLD算法也能够跟踪到目标,但相较于本文算法,精确度不高。

2) 目标快速运动。如图4所示,开始跟踪效果都比较好,在28帧目标开始下降,在接下来经过35帧、39帧时,OAB算法一直都能捕捉到目标,相对于另外5种方法,本文算法的性能较好。接下来随着目标的快速前进和上升,本文算法也能够取得较好的跟踪效果。在88帧目标到达最高点时,只有OAB和本文算法依然可跟踪到目标。

3) 目标在复杂背景情况下被遮挡。如图5所示,在第53帧时,由于复杂背景的干扰,OAB和Frag算法已丢失跟踪目标,TLD算法发生了目标漂移,Struck、L1APG和本文算法表现良好。在第82帧目标发生部分遮挡时,Struck和TLD算法也出现了丢失目标的现象,本文算法依然能够捕捉到跟踪目标。不过在240帧时,本文算法也出现了跟踪位置轻微偏离,但当目标完全显露时,跟踪位置就很快回归到了目标位置。

3.2 定量分析

为了更具体地衡量跟踪算法的性能,本节既采用中心位置误差和重叠率对6种跟踪方法进行定量分析,又采用在时间鲁棒性评估(TRE)和空间鲁棒性评估(SRE)测试跟踪器的鲁棒性。

1) 中心误差为各跟踪算法估计的中心位置与手工标注的真实目标中心的欧氏距离,距离越小,表明跟踪效果越好。重叠率为跟踪框区域和真实目标区域的交集比上它们的并集,其值越大,则说明跟踪结果与目标真实位置越接近。表1和表2分别描述了平均中心误差和平均中心率。从结果对比发现,本文算法在以上两种衡量标准下整体优于其他5种跟踪算法,进一步表明本文算法的跟踪性能较好。

表1 6种跟踪算法的平均重叠率

表2 6种跟踪算法的平均中心定位误差(像素个数)

2) 时间鲁棒性评估是从不同视频帧开始跟踪,统计其跟踪结果的重叠率和中心误差率。空间鲁棒性评估是通过偏移或缩放目标真实位置边框来抽取初始化的边界框,然后对跟踪结果进行评估。从图6和图7的曲线可以看出,本文算法在不同情况下均表现出较好的跟踪效果。

图6 时间鲁棒性评估曲线图

图7 空间鲁棒性评估曲线

4 结 语

在目标跟踪过程中,抗变性的目标表示对跟踪效果有很大的影响,本文采用卷积神经网络代替传统的特征提取方法,利用高层特征的语义性、抽象性来提高目标表示的抗变性。同时,引入逆向稀疏思想,只用一个正模板进行L1范式稀疏约束求解,直接选取最佳候选样本。实验结果表明,在光线变化、目标快速运动、复杂背景以及遮挡情况下,相比于其他算法,本文算法的跟踪效果较好。

[1] 刘振兴,范新南,李敏.融合SURF特征的改进自适应分块目标跟踪算法[J].计算机工程与设计,2016,37(2):454-459.

[2] 鲍华,赵宇宙,张陈斌,等.基于自适应分块表观模型的视觉目标跟踪[J].控制与决策,2015,31(3):448-452.

[3] Hinton G E,Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.

[4] Wang N, Yeung D Y. Learning a deep compact image representation for visual tracking[C]//International Conference on Neural Information Processing Systems. Curran Associates Inc. 2013:809-817.

[5] Wang L, Ouyang W, Wang X, et al. Visual Tracking with Fully Convolutional Networks[C]//IEEE International Conference on Computer Vision. IEEE, 2016:3119-3127.

[6] Nam H, Han B. Learning Multi-domain Convolutional Neural Networks for Visual Tracking[C]//Computer Vision and Pattern Recognition. IEEE, 2016:4293-4302.

[7] Cui Z,Xiao S,Feng J,et al.Recurrently target-attending tracking[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2016:1449-1458.

[8] Bromley J, Guyon I, Lecun Y, et al. Signature verification using a siamese time delay neural network[C]//Advances in Neural Information Processing Systems.DBLP,1993:737-744.

[9] Taigman Y, Yang M, Ranzato M, et al. DeepFace: Closing the gap to human-level performance in face verification[C]//IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2014:1701-1708.

[10] Zagoruyko S, Komodakis N. Learning to compare image patches via convolutional neural networks[C]//Computer Vision and Pattern Recognition. IEEE, 2015:4353-4361.

[11] Zhuang B, Lu H, Xiao Z, et al. Visual tracking via discriminative sparse similarity map[J]. IEEE Transactions on Image Processing, 2014, 23(4):1872-1881.

[12] Wang D, Lu H, Bo C. Online visual tracking via two view sparse representation[J]. IEEE Signal Processing Letters, 2014, 21(9):1031-1034.

[13] Wang D, Lu H, Xiao Z, et al. Inverse sparse tracker with a locally weighted distance metric[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2015, 24(9):2646-2657.

[14] Mei X, Ling H. Robust visual tracking using l(1) minimization[C]//IEEE, International Conference on Computer Vision. DBLP, 2009:1436-1443.

[15] Zhong W, Lu H C, Yang M H. Robust object tracking via sparsity-based collaborative model[C]//IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2012:1838-1845.

[16] Hare S, Saffari A, Torr P H S. Struck: Structured output tracking with kernels[C]//IEEE International Conference on Computer Vision. IEEE, 2011:263-270.

[17] Grabner H, Grabner M, Bischof H. Real-time tracking via on-line boosting[C]//British Machine Vision Conference 2006, Edinburgh, Uk, September. DBLP, 2006:47-56.

[18] Adam A, Rivlin E, Shimshoni I. Robust fragments-based tracking using the integral histogram[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2006:798-805.

[19] Bao C, Wu Y, Ling H, et al. Real time robust L1 tracker using accelerated proximal gradient approach[C]//Computer Vision and Pattern Recognition. IEEE, 2012:1830-1837.

[20] Kalal Z, Matas J, Mikolajczyk K. P-N learning: Bootstrapping binary classifiers by structural constraints[C]//Computer Vision and Pattern Recognition. IEEE, 2010:49-56.

猜你喜欢

鲁棒性逆向粒子
逆向而行
碘-125粒子调控微小RNA-193b-5p抑制胃癌的增殖和侵袭
武汉轨道交通重点车站识别及网络鲁棒性研究
基于膜计算粒子群优化的FastSLAM算法改进
逆向思维天地宽
荒漠绿洲区潜在生态网络增边优化鲁棒性分析
Conduit necrosis following esophagectomy:An up-to-date literature review
一种基于三维小波变换的鲁棒视频水印方案
基于鲁棒性改进理论的大面积航班延误治理分析
问:超对称是什么?