复杂背景下基于自适应模板更新的目标跟踪算法研究

2020-11-09邓惠俊

安阳师范学院学报 2020年5期

韩锐，邓惠俊，徐静

(万博科技职业学院智能信息学院，安徽合肥 230031)

0 引言

计算机视觉技术使目标自动化与高精度跟踪成为现实，目标跟踪技术广泛应用于交通运输控制、军事信息侦查、物业人员管理等各个领域。目标跟踪主要是利用模板对目标特征进行匹配，此过程中模板的自适应模板更新尤为关键[1]。目标在运动过程中、外物干扰下导致跟踪环境复杂，本文针对复杂背景下的目标跟踪问题研究一种新的自适应模板更新算法，此算法优势是不仅对模板进行自适应更新，并且对目标模型进行相应更新，最大限度地匹配模板与跟踪目标。

1 复杂背景下目标跟踪的自适应模板更新算法

1.1 基于卷积神经网络模型的目标特征提取

基于自适应模板更新策略跟踪复杂背景下目标对象，首要步骤是要获取目标的特征信息，将这些特征信息作为模板，采用特定的策略更新模板以适应目标的变化情况，达到高精度实时跟踪目标对象的目的[2]。以往HOG特征提取、SIFT特征提取方法虽然取得了显著的图像特征提取成效，但是和自动学习模式的特征提取方法相比，这两种方法的目标跟踪范围受限，难以高质量完成动态、复杂环境下目标的特征提取工作。本文引入深度学习算法理论构建卷积神经网络分类模型，对目标对象特征进行分类操作，完成跟踪目标的特征提取，将特征作为目标跟踪的模板样本[3]。

构建卷积神经网络模型过程中要明确，空间信息的自属性随着网络层次的深入而增强，图像中目标识别的误差越大。综合前人的实践研究成果以及多次的实验验证，确定构建一个包含3个卷积结构的特征分类模型，见图1。其中，卷积层、修正线性单元、池化层是一个卷积结构的基本构成。

图1 卷积神经网络特征分类模型

具体而言，此模型包含12个层次，除三个结构中的9个层次以外，还包括输入层、全连接层、输出层。模型输入层中，定义输入的初始目标图像为H，卷积神经网络的第i层特征图定义为Gi，则特征图的描述形式如公式(1)所示：

Gi=f(Gi-1⊗Wi+φi)

(1)

公式中，当i取值为0时，则有G0=H。⊗表示卷积操作，第i层卷积核的权值向量用W描述，φi表示第i层偏移向量。在卷积神经网络模型中，特征图输出由修正线性单元中的ReLU激活函数完成。

卷积神经网络的三个结构中，卷积层卷积核的数量有所差异，依次为32个、64个、128个；相应的卷积大小有所不同，依次为：6×6大小、4×4大小、3×3大小。模型中修正线性单元设置的目的是提高模型解决复杂跟踪问题的能力，此单元增加了ReLU激活函数，变相地为模型增加非线性因素[4]。

1.2 复杂背景下模板自适应更新策略

模板自适应更新策略设计方案中，需要引入一个变量作为模板更新的准则，因此定义μ表示模板匹配测量值，以模板匹配测量值为依据完成目标跟踪与模板自适应更新。当模板与目标匹配度越匹配，μ值越小[5]。同时定义μ1、μ2两个阈值作为模板匹配测量值的对比参数，辅助完成模板自适应更新过程，具体更新过程分为三种情况：

情况1：如果μ不大于μ1，表明在复杂背景影响下目标对象形变微弱，可忽略不计，并基于公式(2)重新计算模板形式：

Z1=Z2

(2)

其中，新的更新模板与匹配后的最佳模板分别采用Z1、Z2表示。

情况2：如果μ位于μ1、μ2之间，那么证明复杂背景中的光线因素对目标造成不利影响，目标对象特征提取的轮廓外观、灰度分布受到干扰，需要基于公式(3)重新计算模板形式：

Z1=αT+(1-α)Z2

(3)

其中，Z1、Z2含义同公式(2)，此刻帧的模板以及模板权重占比分别采用T、α描述。

情况3：如果μ不小于μ2，表明在复杂背景对目标对象遮挡较为严重，需要终止任何方式对模板的更新计算，此刻目标位置需要通过高性能算法预测的方式得到。由于目标遮挡时长具有短暂性，这种预估目标位置的方法较为可靠。当μ小于μ2时，跟踪对象完全展现，可采用情况1与情况2中的模板更新方法重新计算模板形式。

基于上述三种不同情形，根据模板匹配测量值与阈值间的关系判断，可以采用差异性模板计算方法，完成复杂背景下目标跟踪的模板自适应更新。

1.3 目标模型自适应更新

目标运动过程中会受到背光环境、障碍物遮蔽、目标移动变换等因素的干扰形成复杂的目标跟踪环境，增加目标跟踪的难度[6]。为了适应复杂环境中目标跟踪状况，不仅要高精度提取目标特征、自适应更新模板，而且还要适当改善目标模型的适应性能，本节将对目标模型进行更新，提出一种效果更优的目标模型更新方法以匹配目标自身的变化。

首先要明确统一的目标模型如何影响目标跟踪效果：复杂背景中存在不同程度的光线、姿态、尺度等因素变化，统一目标模型描述的目标外观缺乏对光线、姿态、尺度等因素的针对性表达，所以呈现的目标模型误差较大；除了上述外部环境因素对目标模型的不利干扰，目标自身运动也会在一定程度上影响目标外观。上述两种情况将最终导致跟踪的目标结果发生偏差，本次研究采用公式(4)描述的方法更新目标模型状态：

Te1=(1-κ)×TeP+κeμ

(4)

公式中，卷积神经网络模型提取更新后的目标模型采用Te1表示，上一帧卷积神经网络模型提取的目标模型采用Tep表示，此刻帧的卷积神经网络模型提取的目标模型则采用Teu表示。公式(4)中的关键参数κ，处于区间(0,1)，当新目标模型依赖于此刻帧目标模型时，κ趋近于1；当新目标模型依赖于上一帧目标模型时，κ趋近于0。

2 实验分析

本次实验使用3个视频作为目标跟踪的实验样本，视频中包括光线明暗变化、外物遮挡、姿态突变等各种复杂的跟踪背景环境。为了突出本文算法跟踪目标的有效性与优越性，引用目标跟踪领域使用频率较高的图像感知压缩跟踪算法、尺度自适应融合跟踪算法作为对比算法，同步展开目标跟踪测试。具体实验环境设计如下：以 Matlab 2016a 作为仿真实验平台，以Intel (R)Core(TM) i5-7500CPU @3.4 GHz、内存 8.00 GB作为计算机硬件环境。本文算法α、μ1、μ2取值分别为0.65、3、6，参数κ的取值为0.6。

2.1 跟踪效果对比

采用三种算法跟踪3个类型视频中的人物目标，跟踪结果如图2～图4所示，采用白色虚线框表示算法跟踪人物的结果。

图2 视频1跟踪结果

图3 视频2跟踪结果

图4 视频3跟踪结果

图2所示图像中光线较暗，一定程度上遮挡了跟踪目标的面部信息，图像感知压缩跟踪算法能够跟踪得到完整的人脸信息，效果较优，但是和本文算法跟踪的结果相比，图像感知压缩跟踪算法跟踪结果较为宽泛，人物的头发信息也被规划到识别结果中；相比之下，本文算法跟踪的人脸结果较为精准。而尺度自适应融合跟踪算法跟踪结果偏离了正常的人脸范围，倾向于将光线明亮处作为识别与跟踪结果，跟踪误差较大。

图3所示图像中的人物运动幅度较大，处于行进当中，为目标跟踪造成了一定困难，三种算法跟踪结果相比之下，本文跟踪的人脸信息更为精准，能够随着人物行为的变化识别出人脸五官信息，并没有将头发、外部景物信息归入跟踪结果当中。图4所示图像的人脸有正脸和侧脸两种，图像感知压缩跟踪算法、尺度自适应融合跟踪算法跟踪结果存在同样的劣势，前者识别范围较大，后者跟踪结果偏向于光线较亮处。只有本文算法跟踪的人脸信息偏差小，且能展现人脸的主要内容，符合目标跟踪的精度要求。

2.2 跟踪性能分析

为了验证三种算法跟踪目标的性能优劣，引入“中心位置误差”变量作为评价标准。以30个视频情境为样本进行目标跟踪测试，以人为测量的方式求取了跟踪目标中心点与实际值的误差，此为“中心位置误差”，通过对比此误差的大小判断各个算法跟踪效果与性能。三种算法的“中心位置误差”均值见表1。

表1 三种算法的“中心位置误差”统计

30幅视频图像跟踪情境下，图像感知压缩跟踪算法的“中心位置误差”达到10.2%、8.9%，尺度自适应融合跟踪算法的跟踪误差同样高达7.8%、6.4%，相比之下本文算法的跟踪误差仅为2.1%、1.8%，具有显著的目标跟踪精度优势。

3 结论

本文提出的目标跟踪自适应模板更新算法取得了优异的测试成绩，证明了此算法用于复杂背景目标跟踪的可行性与有效性。本算法表现优异主要是因为不仅对模板进行自适应更新，而且考虑到统一目标模型对目标特征描述的弊端，并对目标模型进行相应更新，最大程度地匹配模板与跟踪目标，减少了目标跟踪的误差。此外，传统HOG特征提取、SIFT特征提取方法应用受限，难以处理复杂背景中的特征提取工作，基于卷积神经网络提取目标特征方法以学习训练的方式解决了此项难题，为模板与目标匹配创造有利条件。