APP下载

卷积神经网络在车辆识别系统中的应用

2018-11-01

关键词:尺度卷积车辆

(安徽工业大学电气与信息工程学院,安徽马鞍山243032)

为规范工厂仓储管理,企业要求行人、车辆等按照规定的出入口进出,且货车通道不允许行人及其他车辆通过,利用摄像机传回图像实时检测与识别成为有效方案之一。基于视觉的目标识别方法一般采用各种人工设计的特征+分类器的方式,如使用方向梯度直方图(HoG)[1-2]、Haar[3-4]、SURF[5]等特征或其变体和组合,将设计特征输入到一个可训练分类器,如SVM[6-7]、AdaBoost[8]等,再通过有监督的训练方式获得最终识别结果。董天阳等[9]利用Haar特征+Adaboost分类器的方法对车辆进行识别,但这种方式通常训练比较复杂,算法的实时性也无法得到保证。李天剑等[10]尝试使用Densenet[11]+SSD(Single Shot-multibox Detector)的方法解决工业现场智能叉车对托盘的检测识别问题,这种方法省略了繁琐的特征筛选,简化了训练过程,在保证识别精度的同时也能较大提高算法的实时性。在此基础上,提出一种融合Darknet19[12]与SSD模型[13]的车辆识别模型用于工业厂区特定车辆的检测和识别。首先在Caffe框架下利用ImageNet[14]数据集对Darknet19网络进行预训练,然后用预训练后的网络替换SSD模型中的基础分类网络VGG16[15],并利用Pascal VOC[16]数据集对新网络进行训练,最后使用私有数据集对训练后的网络进行微调。

1 Darknet19模型

Darknet19是Redmon等[12]提出的一种网络模型,在VGG16的基础上引入1×1卷积、批归一化(Batch Normalization,BN),并在每一次池化操作后把通道数翻倍,使Darknet19模型在精度相对VGG16变化不大的情况下大幅度减小模型的参数量及浮点运算量。Darknet19网络模型结构与VGG16模型类似,主要差异在于Darknet在每组卷积核尺寸为3×3的卷积层中间添加一层卷积核尺寸为1×1的卷积层,且卷积核尺寸为1×1的卷积层通道数均为相邻卷积层通道数的1/2。Darknet19模型的具体结构如表1。

表1 Darknet19网络模型Tab.1 Network model of Darknet19

1.1 卷积运算

以二维图像及相应的二维卷积核进行卷积运算,卷积核包含两种尺寸,分别为3×3和1×1,如式(1)

其中:G(i,j)为卷积结果;I(i,j)为输入图像中第i行第j列的像素;H(q,n)为卷积核中第q行第n列的元素。

1.2 批归一化

批归一化的原理是将数据输入卷积层之前对数据进行归一化处理,为避免归一化卷积层学习到的特征受到影响,在归一化的基础上引入可学习参数γ,β对归一化后的数据进行比例缩放和位移。批归一化的前向传播与反向传播的流程如图1,图中实线为前向传播过程,虚线为反向传播过程。其中:x与y分别为批归一化操作的输入数据与输出数据;dx,dy分别为反向传播过程输出与输入的梯度;dγ,dβ分别为通过反向传播得到的可学习参数γ与β的梯度

图1 批归一化层前向/反向传播Fig.1 Forward/back propagation of BN layer

2 车辆检测卷积网络模型设计

构建的车辆检测卷积神经网络模型是一个融合Darknet19与SSD的回归检测模型。该模型设计的思路是在基础网络环节使用Darknet19模型中conv6_2之前的网络以代替SSD模型中的VGG16网络,在预测阶段,根据conv4_3,conv6_1,conv7_2,conv8_2,conv9_2及conv10_2卷积层得到的6种不同尺度的特征图预测物体边界框(Bounding Box)位置及相应的置信度。

2.1 边界框预测

为预测目标物体的边界框位置,使用回归的方法预测边界框的位置信息,包括边界框的几何中心坐标(cx,cy)及其长度(w)与高度(h)。其损失函数如式(2)。

2.2 置信度预测

对于每一个预选框,除需生成位置偏差估计以外,还需根据设定的网络节点对c+1个(c个类别和1个背景)类别分别计算置信度,用以判断该框所在位置包含目标的类别。其损失函数采用Softmax损失函数表示,如式(3)。

2.3 迭代损失函数

迭代损失函数与SSD中的相同,是预测的位置损失Lloc与置信度损失Lconf的加权和,如式(4)。

其中α为位置损失Lloc的权重系数,一般情况下令α=1。

2.4 预选框生成

使用不同尺度特征中的预选框对目标区域进行处理,而同一种尺度特征下又包含不同尺度的预选框,从而使预选框可覆盖输入图像中各种形状和大小的目标区域。每个特征图上,第b类预选框尺度计算如下式。

其中:Smin与Smax分别为设定所有尺度特征图中预选框的最大与最小比率,Smin=0.2,Smax=0.9;d为特征尺度的数量。

预选框的长宽比设为a,a∈{1,2,3,1/2,1/3},长宽比为1时,额外增加一个预选框,该框的尺度每一个预选框,宽、高、中心点计算如下式。

3 实验与结果分析

3.1 数据准备与标注

实验所用数据由厂房监控视频处理得到,将视频中的每帧图片单独提取,原始视频图像的分辨率为1 920×1 080,为缩短训练耗时,将图像缩小为原来的0.3倍作为最终样本,使用开源的图像标注工具LabelImg对生成的1 800张样本图像进行标注并生成Pascal VOC格式的xml标注文件。样本产生的标注图如图2。

图2 样本标注Fig.2 Sample labelling

3.2 训练结果分析

训练共分为3个阶段,首先在Caffe中预训练Darknet19网络;然后将训练好的模型与SSD模型结合,并使用Pascal VOC数据集调优;最后使用私有数据进行微调。

3.2.1 图像分类网络模型训练

Darknet19网络提出时是在Darknet中训练的,Caffe框架中无法直接使用Darknet训练出的网络参数,所以在Caffe环境中重新训练该网络。为更好地保护网络的神经元在训练过程中不会大面积坏死,将激活函数改为pReLU,在ImageNet Val测试集中获得了71.6%的准确率。

3.2.2 目标检测模型训练

在训练好的Darknet19模型参数基础上,使用PASCAL VOC 07+12(16 551张样本图像)进行训练,PASCAL VOC数据集中的目标物体相对较大,故将生成预选框的尺度范围设为20%~90%。各尺度特征层对应的预选框宽高比分别为{2,1/2},{2,3,1/2,1/3},{2,3,1/2,1/3},{2,3,1/2,1/3},{2,1/2}及{2,1/2}。将Darknet19网络中Maxpool5的参数由大小为2×2、步长为2改为大小为3×3、步长为1并增加一个像素的填充,然后删除conv6_3之后的网络,使用随机梯度下降法对该模型进行微调。为在预训练模型的基础上更好地训练新添加的网络,在将预训练模型中各层参数冻结的情况下,分别使用10-2与10-3的学习率各训练2×104次。对新添加的网络训练到一定程度后,再恢复预训练模型中各层参数学习更新的能力,并分别使用10-3,10-4和10-5的学习率各训练40 000,30 000,20 000次。实验所用的计算机CPU型号为Intel Core i7-6800K,GPU为GTX1080Ti。当预测框与标签框的重叠率>0.5时,在PASCAL VOC test2007(共4 952张样本图像)中的测试结果如表2。

表2 在Pascal VOC2007上的测试指标Tab.2 Test index on Pascal VOC2007

由表2可知:相比Faster R-CNN(VGG)[17]模型,本文模型在测试精度得到提升的同时大幅提高了检测帧率;相对于Densenet+SSD[10]及YOLO[18]模型,本文模型无论在检测精度还是在检测帧率方面均有大幅提高;相对于SSD300[13]模型,本文模型测试精度稍低,但由于基础网络的计算量得到大幅削减,检测帧率得到了有效提升;与YOLOv2 352×352[12]相比,本文模型测试精度与其相当,检测速度方面,在硬件性能较弱的情况下稍低于YOLOv2 352×352[12]。由此表明本文模型在保证检测精度的同时可有效提升检测的实时性,为后续在硬件性能较弱的情况下仍可有效应用奠定了基础。

使用私有数据集微调后,在测试集中得到的平均查准率为99.2%。经分析得知,导致最终平均查准率无法继续提升的原因主要是SSD模型对小目标不敏感。但在实际应用场景中,识别的目标是针对从货车通道通行的货车,因此对小目标不敏感不会对系统的应用造成影响,且在检测速度上较以往模型有较大提升,故本文模型能够满足工业厂房中对货运车辆识别的特定需求。图3为本模型在测试集中得到的部分识别结果,由图3可看出采用本文模型可准确对各类目标进行识别。

4 结 论

为解决工厂仓储环境中无人门禁系统识别出货运车辆的问题,通过采集真实场景大量图片并进行人工标注,构建相应私有数据集,提出一种融合Darknet19网络与SSD模型的车辆检测与识别模型。该模型结合了Darknet计算量小与SSD模型平均查准率较高的优点,成功实现了通过摄像机传回的图像实时识别出可放行的货车与不可放行的行人和其他车辆,避免了传统方案中需不断进行人工干预的问题。该方案已成功应用于某工业厂房货车通道中的车辆、行人与其他车辆的有效识别中。

图3 测试结果Fig.3 Results of tests

猜你喜欢

尺度卷积车辆
基于3D-Winograd的快速卷积算法设计及FPGA实现
财产的五大尺度和五重应对
卷积神经网络的分析与设计
从滤波器理解卷积
车辆
基于傅里叶域卷积表示的目标跟踪算法
冬天路滑 远离车辆
宇宙的尺度
提高车辆响应的转向辅助控制系统
9