基于卷积神经网络的环视车位检测研究

2020-04-20杨科张效宇徐维庆

时代汽车 2020年4期

杨科　张效宇　徐维庆

摘要：针对车载平台有限的硬件资源，提出一种快速的卷积神经网络车位检测方法。以YOLOv3算法为基础，根据车位检测特定的应用场景，对模型的深层网络进行优化缩减，并采用MobileNet技术对网络中的卷积层进行加速，该模型在占用较小的存储资源前提下，能够快速有效地完成车位检测任务。实验结果表明，新模型大小为原先模型的1/12，检测速度比原先模型快1倍，而检测准确率与原模型相近。

关键词：卷积神经网络;车位检测;网络缩减;MobileNet

1 引言

随着中国经济的发展，汽车保有量逐年增加，人们出行得到极大改善，同时停车难问题也日益凸显。开展自动泊车技术研究，实现车辆自主车位识别和自动泊车功能，能够有效解决驾驶员停车难问题。泊车传感器分为超声波雷达和摄像头两大类，超声波检测相邻车辆外轮廓信息，摄像头检测地面车位线信息。两类传感器各有优点，可以单独用于有效车位的检测，或者对两类信息进行融合，然后用融合后的车位信息引导车辆泊车。本文研究摄像头车位检测技术，基于4个鱼眼摄像头的环视拼接图像，采用卷积神经网络检测方法，识别地面车位线位置和类别，用于车辆自动泊车。

传统的视觉检测方法使用Hough变换[1]、边缘信息LSD[2]等手段，提取图像中的车位线信息，这些方法具有较高的误检率，而且容易受到车辆阴影、光照变化、遮挡截断等情况影响。卷积神经网络检测方法[3-7]使用多类基础网络层，构建复杂网络模型，通过大量的标注数据训练，能够有效地克服传统方法的不足，适应多种复杂的自动泊车场景。本文考虑车载有限的计算资源，对现有的YOLOv3[7]模型进行改进，降低模型复杂度，提高检测算法实时性。针对车位线主要表现为边缘、线条等特征，保留YOLOv3模型浅层结构，优化缩减模型深层结构，另外使用MobileNet[8]技术对网络进行改造，进一步减少网络模型的参数量，降低对车载硬件资源的需求。最后仿真试验验证了该方法的有效性。

2 360环视系统

车载360环视系统由4个鱼眼摄像头和1个信号处理板组成。如图1所示，摄像头分别安装在前进气格栅、左后视镜、右后视镜、后备箱门。每个摄像头具有超大广角的视野范围，能够探测180度范围内的所有场景目标。4路摄像头信号经过传输线传送至处理板，并在处理板中完成相关的图像处理。

信号处理板主要实现鱼眼校正、透视变换、环视拼接等功能，输出一整幅完整的360环视鸟瞰图像。鱼眼校正[9]通过对摄像头进行标定，获取摄像头的内参和畸变系数，进而构建校正模型来消除鱼眼形变的影响。透视变换[10]通过设置多个参考点，计算原图到透视图的转换矩阵，将图像坐标系下的像素点转换到俯视平面坐标系。环视拼接[2]对两两相邻的摄像头俯视图像进行配准，并对重叠区域进行加权融合处理，将4个不同位置的透视图像拼成一个完整的环视图像。

3 检测算法研究

目标检测需要精确找到物体的位置，并确定物体的类别，当前主流的神经网络检测方法分为两步检测和单步检测两大类。两步检测是通过候选区域模块生成大量的可能包含待检测物体的潜在候选框，再用分类器判断每个候选框里是否包含物体，以及物体所属类别的置信度，如Fast-RCNN[3]、Faster-RCNN[4]等。单步检测将物体检测任务当作一个回归问题来处理，物体的区域预测和类别预测整合到单个神经网络模型中，使用一个神经网络预测物体的边界框位置和类别置信度，如YOLO[5]、SSD[6]等。两步检测方法先产生候选框再检测，具有较高的检测准确度，但运行速度较慢。单步检测方法采用单个神经网络将物体定位和物体分类统一起来，实现端到端的目标检测，在检测速度上具有优势，但检测准确度相对较差。另外，单步检测方法经过逐步迭代更新，新一代检测方法在保证检测速度的基础上，不断提升檢测准确度，文献[7]给出YOLOv3在检测准确度和检测速度方面都具有较好表现，为此本文选用YOLOv3作为基础网络，开展相应的性能改进研究。

3.1 YOLOv3算法原理

如图2所示，YOLOv3检测算法[7]包括特征提取、多尺度检测、非极大值抑制等模块，将一幅图像输入训练过的YOLOv3神经网络，将直接得到图像上所有物体的边界框位置和目标类别。具体过程如下所示：

步骤1，将一幅图像分成S×S个网格（grid cell），如果某个物体的中心落在这个网格中，则这个网格就负责预测该物体。每个网格要预测B个边界框，每个边界框包含5个信息（，，，，），和表示边界框的中心点位置，和表示边界框的宽和高，表示预测的边界框的准确度。为了提升模型训练的稳定性，对5个信息值进行归一化处理，具体的变换公式如下：

其中，、是单元网格相对于图像左上角的偏移量，、是边界框先验值的宽度和高度，是sigmoid函数，是表示网格内是否有物体，是预测边界框和真实标定框的交并比值。

步骤2，卷积神经网络特征提取。在原有的YOLOv2网络基础上，YOLOv3的特征提取网络包含53个卷积神经网络层，并在每个卷积层中添加批标准化（Batch Normalization）处理，用于提升网络的收敛性，同时消除对其它形式的正则化的依赖。YOLOv3借鉴残差网络（residual network）的做法，在卷积层之间设置直连层（shortcut），进一步保证53层深网络结构在训练时具有较好的收敛性。

步骤3，多尺度检测。YOLOv3使用步长为2的卷积层来进行降采样，特征提取网络经过5次降采样后，对网络8倍、16倍、32倍的降采样特征进行检测。为了网络同时学习深层和浅层特征，对32倍降采样特征进行2倍上采样，并与16倍降采样特征进行拼接，这样16倍降采样的特征增加，检测效果也提到提升。8倍降采样也进行相似的操作，特征信息得到扩充。

步骤4，非极大值抑制。通过计算检测框的相互重叠程度，并判断检测框的置信度，剔除相互重叠严重、置信度低的检测框，保留最优的检测结果。

在车辆泊车过程中，车身会对车位线产生部分遮挡，进而影响车位角点的检测效果，但是基于卷积神经网络的检测方法，能够有效克服该类问题的影响。如图8所示，使用本文的缩减+压缩网络仍能有效检测各个车位角点，其中右上角边界框是车身遮挡的检测结果。另外车辆阴影也会影响车位信息检测，图9是缩减+压缩网络的车位角点检测结果，其中右上角边界框是有车辆阴影的情况。

5 结语

本文基于经典的YOLOv3网络模型，针对车位检测这一特定应用场景，缩减优化网络模型的深层结构，并采用MobileNet技术对网络进行改造和加速。新的网络模型具备存储资源小、运算速度快、检测性能好等特性，在实车采集的360环视图像上取得良好的检测效果。通过本文的理论研究和仿真实验，对于后续的车载平台移植开发具有一定的探索意义。

参考文献：

[1]张悦旺.基于改进Hough变换的车位线识别方法[J].计算机工程与设计，2017，38（11）： 3046-3050.

[2]王晋疆，王鹏飞. 一种基于环视系统的车位检测方法[J]. 分析仪器，2019，1：71-77.

[3]Ross Girshick. Fast R-CNN[C]. IEEE International Conference on Computer Vision （ICCV），Santiago，2015： 1440-1448.

[4]Shaoqing Ren，Kaiming He，Ross Girshick，et al. Faster R-CNN： Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，2017，39（6）：1137-1149.

[5]田坤，李冠，赵卫东.基于YOLO和极限学习机的驾驶员安全带检测模型研究[J].计算机应用与软件，2019，36（11）： 196-201.

[6]Liu W，Anguelov D，Erhan D，et al. SSD： single shot multiBox detector[C].European Conference on Computer Vision，2016：21-37.

[7]Redmon J，Farhadi A. YOLOv3：an incremental improvement[J]. arXiv：1804.02767，2018.

[8]Andrew G. Howard，Menglong Zhu，Bo Chen，et al. MobileNets： Efficient Convolutional Neural Networks for Mobile Vision Applications [J]. arXiv： 1704.04861，2017.

[9]Zhengyou Zhang. A Flexible New Technique for Camera Calibration [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence 2000，22（11）：1330-1334.

[10]楊刚，臧春华，李仲年. 基于参考点配准法的全景泊车系统研究[J].传感器与微系统，2017，36（10）：41-44.

[11]Alex Krizhevsky，Ilya Sutskever，Geoffrey E. Hinton. ImageNet Classification with Deep Convolutional Neural Networks [C]. Proceedings of the Advances in Neural Information Processing Systems. South Lake Tahoe，USA. 2012： 1097-1105.