改进YOLOv5的影响驾乘舒适性目标检测

2024-02-21李澍祺刘堂友

软件导刊 2024年1期

李澍祺，刘堂友

（东华大学信息科学与技术学院，上海 201620）

0 引言

目前，自动驾驶领域目标检测算法的主要检测对象为行人、机动车、非机动车等，汽车在检测到潜在的碰撞可能性后通过前向碰撞预警系统（Forward Collision Warning，FCW）、行人碰撞预警系统（Pedestrian Collision Warning，PCW）等发出预警以告知驾驶员前方出现影响行车安全的目标需要避让，或者通过自动紧急刹（Autonomous Emergency Braking，AEB）等功能紧急制动以避免碰撞发生。此外，对车道线的检测可以通过车道保持系统（Lane Keeping Assist Systems，LKAS）使车辆不偏离行驶车道，对交通标志、信号灯等目标的检测同样是为了驾驶安全性。总而言之，目标检测在自动驾驶领域的应用主要是为了保证驾乘安全性。随着自动驾驶技术的逐渐成熟，舒适性成为这项技术中不可忽视的一个重要因素，而当前对于行驶过程中影响驾乘舒适性的目标检测研究尚较少。自动驾驶的核心目标是提高驾驶的安全性及效率，但如果这些过程中驾驶员与乘客无法感受到足够的舒适性，这项技术就很难得到广泛应用。

行驶过程中影响驾乘舒适性的目标主要有路面修缮不及时的坑洼、隆起的减速带、路面上的石块等，车辆若以较高速度驶过此类目标会造成较大颠簸，突然的变道也可能使驾乘人员感到不适甚至导致事故发生。Dhiman 等［1］提出一种基于深度学习和立体视觉的坑洼检测方法，取得不错的效果。针对路面减速带的检测，Chen 等［2］提出一种通过放置于车辆前方的摄像装置获得的图像检测减速带从而避免颠簸的方法，对此类影响驾乘舒适性的目标进行检测，可以方便汽车通过提前避让、减缓行车速度等方法提升驾乘舒适性，具有一定的工程应用价值。

自动驾驶领域目标检测所使用的传感器主要有相机、超声波雷达、激光雷达、毫米波雷达等。纯视觉算法相较于其他传感器实现目标检测功能成本更低且更接近人类驾驶，自动驾驶领域使用纯视觉算法的汽车企业主要有特斯拉、百度、极氪等。

在深度学习应用于目标检测领域之前，属于传统的目标检测时期。传统目标检测算法使用滑动窗口对待检测图像进行遍历，产生一定数量的候选区域，并对候选区域进行特征提取；之后，所提取到的特征由Adaboost 或支持向量机（Support Vector Ma-chine，SVM）等方法进行分类进而得到最终检测结果。该时期主要检测方法有：Viola Jones 检测器［3］、方向梯度直方图（Histogram of Oriented Gradient，HOG）［4］、基于形变部件模型（Deformable Part Model，DPM）［5］等。实际场景下，传统目标检测算法通常由于目标相对体积较小及光照、遮挡等问题而无法提取有效特征，经常出现漏检等情况，并且计算量大、速度慢、鲁棒性不强。

2012 年，ImageNet 竞赛中应用卷积神经网络的AlexNet［6］的表现超越了一众传统目标检测方法，卷积神经网络的广泛应用使得基于深度学习方法的目标检测算法迅速发展。深度学习时期，主流的目标检测算法有两类：①基于候选框推荐的双阶段（Two-stage）目标检测算法，代表作有R-CNN［7］、Faster R-CNN［8］、FPN［9］等；②基于回归的单阶段（One-stage）目标检测算法，如YOLO 系列［10］、SSD［11］系列等。双阶段目标检测算法先对待检测图像进行候选框提取，再对得到的候选框进行二次检测从而得到检测结果。双阶段目标检测算法检测精度高，但由于网络结构导致检测速度较慢，且由于检测思路导致其对于全局的学习能力较差。单阶段目标检测算法没有候选框推荐阶段，训练过程相较于双阶段算法更加简单，可以端到端地确定目标位置与类别，该类算法检测速度快，但检测精度比双阶段算法低。

对实际驾驶场景进行分析，影响驾乘舒适性的目标检测任务具有如下特点：①路面坑洼、砖块等目标体积较小，检测难度较大；②路面坑洼与路面背景非常相似，这也会给检测准确性带来影响；③由于外部环境影响，如天气变化、光照变化、场景遮挡等这些因素也会使得对此类目标检测的难度变大。为提高对此类目标的检测精度，本文提出了一种改进的YOLOv5 目标检测方法，在提升对此类目标检测精度的同时，保证了检测实时性［12］。

1 YOLOv5结构

YOLOv5 是一种单阶段目标检测算法，已广泛应用于学术界和工业界，其在车辆检测［13］、自动驾驶环境感知［14］领域的应用相对较多。YOLOv5 在YOLOv4［15］基础上作了许多改进，使得检测精度与速度得到了很大提升。其结构由输入端、Backbone、Neck、Head 4部分组成，如图1所示。

Fig.1 Construction of YOLOv5图1 YOLOv5结构

YOLOv5 在输入端增加了Mosaic 数据增强、自适应锚框、自适应图片缩放等操作。Mosaic 数据增强操作提高了小目标的检测效果并且提升了模型泛化性；自适应锚框有利于提升检测速度并缩短训练所需时间；自适应图片缩放可以使网络接受不同尺寸的图像并减少了图片信息丢失。

YOLOv5 新版本将Backbone 中的CSP 模块替换为C3模块，其结构如图2 所示。C3 相较于CSP 模块的不同之处是移除残差输出后的Conv 模块，Concat 操作后的标准卷积模块中的激活函数也由LeakyRelu 激活函数替换为SiLU 激活函数。相比于CSP 模块，C3 模块可以得到相似的表现却更加简单、轻量和快速。

Fig.2 Construction of C3 module图2 C3模块结构

Neck 中增加了FPN+PAN 结构，如图3 所示。引入此结构后，模型可以在融合不同尺度下目标语义特征的同时融合定位特征，从而提高了对目标的检测精度。

Fig.3 Construction of FPN+PAN图3 FPN+PAN结构

Head 部分对3 种不同尺度的特征图进行处理，针对得到的各尺度特征图在待检测图像上生成预测框，之后对预测框进行非极大值抑（Non-Maximum Suppression，NMS）处理，去除重复预测框，从而实现对小、中、大不同尺度目标的检测。

2 改进YOLOv5算法

2.1 C3模块改进

注意力机制如今广泛应用于目标检测任务中，通过模仿人类的感知特性，加入注意力机制的模型会有选择性地更加关注某些信息。坐标注意力（Coordinate Attention，CA）机制是一种综合考虑空间与通道维度的轻量化注意力机制［16］，可以轻松融合到不同的网络中，同时也保持了模型轻量化。CA 注意力结构如图4 所示，相较于同样综合考虑了通道维度和空间维度的卷积块注意力模块（Convolutional Block Attention Module，CBAM）［17］，CA 注意力机制解决了缺乏长距离关系提取能力的问题。

Fig.4 Construction of coordinate attention mechanism图4 CA注意力机制结构

CA 注意力机制主要包括以下两个步骤：

（1）信息嵌入操作。对于输入特征图，分别对特征图水平方向和垂直方向进行全局平均池化池化操作，得到两个嵌入后的信息特征图，此过程如图5所示。

Fig.5 Information embedding operation图5 信息嵌入操作

使用H×1 的池化核沿着水平方向即X 方向进行全局平均池化操作，H×W×C 的输入特征图经此得到H×1×C 的信息特征图，计算方式如式（1）所示。

使用1×W 的池化核沿着垂直方向即Y 方向进行全局平均池化操作，H×W×C 的输入特征图经此得到1×W×C 的信息特征图，计算方式如式（2）所示。

上述操作分别沿两个空间方向聚合特征，得到一对方向感知征图，允许注意力模块捕捉到沿着一个空间方向的长期依赖关系，并保存沿着另一个空间方向的精确位置信息，有助于网络更准确地定位感兴趣的目标。

（2）注意力生成操作。将上一步得到的两个方向特征图与沿空间维度拼接后进行卷积操作，再经过BatchNorm 和激活函数，随后沿空间维度进行分片后得到两个特征图，之后分别对两个特征图进行卷积操作和使用激活函数，得到两个注意力向量gh和gw，如式（3）所示。

其中，f为包含横向和纵向空间信息的中间特征，r 为缩减因子。其中：

将得到两个注意力向量gh与gw进行广播变换为C×H×W 维度，之后与经过残差操作的输入特征图Xc进行对应位置相乘操作后即可得到最后的注意力特征yc，如式（8）所示。

本文将CA 注意力机制引入C3 模块的BottleNeck 部分中得到C3CA 模块，BottleNeck 与修改后的CA-BottleNeck如图6 所示。修改后的模型在3×3 卷积后增加了CA 注意力模块。注意力机制的引入可以提升模型对重点信息的关注度。

Fig.6 Comparison of BottleNeck before and after modification图 6 BottleNeck修改前后对比

2.2 损失函数改进

YOLOv5 所使用的LossCIoU损失函数综合考虑了真实框与预测框之间重叠面积的IoU 损失、预测框与真实框中心位置之间归一化后的距离损失、预测框与真实框之间的宽高纵横比损失。LossCIoU计算如式（9）所示。

其中，b表示预测框，bgt表示真实框，ρ2(b，bgt)表示预测框与真实框中心点的欧氏距离，c表示能够同时包围预测框与真实框的最小闭包区域的对角线距离，β为平衡比例参数，其计算如式（10）所示，v表示预测框与真实框的宽与高之间的比例是否接近，其计算如式（11）所示。

LossCIoU在边界框损失函数中加入了作为惩罚项的宽高比，加速了预测框的回归收敛过程。可以看出，LossCIoU所使用的是真实框和预测框的高与宽的相对比例，并不是高和宽的值，根据v的定义，若预测框的宽与高和真实框的宽与高比例满足 {(w=kwgt，h=khgt)|k∈R+}时，LossCIoU中的相对比例惩罚项目无法起作用。预测框的宽与高相对于v偏导的计算如式（12）所示。

为了缓解上述问题，引入Lossα-IoU［18］加以改进。Lossα-IoU保留了原本LossCIoU损失函数的特性，同时可以帮助模型更加关注高IoU 目标。Lossα-CIoU在原有的LossCIoU基础上每一项增加了一个α指数，当α＞1 时，α增加了绝对损失量，提高了对不同层次目标的优化空间。改进后的Lossα-CIoU计算公式如式（13）所示。

2.3 卷积模块改进

Conv 模块作为YOLOv5 最基础的组件，由卷积、Batchnormalization、激活函数组成，具体结构如图7所示。

Fig.7 Construction of Conv module图7 Conv模块结构

其中，卷积操作用于提取特征；，Batchnormalization 操作用于调整数据使其重新分布，防止大量数据分布在饱和区造成梯度消失问题；激活函数用于引入非线性因素，提高模型拟合能力。

为了减少运算量并保留特征信息，本文提出了一种新的卷积模块，其结构如图8 所示，并将Neck 部分的Conv 模块替换为新的卷积模块。新的卷积模块包括以下步骤：

Fig.8 Construction of new conv module图8 新卷积模块结构

Step 1：用1×1 大小的卷积核对输入为W×H×C 的特征图进行通道压缩，获得大小为W×H×C/2 的特征图，这一步操作主要在减少通道数的基础上保留原有的特征信息。

Step2：用3×3 大小的卷积核对Step1 获得的降维后的特征图进行遍历，保持卷积操作后特征图的尺寸不变，获得大小为W×H×C/2 的特征图。这一步骤旨在保证提取通道数减半后保留原有信息特征图的更深层次特征。

Step3：将通道数压缩后的W×H×C/2 特征图与其经过卷积特征提取后的W×H×C/2 特征图沿着通道维度进项Contact 操作，获得大小为W×H×C 的特征图。此特征图既保留了卷积前特征图的信息，也获得了更深层的信息。由于使用降维后通道数减半的特征图参与了3×3 的卷积操作进行特征提取，故相比于直接使用3×3 卷积对原特征图进行特征提取，参数量和GFLOPS 都有了一定减少。

Step4：经由BN 层和SiLu 激活函数加入非线性特征后传递至下一层。

改进后的YOLOv5 算法结构如图9 所示，其中改进后的C3 模块称为C3CA 模块，新的卷积模块称为N-Conv 模块，将Backbone 部分的所有C3 模块替换为C3CA 模块，将Neck 部分中的Conv模块替换为N-Con 模块。

Fig.9 Comparison of YOLOv5 before and after modification图9 改进后的YOLOv5结构

3 实验结果分析

3.1 数据集获取与处理

本文实验所用数据集来源之一为Stellenbosch University 搜集并公开的路面坑洼数据集［19］，该数据集共有1 784张图片，包含可以影响到驾驶舒适性的路面坑洼目标。高速或低速行驶过减速带时也会给车辆带来较大颠簸，故本文采用的另一数据集为发表在Mendeley Data 的减速带数据集［20］，包括有标记的减速带和无标记的减速带共543 张图片。行驶过程中体积较大的石块、砖块等也会对驾驶舒适性带来影响，现有公开数据集暂无此类图片，因此在校园道路中使用Allied Vision 工业摄像机置于车顶模拟拍摄，共拍摄到含有砖块、石块等目标的图片共544 张。此外，拍摄不含有任何识别目标的负样本300 张，用于提高模型对目标与背景的分辨能力。通过工业相机获得的图片为单通道Bayer格式，经过插值算法获得RGB 彩色图像。

将图片进行汇总得到3 171 张图片，按照8∶1∶1 的比例分为数据集、验证集和测试集。使用Labelimg 标注工具进行标注，将有标记的减速带和无标记的减速带归为一类，统一标注为Speedbump，将路面石块与砖块归为一类，统一标注为Block、将路面坑洼标注为Pothole。部分数据集如图10所示。

Fig.10 Part of the dataset images图10 部分数据集图片

3.2 实验平台

本文实验的操作系统为Ubuntu 20.04.4 LTS，CPU 型号为Intel® Xeon® Platinum 8255C CPU @ 2.50 GHz，内存大小为43 GB。GPU 型号为NVIDIA RTX 3080，显存大小为10 GB。Pytorch 版本为1.11.0，使用CUDA11.3 配合CUDNN8.2.0 版本的神经网络加速库，训练时参数设置如表1所示。

Table 1 Training parameter settings表1 训练参数设置

3.3 实验结果

为了验证本文所提出的改进策略的有效性，对各改进策略进行评估，在数据集开展消融实验，以判断各改进部分是否有效。YOLOv5_1、YOLOv5_2、YOLOv5_3 依次在YOLOv5s 模型的基础上分别替换了引入注意力机制的C3模块、Lossα-CIoU、改进的卷积模块，“√”表示应用该策略，“-”表示未使用该策略。训练过程使用同一参数配置，各模型在测试集上的检测结果如表2 所示，各模型参数量、GFLOPs、检测速度如表3所示，训练过程如图11所示。

Table 2 Improved YOLOv5 ablation test表2 改进的YOLOv5消融实验

Table 3 Comparison of the parameters，calculation amount，and frame number of each model表3 各模型参数量、计算量、帧数比较

Fig.11 Comparison of mAP@0.5 value between YOLOv5 and improved model图11 YOLOv5与改进模型mAP@0.5值比较

可以看出，改进后的模型相比于原有模型在数据集上获得了更好的精度，在替换引入CA 注意力机制的C3 模块后mAP 提高了1.4 个百分点，相比于使用LossCIoU的YOLOv5_1 模型，替换为Lossα-CIoU的YOLOv5_2 模型mAP 提升了0.2 个百分点，在使用新的卷积模块后mAP 提高了0.5个百分点。分析认为，C3 模块在引入CA 注意力机制后增强了对障碍目标显著特征的提取能力，提高了对重点信息的关注度，表现在检测精度提升较为明显，损失函数的改进增加了对不同层次目标的优化空间，提高了回归精度，使得mAP 小幅提升，新的卷积模块的加入使得在保留原有特征信息的同时融合了深层抽象信息，使得mAP 有了一定程度的提升。从表3 可以看出，相比于原始的YOLOv5 算法或引入了CA 注意力和Lossα-CIoU的改进算法，使用了新的卷积模块后参数量和GFLOPs 都产生了下降。所提出的改进算法每秒可以处理70 张图片，保证了检测实时性，具有一定的工程价值。

部分实验结果如图12 所示，从第一幅待检测图片可以看出，相较于原始YOLOv5 算法，改进后的算法检测到了距离更远的坑洼，有利于驾驶员或自动驾驶系统更早作出避让动作以避免颠簸发生；第二行待检测图片可以看出，改进后的算法检测到了原始算法未能检测到的减速带，并且检测到的物体拥有更高的置信度；改进算法在第三幅待检测图像中检测出了更多坑洼；从第四幅图待检测图片可以看出，改进后的算法检测到距离更远和左下角与背景相似的坑洼，原始YOLOv5 算法却没有检测出。可以看出，改进后的YOLOv5 算法对此类影响驾乘舒适性的目标具有更好的检测效果。

Fig.12 Comparison of improved test results图12 改进试验结果比较

为了进一步评价改进后算法的检测性能，将本文的改进算法与YOLOv5 对比的同时，与现今常用深度学习目标检测算法SSD、YOLOv3、YOLOv4 进行比较，结果如表4 所示，可以看出，本文提出的改进方法保证了实时性的同时，检测精度获得了更加优异的表现。

Table 4 Comparison of detection results of different models表4 不同模型检测效果比较

4 结语

本文针对影响驾乘舒适性的目标检测难度大的问题，结合CA 注意力机制、Lossα-CIoU、新的卷积模块，提出了一种改进YOLOv5模型的目标检测算法。相较于其他主流的目标检测算法，该方法拥有更好的检测精度和更快的检测速度，且最终获得的模型参数量更小，更加有助于未来在嵌入式端进行算法的移植部署。在后续研究中，将更多地考虑影响驾乘舒适性体验的目标类型，在目标类别更加多样化的同时保证模型检测精度和识别速度。