APP下载

基于扩散模型下结合全卷积掩码自编码器的雾天目标检测方法

2024-03-28贾飞何家乐李鹤鹏

传感器世界 2024年1期
关键词:雾天编码器卷积

贾飞,何家乐,李鹤鹏

重庆交通大学机电与车辆工程学院,重庆 400074

0 引言

目标检测作为视觉感知的重要分支,被广泛应用于无人驾驶、机器人等环境感知方面[1]。随着这些领域的发展,目标检测技术在恶劣环境,尤其是雾天条件下的需求日益增加,因为在这样的环境中准确感知周围环境至关重要。

在雾天天气中,可见光图像的采集面临着目标边缘模糊、低对比度和颜色失真等问题[2],这极大地挑战了目标检测算法的性能。因此,如何在雾天环境下高效而准确地检测目标成为计算机视觉领域的一个重要研究方向。

随着深度学习的兴起,涌现出了多种目标检测算法。这些算法基于不同的架构可分为单阶段和双阶段目标检测算法。单阶段算法,如以YOLOv5[3]为代表,因其轻量和快速检测的优势,在边缘计算设备上得到广泛应用。Dynamic-RCNN[4]作为双阶段检测算法的代表,将输入图像先经过候选框生成网格,再经过分类网络对候选框的内容进行分类,在训练过程中不断调整交并比阈值的大小以提高候选框的质量,相比单阶段算法,其速度较慢,但检测精度更高。

这些方法在解决目标检测中的恶劣天气环境(如雾天)仍然存在一些缺陷。为了应对这些挑战,研究人员进行了深入研究。LI C 等[5]进行了针对不同去雾天气图片与已使用多种去雾方法优化过的照片之间的比较试验,在预训练完成的Faster R-CNN 网络中进行检测。LI B 等[6]设计了端到端的AOD-Net,可以被整合进其他的目标检测框架里,例如Faster R-CNN,以改进有雾图像目标检测的高级任务。吴桐等[7]提出一种基于改进GCANet 除雾网络和CenterNet 检测网络相结合、有效进行雾天行人识别的联合检测方法。这些方法均采用了先去雾再检测的思想,使检测精度有所提升,但增加了模型难度和复杂性,去雾网络的加入也会破坏图像原有的特征关系。

本文针对自动驾驶车辆在雾天场景下因可见光图像清晰度低以及噪声干扰等导致行人、车辆等目标检测精度降低的问题,提出一种基于扩散模型下结合全卷积掩码自编码器的雾天目标检测方法(HDDiffusionDet),有效提高了模型在雾天的目标检测精度。

1 方法原理

1.1 HD-DiffusionDet 方法总体架构

本文方法采用扩散检测模型[8]作为主要架构,总体网络结构如图1 所示。

1.1.1 高斯噪声检测框的建模与生成

根据扩散模型,由方差得到的高斯噪声被添加到目标真实框以获得噪声框。

1.1.2 图像编码

采用ConvNeXt v2[9]作为主干网络结构,用于图像编码器的工作。该编码器将原始图像接收并提取高级特征,利用全卷积掩码自编码器的训练策略进行训练。

1.1.3 特征金字塔

特征金字塔网络用于为图像编码生成多尺度特征图,以保证网络的多尺度检测能力。

1.1.4 检测解码

在多尺度特征图中,通过高斯噪声框裁剪RoI 特征,然后将其输入检测解码器,实现目标边界框的回归和分类。

1.2 扩散模型

为了提高模型在雾天图像中的抗扰性和泛化能力,引入了扩散模型到目标检测框架中。这种扩散模型是根据非平衡热力学的原理,逐步向原始样本数据注入噪声,从而确立了马尔可夫扩散前向链的定义。前向噪声过程被描述为:

式中,t表示前向过程的时间;Z0表示原始数据样本;Zt表示噪声样本;N (* ,*I)表示从 N(0,I)的标准分布中进行采样;表示一小正数,在0~1 之间。

通过向原始数据样本Z0添加噪声来将Z0变换为t∈{1,2,…,T}的潜在噪声样本Zt。

式中,βs表示噪声随时间t变化的方差表。

在训练期间,高斯噪声被添加到真实边界框以获得噪声框,通过最小化二范数损失来训练神经网络fθ(Zt,t),以从Zt预测Z0,训练损失函数如式(3):

式中,fθ(*)表示所训练的目标神经网络;Ltrain表示训练损失函数。

1.3 全卷积掩码自编码器

为了增强图像编码器对雾天图像的特征提取,采用了全卷积掩码自编码器(FCMAE)的训练方法。这一策略通过在输入图像上随机遮挡一些区域,迫使编码器试图恢复被遮挡的部分,从而促使模型学习全局和局部特征,以提升其特征提取能力。

图像编码器采用ConvNeXt v2 架构,该架构通过堆叠块组成,配置参数如表1 所示。stem 为降采样块,其余为残差块(res),在残差块引入全局响应归一化层(Global Response Normalization,GRN)。该层通过以下3 个关键步骤实现:全局特征聚合、特征归一化和特征校准。首先,在全局特征聚合阶段,利用二范数对每个通道上的特征图进行聚合,得到一个整体聚合向量;然后,在特征归一化步骤中,采用标准除法归一化函数对聚合后的向量进行归一化处理;最后,在特征校准步骤中,使用归一化后的向量对原始的特征图进行校准。这一过程实现了对每个通道上特征图的归一化处理,强化了通道之间的特征竞争,有效提升了模型的性能。

表1 残差块配置参数

主干网络的残差块结构如图2 所示。

1.4 方法流程图

所提基于扩散模型下结合全卷积掩码自编码器的雾天目标检测方法流程如图3 所示。

具体步骤如下:

(1)将雾天目标检测数据集分别进行划分,包括训练、验证以及测试集;

(2)通过使用随机裁剪和旋转等数据增强技术,对划分好的训练集和验证集进行了数据扩充,从而提升了样本的容量;

(3)构建HD-DiffusionDet 雾天目标检测网络并初始化,将训练集数据以批量的方式输入到网络中;

(4)通过图像编码器提取雾天图像特征,基于扩散模型为真实目标框生成高斯噪声框;

(5)通过生成的噪声框对编码器所提取的特征进行裁剪出RoI 区域,将裁剪出的RoI 区域输入检测解码器,预测目标类别与边界框;

(6)调用训练完成的最终模型,将测试数据输入,得到最终检测对象的类别与位置。

2 雾天目标检测实验

2.1 数据集介绍

本次实验采用RESIDE 雾天真实场景下的目标检测数据集RTTS[10],其中训练集3 512 张,验证集436 张,测试集490 张,数据标注示例如图4 所示。

2.2 评价指标

为了全面评估网络模型的检测性能,联合考虑了准确率和召回率,并以准确率为Y 轴,召回率为X 轴,作出准确率-召回率曲线(P-R 曲线);通过计算各个检测类别P-R 曲线下的面积,得到了平均精度(Average Precision,AP);最后,以各类别平均精度的均值,即平均精度均值(Mean Average Precision,mAP)来综合表示网络的性能。

式中,r表示召回率;p(r)表示准确率与召回率的P-R曲线。

式中,C表示检测类别数。

2.3 实验环境与超参数

实验环境:Ubuntu18.04 操作系统;Nvidia 1080Ti(11 GB)显卡;基于Pytorch 的神经网络框架。

超参数设置:迭代次数为45 000 次;批处理大小为8;优化器选择为AdamW;初始学习率为2.5×10-5。

3 实验结果与分析

3.1 检测结果对比

为验证所提方法的优势以及有效性,分别将所提方法与现有目标检测方法,如Dynamic R-CNN、YOLOv5、DiffusionDet 以及针对雾天目标检测的方法[6]等进行比较,平均检测精度对比结果如表2 所示。

表2 平均检测精度结果对比

3.2 检测结果可视化与分析

可视化检测结果如图5 所示。如红色虚线框所示,漏检与误检均不同程度地出现在对比算法中。Dynamic R-CNN 使用普通的卷积层进行图像特征的提取,未能解决在细节模糊以及噪声干扰下的雾天目标检测问题,出现了大量的误检,表明普通卷积核的特征提取方式无法在雾天图像中提取到高表征特征;YOLOv5 采用了Focus 结构来对图像特征进行初提取,出现了较少的误检与漏检,表明Focus 结构的引入对于缺乏细节信息的雾天图像来说提高了细节信息的利用程度,增强了雾天图像的特征表示,从而提高了检测精度。

文献[6]方法是去雾网络与目标检测网络Faster R-CNN 的融合,雾天图像进入检测网络后会先进行图像的去雾处理,然后再对其进行特征提取与目标检测,但这种方法仍然存在误检和漏检,对图像进行去雾处理的确能够对还原图像有促进作用,但也破坏了特征之间的原有关系,去雾过程中也会带来不确定性,从而进一步增加了检测阶段的不确定性。DiffusionDet 基于扩散模型,通过给真实标注框添加高斯噪声,从而对编码器所编码特征进行RoI 区域的裁剪,进而将目标检测问题转换成边界框的去噪过程(如图5 所示),这种方式对于提高噪声干扰下的图像目标检测有提升效果,但仍存在漏检。

本文提出的方法通过直接提取雾天图像特征,在图像编码阶段采用ConvNeXt v2 结构,并借助全卷积掩码自编码器的训练策略对雾天图像特征进行编码,通过特征金字塔生成不同尺度的特征;然后根据高斯噪声框对这些特征进行RoI 区域的裁剪;最终将裁剪后的特征送入检测解码器进行特征解码,输出目标的类别与边界框。如图5 所示,所提出的方法在真实雾天环境中能够保持较高的检测精度,且没有出现漏检和误检的情况。

4 结束语

本文针对自动驾驶车辆在雾天场景下因可见光图像清晰度低以及噪声干扰等因素,导致行人、车辆等目标检测精度降低的问题,提出一种基于扩散模型下结合全卷积掩码自编码器的雾天目标检测方法(HDDiffusionDet)。通过在真实雾天数据集RTTS 上进行实验,所提方法的平均检测精度均高于其余方法,mAP 值达到77.3%,降低了雾天场景下行人、车辆等漏检和误检情况,证明了所提方法的可行性与有效性,为自动驾驶等技术领域的环境感知应用提供了一定的借鉴。

猜你喜欢

雾天编码器卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
为什么在雾天不适宜进行晨练
从滤波器理解卷积
基于FPGA的同步机轴角编码器
微波辐射计对昆明雾天的监测及应用
基于傅里叶域卷积表示的目标跟踪算法
基于PRBS检测的8B/IOB编码器设计
JESD204B接口协议中的8B10B编码器设计
雾天高速公路交通安全风险评估
多总线式光电编码器的设计与应用