一种用于外场试验图像的引信炸点检测方法

2023-09-07周宇曹荣刚栗苹马啸

兵工学报 2023年8期

周宇,曹荣刚,2,3*,栗苹,3,马啸

(1.北京理工大学机电学院, 北京 100081; 2.北京理工大学唐山研究院, 河北唐山 063611;3.北京理工大学机电动态控制重点实验室, 北京 100081)

0 引言

无线电近炸引信通过无线电回波对目标、环境和弹目运动信息进行解算和决策,从而引爆战斗部装药实现对目标的最优毁伤效果。现代战场电子对抗要求引信具有良好的抗干扰性能,无线电近炸引信的升级迭代是其抗干扰性能不断提升和优化的过程。在对无线电近炸引信进行抗干扰性能测试时,稳定可靠的引信炸点检测手段能为研究引信炸点状态提供数据支撑[1-3]。

以常用的光学检测方式为例,引信炸点检测任务要求检测方法能够区分大小不一形状复杂且不断变化的炸点目标,同时克服真实战场环境下可能存在的爆炸烟雾和自然光干扰,如图1所示。另外,由于观察角度的原因,图像中容易出现多炸点共存且互有重叠的情况,因此要求检测方法具有区分多炸点重叠的能力,以减少误检和漏检。

图1 不同情况下的炸点形态

文献[4-6]研究了基于光电探测设备的炸点探测系统与测试方法,可实现炸点图像的高速抓取与炸点目标的识别,但是文献中的检测系统组成复杂、安装与设置流程繁琐且只能应用于标准化测试靶场。然而真实野外战场环境复杂多变,靶场试验得到的数据与结论无法等效适用与推广。文献[7]基于主分量寻踪和主分量分析提出了一种可用于野外环境的炮弹炸点检测方法,但该方法依赖于炸点的序列图像,无法应用于孤立炸点图像,且该方法中的图像分割操作无法适用于背景复杂变化的情况或多目标复杂运动和互有交叠的情况,因此实用性有限。文献[8]在分析炮弹炸点的雷达回波信号特性的基础上,提出基于回波多普勒和动目标检测技术的炸点目标识别方法,该方法适用于多目标共存的情况,受信噪比影响较小,但操作复杂、自动化程度低,且需要人工设置经验参数,通用性不如光学检测方法。基于上述分析,目前还没有适用于复杂测试环境的高效高精度引信炸点检测方法。

随着深度学习技术的发展,基于图像目标检测算法的应用逐渐出现在工业界,并在一些自动化工程中显示出强大的性能。目标检测算法能完成对图像中目标的识别、定位并分类的任务。相比传统图像处理的方法,基于深度学习的目标检测算法自动化程度高,对于任务场景具有更强大的适应性和鲁棒性,需要人工参与的先验设定更少。现有的深度学习目标检测算法根据处理流程可分为两阶段和单阶段算法。两阶段目标检测算法具有较高的检测召回率,但容易忽略特征不明显的目标造成漏检。另外两阶段算法模型参数量大,占用资源高,运行速度慢,不适用于对检测效率有要求的工业应用[9]。作为领域内的研究热点,单阶段检测算法克服了运行效率的局限性,具有数倍于两阶段检测算法的效率,但检测精度有限,尤其是对于小尺寸目标的检测能力不足,因此不适用于存在大视场小目标情况的野外环境炸点检测任务。

在分析任务场景的基础上,本文提出引信炸点的光学观测设备设置方案,采集了野外战场环境下的多地形多目标引信炸点图像并结合数据增强方法制作了实验数据集;提出一种基于改进的单阶段目标检测模型的高精度引信炸点检测方法,该方法对检测算法模型结构设计进行了多处改进,并优化了网络模型的训练策略。提出的检测方法实现了对复杂动态环境下图像炸点目标的自动化检测,且识别精度优于现有典型检测算法。

1 引信炸点观测方案

观测设备布设方案基于“近点观测,远程遥控”的思想,可近距离观测得到引信炸点细节信息。方案设定拍摄点和遥控点,其中拍摄点用于设置观测设备及下位机遥控端;遥控点设有无线控制上位机,用于观测设备的远程控制。

图2展示了任务场景与观测设备的布设关系。载有被测引信的炮弹按预定飞行路线飞抵预定落弹区进行预定毁伤任务,中途经过一个由引信干扰机影响的干扰区域。炮弹经过该区域时引信将受到干扰信号影响造成早炸。若引信未受到干扰,则炮弹飞行至预定落弹区完成近炸或触发作用。上述两个区域的两侧设有高速相机来对引信状态进行拍摄。高速相机获取的图像数据使用引信炸点检测算法来进行炸点目标检测。

图2 观测设备总体布设关系示意图

2 炸点检测算法模型

经典的单阶段检测YOLO算法提出将目标的检测框、检测置信度和所属类别的解作为一个数值回归问题来求解[10-11]。其结构上一般可分为骨干网络、颈部结构以及检测头。其中,骨干网络是目标检测网络的核心部分,能够提取出输入图像中目标的特征并将其以特征图的形式输出;颈部结构接收骨干网络输出的多个尺度的特征图,并强化其中的特征值强度;检测头接收强化后特征图并对其进行特征解码,输出检测结果。以YOLOv3算法为例,它使用DarkNet53作为骨干网络来提取图像中的目标特征,该部件使用了残差连接结构来避免梯度消失和梯度爆炸导致的网络退化问题[12];其颈部结构中使用特征金字塔结构来强化不同尺度特征图特征表征[13];检测头对特征图进行解码并调整预设锚框的大小与位置,最终得到检测结果。

本文提出的炸点检测算法模型在骨干网络、颈部结构以及检测头等部分进行了多处改进。在改进设计中,对骨干网络进行选型,并调整结构规模以提升性能;对颈部结构进行重新设计,提出带通道注意力机制的多分支(Multi-Branch with Channel Attention, MBCA)模块和密集连接跨阶段局部(Dense Cross Stage Partial, DCSP)模块;在检测头的改进设计中,基于无锚框和任务解耦的思想,设计了适用于多尺度特征图的新检测头结构。

2.1 算法模型改进设计

2.1.1 骨干网络设计

使用ConvNeXt网络作为目标检测网络的骨干网络[14],该网络结构如图3所示。相比其他常见的骨干网络ResNet或者DarkNet、ConvNeXt网络拥有更优秀的特征提取能力。以网络规模相近的ConvNeXt-T、ResNet50以及DarkNet53网络为研究对象,3个网络的参数量分别为29×106、25.5×106、40.5×106,其在ImageNet数据集上的Top-1分类准确率分别为82.9%、75.8%、78.5%。

图3 ConvNeXt网络结构

如图3所示,ConvNeXt Block模块使用了卷积核尺寸为7×7、滑动步长为1、填充为3(即k=7,s=1,p=3)的分组卷积、层归一化、GELU激活函数等组件[15],并使用了层缩放[16]、路径丢弃以及残差连接[17]的技巧来增强网络的泛化性能。

在ConvNeXt网络中,待检测图像首先通过一个尺寸为4×4滑动步长为4(即k=4,s=4)的卷积层进行下采样,然后进行层归一化(LN)。之后数据流先后进入4个ConvNeXt Block模块组进行图像特征提取。其中数据流在进入后3个ConvNeXt Block模块组之前先进行一次下采样操作来使特征图宽和高下降一半并增加一倍特征图通道数。之后经过 3个 ConvNeXt Block模块组后得到3个不同尺度的特征图,这些特征图将作为颈部结构的输入。在这3个特征图中,大尺寸的特征图1含有较多的目标定位信息,小尺寸的特征图3含有较多的目标语义信息,而中间的特征图2则同时携带了目标语义和定位信息。为了配置高效的网络结构,在参考 Swin Transformer的配置[18]的基础上,设定4个ConvNeXt Block模块组中模块堆叠数量分别为3、3、27、3,即通过提高输出特征图2的ConvNeXt Block模块组3的规模来强化其特征提取能力。

2.1.2 颈部结构改进

2.1.2.1 带通道注意力机制的多分支模块

Inception网络提出了多分支结构来增加网络宽度,并通过使用不同尺寸卷积核的方式来增强网络对不同尺度目标的适应性[19],如图4(a)所示。值得注意的是,不同尺寸的卷积核所对应的感受野大小是不同的,因此这些不同的卷积核对于一个目标的特征抽取特性是不同的。对于小目标,小尺寸卷积核提取的特征强度大于大尺寸卷积核提取的特征强度。因此在多分支结构进行通道拼接时,不同支路输出的特征图的作用权重也应该有所区别且随检测对象动态变化,即对于小目标而言,小尺寸卷积核支路提供的输出应在最终输出中占有更大比重。基于上述思想,为了在每个分支得到与检测对象相适应的作用权重,提出了改进的带通道注意力机制的多分支(MBCA)模块,其结构如图4(b)所示。

图4 原多分支结构与带通道注意力机制的多分支模块

在该结构中,输入首先通过1个1×1卷积层,减少一半的特征图通道数,并经过层归一化和Sigmoid 加权线性单元(Sigmoid Linear Unit, SiLU)激活函数[20],如式(1)所示:

(1)

然后特征图将分别进入4个分支,每个分支包含主干上的1个特征抽取模块(由卷积、层归一化、SiLU激活函数组成,即Convolution LayerNorm SiLU模块,简称CLS模块),和1个用于计算通道注意力权重的亚分支组成。4个分支中CLS模块的卷积层分别由1个1×1卷积核,1个3×3卷积核,1个 5×5卷积核,2个3×3卷积核组成;卷积核滑动步长均为1。在计算通道注意力权重的分支中,通道数、宽度和高度分别为C、W和H的特征图首先经过1个1×1卷积核,然后进行通道级全局平均池化操作得到尺寸为C的通道权重,该权重与CLS模块得到的特征图相乘得到该分支的最终输出。由于分支的操作不改变特征图的尺寸,因此将4个分支得到的加权特征图进行在通道维度上进行堆叠,最后通过一个CLS模块实现加权特征图的融合,并将特征图通道数还原为MBCA模块输入的特征图通道数。

2.1.2.2 密集连接跨阶段局部模块

在颈部结构中,一般使用跨阶段局部(Cross Stage Partial, CSP)模块来强化特征图的特征表征[21]。该结构基于残差连接结构的思想,将输入先后通过多个串联的残差模块(由1个1×1卷积核和1个3×3卷积核组成)后,与原输入融合以得到输出。值得注意的是,即使是在一个CSP模块中,串联的多个残差模块也拥有提取不同尺度的目标特征的能力,但这些特征并没有被显式地利用。借鉴密集连接结构的思想[22],提出了密集连接跨阶段局部(DCSP)模块,其与CSP模块的对比如图5所示。在本文中,串联的残差模块个数为3。

图5 原始跨阶段局部模块与密集连接跨阶段局部模块

如图5(c)所示,在CSP模块中输入特征图首先经过一个1×1卷积模块,然后进入主分支和跨阶段连接分支。在主分支中,特征图先通过一个3×3卷积模块,然后经过3个串联的残差模块,最后与来自跨阶段连接分支的输出进行通道拼接并通过一个 1×1卷积模块进行特征融合。

如图5(d)所示,在提出的DCSP模块中,残差模块之间的关系不再是单纯的串联,每一个残差模块能接收到它之前所有残差模块的输出,且最后一个残差模块的输出将会与前面的残差模块的输出再次进行融合以作为主分支的输出。在文献[22]中,数据融合的方式为通道维度的拼接。当串联的残差模块比较多的时候,残差模块内负责处理通道拼接后特征图的卷积核的输入通道数会相应增加,从而导致参数量显著增加。因此采用对应元素加和的方式,在保证模块提取特征能力的基础上减少了参数量。

2.1.3 检测头设计

2.1.3.1 无锚框机制

YOLOv3针对骨干网络输出的3个尺度的特征图预设了对应的锚框,在训练前需要针对数据集的标注框的尺寸分布情况对预设锚框进行微调,再基于检测头的输出对锚框进行偏移修正来得到最终的预测框。由于特征图中的每一个特征点会对应多个比例的预设锚框,全局的预设锚框数量远远超过真实框数量,造成正负样本不平衡的现象,从而影响检测精度。为避免上述问题,本文采用无预设锚框机制,直接使用检测头回归得到目标预测框的位置及尺寸。

2.1.3.2 解耦检测头

YOLOv3对目标的检测置信度、分类以及目标预测框的位置、尺寸的微调回归是基于同一个检测头实现的。本文提出使用任务解耦多检测头来实现上述操作,对目标分类标签、目标检测框的位置和尺寸、检测置信度三类参数值的回归分别使用独立的卷积支路,如图6所示。使用任务解耦多检测头能够帮助减少不同参数回归任务之间的相互干扰,从而提升检测精度。

图6 解耦检测头

在图6中,w和h分别为特征图的宽和高,c为数据集的目标类别数,检测框的维度中4对应预测框的中心点的横纵坐标和预测框的宽高,置信度表示对预测框内存在目标的确定程度。

2.1.4 检测模型整体结构

基于上述结构改进和设计,提出的目标检测算法模型的整体结构如图7所示。模型的输入图像的尺寸为640×640×3,骨干网络输出的3个特征图的尺寸分别为80×80×192、40×40×384以及20×20×768。3个特征图经过颈部结构进行特征强化后,进入检测头中进行目标分类标签和预测框的回归。

图7 提出的检测算法模型的整体结构

在颈部结构中,3号深层特征图首先进入一个CLS模块进行特征图跨通道特征融合并压缩通道数为原来的一半,然后通过双线性插值实现上采样;经过上述调整后的3号特征图尺寸与2号特征图一致,因此它们可以进行通道拼接的方式合并,然后通过提出的DCSP模块进行跨尺度特征加强融合。融合后的特征图以同样的方式再与来自浅层的1号特征图进行再次特征融合。经过上述特征金字塔结构的处理,颈部结构加强了特征图中目标的语义特征,提升了多尺度目标检测能力。

特征金字塔输出的3个尺度特征图融合结果的尺寸为80×80×192,它将用于两方面:一方面通过提出的MBCA模块进行通道间特征差异性强化后,输送给1号检测头;另一方面进入路径聚合结构[23],首先通过层归一化和尺寸为2×2步长为2的卷积核进行下采样,与此前特征金字塔中2号、3号特征图语义强化融合结果进行再次融合得到尺寸40×40×384的输出。来自骨干网络深层的小尺寸特征图携带了较多的目标语义特征,而来自浅层的大尺寸特征图携带了较多的目标位置特征,因此路径聚合结构中的特征图融合能够帮助强化目标的位置特征。类似地,路径聚合结构中的另外2个尺度的特征图融合结果经过MBCA模块进行通道间特征差异性强化后输送给对应的检测头。

2.1.5 检测结果后处理

后处理操作用于优化在检测头输出的检测结果中单个目标对应多个重复检测框的情况。借鉴文献[24]提出的加权非极大值抑制操作,提出在处理网络输出的多个互有重叠检测框时,对交并比值超过预设阈值的检测框坐标进行加权平均,实现如式(2)所示:

(2)

式中:P为当前处理的检测框;Ti为与P重叠的其他检测框;权重wi定义如式(3)所示:

wi=cifIoU(P,Ti)

(3)

式中:ci为P的最大分类置信度;fIoU(P,Ti)为P和Ti的交并比,即交集与并集的比值,如式(4)所示:

(4)

2.1.6 损失函数

目标检测网络模型的损失函数包含分类损失,置信度损失以及预测框回归损失。

二值交叉熵(Binary Cross Entropy, BCE)函数常用于分类和置信度的损失函数,其定义如式(5)所示:

(5)

式中:xn为检测值;yn为样本值。

数据集中普遍存在各分类目标数量不均衡的现象。为了减少该现象对检测精度的影响,提出使用焦点损失(Focal Loss, FL)函数替代BCE函数作为分类和置信度的损失函数[25]。焦点损失函数定义如式(6)所示:

fFL(p)=-f(α)[1-f(p)]γln [f(p)]

(6)

式中:权重因子f(α)用于平衡目标和背景数量的不平衡,当处理对象为目标时f(α)=α,当处理对象为背景时,f(α)=1-α,常数α设定为0.3;[1-f(p)]γ用于平衡难识别样本和易识别样本数量之间的不平衡,f(p)定义如式(7)所示:

(7)

p为网络检测y=1时的置信度,p∈[0, 1],y为样本真值。

式(6)可以解决2个不平衡现象所带来的影响,一个是目标和背景数量之间的不平衡,另一个是难识别样本和易识别样本数量之间的不平衡。

广义交并比(General Intersection over Union, GIoU)函数常作为预测框回归损失函数,其定义如式(8)所示:

(8)

式中:A和B分别为检测框和真值框;C为二者的最小外接矩形框。

使用完全交并比(Complete Intersection over Union, CIoU)函数替代GIoU函数,相比GIoU函数,CIoU函数作出了以下改进:考虑了检测框和真值框几何中心之间的距离;考虑了检测框和真值框的宽高比。CIoU函数如式(9)所示:

(9)

式中:ρ(A,B)表示检测框A和真值框B的几何中心之间的距离;c为二者的最小外接矩形框的对角线长度;α为平衡系数,定义如式(10)所示:

(10)

υ为比例系数,

(11)

w′和h′分别为真值框的宽和高,w和h分别为检测框的宽和高。

2.2 训练策略

设定训练周期为200,训练批数量为8;优化算法为Adam算法,权重衰减因子为5×10-4;初始学习率为0.001,学习率更新策略为步进衰减,衰减因子为0.1,衰减周期为20个训练周期。

2.3 数据集设计

基于多次野外演训试验中使用观测设备拍摄得到的引信炸点火光图像制作了数据集,其中用于神经网络训练的训练集样本量为4 000,用于验证神经网络性能的测试集样本量为1 000。数据集共有 3种目标类别,即类别1、类别2、类别3,其中类别1指1个炸点火光,类别2指相距很近互有重叠的 2个炸点火光,类别3指相距很近互有重叠的3个炸点火光。

对数据集目标的标注框的信息统计如表1所示。表1中,目标总数表示整个数据集含有的该类目标的总数,面积占比表示目标的标注框的面积与整张图像的面积的比例,它反映了图像中目标大小的相对尺度。从表1中可以看出,类别1的面积占比变化范围为0.10%～11.04%,类别2的面积占比变化范围为1.27%～6.94%,类别3的面积占比变化范围为2.14%～10.87%,上述数据说明数据集目标尺度分布较广,因此对检测模型的多尺度检测能力具有较高的要求。

表1 数据集目标标注真实框信息统计

为了增加检测模型的泛化性能,补充数据集中目标的形态多样性,对数据集进行了随机数据增强。数据增强方式包括:锐化、对比度调节、模糊、添加色块、色调变换、翻转、重复、扭曲等,如图8所示。随机抽取训练集中200个样本,每个样本使用多种任意叠加的数据增强方式,扩增比为1∶5,因此得到 1 000张数据增强的结果作为训练集的补充样本。

图8 数据增强示意图

3 检测算法验证评估

3.1 评价指标

目标检测算法常用的评价指标包括准确率、召回率、平均精度、F1分数,各指标定义分别为:

1)准确率。准确率表示检测模型输出的所有检测结果中正确的目标数量所占的比例,如式(12)所示:

(12)

式中:mp表示准确率;t表示检测正确的目标数量;f表示将非目标检测为目标的数量。

2)召回率。召回率表示检测正确的目标数量占数据集中所有目标的比例,如式(13)所示:

(13)

式中:mr表示准确率;h表示数据集中没有被检测出的目标数量。

3)平均精度。神经网络的输出包括检测框坐标和检测置信度,一般通过设定置信度阈值来过滤掉置信度较低的结果。设定低置信度阈值可以保证检测出数据集中一些特征相对不明显的目标,但是也会导致将一些非目标误认为目标的错检测情况;设定高置信度阈值可以降低错检测情况出现的概率,但是会出现低置信度目标的漏检。

设置不同的置信度阈值,可以得到对应情况下的准确率和召回率。对于单个类别的目标,它的准确率-召回率(Precision-Recall, PR)曲线的积分被称为检测精度,如式(14)所示:

(14)

式中:SAP表示单个类别目标的检测精度。对于一个数据集,其所有类别目标的检测精度的平均值称为平均精度。平均精度反映神经网络检测模型对于一个数据集的综合检测性能。

4) F1分数。F1分数综合考虑了准确率和召回率,如式(15)所示:

(15)

3.2 消融实验

为了验证本文提出的结构改进措施对检测网络性能的影响,以图7所示网络结构为比较基准,使用相同的网络训练策略,进行了2组消融实验,并使用上述指标来评价模型的性能。

第1组消融实验用于验证骨干网络和检测头的改进设计对于检测模型检测性能的影响。该组实验对比测试了基于DarkNet53骨干网络和ConvNeXt骨干网络下检测模型的性能变化,以及基于耦合单检测头和解耦多检测头下检测模型的性能变化。实验中各检测模型的评估结果如表2所示,各检测模型的PR曲线图如图9所示。需要说明的是,为统一比较基准,表2数据是在置信度阈值为50%的条件下计算得到的,且平均精度一栏的数据是在预测框与真值框的交并比阈值为0.5的条件下计算得到的。后续实验指标计算条件均与此保持一致。

表2 骨干网络和检测头改进设计对模型性能的影响

图9 骨干网络和检测头改进设计消融实验中检测模型的PR曲线

分析表2数据可知:骨干网络由DarkNet53(模型1)更换为ConvNeXt(模型3)后,平均精度由74.7%上升到79.8%,F1分数由59.8%上升到65.7%;检测头由单检测头(模型2)更换为多检测头(模型3)后,平均精度由76.9%上升到79.8%,F1分数由55.6%上升到65.7%。

通过比较图9中各模型PR曲线的积分值,即PR曲线与坐标轴包围的面积,可知模型3的PR曲线的积分比模型1或者模型2更大,所以模型3的检测精度更高。

对表2和图9的分析表明,在对骨干网络和检测头进行改进设计后,模型的检测精度得到了明显的提升。采用了改进设计的模型3作为基线模型,它将作为第2组消融实验中的比较基准。

第2组消融实验用于验证在颈部结构中使用改进措施对于检测模型检测性能的影响。实验测试了在检测模型的颈部结构中使用MBCA模块和DCSP模块对模型检测性能带来的影响。实验结果如表3所示,各检测模型的PR曲线图如图10所示。

表3 颈部结构改进措施对模型性能的影响

图10 颈部结构改进措施消融实验中检测模型的PR曲线

在表3中,在DCSP模块列中,√表示检测模型的颈部结构使用提出的DCSP模块,否则使用CSP模块;在MBCA模块列中,√表示检测模型按照图7所示在模型的颈部结构和检测头结构之间使用MBCA模块,否则不使用MBCA模块而直接相连。分析表3数据可知,在不对颈部结构使用改进措施时,本文提出的检测模型基线模型(模型3)对目标的召回率为57.2%,远小于使用了改进措施的模型4、模型5、模型6,其原因在于样本图像中常伴有烟雾和自然光干扰,并且有时出现的多炸点目标重叠等现象,导致检测模型对炸点目标边界难以区分、目标分类模糊等识别困难问题。在将颈部结构中CSP模块替换为DCSP模块,以及在检测头结构前添加MBCA模块后,模型的召回率得到很好的提升,分别提升了27.8%和27.4%。就平均精度和F1分数两个综合指标而言,使用MBCA模块比使用DCSP模块对模型的综合检测性能的提升稍高。同时应用 2种改进后,模型的平均精度达到了92.7%,F1分数达到了87.4%。

从图10可以看出,基线模型的PR曲线在使用颈部结构改进措施后,PR曲线与坐标轴包围的面积有所增长,使用2项改进措施的模型6 PR曲线的面积在第2组消融实验的4个模型中达到最大。上述分析表明,提出的2项颈部结构改进措施显著提升了模型检测性能。

3.3 可视化分析

表4展示了表3中模型3和模型6在验证集的4个样本上的检测结果,样本包含了远距离较小目标和近距离较大目标的不同情况。由表4可以看到:在基线模型未使用改进措施时,容易出现检测置信度较低和漏检的现象;而在使用改进措施后,目标的检测置信度也有了明显的提升,并且漏检现象得到了明显的改善。通过对比检测结果,本文提出的改进措施被证明是有效的。

表4 检测模型颈部结构改进前后的检测结果对比

图11以热力图的形式展示了模型6使用的 2种颈部改进结构对骨干网络输出的3个不同尺度特征图的特征强化效果,以及最终检测结果。其中特征图1、特征图2、特征图3对应图7中所示3个不同尺度的特征图。特征图中红色区域表示特征激活状态,该区域的特征表征强度较高;蓝色区域表示特征抑制状态,该区域被认为不含关注目标所以特征表征强度较低;黄色和绿色为激活和抑制状态之间过渡的中间状态。

图11 颈部改进结构对特征图的强化效果

骨干网络输出的分辨率较高的特征图1中特征激活区域分布较为零散,但反映出的目标位置信息相对准确。随着网络深度的加深,骨干网络输出的特征图2和特征图3逐渐将目标区域聚合并作为一个整体识别出来,即特征图中的语义特征逐渐得到强化。骨干网络输出的3个特征图中存在不同面积和强度的黄色和绿色非目标区域,它们对目标的区域和语义的判定存在干扰。在经过提出的DCSP模块和MBCA模块的特征强化后,3个特征图中干扰区域均得到了有效抑制,突出了目标区域,但同时目标区域的特征强度也受到了一定程度的削弱。容易发现,特征图3在经过MBCA模块处理后部分目标区域的特征强度被弱化。经过MBCA模块处理后,3个特征图分别进入对应的检测头,进行多尺度综合预测,因此特征图3损失的目标区域特征强度将由特征图1和特征图2进行补偿。在图11中,可以看到最终模型准确完整地检测出图中所有的炸点目标。

3.4 对比实验

对比实验将本文提出的检测模型与现有的检测模型进行比较,其中包括更快速区域卷积神经网络(Faster RCNN)、单阶段目标检测器(Single Shot Detector,SSD)、YOLOv3、YOLOX模型,比较均基于提出的数据集,结果如表5所示。在表5中,本文模型指表3中使用了所有改进措施的模型6。

表5 基于提出数据集的不同检测模型性能比较

从表5数据可知:YOLOX模型的准确率最高,达到87.9%;其次是本文模型的准确率,达到87.3%,相比最低水平的Faster RCNN模型超出38%;召回率较高的是本文模型以及Faster RCNN模型,相比最低水平的YOLOv3模型分别超出47.8%和43.8%;本文提出的模型的平均精度达到最佳水平,领先第2名YOLOX模型约6%;同时,F1分数也达到最佳水平,领先第2名YOLOX模型约7.7%。

上述分析证明了本文提出的检测模型相比其他主流检测算法模型具有更加优秀的检测精度,更适用于关注的任务场景。