基于深度分割模型的小目标检测

2021-06-03胡世根卢金仪颜露新

测控技术 2021年5期

胡世根，方松，卢金仪，颜露新，钟胜，邹旭*

(1.华中科技大学人工智能与自动化学院，湖北武汉 430074； 2.华中科技大学多谱信息处理技术国家级重点实验室，湖北武汉 430074)

小目标检测广泛应用于公共安全、道路交通、视频监控等领域，同时，在面向特定需求的任务中，更精确的小目标检测意味着能够为后续的识别、跟踪等任务提供更有力的支撑，具有非常重要的应用价值，因此准确、快速、稳定的小目标检测十分重要。关于小目标的定义，目前还没有统一的标准，一般情况下，将成像距离较远、在图像上往往小至几十个甚至几个像素，显示为点状并且具有低对比度和信杂比的目标称为小目标[1]。

红外成像情况下，场景中目标物体的红外辐射较强，从而在图像中形成局部显著区域，根据这一特征，许多研究人员通过搜索图像极值来检测目标[4]。Tom等[5]提出了著名的Top-Hat 算子，通过开运算消除图像中的高频信息，然后利用其与原始图像的差异来检测目标。此外，受生物视觉的启发，Wei等[6]提出了一种基于多尺度区域对比度算子(MPCM)的红外小目标检测方法，使用简单的自适应阈值即可实现小目标分割。张腾[7]将尺度估计算法与MPCM算法中的PCM滤波相结合，提出尺度自适应的红外弱小目标检测算法SPCM。依据维恩位移定律，不同温度的物体的辐射通量密度对应不同的探测峰值波长，不同波段的成像图像记录了目标多样化的辐射特性，充分利用多波段成像探测信息能更加有效地提升小目标检测的准确性。

目标检测的传统方法一般通过提取人为设计的图像特征来进行检测，然而传统方法往往只对某些特定应用领域或者数据集有效，适用范围窄。随着深度学习的快速发展，陆续有研究者开始尝试使用深层网络模型检测小目标。例如，唐聪等[8]分析了SSD方法在小目标检测上不足的原因，提出了一种多视窗 SSD 目标检测方法；冯小雨等[9]改进了Faster R-CNN算法，将其专用于空中目标检测，取得了不错的效果。然而小目标检测的数据集规模有限，且深层网络对小目标的特征难以提取等问题一直未能较好地解决。

现有的小目标检测方法可以分为两类：基于人工设计特征的传统方法和基于深度学习的方法。传统形式的检测算法适应性差、鲁棒性弱；基于深度学习或者神经网络的一些检测算法又存在因目标面积占比小导致的特征维度低、目标/背景特征分界面不明确的缺点，从而造成实用性不佳等问题。

针对上述存在的问题，本文提出了基于深度分割模型的小目标检测方法，为了进一步提升检测性能、依据任务需求降低漏检率，探索多波段信息对提升小目标检测准确性的作用，利用深度特征融合的思想，将不同波段的图像送入深度分割模型，通过融合不同波段的特征提取结果来得到检测目标。在仿真数据集上的实验结果表明，该方法在虚警率维持在同一量级的条件下，显著降低了漏检率，提高了小目标检测的准确率。

1 提出的方法

现有基于深度学习的目标检测方法大多使用边框回归(Bounding Box)方法实现目标的分类与定位，然而深度学习网络中深层网络感受野较大，使得它可以检测的目标大小受到限制。而在红外小目标检测的应用背景下，需要检测的目标大小可能小至几十个甚至几个像素，缺乏必要的纹理与结构特征，背景区反而细节丰富，所以传统的深度网络难以对红外图像中小目标的特征进行有效的学习和提取。

本文跳出传统的深度学习目标检测方法，设计等宽的深度神经网络，即网络的输出与输入图像为长、宽、通道数相等的矩阵，输出图像以灰度值表示该点存在目标的概率，实现了目标点的检测与分割，以端到端的方式进行训练，解决了边框回归方法存在的缺陷。

1.1 基于全卷积的单波段小目标检测分割模型

Zhang等[10]提出了一个前馈去噪卷积神经网络(DnCNN)用于图像的去噪，使用了更深的结构、残差学习算法、正则化和批量归一化等方法提高去噪性能。原网络输入为加入已知高斯噪声或未知高斯噪声的灰度图，使用无噪声原图作为监督设定损失，最终训练结果可输出噪声图，由此便可从添加噪声的原图减去网络输出，最终获得去除噪声的结果图。

受文献[10]启发，笔者提出了用于小目标检测的深度分割网络模型，使用加入噪声的红外图像仿真图作为输入、网络的输出为目标分布的概率图。该模型可表示为

y=x+v

(1)

式中，y为输入的包含目标的图像；x为只包含噪声与背景的图像；v为残差图像。优化目标是真实残差图像与网络输出之间的均方误差(MSE)，以只包含目标点的二值图像作为监督设定损失。单波段小目标检测分割结构如图1所示。

图1 单波段小目标检测分割模型结构

网络结构可分为以下3个部分。

第1部分：Conv(3×3×c×64)+ReLU (c代表图片通道数)。

第2部分：Conv(3×3×64×64)+BN(Batch Normalization)+ReLU。

第3部分：Conv(3×3×64)。

为使每一层的输入、输出尺寸保持一致，防止产生人工边界，网络中每层都设定zero padding。此外，在第2部分每一层的卷积与ReLU之间都使用了批量标准化方法(BN)。

给定深度为D=20的网络，3种类型的层展示在图1中有3种不同结构的层。

① Conv+ReLU：对于第1层，使用64个大小为3×3×c的滤波器被用于生成64个特征图。这里的c代表图像的通道数，本文训练与测试图像均为灰度图，即c=1。

② Conv+BN+ReLU：对应于第2～(D-1)层，使用64个大小为3×3×64的过滤器，并且在卷积和ReLU之间使用批量归一化方法。

③ Conv：对应于最后一层，c个大小为3×3×64的滤波器被用于重建输出。

损失设定为

Loss=MSELoss(out,GT)

(2)

(3)

通过以上方法得到的改造深层网络可以有效提升图像特征利用的容量和灵活性，相较于边框回归能够更有效地去除输入图像中的噪声与复杂背景。端到端的网络结构能够有效检测目标点并实现分割，同时采用残差学习和批归一化可以加速训练并提升性能。

1.2 基于全卷积的双波段小目标检测分割模型

不同波段的成像图像记录了目标多样化的辐射特性，为了进一步提升小目标检测的能力，本文提出了基于特征融合的双波段小目标检测分割模型。

不同波段的成像设备在成像机理方面存在较大差异。例如在夜视条件，中波红外(MediumWave Infrared，MWIR)和长波红外(LongWave Infrared，LWIR)要靠目标自身身辐射成像，而短波红外(ShortWave Infrared，SWIR)则是利用常温时物体反射夜光的辐射成像(自身辐射可忽略)，中高温时既有物体反射夜光的短波红外辐射，又有自身发射的足够强的短波红外辐射成像。故红外探测波段的选择需要综合考虑探测器、目标辐射、背景辐射、大气衰减等多种因素[11]。在特定情况下，上述因素对波段选择的影响并不一致，故实际应用中应对各个因素进行综合分析，从而做出最佳选择。

高精度探测器在实际使用场景中通常在共光轴滤波片轮转的条件下使用不同波段对同一场景成像。由于不同波段具有不同成像特性，不同波段的探测器适合不同的场景，对同场景成像获得图像所含的信息也有着不同的侧重。基于此，本文进行了对不同波段的图像进行特征融合、检测分割一体化的研究，目的在于使检测方法对变化的使用场景具有更强的鲁棒性，同时充分利用不同波段图像存在的特征信息，在单波段小目标检测的基础上进一步降低漏检率。

网络结构如图2所示，在上一节的基础上加入了图像融合的部分，使用双波段图像输入同一网络，在最后分别对二者使用1×1的卷积核进行卷积，最终进行叠加，目的在于提取不同波段红外图像中对目标点特征成像清晰的部分。

图2 双波段小目标检测分割模型结构

2 数据集

基于深度神经网络的方法在物体检测任务中具有巨大优势，但是目前将它用于弱小目标检测还面临诸多困难，这类方法暂时未在小目标检测中获得类似于其他领域的明显成功，主要有以下两个原因：① 目标的尺寸小，深度神经网络难以提取弱小目标的有效特征，从而不能充分发挥出深度神经网络对目标的强大表达能力；② 是目标样本数据库的规模小，由于任务场景和目标类型的特殊性，通常难以获取足够数量的目标样本构建大规模的数据集，因此难以使深度神经网络得到充分训练，进而难以取得令人满意的检测效果[12-13]。在可预见的未来，这两个情况将很难得到改变[14]。为了验证提出算法的有效性，制作了仿真数据集对提出的模型进行了验证性实验。仿真数据集制作过程如图3所示。

图3 仿真数据集制作过程

首先在背景图像上覆盖手动添加目标点的图层，并添加合适概率的随机噪声，由此获得的图像用于仿真现实中拍摄的具有多目标点的图像；在此基础上对图像进行非线性灰度变换，获得的图像用于仿真同一场景下不同波段的成像结果。最后将目标点图层二值化，作为真值(Ground Truth)掩膜。

3 量化实验对比分析

3.1 实验环境

本文的实验环境为Windows 10，电脑配置为GPU(NVIDIA GTX-2060 6 GB显存)、CPU(i5-8300H)、16 GB内存。选取所提出的仿真数据集作为训练样本，其中训练集图片为1300张、验证集图片为400张、测试集图片400张。模型整体采用PyTorch框架搭建。设置训练模型的初始学习率为0.001，选择Adam优化器。最大迭代次数为50次，每批次训练2个样本。

3.2 评价指标

为了定量评价提出模型的检测性能，对比检测结果与真实标注，计算实际目标数、漏检数、虚警数，并由此得出漏检率、虚警率作为评价指标。

评价指标计算过程如图4所示，以图4(a)输入单波段检测网络获得的检测结果为例，介绍评价指标计算过程。

图4 评价指标计算过程过程

① 首先以7×7的椭圆形核对图4(b)所示的GT掩膜进行膨胀操作，获得图4(c)。

② 以灰度值10为阈值对检测结果进行二值化操作，遍历图4(c)膨胀后的GT掩膜与图4(e)二值化的检测结果，若图4(c)中像素点为255，便将图4(e)同位置的像素点赋值为0，最终获得显示虚警点的图4(h)。

③ 以7×7的椭圆形核对图4(e)二值化的检测结果进行膨胀操作，获得图4(f)。

④ 遍历图4(f)膨胀后的检测结果与图4(b)GT掩膜，若图4(f)中像素点为255，便将图4(b)同位置的像素点赋值为0，最终获得显示漏检点的图4(g)。

⑤ 以连通域处理函数分别对图4(b)、图4(f)、图4(g)进行处理，获得目标点数，虚警点数，漏检点数。

3.3 实验结果与分析

以灰度值Threshold=10为阈值二值化检测结果图，以上节方法分别计算传统方法Top-Hat[5]、SPCM[7]和本文提出的单、双波段小目标检测分割网络共4种检测方法的性能指标，统计结果如表1所示。

表1 统计结果

由表1可知，属于形态学处理方法的Top-Hat检测方法对于背景复杂且包含噪声的红外图像的目标检测能力十分有限，虚警率与漏检率极高。由图5(b)可以看出，其主要原因在于部分复杂背景、噪声与目标点的灰度值与周围黑色背景有较大差异，在Top-Hat操作中会被检测出来，最终被当作目标点显示在检测结果中，同时输入图像中个别目标点较为模糊，故统计结果中的虚警率极高，远远超出100%，漏检率也较高。

SPCM方法可以在多尺度上对目标进行检测，但该方法仍然无法解决滤波方法的局限，无法区分与目标点相似的噪点以及复杂背景的区域，如图5(c)所示，检测结果中的虚警点极多。所以，该方法在测试集上虽然能较好地检测出目标点，但虚警率极高，基本无法应用在本文模拟的应用环境中。

图5 各方法检测结果样例

对比本文提出的单、双波段小目标检测分割网络的性能指标可知，二者均能将漏检率、虚警率保持在较低水平，其中双波段的检测方法漏检率极低只有0.051%，而虚警率相较于单波段检测方法有小幅增长。主要原因在于本文提出的双波段小目标检测分割模型中的融合方法本质上是深度特征的加权或操作，有利于充分利用多波段图像中的目标点特征，降低漏检率。

4 参数选择讨论

二值化阈值(Threshold)是本文提出的模型唯一需要控制的超参数。本节讨论各方法在测试集上的性能受该参数的影响及参数的选择。

本节实验将阈值分为254阶，分别计算各方法在各阈值阶级上的虚警率和漏检率，结果如图6、图7所示。可以看出本文提出的单、双波段小目标检测分割网络的虚警率与漏检率在较大的阈值范围内都保持在较低水平，其中单波段方法在更大的阈值范围内(6～235)表现出良好性能，虚警率、漏检率均小于0.1%。

图6 虚警-灰度阈值曲线

图7 漏检率-灰度阈值曲线

为进一步探究双波段小目标检测分割网络的性能，在图6、图7的基础上细化刻度，寻找最佳性能指标的阈值范围。双波段最佳二值化阈值选择如图8所示。由图8可知，双波段检测方法的最佳性能优于单波段方法，在阈值为137～176的范围内可使虚警率为0，漏检率低于0.02%。实际应用中，可依据具体任务场景的先验知识选取合适的阈值。实验结果表明，阈值作为唯一需要控制的超参数，当其处于一段值域范围内时本文提出的模型均能取得具有实用性的小目标检测结果，显示了所提模型的鲁棒性。

图8 双波段最佳二值化阈值选择

5 总结与展望

本文针对低信杂比图像中小目标因面积占比小导致的特征提取难的问题，提出了一种基于深度分割模型的小目标检测算法，并进一步利用多波段特征融合的思想，通过融合不同波段的特征提取结果实现目标检测。在仿真数据集上的实验结果表明，该方法相较于对比方法能有效提高小目标检测的准确率，促进了小目标检测在视频监控、军事侦查等领域的应用效果。本文提出的基于深度特征融合的双波段小目标检测模型本质上是对双波段特征图的加权或操作，以降低对小目标的漏检率，后续根据不同应用背景选择不同融合策略，构造不同融合模型，以及设计面向任务特点的数据增广策略，以期进一步提升深度融合小目标分割模型的准确性和适应性。