基于深度学习的小目标检测研究进展

2021-08-03李红光于若男丁文锐

航空学报 2021年7期

李红光，于若男，丁文锐

1.北京航空航天大学无人系统研究院，北京 100191 2.北京航空航天大学电子信息工程学院，北京 100191

目标检测结合了目标定位与目标分类两大任务，被广泛应用于人脸识别[1]、行人检测[2]、自动驾驶[3-4]、智能监控[5]等计算机视觉领域，为图像和视频的高级语义理解提供有价值的信息。随着计算机科学技术的发展，基于深度卷积神经网络的特征提取技术被广泛应用于计算机视觉任务中，目标检测完成了从基于传统手工设计特征的检测方法到基于卷积神经网络的深度学习方法的变迁，随后基于卷积神经网络的目标检测算法迅速成为图像处理领域研究的主流。该方法通过设计各种结构的网络模型和强大的训练算法来自适应地学习图像高级语义信息的表示，完成对目标的分类和定位，在检测精度和效率方面均有很大的提升，并且对环境的适应能力较强。

然而，当前的目标检测算法大多针对于自然场景中分布较为稀疏的中大型目标，如经典的两阶段方法[6-8]首先通过选择性搜索、边缘检测、区域提取网络等方法生成可能包含目标的候选区域集合，再利用卷积神经网络对候选区域做特征提取，进行精确的目标类别估计和边界框位置回归，具有高精度的优势，但处理效率低、推断速度慢，不适用于实时性要求高的检测任务。单阶段方法SSD[9]和YOLO系列算法[10-11]不需要提取目标候选区域，直接对输入图像进行卷积特征提取，在特征图上进行边界框的回归，将目标检测过程转化为回归问题处理，具有速度上的优势。这些方法在通用数据集上已经取得了较好的检测效果，但对于小目标的检测仍有一定局限性。小目标在原图中所占像素数较少，携带的信息十分有限，缺乏纹理、形状、颜色等外观信息，经过多次下采样后小目标的分辨率进一步降低，特征信息逐步减弱，检测难度增大，因此通用的目标检测器具有对小目标检测精度低的缺点。

在复杂背景中检测小目标是图像分析处理领域的一个重要研究方向，小目标广泛存在于远距离拍摄的航空航天影像或视频监控中，利用计算机对捕获的高质量图像数据进行有效分析和处理，识别出不同类别的目标并标注其所在的位置是计算机视觉任务中的基础问题之一，被广泛应用于城市智慧交通、物流管理、农林业发展、公共安全、抗灾救灾部署等任务场景中，用于精确定位和识别目标，节省大量人力和时间成本，因此小目标检测技术具有重要研究意义和实际应用价值。然而，与自然场景下的图像相比，远距离拍摄图像具有背景复杂度高、目标尺寸小且外观模糊的问题，基于深度学习的目标检测技术对小目标检测精度较低且对复杂背景下目标适应能力弱，容易发生漏警和虚警现象，严重影响检测结果，因此小目标检测在计算机视觉任务中一直是一个亟待解决的难点问题。

近年来，随着深度学习理论的不断发展及工业界需求的日益增长，小目标检测技术的研究引起了越来越广泛的关注，但目前专门针对小目标检测的算法研究较少，现有的小目标检测算法一般是在通用目标检测方法的基础之上提出一些改进或优化策略，通过加深网络的层数，设计能够提取到更丰富特征的主干网络[12-13]、复杂化特征融合过程[14-15]来增强模型对多尺度目标的鲁棒性，从而提升对小目标的检测性能。Faster R-CNN[8]和SSD[9]算法分别作为经典的两阶段目标检测算法和单阶段目标检测算法，在检测精度与速度上取得了较好的表现。基于两阶段的方法提出了一些针对小目标问题的改进算法[16-26]，基于单阶段的改进算法[27-29]主要是通过多尺度特征融合的方式来充分利用富含细节信息的底层高分辨率特征。此外，生成式对抗网络[30-32]、数据扩充[33-36]等技术被用于解决小目标检测问题。

小目标检测的综述类文章较少，文献[37-38]以不同的方式对现有的小目标检测算法进行归纳总结，表1主要从算法的分类方式上将文献[37-38]的内容与本文进行了对比。文献[37]从单阶段算法、两阶段算法及多阶段算法3个方面综述了小目标检测的研究现状及各领域应用情况，文献[38]从5个不同角度分别介绍了现有的小目标检测方法。本文以通用目标检测算法对小目标检测精度低的主要原因为出发点，从特征增强、引入上下文信息、锚点框设计、数据扩充等8个技术方向全面地总结了小目标检测现有的研究工作，并介绍了小目标检测在几个特定场景下的应用，最后对小目标检测未来的研究方向进行展望。希望这篇综述为小目标检测的研究提供可借鉴和参考的思路，对小目标检测技术的发展起到一定的推动作用。

表1 小目标检测综述比较

1 小目标检测

1.1 问题定义

所谓小目标指的是目标成像尺寸较小，通常有两种定义方式，一种是绝对尺寸大小，在COCO数据集[51]中，尺寸小于32×32像素的目标被认为是小目标；另一种是相对尺寸大小，根据国际光学工程学会定义，小目标为256×256像素的图像中成像面积小于80像素的目标，即若目标的尺寸小于原图的0.12%则可以认为是小目标。小目标实例如图1所示，图1(a)中区域标注的人、羊、狗表示常规尺寸目标，图1(b)中区域标注的风筝表示小目标。小目标相比于常规尺寸目标，在图像中所占像素数较少，分辨率较低，特征的表达能力较弱。

图1 小目标实例

COCO数据集作为目标检测领域常用于测试算法性能的公共数据集，图像场景较为复杂，目标类别丰富、数量大且尺寸较小。在COCO数据集上的测试结果显示，小目标的检测精度通常只有大目标的一半，可见小目标问题影响了检测器在COCO数据集上的整体表现，使其在语义理解、样本发掘、目标重识别等高级任务中存在诸多问题。因此，小目标检测是计算机视觉领域中一个富有挑战性的任务。

1.2 难点与挑战

基于深度学习的目标检测算法大多针对于具有一定尺寸或比例的中大型目标，难以适用复杂背景下的小目标检测。小目标检测的难点主要体现在以下3个方面：

1)目标尺寸与深度网络提取特征之间的矛盾。由于自身物理尺寸较小或远距离拍摄导致待测目标在图像中的占比很小。且由于池化层的存在，基于CNN的目标检测算法会使目标信息量进一步减少，导致深层特征对小目标的表达能力较弱，一个24×24像素的目标经过4个池化层后只有约1个像素，维度过低，难以检测。

2)用于算法研究的数据集少，且目标尺度分布不均匀。由于小目标的标注需要较高的人工成本，目前还没有一个专门用于小目标检测研究的公共大型数据集，现有的小目标检测算法大多基于COCO数据集。在COCO数据集中，小目标数量较多，但分布十分不均匀，只有52.3%的图像中包含小目标，且小目标一般只能在较低交并比(Intersection over Union，IoU)的情况下匹配较少的锚点框，随着置信度阈值的提高，正确预测的小目标边界框数量减少，因此在训练过程中小目标难以进行充分地学习，导致训练后的模型更加拟合中大型目标，对小目标的泛化能力较弱、检测精度较低。

3)相关算法研究缺乏通用性，难以迁移到其他领域。针对小目标检测算法的研究大部分在于特定场景下的应用，如在大规模航空拍摄图像中检测地理空间目标、密集场景中识别小人脸、监控视频中识别小人物、自动驾驶识别交通标志和信号灯、医学影像处理用于辅助诊断等，检测任务的多样性及复杂性导致算法在实际应用中面临着很大挑战，缺乏通用性，难以迁移到其他应用场景下的小目标检测任务中。

2 小目标检测算法

本节对现有的小目标检测算法进行归纳总结，以通用目标检测算法对小目标检测精度低的主要原因为出发点，从8个不同角度介绍了现有的小目标检测研究方向及相关算法，并对算法的优缺点及性能进行对比分析。

2.1 特征增强

小目标尺寸较小，深度网络能够提取到的特征信息十分有限，通过特征增强的方式生成高质量的特征表示对小目标检测至关重要。特征增强的方式主要包括多尺度特征融合、学习具有大感受野的高分辨率特征、生成超分辨率特征表示及引入注意力机制。

2.1.1 多尺度特征融合

卷积神经网络的多层结构可以自动学习不同层次的图像特征，低层特征图保留了图像边缘、轮廓、纹理等局部细节信息，有利于目标定位，高层特征图则包含更加抽象的语义信息，有利于目标分类，但对细节的感知能力较差。多尺度特征融合通过自上而下的横向连接将低层特征与高层特征相互融合，构建具有细粒度特征和丰富语义信息的特征表示，融合后的特征具有更强的描述性，有利于小目标的检测。特征融合的方式主要分为3种：逐元素相加[14,27,52-55]、逐元素相乘[15]、通道连接[16,29,56]。

Lin等[14]提出特征金字塔网络(Feature Pyramid Networks, FPN)，结构如图2所示。高层特征图上采样后与较低层特征图做元素级别的相加，上采样操作采用双线性插值法，这种结构增强了网络对多尺度特征的提取能力，作为基础模块被广泛应用于各种目标检测框架中并取得了较大的性能提升；Li等[55]在FPN的基础上引入注意力机制，高层特征经全局池化后对低层特征图的通道进行加权，以指导不同层级信息之间的融合；Woo等[52]验证了采用反卷积层代替双线性插值法对高层特征图做上采样具有更好的性能；RefineDet[53]结合了单阶段目标检测方法和两阶段方法的优点，初步生成目标候选区域并将低层特征与经转置卷积处理后的高层特征融合，在提高目标检测效率的同时增强了对小目标的检测能力；MDSSD[27]在SSD的基础上将低层特征图与高层特征图做逐元素相加，生成的特征图用于预测不同尺度的目标；Zhao等[54]将不同层次特征融合为基础特征，送入多层特征金字塔网络提取更有代表性的多级多尺度特征，将相同尺度的特征图进行拼接并引入通道注意力机制以获得更有效的特征表示。

图2 FPN结构[14]

DSSD算法[15]在SSD结构的基础上添加反卷积层用来放大高层特征并恢复图像细节，将反卷积层的输出与相同尺度的卷积层特征图进行逐元素相乘，如图3所示，有利于突出包含重要信息的目标区域特征，同时抑制其他无关信息，增强小目标特征的可区分性，显著提高了模型对小目标和密集目标的检测精度。

图3 DSSD结构[15]

Bell等[16]在Faster R-CNN的基础上，提取感兴趣区域在不同抽象层次上的特征，并将多尺度特征与空间递归神经网络提取的上下文特征进行通道连接，以增强网络对小目标的检测能力；FSSD[29]在SSD算法的基础上将低层特征图进行通道连接得到高分辨率基础特征，再构建多尺度特征分别用于检测不同尺度的目标；Shrivastava等[56]设计一种自上而下的模块，如图4所示，网络自适应地从低层特征图中提取并筛选细节信息，与高层信息做通道上连接，集成不同区域的上下文信息以提高小目标的识别率。

图4 TDM结构[56]

2.1.2 学习具有大感受野的高分辨率特征

特征分辨率表示前向传播过程中从输入图像到特征图的下采样率，感受野表示输出特征图上单位像素对应输入图像的空间范围。低分辨率、大感受野的高层特征图会丢失大量小目标的细节信息，导致模型对小目标的检测精度较低，因此学习具有大感受野的高分辨率特征表示有利于增强小目标的细粒度特征表示，同时使检测器可以从目标周围区域感知上下文信息进行推理，对小目标的检测具有十分重要的意义。

扩张卷积是目前用于同时提高特征分辨率和扩大感受野的主流方法，其主要思想是扩展卷积滤波器并使用稀疏内核来实现交替的卷积和池化操作。采用扩张率为r的扩张卷积，可以将K×K卷积核扩张至K+(K-1)(r-1)，如图5所示。扩张卷积避免了池化操作导致特征映射的空间信息丢失的问题，在不增加额外参数和计算量的情况下扩大了感受野。因此被广泛应用于目标检测任务中，以提高小目标的检测效果。

图5 扩张卷积

扩张卷积主要分为单扩张率卷积[41,57]和多扩张率卷积[58-59]。文献[41]提出了一个专门用于目标检测的主干网络，通过引入扩张卷积模块来增大感受野，并保留了较高的空间分辨率，解决了传统基于图像分类的卷积神经网络对大尺寸目标定位不准确、对小尺寸目标识别能力差的问题；Li等[57]提出了一个新的人脸检测框架，通过引入扩张卷积使提取到的特征具有更高的辨识度和鲁棒性，提高了模型对小尺寸人脸的检测性能；Li等[58]设计了3个不同感受野的并行分支用于学习输入图像中不同尺度的目标；Zhang和Shen[59]基于FPN结构进行改进，通过融合不同扩张率的特征图以学习目标多尺度信息，在不增加计算复杂度的情况下提高了检测精度。

2.1.3 生成超分辨率特征表示

小目标在图像中所占像素数少，难以提取到高分辨率有效特征用于目标的定位和识别，因此利用特征超分辨率技术增强小目标的特征表示，将低分辨率特征表示转换为高分辨率可识别的特征表示，有利于提高模型对小目标的检测精度。

生成式对抗网络作为一种常用的特征超分辨率技术被引入目标检测任务中，通过缩小同类别、不同尺度目标之间的特征表示差异来增强对小目标的检测效果。Li等[30]提出感知生成对抗网络，在网络学习过程中以底层细粒度特征作为输入，学习大、小目标之间的残差表示，并对小目标的高层特征进行补充，生成的超分辨率特征与对应大尺寸目标的特征表示相似，生成器与判别器之间交替优化的竞争促使生成器生成可辨别的高分辨率特征表示，从而提升网络对小尺寸目标的检测能力；Bai等[31]提出一种基于多任务生成对抗网络的小目标检测方法，生成器将模糊的感兴趣区域通过上采样操作生成超分辨率图像，判别器为多任务网络，区分真实图像与超分辨率图像并输出类别得分和边界框回归偏移量；为提高超分辨率特征质量，Noh等[32]将上下文信息引入目标提取网络，通过扩张卷积的方式使生成的高分辨率目标特征与特征提取器生成的低分辨率特征保持相同的感受野大小，避免了感受野不匹配误导特征超分辨率的生成。

2.1.4 引入注意力机制

受人类视觉系统的启发，近年来许多研究者将注意力机制引入卷积神经网络中以提高目标检测的性能。按照注意力作用于特征图的形式，注意力机制主要分为通道注意力[60]、空间注意力[61]及通道和空间混合注意力[62]。由于小目标通常存在于远距离拍摄的影像中，背景较为复杂，因此通常在目标检测任务中引入空间注意力机制[63-66]，对目标区域的特征加以权重，使特征提取网络有选择性地关注包含重要信息的目标区域，同时抑制其他无关信息，降低背景对检测结果的影响，从而提高模型对小目标的检测性能。

ACoupleNet[63]在CoupleNet[44]的基础上引入注意力机制，通过级联的注意力模型逐步提取目标区域并生成注意力感知的卷积特征来指导特征学习的过程，突出显示与目标相关的特征并抑制背景的干扰；为从无人机图像中检测小而密集的车辆目标，Li等[64]将自上而下、自下而上的注意力机制相结合，应用循环流指导特征提取，使网络更好地定位在目标特征之上，从而提供高精度的目标检测；针对遥感图像背景复杂、目标小的问题，Ying等[66]提出一种基于多尺度的多注意目标检测法，全局注意力模块用于整合深层和浅层特征，以缓解深层特征分辨率低而引起的小目标信息丢失的问题。像素特征注意力模块在像素级别融合细节信息和全局信息，同时扩大感受野，显著提高了模型的检测精度及鲁棒性。

2.2 引入上下文信息

小目标尺寸较小，携带的特征信息较少，缺乏将其与背景或类似物体区分开的有效外观信息，在自然场景下的目标检测任务中融入目标周围的上下文信息有利于区分小目标，丰富特征信息的表达，从而提升模型对小目标的检测效果。

Chen等[17]采用改进版的候选区域网络(RegionProposal Network, RPN)提取小目标的候选区域，分别将候选区域和以候选区域为中心在原图上裁剪的4倍的上下文区域作为2个并行卷积神经网络分支的输入，将提取到的2个区域特征连接作为最终的特征表示，完成对候选区域的分类；Cai等[18]提出了多尺度候选区域提取网络，使网络充分学习目标的多尺度信息，同时引入上下文区域信息，显著提高了模型对小目标的检测性能；Zhu等[44]提出的CoupleNet全卷积网络通过结合局部信息、全局信息与上下文信息，提高模型对小目标的检测精度；Guan等[45]提出语义上下文感知网络，采用金字塔池化以融合不同级别的全局上下文信息，提高对小目标检测的准确性，并采取最大池化和平均池化交替的应用策略以平衡检测的准确率和查全率。

2.3 锚点框设计

基于锚点框的目标检测算法通过人为定义的先验锚点框生成可能包含目标的候选框集合，然而，先验锚点框对多尺度目标的适应性较弱，特别是对小目标检测召回率过低。铺设更加密集的锚点框可以确保较高的召回率，但同时会引入更多的参数量和计算量，因此选择合适的锚点框参数对小目标检测至关重要。

Krishna和Jawahar[19]通过数学公式推导，为小目标确定合适的锚点框尺寸，以提高候选框的定位准确率；Zhang等[67]针对目标特性为不同检测层设置不同尺寸的锚点框，同时保持不同检测层锚点框的空间密度一致，并提出尺度补偿锚点框匹配策略以增加小目标匹配到的锚点框数量，一定程度上改善了先验锚点框对小目标难以匹配导致的检测率低的问题；YOLOv2[10]使用K-means 算法对训练数据集目标的真实边界框进行聚类分析，获得合适的锚点框尺寸以降低目标定位的优化难度；2019年，文献[20]中提出一种新的锚点框生成策略，通过对图像语义特征进行分析，预测锚点框的位置和大小，生成一系列动态的锚点框稀疏集合用于匹配图像中的目标，对特殊大小和长宽比的目标具有较强的鲁棒性，实验证明该方法在提高了检测召回率的同时减少了锚点框数量，从而减少了模型的参数量。

基于Anchor-free的方法是近年来目标检测领域的发展趋势之一，检测器不再依赖预先设定的锚点框，而将目标检测任务转换为关键点[68-70]的估计。Anchor-free方法避免了先验锚点框对小目标适应能力弱的问题，同时减少了大量锚点框设定引入的计算量，在航空图像目标检测任务中具有良好的表现[34,71-72]，拥有广阔的发展前景。

2.4 数据集差异性处理

由于预训练数据集和用于网络学习的数据集中目标尺寸分布存在较大差异，对预训练网络进行微调将会产生域偏移的现象，为了减轻数据集差异对小目标检测性能造成的影响，研究人员提出了一些新的算法。

Singh和Davis[21]提出了一种基于图像金字塔的尺寸归一化(SNIP)算法，如图6所示，通过引入图像金字塔来处理不同尺寸的数据，并在反向传播时只将和预训练模型所基于的训练数据尺寸相对应的感兴趣区域或锚点框梯度进行回传，以减少域偏移带来的精确度损失；Yu等[46]提出了一种尺度匹配方法，对训练数据集进行尺度变换，使用于检测器学习的数据集与用于网络预训练的数据集之间目标尺度直方图分布保持一致，这种方法为小人物目标检测带来了显著的性能提升；Zhu等[47]结合VGG和ResNet的优点设计了适用于小目标检测的主干网络Root-ResNet，网络从零开始训练，不需要使用预训练模型，避免了数据集之间的尺度差异带来的精度损失。

图6 SNIP结构[21]

2.5 ROI Pooling层设计

在两阶段目标检测算法中ROI Pooling层的作用是根据候选区域的位置坐标在特征图中将不同尺度的区域池化为固定大小的特征向量，以便进行后续的分类和回归。然而，ROI Pooling层的池化操作会对小目标原始结构信息造成破坏，量化操作会导致小目标定位准确度的降低。

Hu等[22]在多层特征图上使用上下文感知的ROI Pooling操作，使用双线性反卷积核上采样，扩大小尺寸候选框的特征区域，恢复细节并保持场景不被破坏，有利于更好地提取小目标原始结构的判别性特征；He等[23]使用感兴趣区域对齐(ROI Align)策略代替ROI Pooling，取消两次量化操作，使用双线性内插的方法获得每个坐标为浮点数的采样点上的图像数值，避免量化过程中强制性地将浮点坐标转化为整数坐标产生的位置偏差造成目标定位准确性的降低，如图7所示。由于小目标受量化误差的影响较大，因此该方法可以有效地提高小目标的检测精度。

图7 ROI Align示意图

2.6 数据扩充

在COCO数据集中，包含小目标的图像数量较少，且通常小目标只能在IoU较低的情况下匹配单个锚点框，在训练迭代过程中对总损失的贡献较小，提供给网络学习的监督信息不足，导致模型对小目标的检测精度较低，因此通常对训练数据集中的样本进行数据扩充以增加小目标的数量，提高网络对小目标的拟合能力。

常见的数据扩充方式有旋转、剪裁、缩放、水平翻转等，文献[33]提出一种新的数据扩充方式，在训练过程中对包含小目标的样本进行过采样，增加包含小目标的图像数量。此外，将小目标拷贝并在一定范围内进行尺度和角度的随机变换后粘贴在图像中不同位置上以增加训练过程中小目标匹配到的锚点框数量，并提高小目标位置的多样性，促使模型更加关注小目标；文献[34]提出一种自适应重采样的数据扩充技术，在将小目标进行粘贴的过程中，考虑到背景不匹配问题和尺度不匹配问题，通过语义分割网络确定粘贴目标的有效位置，获得了更好的小目标检测器。

另一种数据扩充方式是通过训练图像缩放和拼接以改善数据集中样本分布不均衡现象，如图8 所示。Chen等[35]通过将批处理内每4张图像缩小到相同尺寸，并在空间维度上拼接成常规尺寸的图像作为训练网络的输入，分别将大目标缩小成中目标，将中目标缩小成小目标，以均衡数据集中不同尺度目标的分布，并在训练时引入损失统计作为反馈自适应地指导下一个迭代过程中拼接图的使用；YOLOv4[36]采用的Mosaic数据扩充方法允许拼接图中每张图像的尺寸不同。

图8 Stitcher及Mosaic数据扩充

2.7 提高定位精度

由于小目标正负样本的筛选受定位精度的影响较大导致小目标正负样本不均衡，且细微的位置偏差容易对检测结果造成较大的影响，因此小目标对定位精度要求更高。提高小目标的定位精度常用的方法有两种：边界框修正[24-26,73]和设计新的损失函数[74-76]。

HyperNet[24]将不同层次的特征信息整合归一化到特殊的空间并进行候选区域提取，有利于得到高质量的目标候选框，有效改善了Faster R-CNN 对小目标定位能力差的缺点；Ghodrati等[25]在候选区域提取阶段采用从粗到细的反向级联网络结构，结合高层特征图高召回率、低层特征图定位精准的优点，在空间上不断优化以得到定位准确的候选区域集合；Cai和Vasconcelos[26]提出了级联的网络结构，如图9所示，通过不断提高每个检测器界定正负样本的IoU阈值，使每一个检测器专注于检测IoU在某一范围内的候选框，从而使目标定位准确度越来越高，这种结构被广泛应用于复杂场景下的中小型目标检测任务中。

图9 Cascade R-CNN算法[26]

为了避免分类置信度与定位置信度之间的偏差导致在非最大值抑制(Non-Maximum Suppression，NMS)处理过程中将低置信度、高定位精度的检测框抑制掉，Jiang等[73]设计了IoU-Net结构用于预测真实边界框与检测框之间的IoU及IoU引导的NMS算法，并将定位回归问题转化为优化问题以进一步提高定位精度；Yu等[74]使用IoU损失代替传统的坐标回归L2损失以解决用于评价检测框的定位精度指标IoU与定位损失之间的不等价问题；文献[75-76]对IoU损失进行优化以进一步提高目标的定位精度。

2.8 尺度自适应检测

当前先进的高性能目标检测算法依赖于精确的候选区域，该方法一般基于固定尺寸的锚区域训练一组与类别无关的回归量，但稀疏的锚区域先验导致生成的候选区域对小目标的适应能力较差，而密集的锚区域需要很大的计算量和推理成本。尺度自适应检测技术动态地放大感兴趣区域，自适应地将小目标放大为大尺寸目标，使之与锚点区域先验更好地匹配，并通过细粒度分析提高小目标的检测性能。

Lu等[48]采用自适应递归搜索策略生成一系列可能包含目标的锚点区域，将图像划分为多个子区域，根据子区域特征对缩放指示器大于阈值，即可能包含小目标的区域进一步细分，并对每个子区域进行递归处理，如图10所示，该方法会自适应地在小目标周围生成小锚点区域，相比于RPN网络具有更高的召回率。

图10 自适应递归搜索

Bellver等[49]提出一种基于强化学习的图像分层目标检测方法，在智能代理的指导下，自上而下地从全局视图依次聚焦图像中包含丰富信息的子区域，进一步减少分析处理的区域，并为子区域提取高质量描述符代替共享卷积特征；Gao等[50]采取从粗到细的检测策略，在低分辨率图像中进行粗略检测，并动态选择感兴趣区域进行放大，在高分辨率子区域中进行精准的目标定位和分类，通过不断的迭代过程，使网络能够从高分辨率输入图像中有效地识别小目标。

2.9 算法优缺点及性能对比

本节从小目标检测的8个研究方向对相关算法的优缺点及性能进行对比分析，表2是对各个研究方向的归纳总结及优缺点对比，表3是不同算法在COCO数据集上的性能对比。

表2 小目标检测研究方向及算法优缺点对比

在COCO数据集中，定义尺寸小于32×32的目标为小目标，尺寸在32×32～96×96像素之间的为中目标，尺寸大于96×96像素的目标为大目标，分别用APS、APM、APL这3个评价指标表示算法对小、中、大型目标的检测精度。由表3实验结果可以看到，基于两阶段目标检测算法，Faster R-CNN w/FPN[14]相较于Faster R-CNN+++[12]，APs值提高了2.6%。相较于典型单阶段目标检测算法SSD512[9]，DSSD513[15]的APs值提高了4.0%，FSSD512[29]的APs值提高了5.2%。此外，RefineDet512[53]、M2Det800[54]及TDM[56]均通过多尺度特征融合的方式提升了APs值。学习具有大感受野的高分辨率特征可以显著提高了小目标的检测精度，DetNet[41]和TridentNet[58]均采用扩张卷积的方式，解决了特征分辨率与感受野之间的矛盾，APs值分别达到23.6%和23.0%。MTGAN[31]通过多任务方式生成小目标的超分辨率特征表示，将APs值提升至25.15%。CoupleNet[44]将上下文信息融入目标检测网络，AcoupleNet[63]进一步引入视觉注意力机制，使APs值由11.6%提高至12.2%。基于Anchor-free的目标检测方法对各尺度的目标检测精度均有所提升，特别是对小目标而言。在表3中，SNIP[21]拥有最高的APs值，同时在中大型目标的表现也优于其他方法。Stitcher[35]算法通过数据扩充的方式改善了小目标在图像中的分布情况，较大程度地提高了APs值。Cascade R-CNN[26]是一种多阶段目标检测方法，通过逐渐提升定位精度将APs值提升至23.7%。

表3 算法在MS-COCO数据集上的检测性能对比

3 小目标检测应用

小目标检测是目标检测领域中的一个难点问题，被广泛用于遥感图像分析、人脸识别、行人检测、交通标志和信号灯识别等领域。

3.1 数据集

小目标在图像中所占像素数较少、特征信息不明显，导致小目标检测算法在常规数据集上的表现不好，因此针对小目标的应用研究需要建立专门的数据集。现有的小目标检测数据集分为两种：第1种是公共数据集，即COCO数据集，第2种是各个领域的应用数据集，如遥感数据集、人脸数据集、行人数据集及交通标志和信号灯数据集等，各领域常用的数据集及其主要信息如表4所示。

表4 各领域应用数据集

3.1.1 遥感数据集

航空遥感图像一般在距离地面十几公里外拍摄，覆盖范围较广，输入图像像素数巨大，超过百万像素，而通常感兴趣的目标尺寸较小，为几十个甚至几个像素。目标类别的多样性及拍摄距离的不确定性导致目标尺度差异性较大，且图像质量易受光照、雾霾、阴影等环境因素的影响，数据集的泛化能力较差。

DOTA数据集[77]是一个常用的大规模航空遥感图像目标检测数据集，包含来自不同传感器和平台的2 806张航空影像，尺寸在800×800～4 000×4 000像素范围内，使用矩形边界框标注了不同尺度、方向和形状的188 282个目标实例；由西北工业大学标注的NWPU VHR-10数据集[78]共计800张图像，包含10类目标；UCAS-AOD数据集[79]仅包含汽车、飞机两类目标及背景负样本；VEDAI数据集[80]专门用于航空遥感图像中多类车辆的检测，共包含3 640个车辆实例。

3.1.2 人脸数据集

在人脸检测任务中，主要存在的问题是人脸在姿态、表情、尺度、遮挡、光照等方面具有丰富的变化，FDDB[81]是一个被广泛用于人脸检测算法评估的数据集，来源于美联社和路透社的新闻报道图片；WIDER FACE[82]是目前难度最大、最权威的人脸检测公开数据集，共标注了393 703张人脸，全面包括了各种难点问题，且包含大量的小人脸；MALF[83]是为评估野外环境下人脸检测算法而设计的数据库；MegaFace数据集[84]包含一百万张图片，共690 000个不同的人，是第1个在百万规模级别的面部识别算法测试基准。

3.1.3 行人数据集

行人外观易受穿着、尺度、遮挡、姿态和视角等影响，Caltech[85]是规模较大的行人数据库，采用车载摄像头拍摄，标注了约250 000帧，共2 300 个行人，另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注；INRIA[86]是目前使用最多的静态行人检测数据库，训练集有正样本614张，包含2 416个行人；CityPersons[87]是在Cityspaces数据集[88]的基础上重新标注的行人检测数据集，具有高质量的标注信息、丰富的多样性及较强的跨数据集泛化能力。

3.1.4 交通标志和信号灯数据集

TT100K[89]是一个大规模交通标志识别数据集，均来自腾讯街景全景图，它提供了100 000张高分辨率图像，这些图像覆盖了光照强度和天气条件的巨大变化，其中包含30 000个交通标志实例，共128种标志，是用于交通标志识别的最可靠的基准数据集；中国交通标志检测数据集CCTSDB[90]包含图片近16 000张，交通标志近40 000个；BSTL[91]是目前最大的交通信号灯检测数据集，包含5 000张静态图像和8 200帧视频图像，共标注24 000个小型交通信号灯实例。

3.2 算法应用

在不同应用领域，小目标检测技术有所不同，但在方法上大多是基于第2节所述的8个研究方向，本节将从4个不同领域介绍小目标检测算法的应用。

3.2.1 遥感图像目标检测

如图11所示，在大规模遥感图像地物目标检测中，针对目标尺寸小、特征弱的特点，研究人员提出一系列算法，如表5所示。Long等[92]提出了一种基于分数的无监督边界框回归算法，对NMS得到的检测结果进行优化，以精确定位图像中的小尺寸目标；Pang等[93]设计了一个轻量化的残差网络Tiny-Net作为主干网络，采用特征融合的方式获得小目标的有效特征信息，并使用K-means法为小目标设计合适的锚点框尺寸；李红艳等[65]以Faster R-CNN算法为基础，在候选区域提取阶段引入注意力机制，使网络更关注目标区域特征，抑制无关信息，以适应遥感图像远距离拍摄导致的目标尺寸小、背景复杂的特点。

图11 遥感图像目标检测

表5 遥感图像目标检测算法所对应的研究方向

3.2.2 人脸检测

如图12所示，在视频拍摄场景中检测小人脸一般采取引入上下文信息的方式，利用人脸周围的头发、肩膀等信息以更好地定位人脸。SSH[1]是一个多尺度单阶段人脸检测器，不同尺度特征接入的预测模块通过对上下文信息进行合并，扩大感受野范围，用于检测不同尺度的人脸；Hu和Ramanan[94]利用小人脸周围的信息扩充感受野，以多任务的方式构建多尺度检测器，并对于不同尺度的检测器采用固定尺寸的感受野大小以有效识别小目标；Tang等[95]引入上下文辅助框架为人脸周围上下文信息的学习提供监督信息，设计底层特征金字塔网络以更好地融合上下文特征和面部细节特征，同时引入上下文预测模块，使用更深、更宽的预测网络获得有利于小人脸分类和定位的特征信息，提高最终预测的准确率。

图12 人脸检测

3.2.3 行人检测

行人检测作为目标检测的重要分支之一，通常与行人跟踪、行人重识别等技术进行结合对区域内的行人进行检测、识别、跟踪，在智能监控系统、自动驾驶、步态识别等领域受到较为广泛的关注。如图13所示，由于远距离拍摄导致行人尺寸一般较小，在行人检测任务中需要考虑小目标检测的问题，相关算法如表6所示。Zhang等[2]从浅层高分辨率特征图上进行特征映射提取候选区域，并采用级联的增强森林分类器对候选区域进行分类；Mao等[96]将额外的通道特征与主干网络提取的特征进行级联以提升检测器的性能；Liu等[97]采用级联的思想，利用不断提高的IoU阈值训练多个检测器，显著提高了行人检测精度并保持较高的检测效率。

图13 行人检测

表6 行人检测算法所对应的研究方向

3.2.4 交通标志和信号灯检测

近年来，随着自动驾驶技术的不断发展，车载设备捕获的视觉信息对导航系统具有重要的指导作用，其中交通标志和信号灯的检测成为计算机视觉领域的研究热点，如图14所示。相关算法如表7所示。Cheng等[98]使用上下文增强模块从候选区域周围提取区分性的上下文特征，以增强对小尺寸交通标志的分类准确性；Lu等[99]在生成目标候选区域阶段引入视觉注意力机制，有利于从高分辨率图像中定位和识别小目标；Li等[30]通过感知生成对抗网络增强小目标的特征表示，以优越的性能实现了在交通标志和行人检测上的应用。

图14 交通标志和信号灯检测

表7 交通标志和信号灯检测算法所对应研究方向

4 展望

随着深度学习理论和方法的发展，目标检测算法在通用数据集上取得了较好的效果。但小目标检测仍是一个难题，对其的研究大多是在现有算法的基础上进行改进和优化。对于小目标检测的未来发展，有3个研究方向值得探索：

1)设计专用特征提取网络

现有的目标检测模型大多是以在ImageNet上预训练的分类网络作为主干网络，分类任务与检测任务中模型的设计原则不同，且数据集间目标尺寸分布的差异性导致小目标检测存在一定的问题。因此为小目标设计专门的特征提取网络是未来小目标检测的重要研究方向之一。

2)建立非强监督目标检测模型

精确的目标边界框标注信息是强监督目标检测的前提，但由于小目标标注需要大量的人工成本，效率低下，因此通过低成本的标注信息获得良好的检测结果并提升检测效率是当前的研究热点。利用弱监督学习、小样本学习、自监督学习等方法在标定数据缺失的情况下建立非强监督检测模型，完成小目标检测是未来值得深入研究的方向。

3)引入多任务学习机制

构建多任务学习模型，与其他类型任务联合学习以获得更多有利于小目标检测的信息，并通过多任务学习的参数共享机制，提升小目标检测的性能。例如利用语义分割任务捕获的目标边缘和上下文信息有助于更好地识别和定位目标；将计数任务与目标检测任务相结合，学习计数辅助的目标检测器可以一定程度上消除复杂背景的干扰，避免漏检。

4)结合非深度学习方法

针对极限小目标，如5×5像素级别的目标，深度网络模型可能存在固有缺陷，特征提取阶段导致目标有限信息量进一步损失，此时需要考虑深度网络模型与非深度方法相结合的思路，例如通过与显著性检测、超像素分割等非深度方法相结合，提取更多有效信息，完成后续的目标定位与识别任务。

5 结论

小目标检测对于图像分析和处理具有重要意义，但总体来看小目标检测的研究成果较少，在检测精度和效率上均有较大的提升空间，是未来目标检测的重要研究方向。本文从不同角度指出基于深度学习的通用目标检测算法在小目标检测中存在的问题，着重归纳总结了现有的小目标检测研究在不同技术方向上取得的成果，并介绍了几个特定场景下小目标检测的应用数据集和算法，最后对小目标检测领域未来可深入的研究方向进行展望，希望通过本文的总结为今后小目标检测技术的研究工作提供一定的启发和帮助。