基于视觉感受野的无人机目标检测

2020-07-07程怀俊陈鹏陈杰刘杰彭德中

现代计算机 2020年15期

程怀俊，陈鹏，陈杰，刘杰，彭德中

（1.四川大学计算机学院，成都610065；2.西华大学计算机与软件工程学院，成都610039）

0 引言

快速准确地在特定场景中识别出无人机目标，可以帮助军事基地、机场等对制空权要求高的场所快速的对外来无人机目标进行高效精准的检测。对于无人机领域的目标检测问题，不仅具有领域的特殊性、无人机形态的多样性、识别场景的多变性，同时还将面临检测过程中的实效性、准确性等复杂问题。本文提出了一种基于视觉感受野的方法来完成无人机目标检测任务。无人机数据是在特定场景中使用特定摄像头进行采集的。深度神经网络方法以数据为驱动，可以自动识别出无人机的图像特征，从而基于这些图像特征对目标进行分类和定位。这种方法对于大量复杂度高的图片进行目标检测具有显著的优势。在计算机视觉领域，深度神经网络已经在目标分割、目标分类、目标跟踪等任务中展现出优势，并且在特征提取层面与传统方法相比，不需要大量的先验知识，这也就意味着不需要人工设计特征，避免了人工制定特征模版需要很多专业知识已经模版可移植性差的问题。

1 研究现状

计算机视觉技术现如今已经广泛应用于各行各业，如视觉测量、事件监测、目标检测、场景重建等。其中目标检测技术作为计算机视觉领域的重要研究方向之一，它在军事侦察、智慧城市、智能交通、视频监控等领域有着重要的应用前景。常用的目标检测算法有基于光流法、帧差法、背景减除法、匹配法、深度神经网络目标检测法等。随着近些年来硬件性能的不断提升以及新的算法的提出，基于深度神经网络的方法通过自主学习目标特征，在目标检测领域中表现出了强大的鲁棒性。2012 年，Krizhevsky 等人设计了一个用于图像分类的深度卷积神经网络AlexNet[1]，夺得了2012 年ImageNet LSVRC 的冠军并大幅度提高了图像分类的准确率，引起了学术界极大的轰动。随后几年陆续出现了GooLeNet[2]、VGG[3]、ResNet[4]等分类网络，均取得了优秀的图像分类效果。基于深度学习的目标检测方法的研究主要存在两个方向：两阶段算法主要是先提取候选区域（region proposals）之后进行分类和位置精修，其优点是精度高，代表算法主要是Faster R-CNN[5]、RFCN[6]等；一阶段算法直接回归产生物体的类别概率和位置坐标值，其优点是速度快，代表算法主要是YOLOv3[7]、SSD[8]等。

2 相关工作

2.1 特征提取方法

早期的图像特征检测和提取技术主要采用边缘检测、角检测等方法，后来通过区域检测进一步提取出图像的显著特征。早期的图像特征提取一般分为三个步骤：预处理、特征提取、特征处理；然后再利用机器学习等方法对特征进行分类等操作。神经网络中用来提取图像特征最早应用是卷积神经网络[1]，从最开始的LeNet5[9]，到在图像识别任务上取得重大突破的AlexNet[1]，再到更强大的ZFNet[10]、ResNet[4]，Darknet[11]，都充分展示了卷积神经网络在图像领域的地位。深度学习的快速发展和设备能力的改善（如算力、内存容量、能耗、图像传感器分辨率和光学器件）提升了视觉应用的性能和成本效益，并进一步加快了此类应用的扩展。基于深度学习的特征提取方法主要是基于卷积神经网络来自动提取图像的特征。

2.2 感受野网络

随着深度神经网络的发展，目前性能最佳的目标检测模型都依赖于深度的CNN[1]主干网，如ResNet-101[4]和Inception[12]，虽然强大的特征表示有利于性能的提升，但却带来高额的计算成本。相反的，一些轻量级的检测模型可以实时的处理检测问题，但随之带来的是精度的牺牲。文献[13]通过使用人工设计的网络模块（hand-crafted mechanism）强化轻量级特征来构建快速准确的检测模型。受人类视觉系统中感受野（RF）结构的启发，文献[13]提出了一种新颖的RF 模块（RFB），它通过模拟RF 的大小和偏心率之间的关系增强了特征的可辨性和模型的鲁棒性。RFB[13]是一种多分支的卷积模块，它的内部结构可以分为两个部分：具有不同卷积核的多分支卷积层后接膨胀池化或膨胀卷积。

3 数据集构建

数据决定了学习的上限，而神经网络只是逼近这个上限，所以一开始的数据收集工作，起到了关键的作用。其中，数据的采集又是非常困难的，因为针对无人机目标检测问题，并不存在公开的标准训练数据库能够训练神经网络，所以只能按照现有的条件重新采集新的数据。无人机数据集采集主要是通过使用摄像机对6 种市面主流的消费级无人机（五种不同大小不同形状的四旋翼无人机和一种直升机）和主要干扰物气球进行拍摄视频，然后对视频进行抽帧，得到无人机图片，之后再对图片进一步筛选标注，就得到了无人机的数据集。数据集的分布与样例如表1-表3。

表1 无人机数据集

表2 多目标UAV 图像样本分布

表3 单目标UAV 图像样本分布

图1 无人机数据集示例

对得到的数据集进一步预处理，首先包括颜色随机调整（包括对比度、饱和度、亮度和灰度）以及对图像进行裁剪、缩放和翻转操作，其次使用双边滤波对图像进行去噪，从而达到保持图像边缘特性平滑去噪的目的。

4 算法

4.1 算法框架

由于双阶段目标检测算法具有检测精度更高的优点，所以本文采用俩阶段检测算法中的经典框架Faster R-CNN[5]作为主要检测框架。Faster R-CNN 使用区域候选网络（RPN）替代Fast R-CNN[14]中的选择搜索，同时引入锚框（anchor box）应对目标形状的变化问题，另外Faster R-CNN 使用感兴趣区域池化层（ROI pooling layer）把不同大小输入映射到一个固定尺度的特征向量。Faster R-CNN 检测算法的主要流程如下：将整张图片输进特征提取网络，得到feature map；将卷积特征输入到RPN，得到候选框的特征信息；对候选框中提取出的特征，使用分类器判别是否属于一个特定类；对于属于某一类别的候选框，用回归器进一步调整其位置。框架流程如图2 所示。

图2 Faster R-CNN流程图

4.2 RFB-Darknet特征提取器

两阶段目标检测算法中使用的VGG[3]、ResNet[4]等特征提取网络虽然在公开数据集如VOC2007 上能取的较好的效果。但是自己采集的数据集相比公开数据集复杂度更高，背景更加多样，且目标像素占比较小。基于视觉感受野的RFBNet[13]采用膨胀卷积来捕获多尺度信息，从而能更好的结合特征图的高层语义信息和低层细节信息来对目标进行精准识别。Darknet53[11]由于其引入残差结构可以获得图像更深层次的特征，且计算效率更高，故本文采用Darknet53 与RFB 模块进行融合得到RFB-Darknet 特征提取器。

RFB-Darknet 特征提取器结构如图3 所示。

图3 RFB-Darknet特征提取器

5 实验

5.1 实验参数设置

实验中，本文基于Faster R-CNN 框架，采用RFBDarknet 模型作为特征提取网络。模型使用SGD 优化算法训练40 个轮次，初始学习率为10-3，权重衰减数值为10-4，权重衰减步长为5，NMS 阈值为0.7，批大小为1。算法并行运行在拥有两块NVIDIA GeForce GTX 2080 GPU 的计算机的PyTorch 上。实验采用端到端训练方式，将不同大小的图片数据集输入模型进行训练验证。其中验证集使用的是从13803 张图片中随机抽取出的2000 张图片，训练集使用余下的11803 张图片。

5.2 评价指标

本文对比多种主流检测算法进行实验，模型在训练集上进行训练之后，再在验证集上进行验证得到最终结果。本文以目标检测领域的主流MAP（Mean Average Precision）评价指标作为标准。MAP 由所有检测类别上的平均精度计算得到，计算公式为：

其中N(TP)C表示对于类别C 的真正样本的数量，N(TotalObject)C表示类别为C 的所有物体的数量，N(TotalTrain)C表示训练集的大小，最终MAP 则是所有类别上的平均精度的均值。

5.3 实验结果

本文主要采用3 种目标检测领域主流方法进行实验对比，而且使用了3 种最常使用的特征提取器。实验对比不同检测模型在无人机数据集上的效果。实验主要对比方法是SSD 和YOLOv3，俩者都是单目标检测算法，其中SSD 采用多尺度特征图检测，YOLOv3 使用跨尺度特征图预测。主要特征提取器是VGG16、ResNet50、Darknet53，其中VGG16 使用小卷积核加快计算效率，ResNet50 使用残差结构加强信息流动且获取更深层次信息，Darknet 使用快捷连接获取多尺度特征信息。

表4 对比实验结果

从实验结果可以看到，Faster R-CNN 采用提出的RFB-Darknet 特征提取器所得实验结果最高。其中三种算法都采用了Darknet 特征提取器，而我们的方法较采用Darknet 特征提取器的算法结果都有提升，表明Darknet 网络融合RFB 模块对无人机检测具有提升效果。其中，RFB 采用的多分支卷积模块构建了更深层次的特征映射，获取了图像更深层次的信息，因此能在俩阶段目标算法上取得较好效果。本文在保持其他条件同等情况下，通过融合视觉感受野模块与Darknet 特征提取网络，将无人机检测效果提升了0.9MAP，证明本文提出的算法能胜任无人机目标检测任务。

6 结语

本文针对无人机目标检测任务，构建了特定领域数据集用于算法的研究和计算。并且就两阶段目标检测器常用的特征提取器难以捕获多尺度信息，从而导致模型性能不够理想进行改进。本文在俩阶段目标检测框架的基础上提出了融合感受野模块和Darknet 网络的特征提取器。应用本文提出的特征提取器，无人机检测效果得到了显著提升。但是算法对于小目标无人机检测效果没有其他类别效果好，后续将研究如何在现有算法的基础上进一步提升小目标效果。