APP下载

改进Faster R-CNN的遥感图像多尺度飞机目标检测

2022-09-03沙苗苗李宇李安

遥感学报 2022年8期
关键词:特征提取尺度精度

沙苗苗,李宇,李安

1.中国科学院空天信息创新研究院,北京 100094;2.中国科学院大学电子电气与通信工程学院,北京 100049

1 引 言

遥感图像目标检测一直是遥感图像处理领域的一个研究热点。作为一种重要的战略目标,飞机目标的检测具有较高的研究和应用价值,引起了研究人员极大的兴趣。随着遥感图像空间分辨率的不断提高,图像内容越来越复杂多样,早期的飞机目标检测方法多利用目标的简单特征如角点(仇建斌 等,2011)、轮廓形状(蔡栋 等,2014)等,难以应对当前高分辨率遥感图像中的复杂信息。同时,飞机目标在遥感图像上形态各异且具有多种尺度,因此,在遥感图像上进行飞机目标检测十分具有挑战性。

传统的遥感图像飞机目标检测主要分为3个步骤:首先使用滑动窗口或者显著性等方法生成候选区域,然后进行候选区域的特征提取,最后将提取到的特征输入到相应的训练好的分类器中从而得到检测结果。Li 等(2011)首先使用显著性方法提取遥感图像中的候选区域,然后利用飞机目标的对称性以及模板匹配的方法进行飞机目标的检测。Zhao 等(2017)使用多种尺度的滑动窗口生成相应的候选区域,然后提取候选区域的集合通道特征,最后使用AdaBoost 算法得到飞机目标的检测结果。然而,显著性的方法需要人工设置相应的阈值进行候选区域的生成,容易造成目标的漏检。滑动窗口的方法需要在遥感图像上进行多种尺寸的候选区域的遍历,十分耗时。同时,这类传统方法采用的特征多为形状、梯度等浅层次特征,不具有很好的区分性,无法有效地将复杂多样的飞机目标从遥感图像中检测出来。

近年来,深度学习成为人工智能领域备受瞩目的研究内容之一(张洪群等,2017;王宇等,2019)。在深度学习方法中,卷积神经网络CNN(Convolutional Neural Network)由于其权值共享、平移不变性等特点,在图像分类领域取得令人瞩目的成绩(Krizhevsky 等,2017;张康等,2018)。鉴于卷积神经网络强大的特征提取能力,研究人员将其应用到目标检测领域。其中,以基于区域的卷积神经网络R-CNN(Girshick 等,2013)在VOC2012 数据集上取得最高的检测精度为里程碑,基于卷积神经网络的目标检测真正的活跃起来。这种方法通过使用卷积神经网络进行候选区域特征提取,大幅提高目标检测精度,但是该方法依然存在以下问题:(1)每个候选区域都要分别进行特征提取,检测效率低;(2)需要分别进行分类器以及边框回归的训练;(3)候选区域的生成与特征提取割裂开来,无法满足实时的检测需求。针对第一个问题,He 等(2014)提出的基于空间金字塔池化的卷积神经网络SPP(Spatial Pyramid Pooling)使用感兴趣区域RoI(Region of Interest)从整幅特征图中“裁剪”出候选区域对应的特征,从而大幅提高检测效率。针对第2个问题,Girshick(2015)提出的Fast R-CNN 通过使用多任务损失函数,同时进行分类以及边框回归的训练,从而将目标检测集成为两个阶段:候选区域的生成以及使用卷积神经网络进行特征提取、分类和边框回归。随后Ren等(2017)提出的Faster R-CNN,通过共享特征提取网络,在经过卷积池化后的最后一个特征图上使用RPN 直接生成多种尺度以及纵横比的候选区域,将目标检测的多个步骤统一到一个网络框架中,实现端到端的目标检测,检测精度以及效率大幅提升。鉴于Faster R-CNN 比传统的目标检测方法在检测精度上有很大的提高,研究人员将其应用到遥感图像飞机目标检测中。Wang 等(2017)基于Faster R-CNN,使用聚类的方法确定候选区域的尺度继而进行遥感图像飞机目标检测。Ren等(2018)通过在Faster R-CNN 的特征提取网络中加入上下文信息,从而提高遥感图像中飞机目标尤其是小目标的检测精度。Li 等(2019)基于Faster R-CNN,通过设置更小的候选区域尺度从而提高遥感图像飞机目标的检测精度。然而,上述方法均是在单一尺度的特征图上进行目标检测,不适用于遥感图像多尺度飞机目标。并且,特征图在经过卷积神经网络的多次池化之后,一方面其精确的细节信息丢失,另一方面尺度较小的目标对应特征图中的区域较小,直接在池化后的单一尺度特征图上进行目标检测可能造成目标定位精度不高以及目标漏检的现象。

针对上述问题,本文提出一种基于改进Faster R-CNN 的多尺度飞机目标检测方法,通过在Faster R-CNN 的特征提取网络中加入多层级融合结构构建多尺度特征提取网络,同时,针对飞机目标选取合适的候选区域生成网络参数,从而适应于遥感图像多尺度飞机目标检测。除此之外,由于网络中新加入的结构单元将高层次的语义信息与低层次的细节信息相结合,改进后的网络所生成的多尺度特征图既具有较高的定位精度又具有很好的区分性,从而在提高多尺度飞机目标检测精度的同时,提升了目标的定位精度、降低了目标的漏检现象。

2 模型方法

本文提出的遥感图像多尺度飞机目标检测流程图如图1。遥感图像多尺度飞机目标检测主要分为3 个部分:特征提取网络、候选区域生成网络RPN 以及分类回归网络。对于卷积神经网络,通常有许多连续的卷积层输出相同大小的特征图,则称这些卷积层处于同一网络层级(Lin 等,2017)。在进行检测时,首先,使用特征提取网络进行图像的特征提取,通过多层级融合结构将高层级得到的特征图进行上采样,再将其与较低层级得到的特征图进行融合,生成一系列不同尺度的特征图F5、F4、F3 以及F2。然后,在不同尺度的特征图上分别使用RPN 进行候选区域的生成。最后,使用分类回归网络将不同尺度的候选区域对应到相应尺度的特征图进行分类与位置回归,从而得到最终的飞机目标检测结果。

图1 遥感图像多尺度飞机目标检测流程图Fig.1 The flow chart of multi-scale aircraft detection in optical remote sensing imagery

2.1 特征提取网络

在对遥感图像进行飞机目标检测时,特征提取的好坏在很大程度上决定了最终的检测精度。本文通过对Faster R-CNN 的特征提取网络进行改进,在网络中加入多层级融合结构从而生成多种尺度的特征图,对不同尺度的目标使用不同尺度的特征图进行特征提取,使其适应于遥感图像多尺度飞机目标检测。

图2为多层级融合结构的示意图。在进行多层级融合时,首先对高层级的特征图进行1×1的卷积得到固定通道数的特征图,然后对其进行2倍上采样生成更高分辨率的特征图,最后通过和经过1×1卷积的低层级特征图进行融合,从而得到既具有深层次的语义特征又具有浅层次的空间信息的特征图。对于卷积神经网络,将每个网络层级得到的最后一个特征图作为此结构的特征图映射集。由于网络的第一个层级输出的特征图提取到的特征较浅且占用的内存较大,因此,不将其纳入到映射集中。

图2 多层级融合结构示意图Fig.2 The illustration of the multiple stages fusion structure

在选取基本的特征提取网络时,本文选取当前具有代表性的3 种网络:ZF(Zeiler 和Fergus,2014)、VGG-16(Simonyan 和Zisserman,2015)以及ResNet-50(He等,2016),其中ZF以及VGG-16均为原始的Faster R-CNN 特征提取网络,而ResNet-50 则为网络层次更深,性能更优的特征提取网络。将上述3种特征提取网络分别加入多层级融合结构进行相应改进,图3 展示了改进后的ResNet-50网络模型。在对ResNet-50进行改进时,首先将1×1的卷积作用于第五层级特征图conv5_3,从而得到特征图F5。然后,在该卷积的基础上,使用线性插值的方法对其进行2 倍上采样。接着,对conv4_6 特征图同样进行1×1 的卷积,再将其与F5 上采样生成的特征图进行融合得到特征图F4,F3、F2 以此类推。对于ZF 以及VGG-16 网络,生成多尺度特征图的过程基本一致。使用这种结构,可以充分利用卷积神经网络各个层级提取到的特征,融合生成的特征图具有更丰富的语义信息。

图3 改进后的ResNet-50网络模型Fig.3 Proposed network structure based on ResNet-50

2.2 候选区域生成网络

在RPN 出现之前,候选区域的生成与特征提取网络割裂开来,造成目标检测的效率较低,不适用于多尺度飞机目标检测。RPN 通过和检测网络共享特征提取网络,能够显著提高目标检测的效率以及精度,并且RPN 可以生成多种尺度以及纵横比的候选区域,十分适合遥感图像多尺度飞机目标检测。原始的Faster R-CNN 是对自然图像目标进行检测,使用的候选区域尺度较大,与自然图像相比,遥感图像中飞机目标尺度较小,需要为其设置相应的小尺度候选区域。本文在对遥感图像飞机目标进行检测时,根据遥感图像中飞机目标的特点,使用多种尺度的特征图F2、F3、F4 和F5,并对每个尺度的特征图设置相应尺度的候选区域,对于高分辨率的特征图F2 设置小尺度的候选区域,对于较高分辨率的特征图F3 设置较小尺度的候选区域,F4、F5以此类推。

2.2.1 RPN结构

如图4所示,RPN 通过对卷积神经网络各个层级生成的特征图Fi(i=2,3,4,5)使用滑动窗口进行滑动,在每个滑动窗口的位置上,RPN 同时进行多种尺度以及纵横比候选区域的生成,并且将滑动窗口经过的每个位置映射为固定维数的特征向量(根据选择网络的不同,维数也不同,ZF网络生成的维数为256,VGG-16 和ResNet-50 生成的维数为512),然后将该特征向量输入到两个全连接层中:一个是边框回归层,另一个是分类层。将特征图每个位置生成的候选区域的最大数量记为k,则每个边框回归层有4k个输出(每个位置上输出每个边框的中心点坐标以及长宽共4k个参数),同理,每个分类层输出2k个参数(每个位置上输出每个边框为目标类以及非目标类的概率)。同一个位置的每个候选区域对应原像素空间同一个位置的某个参考区域,这个参考区域就被称为基准矩形框,也叫锚点(Anchor)。锚点的设置可以使预测框更精确的回归到标签框,得到质量更优的候选框。本文在对候选区域参数进行设置时,保留与原Faster R-CNN 同样的候选区域纵横比1∶2,2∶1 以及1∶1,并设置更小尺度的候选区域,从而适应于遥感图像目标检测。

图4 RPN结构示意图Fig.4 Schematic diagram of RPN

2.2.2 损失函数

训练RPN 时,需要为每个基准矩形框设置一个二值分类标签(是否为飞机),其中,将以下两类基准矩形框标定为正样本:

(1)与某个目标标签框具有最高的交并比IoU(Intersection over Union);

(2)与任意目标标签框的IoU超过0.7。

将与所有目标标签框的IoU 小于0.3 的基准矩形框标定为负样本。其他的基准矩形框不参与RPN的训练过程。

候选区域生成网络的损失函数是一个多任务损失函数,该函数同时进行分类与坐标回归的训练任务,函数如式(1)所示:

式中,x,y,w,h分别表示预测框的中心横坐标、中心纵坐标、宽度和高度。x*,y*,w*,h*分别表示标签框的中心横坐标、中心纵坐标、宽度以及高度。xa,ya,wa,ha分别表示基准矩形框的中心横坐标、中心纵坐标、宽度和高度。Ncls和Nreg分别是分类以及坐标回归的归一化系数。λ用于调节分类损失和坐标回归损失的相对重要程度。Lcls是分类的损失函数,该损失函数是一个二分类的逻辑回归损失函数,其表达式如式(6):

Lreg是坐标回归的损失函数,其具体的表达式为:

式中,smoothL1函数为:

2.3 分类回归网络

使用RPN 得到一系列尺度、纵横比不同的候选区域之后,如图5所示,首先找到候选区域对应在特征图中的位置,进行感兴趣区域RoI(Region of Interest)投影,从而提取候选区域对应的特征,这里的感兴趣区域就是通过RPN 得到的候选区域。本文中,根据生成的候选区域尺度将其投影到不同的特征图。将高度为h宽度为w的感兴趣区域投影到Fi特征图,其中:

图5 分类回归网络结构示意图Fig.5 Schematic diagram of classification and regression network

3 实验和分析

本文实验主要是在基于Linux 系统的Caffe 框架下完成,服务器处理器为Intel Xeon(R) CPU E5620@2.40 GHz,使用GPU加速,显卡为NVIDIA TITAN Xp,使用Python 进行编程。训练时,各模型迭代40000 次,其中,前20000 次的学习率设置为0.001,后20000 次的学习率设置为0.0001,动量设置为0.9,权值衰减参数为0.0001。

3.1 实验数据

实验数据选择RSOD数据集(Long等,2017),该数据集由武汉大学团队标注,数据集来源主要是Google Earth 和天地图,分辨率为0.5—2.0 m。本文仅使用其中的飞机目标数据集,共有446张宽高在像素值1000 左右的飞机图像,图像中共有4993 个飞机目标。其中,将60%的图像作为训练以及验证数据集,将其余40%的图像用于测试。由于深度学习的方法进行目标检测时需要大量的训练数据,因此,对于参与训练以及验证的图像使用水平镜像以及将图像进行90°、180°以及270°旋转的方法,获得原始训练以及验证影像8倍的图像。RSOD数据集的部分样本图像如图6所示。

图6 RSOD数据集部分样本图像Fig.6 Image sample of the RSOD dataset

3.2 评价准则

为评估本文算法进行遥感图像飞机目标检测的有效性,将两种广泛使用的标准度量方法:精度—召回率曲线图PRC(Precision-Recall Curve)以及平均精度AP(Average Precision)作为本文飞机目标检测的评价标准。其中,PRC 是以召回率(recall)为横坐标,精度(precision)为纵坐标,记录随着阈值变化时,precision 与recall 值变化关系的曲线。平均精度AP 就是当recall 从0 到1 变化时precision 的平均值,也就是PRC 曲线与横纵坐标围成的面积。precision 以及recall 的具体计算公式如式(10)、(11)所示:

式中,TP(True Positive)表示预测的目标实际也是目标;FP(False Positive)表示预测的目标实际是背景;FN(False Negative)表示预测的背景实际是目标。本文将与目标标签框的IoU 值大于等于0.5的预测框作为TP,反之,该预测框为FP。

3.3 RPN候选区域尺度的设置

本文先利用ZF、VGG-16 以及ResNet-50 网络对RSOD数据集进行特征提取,由于遥感图像飞机目标具有多种尺度,在上述特征提取网络的最后一个特征图上使用RPN 进行候选区域生成时,需要为其设置相应尺度的候选区域,相应的检测精度(%)如表1所示。

表1 不同尺度的候选区域检测精度对比Table 1 Comparison of detection performance under different anchor scales

从表1中可以看出,特征提取网络的选择以及候选区域尺度的设置对遥感图像飞机目标检测精度均影响重大。当候选区域尺度为Faster R-CNN原始候选区域尺度(128×128,256×256,512×512)时,3 种特征提取网络均取得最差的检测精度,这是由于原始的候选区域尺度设置针对的是自然图像目标,相比遥感图像目标尺度较大,不适用于遥感图像目标检测。表1 中,ZF、VGG-16网络均在候选区域尺度为(64×64,128×128,256×256,512×512)时取得最佳的检测精度,分别为78.39%以及80.55%,而ResNet-50 则是在候选区域尺度为(32×32,64×64,128×128,256×256)时取得最优的检测精度88.89%。即使对ZF以及VGG-16设置了相应较小尺度的候选区域,但是由于其网络特征提取能力相较于ResNet-50 较弱,对于尺度较小的候选区域提取到的特征更加有限,造成对小目标的提取精度不高。

本文在进行RPN 候选区域参数设置时,对ZF、VGG-16 以及ResNet-50 分别按照其取得最佳检测精度时候选区域的尺度进行RPN 参数设置,而对3个改进后的网络,具体的参数设置见表2。

表2 改进后网络的候选区域尺度设置Table 2 Anchor scale settings for proposed networks

3.4 特征提取网络的对比

为验证本文方法的有效性,将3个改进后的网络ZF*、VGG-16*以及ResNet-50*分别与相应的改进前网络进行对比,以RSOD 数据集为训练测试数据集,这6 种网络的检测精度以及测试速率如表3所示,对应的PRC如图7。

表3 不同特征提取网络检测精度时间对比Table 3 Comparison of detection performance of different feature extraction networks

图7 各个网络对应的PRCFig.7 The PRC for each method

从表3中可以看出,改进后的各个网络在检测精度上均有显著提高。其中,ZF*提高了11.34%,VGG-16*提高了9.87%,而ResNet-50*则提高了1.66%。相比于ZF*以及VGG-16*网络,ResNet-50*提高的幅度更小,这是由于ResNet-50本身的特征提取能力已经很强,通过对各个尺度候选区域的位置修正对于整体精度的提高不是那么明显。对于VGG-16 以及ZF 网络,其本身的特征提取能力稍弱,如图9 中(a)、(b)图相比于(c)图出现了更多的漏检以及误检现象,并且这种漏检以及误检现象多发生于尺度偏小的多尺度目标,而改进后的ZF*、VGG-16*网络通过在多种尺度的浅层次特征图中加入深层次语义信息从而增强各个尺度特征图提取的特征。以VGG-16网络为例,尺度为128×128的候选区域在特征提取时对应F5中4×4区域的特征,而VGG-16*网络中128×128的候选区域对应着F5中4×4区域上采样2倍后的8×8区域加上F4 中8×8 区域的特征,其他尺度的候选区域以此类推。因此,这两种网络在提高各个尺度候选区域定位精度的同时大幅减少其漏检以及误检现象,从而大幅提高检测精度。同样的,从图7中可以看到,改进后的3种网络与两个坐标轴围成的面积均分别大于相应的改进前的网络,各个网络的precision 值先是趋于平缓,当recall值增加到0.7左右,ZF 的precision 值出现大幅降低,随着recall 值的进一步增加,性能相对较差的VGG-16 的precision 值大幅降低,而改进后的3 种网络在保持着高recall 值的同时具有较高的precision 值,这也充分说明了本文方法对于提高目标检测精度的有效性。

图8为测试样本图,可以看到图中飞机目标尺度差异较大,从十几像素到上百像素不等。图9展示了各个网络对于图8 的检测结果图,图9(a)、(b)、(c)、(d)、(e)、(f)分别对应着ZF、VGG-16、ResNet-50、ZF*、VGG-16*以及ResNet-50*的检测结果图。

图8 测试样本图Fig.8 Test image sample

从图9 中可以看到,首先,ZF*、VGG-16*以及ResNet-50*相比于改进前的特征提取网络,对于目标的定位精度更高,可以明显的看到,相比于图9(a)、图9(b)、图9(c),图9(d)、图9(e)、图9(f)中红色预测框与蓝色标签框更为贴合。除此之外,加入这种结构后的网络能够检测出原始特征提取网络遗漏的目标,如图9(d)相对于图9(a),图9(e)相对于图9(b),绿色漏检标签框的数量减少。为了进一步定量的说明本文方法对于目标定位精度的提高,本文通过设置更高的IoU 阈值进行各个方法检测精度对比,对比结果如表4。

图9 各个网络检测结果示例图Fig.9 Detection results diagram of each method

表4 不同IoU阈值下各个网络检测精度对比Table 4 Comparison of AP values of each method under different IoU/%

从表4 中我们可以看到,随着IoU 阈值的增加,各个网络的AP 值都在降低,其中,改进前网络精度值降低的幅度更大,而改进后网络尤其是ResNet-50*即使在IoU 阈值为0.7 时依然取得了80.12%的AP 值。这也充分说明本文方法对于提高目标定位精度的有效性。

3.5 多尺度目标检测泛化能力实验

为了充分验证本文方法的有效性,本文还将使用GF-2 影像数据进行多尺度飞机目标检测的泛化能力实验。实验选取首都国际机场对应的影像区域,该影像为全色波段与多光谱的红、绿、蓝波段融合后的图像,分辨率为1 m,像素为4600×6500。将该区域以100像素的重叠进行裁剪,得到40幅1000像素×900像素的图像切片,使用ResNet-50*以及ResNet-50 分别对这40 幅图像进行检测,再将检测好的图像进行拼接,对于重叠处的多余检测框,使用NMS(Non-Maximum Suppression)进行相应的后处理。具体的定量检测结果如表5,相应的检测结果图如图10,其中,左上侧黄框对应ResNet-50*的检测局部放大图。

表5 ResNet-50与ResNet-50*对于多尺度飞机目标检测精度对比Table 5 Comparison of multi-scale aircraft detection performance of ResNet-50 and ResNet-50*

从图10 可以看出,对于图像中多尺度飞机目标,ResNet-50*大多可以将其检测出来,从局部放大图可知,ResNet-50*生成的检测框与目标贴合的较好,定位精度较高。结合表5 进行进一步的定量分析,可以看到,相比于ResNet-50,ResNet-50*的precision 值略微提高,而recall 值则增加了3.09%,这是由于ResNet-50*在高层级的语义特征中融入了高分辨率的低层级特征,在提高目标定位精度的同时,语义信息也更为充分,目标漏检的数量也随之减少。以上分析充分表明了,ResNet-50*不仅适用于多尺度飞机目标检测而且具有良好的泛化能力。

图10 ResNet-50*网络对GF-2首都国际机场图像的检测结果Fig.10 Detection results of ResNet-50*on Beijing Capital International Airport GF-2 imagery

4 结 论

本文针对目前目标检测方法使用单一尺度的特征图进行多尺度飞机目标检测造成检测精度不佳的问题,提出使用多尺度的特征图进行多尺度飞机目标检测的方法。该方法基于改进的Faster R-CNN,通过在其特征提取网络中加入多层级融合结构,充分利用不同网络层级的特征,生成的多尺度特征图既具有低层级精确的位置信息又具有高层级的语义特征,从而在提高多尺度飞机目标检测精度的同时,提高其定位精度。然后,对其RPN 候选区域尺度进行修正,使其适应于遥感图像飞机目标检测。实验结果表明:(1)加入多层级融合结构的网络可以对多尺度飞机目标生成与之尺度相符的检测框,在提高飞机目标检测精度的同时降低目标漏检的情况;(2)通过对RPN候选区域尺度的修正,提高了遥感图像飞机目标检测精度;(3)改进后的网络具有良好的泛化能力,适用于遥感图像多尺度飞机目标检测。然而,本文方法在提高目标检测精度的同时对于目标检测速率也造成了一定的影响,因此,后续的研究将着重于网络模型的优化,以期在较小的时间代价下得到最高的检测精度。

猜你喜欢

特征提取尺度精度
基于不同快速星历的GAMIT解算精度分析
同步定位与建图特征提取和匹配算法研究
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
近似边界精度信息熵的属性约简
尺度
基于曲率局部二值模式的深度图像手势特征提取
电力系统短期负荷预测方法与预测精度
以长时间尺度看世界
9
浅谈ProENGINEER精度设置及应用