APP下载

结合数据融合与特征选择的遥感影像尺度多样目标检测

2022-09-03秦登达万里何佩恩张轶郭亚陈杰

遥感学报 2022年8期
关键词:特征选择类别尺度

秦登达,万里,何佩恩,张轶,郭亚,陈杰

中南大学 地球科学与信息物理学院,长沙 410083

1 引 言

光学遥感影像目标检测是确定给定的航空或卫星影像是否包含一个或多个属于兴趣类别的对象,并定位图像中每个预测对象的位置。遥感影像目标检测作为卫星遥感影像理解领域中最基础的任务之一,在军事领域、城市规划(Zhong 和Wang,2007)和环境监测(Durieux 等,2008)等诸多领域发挥着重要的作用。因此,目标检测与识别任务对于遥感影像解译具有极其重要的研究意义(冯霞等,2014)。

虽然基于深度学习的目标检测算法取得了瞩目的结果,但还是存在一些问题亟待解决。样本不均衡问题(Shrivastava等,2016;Lin等,2017a;Li 等,2019)是当前目标检测研究的热点问题之一,并且有很多相关的研究工作。在多任务遥感影像目标检测中,复杂的影像背景对检测任务造成了许多干扰(Chen 等,2020),并且还存在着各种尺度大小不一的检测对象,不同地物目标的尺度都是不同的;此外,有些类别的尺度差别也很大,大的地物目标如田径场其像元个数达几万个,而小的地物目标如车辆只占几十个像元。而模型对于地物尺度的泛化性是有一定限度的,因而这种尺度的多样性和类别差异性给遥感影像目标检测任务带来了极大的挑战。

为了减轻由此带来的负面影响,Pang 等(2019)提出了一个平衡学习目标检测框架Libra R-CNN。它集成了3 个新的组成部分:IoU 均衡采样、均衡特征金字塔和均衡L1 损失函数,分别用于减少样本、特征和目标层次上的不均衡。得益于整体平衡设计,Libra R-CNN 显著提高了检测性能。在线难例挖掘算法(OHEM)选择损失最大的一些样本作为训练的样本从而改善因为样本数目不平衡而导致检测效果差的问题(Shrivastava 等,2016)。Cao 等(2020)提出了一种称为“主要样本注意”(PISA)的抽样和学习策略,它将训练过程的重点指向重要样本,在训练检测器时,聚焦于原始样本通常比聚焦于“难例”更有效。图像金字塔尺度归一化(SNIP)训练方案根据图像尺度的变化有选择地反向传播不同大小目标实例的梯度(Singh 和Davis,2018),其核心思想是输入多尺度图像,只在该尺度图像下合适尺寸的目标样本尺寸进行训练。

光学遥感影像存在着大量不同尺度和小样本目标,以及各种复杂的背景(姚红革等,2020)。多尺度特征融合可以有效提高小目标和不同目标的检测效果(Li 等,2020)。当前基于卷积神经网络的目标检测算法可以分为两大类:其一,是把检测分为区域建议和分类回归两阶段算法,这类算法以RCNN 系列(Girshick 等,2014;Girshick,2015;Ren 等,2017;Lin 等,2017b;Cai 和Vasconcelos,2018)为代表;其二,是一次性直接完成目标框回归和目标分类的单阶段算法,这类似算法以SSD(Liu 等,2016)和YOLO(Redmon 等,2016;Redmon 和Farhadi,2017,2018)等算法为代表,相关算法在遥感上都有较多应用(江一帆等,2020;王冰 等,2021;杨耘 等,2021)。Girshick等(2014)在2014年结合卷积神经网络提出了RCNN 网络,该网络取代了传统目标检测方法。Faster RCNN(Ren 等,2017)抛弃了选择性搜索算法生成候选框,而采用了RPN 网络进行候选框筛选提升了检测效率和检测性能。SSD(Liu 等,2016)算法通过将VGG16(Simonyan 和Zisserman,2015)的多个不同尺寸特征图共同进行目标框的回归进行不同尺度的预测,最终在小目标的预测精度优于同年的YOLO(Redmon 等,2016)。特征金字塔网络(FPN)网络提出了特征层融合结构(Lin 等,2017b),该结构能有效提取图片的不同尺度特征信息。由于遥感影像本身存在着各种尺度的目标,多尺度融合结构在遥感目标检测取得了优秀的效果,同时该结构成为最为常用的多尺度特征提取网络。RetinaNet(Lin 等,2017a)模型则采用FPN 作为特征提取网络,提出Focal Loss来减轻正负样本对精度的影响,PaNet(Liu 等,2018)则在FPN(Lin等,2017b)的基础上新增了一个自底向上的融合结构。于野等人在FPN 的基础上融入特征的显著性图提出A-FPN(于野等,2020)以提高浅层特征的特征表达。虽然以上多尺度方法在遥感影像上能够顾及不同尺度的目标信息,但在每一个尺度特征层上都对各尺寸的目标进行识别,而不同尺度的特征层并不是对每一种尺度的目标信息都非常清晰。所以,采用FoveaBox(Kong 等,2020)在遥感影像上根据不同目标尺寸在不同的尺度特征图上进行目标识别。

针对样本类别不均衡的问题,提出了解决思路。首先,为了解决样本数目不均衡的问题,本文提出一种基于图像融合的数据增强策略,通过将两张图像融合为一张新的图像实现数据增强。由于这是针对数据层面上的处理,可以应用于任何基于深度学习的目标检测模型。考虑到光学遥感影像的特点,并且基于多尺度特征表达与选择的目标检测的策略(Kong 等,2020)更加适合遥感影像目标检测,因此将该方法应用于光学遥感影像目标检测中。其次,将影像融合与多尺度特征表达与选择的目标检测进行结合,能减轻复杂背景和类别不均衡的影响。通过在两个开源数据集上验证了该方法的有效性和普适性。

2 方法原理

基于多尺度特征选择与表达的模型结合图像融合的方法对高分光学遥感影像进行目标检测。结合数据融合与特征选择的遥感影像尺度多样目标检测流程图如图1所示:首先,将用于训练的数据集进行图像融合增强,使得训练数据中不同类别更加均衡;其次,在模型训练时,训练图片先经过特征金字塔(FPN)提取5 个不同尺度的特征,5 个层次的特征分别预测不同尺度范围的地物目标;最后,进行类别预测与地物目标中心特征的边界框的训练和预测。

图1 算法流程图Fig.1 The flow chart of our method

2.1 增加类别均衡性

高分遥感影像包含了丰富的地物目标和细节信息,同时影像丰富的信息对于感兴趣地物带来许多背景信息的干扰。地物目标提取的特征是否具有代表性是影响模型性能的一方面因素(Pang等,2019)。并且,地物目标自身的存在的差异性在影像上出现的概率都不尽相同,导致制作的数据集中不同类别的目标图片数量存在差异。模型训练过程中会由于训练数据类别的不均衡而使得各类别图片训练的比重不同,这种各类别影像数量的失衡使得模型更注重于数量多的影像,而降低了对影像数量较少类别检测的敏感性,最终性能偏向于影像数量多的类别。

针对上述问题,通过提出影像融合增强来削弱类别失衡和复杂背景的影响。影像融合增强通过将需要增强的训练影像与不包含任何目标的背景影像按照系数θ进行两者的融合。首先,对待增强影像与背景影像的比例进行统计,以最大长、宽作为融合影像的尺寸;其次,将目标影像像素矩阵乘以系数θ,将背景影像像素矩阵乘上系数1-θ;最后,以融合影像的长宽为基准,将得到的新的影像矩阵和新的背景矩阵赋值给融合影像,其中重合的部分则取两者之和进行目标影像与背景影像的融合得到最终融合影像。影像融合的公式可以由如下表示:

式中,h、w代表待增强影像和背景影像的最大长宽;I是待增强的影像;Pk为背景影像;θ表示在[0,1]之间的系数;V表示最终影像融合结果;⊕表示矩阵按对应坐标相加;×表示矩阵和数相乘。

通过上述方法进行的影像融合,在尺寸上会存在3种情况,即融合后的图像尺寸大于待增强影像、等于待增强影像以及小于待增强影像。对于大于待增强影像尺寸的情况,根据式(1)可知待增强影像目标区域的绝对坐标是没有改变的;对于大于待增强影像尺寸的情况,待增强影像目标区域的绝对坐标显然是没有改变的;同样对于小于待增强影像尺寸的情况,待增强影像目标区域的绝对坐标也是没有改变的。因此,融合后的图像标签依然可使用待增强图像I的标签。融合后的影像如图2 所示。其中,图2(a)是原始影像,图2(b)、(c)、(d)分别为3 张不同的背景影像;影像图2(e)、(f)、(g) 分别为利用3 张不同的背景图像进行融合后的结果。其结果表明,图2(e)、(f)、(g)在保留了原始地物目标情况下,场景也变得更加多样和丰富,从而在对数据样本进行扩充的同时,达到增强样本场景的多样性和模型训练后的鲁棒性。

图2 影像融合前后示意图Fig.2 Diagram before and after image fusion

针对不同的数据集,影像融合增强的目标类别是不同的,对于NWPUVHR-10 数据集(Cheng等,2014,2016),增强的类别有:船只、棒球场、网球场、篮球场、港口、油桶、桥梁和车辆,这些类别的目标数相对较少。而对于RSOD(Xiao等,2015;Long 等,2017)数据集,由于数据集类别只有4 类,所以4 个类别的训练数据都有增强,两个数据集根据8∶2划分为训练集和测试集,影像融合只对训练数据集进行操作,后续实验基于原始数据集抽取的测试集进行精度测试。两个数据集图像融合前后的数量对比如图3 所示。其中,图3(a)表示RSOD数据集影像融合前后数据分布;图3(b)为NWPUVHR-10数据集增强前后各类别数量分布;通过影像融合后的两个数据集各类别图片数量相比于原始训练集更加均衡,更利于各类别图片的训练。

图3 影像融合前后训练集各类图片数量分布Fig.3 Image quantity distribution of training set before and after image fusion

2.2 多尺度特征表达与选择

尺度多样性一直是遥感影像目标检测亟待解决的问题。当前针对多尺度遥感影像目标检测常用的策略有两个方面:首先,FPN(Lin等,2017b)提出了多尺度特征预测,利用多种尺度的特征图分别进行预测。然而,大尺度的目标通常是在FPN(Lin 等,2017b)的深层特征层中预测的,因此这些目标的边界可能过于模糊,无法获得准确的位置,而小尺度特征则是在浅层特征进行预测的,语义信息较少,不足以识别目标的类别。其次,Faster RCNN(Ren 等,2017)通过事先设置大量的锚框。最后,利用这些锚框进行目标框的预测,而锚框的尺度设置要尽可能的覆盖数据集各个目标尺度范围,所以锚框的设置很难符合遥感影像中各种尺度的地物目标,最终影响影像的检测效果。

基于上面两点,在光学遥感影像上采用一种多尺度特征选择的训练方式和一种基于目标中心预测候选框的方法(Kong 等,2020)。多尺度特征选择通过利用合适尺度的特征图来预测相应尺度的目标类别,同时允许同一尺度目标在相邻的特征图上进行预测,使得特征图可以根据目标的尺度来更好地训练。由于锚框的设置会影像检测效果,因此直接利用目标中心区域的特征预测目标的边界框,其预测的边界框框尺度更符合实际情况。

遥感影像中存在着众多尺度不一的地物目标,选择FPN 特征提取出来的多个级别的特征图Pi(i=3,4,…,7)进行预测,每个级别的特征图的长宽依次增加一倍,这5个级别的特征图分别并行地进行预测。为将合适尺度的特征图来预测相应尺度的目标,根据5 个尺度大小的特征图将其划分5 个尺度的目标大小范围,这5 个尺度的地物目标范围的并集会包含数据集所有地物目标的尺度范围。如图1 所示,5 种不同尺度的特征图负责预测相应尺度等级的目标,并且各个尺度范围有一定的重叠度。具体地,根据数据集中训练目标的大致尺度范围,划分每个级别特征图预测的目标尺度范围;同时,各尺度区间范围之间有一定的重合,使得同一目标能在相邻尺度特征下进行预测。尺度范围的划分可以由[Si/2,Si·2]表示,其中Si表示特征图Pi的基础像素面积,其值可以由如下公式计算:

式中,4i表示的是每个级别的特征图面积相差大小,S为最小特征图的面积大小。

以上过程划分了各个特征图所负责预测的尺度范围,在训练时网络忽略那些目标大小在相应尺度范围之外的实例,由于最终划分的尺度区间包含了数据集中各类目标的所有尺度,因此一个目标至少会在一个层次的特征图上进行预测。

2.3 基于目标中心区域的边界框预测

在Faster RCNN(Ren 等,2017)中,通过人为设置9种固定尺度的锚框,然后训练这些锚框偏置值使预测框尽可能接近真实的标注框。然而,人为设置的锚框并不能很好的和真实框相吻合,也不利于后续的训练。因此,采用目标中心区域的特征进行目标边界框和目标类别预测,可以获取任意尺度的候选框。并且,预测结果是根据目标特征得到,预测的边界框会与真实的标注框会更加吻合,从而更有利于后续的训练。模型对于结果的训练和预测并不是基于目标中心点,而是基于目标中心一定范围区域的特征进行预测。图4为基于目标中心区域的候选框预测示意图,其中红色框表示真实的标注框,黄色框表示根据真实框进行训练和预测的范围框。中心区域的训练范围可以由目标检测数据集中训练图片的标注框形状和位置确定。首先将真实框映射到各个级别的特征图Pi中,并且确定真实框中心在原图的位置,该过程可以由如下公式表示:

图4 目标中心区域的边界框预测示意图Fig.4 Diagram of bounding box prediction for object center area

式中,x1、y1、x2、y2表示真实框在原图上的两个顶点坐标,xf1、yf1、xf2、yf2表示真实框映射到特征图上的两个顶点坐标,2i表示特征图下采样步长,cx和cy表示真实框映射到特征图上的中心点坐标。

得到中心点坐标后,据此获取目标中心区域范围(xp1,yp1,xp2,yp2),此区域的特征将用来进行候选框的训练和预测,其过程可以由如下公式表示:

式中,xp1,yp1,xp2,yp2表示用于预测的特征范围的左上角和右下角坐标,μ是一个控制这个区域大小的参数,当μ大于1 时,预测区域会大于真实框区域,当μ小于1 时,预测区域会小于真实框。由于真实框是目标的外接矩形框,所以会包含一些背景信息。模型使用目标中心区域的特征来进行训练和预测,不仅可以提高准确率,也可以提高模型对地物目标提取的特征表达能力,因此μ的设置会小于1,即训练区域会小于真实框。

3 实 验

3.1 实验数据集及评价指标

文中的方法主要在两个具有挑战性的公开遥感影像目标检测数据集上评估所提出的方法。分别是RSOD-Dataset和NWPUVHR10-Dataset。

(1)RSOD-Dataset(Xiao 等,2015;Long 等,2017)是由武汉大学团队标注,包含飞机、操场、立交桥、油桶4类目标。

(2)NWPUVHR10-Dataset(Cheng 等,2014,2016a,2016b)是由西北工业大学团队标注,共包含10 类目标,这10 类物体分别是飞机、轮船、储罐、棒球场、网球场、篮球场、地面田径场、港口、桥梁和车辆。这些图像是从谷歌地球和瓦辛根数据集中裁剪出来的,然后由专家手工标注。

实验采用平均查准率(AP)和平均准确度(mAP)这两个常用的评价指标评估模型在上述两种数据集上的效果。平均查准率是指精度和召回率曲线下的面积,它是一种结合了精度和召回率的度量;平均准确度是多类别平均查准率的平均值,它是评价多类目标检测最重要的指标。这两个指标越大越好。召回率(Recall)是测试集所有正样本样例中,被正确识别为正样本的比例,其表达式为:

准确度(Precision)指预测为正样本是正样本所占的比例,其表达式为:

式中,TP 表示被正确地划分成正例的个数,FP 表示被错误地划分为正例的个数,FN 表示被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的数量。

3.2 类别均衡性实验设置

类别均衡实验在RSOD 和NWPUVHR10 数据集上对比了OHEM(Shrivastava 等,2016)、Libra R-CNN(Pang 等,2019)、旋转和翻转常规增强(表中名称为FoveaBox & aug)几种方法。两个数据集以8∶2 的比例随机分为训练集和测试集,其中,模型的精度评价基于未使用影像融合的测试集。在RSOD 数据集上所有模型采用1000×900 的图片尺寸训练,NWPUVHR10 数据集训练和测试尺寸为1024×512,并且两个数据集都进行120 个epoch 的训练,初始学习率为0.01,分别在40、80、100个epoch进行衰减率为0.1的学习率衰减。

3.3 多尺度特征选择与表达实验设置

多尺度特征选择与表达的实验对比同时在RSOD 和NWPUVHR10 数据集上对比Faster RCNN(Ren 等,2017)、SSD300(Liu 等,2016)、FPN(Lin 等,2017b)、RetinaNet (Lin 等,2017a)、FoveaBox(Kong 等,2020)方法。训练集和数据集RSOD 数据集的训练和测试的尺寸为1000×900,NWPUVHR10 数据集使用1024×512 进行模型的训练和测试,而SSD300 的训练图片尺寸为300×300。其他模型设置均采用最大训练120个迭代次数,并且设置0.001 为初始学习率,学习率在训练中衰减3 次,分别在40、80、100 次迭代时学习率衰减为原来的学习率的0.1 倍。RetinaNet 训练与测试时的网络设置与FPN 网络一致。多尺度特征选择与表达的模型设置与上述网络一致,网络中控制训练区域的参数μ设置为0.4。特征提取网络都采用ImageNet的预训练模型进行训练。

3.4 定量分析

为验证影像融合增强对结果的有效性,将文中使用的影像融合和特征选择的多尺度网络分别在RSOD和NWPUVHR10两个数据集上进行实验对比。值得注意的是,用于模型的训练数据和测试数据集是以8∶2的比例从整体数据集中随机抽取,并且只对训练数据进行影像融合增强。相关模型的精度值见表1、表2。从表1的RSOD数据集中精度对比可以看出:结合数据融合与特征选择多尺度方法相较于在线难例挖掘和平衡学习目标检测框架的方法分别有2.69%和2.38%的平均准确度的提升;且影像融合增强方法相较于旋转、翻转的常规增强方法有0.88%的平均精度优势。在表2 的NWPUVHR10 数据集上的精度表明:结合数据融合与特征选择多尺度方法比另两种均衡方法性能更具优势;且相对于旋转、翻转常规数据增强平均精度提升了3.96%。两个数据集的结果说明影像数据融合增强对网络性能有较强的促进作用,使得模型具有更好的性能与泛化能力。

表1 RSOD数据集类别均衡实验的AP50精度对比Table 1 The AP50 accuracy comparison for category balance experiment in RSOD dataset /%

表2 NWPUVHR10数据集类别均衡实验的AP50精度对比Table 2 The AP50 accuracy comparison for category balance experiment in NWPUVHR10 dataset /%

为验证影像融合和特征选择的多尺度网络在遥感影像上的有效性,分别在RSOD 和NWPUVHR10两个数据集上进行实验对比。如表3 所示,RSOD数据集中的精度表明基于影像融合和特征选择的多尺度网络整体性能更加优秀。虽然对比于未进行融合的多尺度特征选择与表达模型只提升了0.12%,但由于RSOD 数据集中只包含有4 个类别,训练和预测过程比大型数据集更容易。而且,每个类别的可用的训练图像数量比例相差不大,所以在多尺度特征选择模型的训练和预测时并没有很好的体现图像融合的优势。

表3 RSOD数据集AP50精度对比Table 3 The AP50 accuracy comparison in RSOD dataset /%

表4中NWPUVHR10数据集各类别识别精度可以看出:基于影像融合和特征选择的多尺度网络对比于其他几种主流方法精度有显著提升,并且经过影像融合增强的船只、棒球场、网球场、篮球场、港口、桥梁和车辆等这些类别在精度上有较大提升,达到了几种方法中最好的精度。整体表明特征选择与表达的网络在包含了各种尺度大小目标的遥感影像下的地物识别能取得较高的精度。影像融合增强能够一定程度消除训练数据中类别不均衡的问题,几种典型的目标检测网络的数据融合增强对比可以发现图像融合增强的策略具有更强的普适性,对模型的性能以及鲁棒性都有一定的提升。

表4 NWPUVHR10数据集AP50精度对比Table 4 The AP50 accuracy comparison in NWPUVHR10 dataset /%

3.5 定性分析

合和特征选择的多尺度网络的方式对复杂背景下的4种地物类别有更好的识别效果,并且具有更少的误检框,说明该方式应用于遥感影像能具有比较好的鲁棒性和性能优势。

图5 显示的是RSOD 数据集上不同模型的可视化结果,图6 是NWPU VHR-10 预测的可视化结果。图5 中可以看到,RetinaNet 模型对于排列复杂密集的飞机影像识别效果不理想,基于影像融

图5 RSOD数据集测试结果可视化Fig.5 Visualization of test results in RSOD dataset

从图6 的可视化结果可以看出,使用图像融合增强的多尺度选择与表达的模型后,在飞机类别、船舶、海港、田径场不同尺度大小的目标上,相对于其他的多尺度网络有更好的识别效果。对于田径场相对大尺度场景下,另外两个方法难以识别出更小的网球场;在岸边包含船舶的影像上,FPN 以及RetinaNet 很难将河岸和船舶很好地区分开(图6 第5 行),而采用基于影像融合和特征选择的多尺度网络的方法对复杂背景下的目标的识别也相对更加准确,说明图像融合增强了样本场景的多样性,并且模型结果整体表明在光学遥感影像中不同尺度的目标都能够合理的预测出来。

图6 NWPU VHR-10数据集测试结果可视化Fig.6 Visualization of test results in NWPU VHR-10 dataset

4 结 论

本文将多尺度特征选择的模型应用在了遥感影像上,通过多尺度特征的表达与选择能更加契合于复杂背景下遥感数据的不同尺度大小的目标。而且,提出了图像融合增强的策略。相较于之前的数据增强方式,文中提出的方法具有以下几点优势:(1)不会改变图像的现状大小以及目标的绝对位置。(2)由于采用的是同一样本库的图像进行融合,因此不会改变样本库的分布。(3)多尺度特征表达与选择和图像增强融合可以应对遥感影像中相对复杂背景的影像,减轻类别不均衡的影响,更加符合遥感影像使用的场景。

遥感影像的俯视成像使得影像中的目标具有密集且方向任意的特点,这些特点对目标检测的性能同样存在影响。但在本文中还未结合影像中目标的这些特点。在未来的研究中,将从卷积神经网络的特征提取的特性出发,结合更多遥感影像中目标的特性,完善高分遥感目标检测模型。

猜你喜欢

特征选择类别尺度
一起去图书馆吧
简析基于概率预测的网络数学模型建构
尺度
基于智能优化算法选择特征的网络入侵检测
故障诊断中的数据建模与特征选择
reliefF算法在数据发布隐私保护中的应用研究
一种多特征融合的中文微博评价对象提取方法
以长时间尺度看世界
9
选相纸 打照片