APP下载

小数据集中的小型建筑物提取方法研究

2019-10-28杨旭勃田金文

测绘通报 2019年10期
关键词:特征提取建筑物语义

杨旭勃,田金文

(华中科技大学人工智能与自动化学院,湖北 武汉 430074)

通过遥感图像可获取地面信息,建筑物作为重要地面目标,及时精确地获取建筑物信息对于地图测绘、土地资源利用、国防安全等都有重要的作用。在深度学习技术之前的传统遥感图像中,建筑物提取方法主要是基于人工特征,提取结果严重依赖于人的先验知识,主要包括利用形状和光谱等信息实现建筑物的自动提取[1-2]。但由于建筑物结构和纹理的复杂性,这些方法精度低、缺乏泛化能力,尤其对于小型建筑物目标的提取结果较差。近年来,随着以CNN为代表的深度学习技术的出现,计算机视觉领域有了长足的进步。卷积神经网络的特征提取器和分类器能利用输入图像自动地端到端进行训练,被证明是可以替代手工构造特征的方法,并具有良好的泛化能力,全连接网络已应用于城市场景分割和医学影像分割等领域[3-4]。

从遥感影像中提取建筑物属于语义分割问题,卫星图像建筑物数据集通常数量较小但尺寸较大,基于全连接网络的语义分割方法将图像切块增强之后进行训练。文献[5]和文献[6]分别将改进后的FCN[3]和U-Net[4]用于遥感影像的建筑物提取,但是这些方法的网络较深,最后层神经元的感受野较大,比较适合城市场景中密集大型建筑物的分割,而对于包含较少和较小建筑物目标的自然场景并不适用。在实际应用中,小型建筑物目标的提取在判断野外建筑物违建、敌国边境建筑物新建情况等国土监测和国防安全方面有着重要意义。这就要求算法对小目标敏感,能够快速地从头开始训练,得到轻量化的模型,推理准确且快速。基于这种应用场景,本文提出一种用于分割提取小数据中小型建筑物的基于全卷积网络的轻量化分割网络ZF-FCN。

2 方 法

2.1 改进的全连接网络

卷积网络是强大的视觉模型,可以产生特征层次结构。FCN展示了端到端地训练的卷积网络本身可以用于语义分割,构建了完全卷积网络,该网络接收任意大小的输入并通过有效的推理和学习产生相应大小的输出,并定义了一种“跳过”连接,将来自深层粗糙的语义信息和浅层精细的局部信息相结合,从而生成准确而详细的分割图[3]。

FCN的主要思路是把全连接层改为全卷积层,输入一幅图像后直接在输出端得到每个像素所属的类别,从而得到一个端到端的方法来实现图像语义分割。其网络有三大重要特征:特征通过跳过连接从不同层融合得到;全卷积层学习到的低分辨率语义信息特征图通过上采样恢复到原图大小,保证了FCN网络对任意大小输入图像的兼容性;可从分类网络进行知识迁移,即可用这些网络的权重初始化全卷积网络的特征提取层。

文献[3]提出了3种采用不同“跳过”连接方式分割网络——FCN-8 s,FCN-16 s,FCN-32 s,但近年来已有一系列如U-Net等基于全连接思想的分割网络被提出[4]。

2.2 数据集

本文收集得到150张分辨率50 cm、1024×1024像素的RGB卫星图像,并对图像中的建筑物进行了语义标注。数据集较有代表性:建筑物总数量少、建筑物总体较小但形状和大小差异较大。将数据按照3∶1∶1的比例划分为训练集、验证集和测试集。

检视训练集如图1所示。从图中可以发现对于本文任务,数据集中建筑物目标最大不超过32×32,而建筑物目标周围较小的区块足以表征建筑物的存在,这一先验知识可以用于数据集扩展。文献[5—6]分别采用了 256×256 及 224×224 的切块进行数据扩增,这是由于二者中的基础网络FCN和U-Net网络较深,感受野较大,不适合更小图像块的训练,因此更关注图像的语义信息而非局部特征,这对于分割小目标建筑物不利。

2.3 ZF-FCN结构

在训练阶段,将图像区块作为训练数据进行采样,在测试阶段,使用整个图像作为输入。这样的训练策略对FCN结构有特殊要求,尤其是位于顶层的神经元的感受野不能太大。如果感受野较小,则会关注丰富的局域信息而不是全局的语义信息。因此本文选择感受野较小的ZF网络作为参考基础网络[7],仅使用前4层作为特征提取层,在特征提取层的末尾添加得分层,并且将所有卷积层的步长改为1。本文将原始网络中的重叠池化更改为非重叠池化,这是因为前者导致后续层中的感受野更大。另外由于文献[8]证明LRN的作用并不明显,为了提高训练速度,需要提高数据并行程度,即使用较大的mini-batch,本文选择Batch Normalization替代LRN[9]。最后,为了保持用于分类的特征图的分辨率,在得分层之前插入一个上采样层,通常认为转置卷积可以用于直接学习上采样,但文献[10]证明使用双线性插值上采样加3×3不变卷积效果更好[10]。ZF-FCN网络结构如图2所示。

图2中卷积和池化过程下方的(a,b,c)分别代表卷积核大小、Padding大小和步长。Pool1和Pool2均为最大池化。Upsample1上采样到Pool1之后的特征层大小,Upsample2上采样到输入图像大小,二者结构均为将输入特征层直接放大到目标特征层大小的双线性插值和保证可学习性的(3,1,1)不变卷积的结合。

2.4 Lovász-Softmax损失

对于二分类分割网络,评价指标是像素交并比(IoU),二类交叉熵(binary cross entropy,BCE)损失通常是第一选择。但由于在一个批次里每个像素的权重相同,优化BCE损失并不等价于优化IoU,需要考虑样本不平衡问题。如果直接优化IoU则会导致训练过程不稳定,因此本文使用BCE损失和另一损失函数L′(w)的加权和,这样既能解决样本不平衡问题,又能更好地优化IoU。该损失函数为

L(w)=(1-α)BCE(w)-αL′(w)

L′(w)即软Jaccard损失函数J

3 试 验

3.1 数据集扩增

数据集包含150张图像。基于上文的先验知识,对于从图1原图中裁剪的区块,可以很容易地判断区块是否包含建筑物区域及哪个像素属于每个区块中的建筑物。可以通过裁剪原始图像中的区块来扩展数据集。上文中已经提到,数据集中建筑物的大小不超过32×32,本文使用64、128、256三种区块大小对训练集和验证集进行扩增,步长均为区块的一半。全连接网络可以直接输入任意大小的图像,使用小图像块训练的模型也可以用以预测完整图像,测试结果在30张测试原图上得到。

3.2 评价指标

IoU和像素准确度(pixel accuracy,PA)是图像分割领域的通用指标,建筑物提取属于二类分割问题,定义如下

式中,TP代表正确分类的正样本数;FP表示被错误标记为正样本的负样本数;FN表示被错误标记为负样本的正样本数。

同时本文使用Kappa系数对测试成果进行评价[13],该指标用于评价不平衡类别分类精度。

3.3 试验与分析

本文使用动量sgd训练ZF-FCN,训练在单块GTX1080Ti显卡上进行[14]。对于64、128、256三种不同切块大小的采样方式,分别采用2048、512和64张的批量大小,学习率分别为1e-3、1e-4、1e-5。使用0.9的动量及5×10-4的权重衰减,ZF-FCN网络采用Xavier初始化[15]。

作为对比,使用FCN和U-Net在64、128,256切块数据集上均进行了训练和测试。FCN特征提取层的网络权重来自vgg16网络对应层[8]。最终结果表明,FCN-8 s和U-Net在128区块上的结果远优于另外两种切块方式,ZF-FCN网络在64和128区块上的结果接近且远优于256区块,如图3、图4、表1所示。由于本文对全图测试,建筑物目标占原图比例较小,不便展示分割细节,因此只在图3中展示一张测试图的全图对比,在图4中将各个模型对测试图原图预测结果包含建筑物部分裁剪出的多个128×128区块进行对比。结果显示,FCN-8 s和U-Net模型的预测结果不具备准确检出建筑物形态的能力,而ZF-FCN的效果明显优于FCN-8 s和U-Net,能够检出建筑物形态,对于建筑物边缘细节的提取精度也较好。

表1 定量评价指标对比 (%)

从表1可以看出,在128和64区块上训练得到的ZF-FCN模型在3个评价指标上十分接近,而FCN-8 s和U-Net模型较为接近,ZF-FCN在3个指标上的结果都大幅领先FCN-8 s和U-Net。

4 结 语

本文分析了大型分割网络对较小的建筑物目标分割任务效果不佳的主要原因:较大的感受野和剧烈的上下采样过程造成局部特征信息的缺失及样本不平衡问题,提出了基于全连接思想的轻量化的ZF-FCN网络,在特征提取的过程中使用较小的感受野获取更多局部信息,使用较少的最大池化操作避免剧烈的下采样,并在上采样的过程中使用双线性插值和3×3相同卷积的结合替代转置卷积,既保证上采样的可学习性又避免转置卷积中经常出现的格子伪影问题。ZF-FCN网络使用Lovász-Softmax损失解决了样本不平衡问题,使网络训练更稳定也更好地优化了交并比。由于网络较为轻量,训练过程中的数据并行程度高,训练和预测速度快,这使网络可进一步应用于机载或星载实时推理。试验表明ZF-FCN在IoU、pixel accuracy和Kappa系数3项指标上都远远优于FCN-8s和U-Net网络。除了小规模数据集的小型建筑物提取,本文方法适用于类似小规模数据集中小型目标的分割提取任务。

猜你喜欢

特征提取建筑物语义
真实场景水下语义分割方法及数据集
邻近既有建筑物全套管回转钻机拔桩技术
空间目标的ISAR成像及轮廓特征提取
描写建筑物的词语
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
微动目标雷达特征提取、成像与识别研究进展
Relationship between mode of sport training and general cognitive performance
“吃+NP”的语义生成机制研究
火柴游戏