APP下载

融合分形几何特征Resnet遥感图像建筑物分割

2022-09-17徐胜军张若暄孟月波刘光辉韩九强

光学精密工程 2022年16期
关键词:维数分形建筑物

徐胜军,张若暄*,孟月波,刘光辉,韩九强

(1.西安建筑科技大学 信息与控制工程学院,陕西 西安 710055;2.西安市建筑制造智动化技术重点实验室,陕西 西安 710055;3.西安交通大学 电子与信息学部,陕西 西安 710049)

1 引 言

近年来,遥感图像建筑物分割作为遥感图像分析中的关键问题之一受到了广泛关注。建筑物作为城乡区域占主体地位的地物目标,精确的建筑物分布信息对于监测城市地区的变化、城市规划和人口估计等科学研究具有重要意义[1]。然而与遥感图像中水体和森林等自然景物相比,建筑物常受到光照、季节、角度和边界不清晰以及背景信息复杂等强干扰的影响,这些干扰给遥感图像建筑物的准确分割带来了很大挑战。

传统的遥感图像建筑物分割方法主要以人工或机器学习方法获取的浅层特征作为图像分割的依据。Andres等[2]采用多阈值相结合的方法对于单一目标进行分类分割,提出了一种基于阈值的建筑物多框架协同分割方法。Lakshmi等[3]利用微分算子进行边缘检测,设计了一种基于边缘检测进行图像分割的方法。Adams等[4]通过选取种子点集,并与周围相似的像素进行合并,不断更新迭代直到满足条件为止,进行基于种子生长区域的图像分割。李静[5]基于归一化转动惯量(Normalized Moment of Inertia,NMI)特征的超像素块相似性度量对遥感图像进行分割,降低了超像素对噪声的敏感性,提高了影像分割的精度。虽然传统方法取得了一定的分割效果,但由于其只能提取到图像的浅层特征,没有考虑图像的深层语义特征,难以对蕴含大量语义信息的遥感图像建筑物进行有效分割,因而阻碍了传统方法在遥感建筑物分割领域的大规模应用。

深度学习能够有效提取图像中的深层特征,充分利用遥感图像中的语义信息。这类算法通过神经网络自主学习图像特征,建立图像与分割目标之间复杂的映射模型,可以实现端对端、像素对像素的语义分割,在遥感图像分割领域受到广泛关注[6-14]。Zheng等[15]将U-Net模型应用于遥感图像分割中,实现端到端的遥感图像像素级语义分割。Hosseinpoor等[16]对U-Net进 行 了 改进,加入特征嵌入融合(Embedding Feature Fu⁃sion,EFF)模块,用于增强低级与高级特征的融合,在提取复杂建筑物方面取得了较好效果。Ren等[17]在U-Net模型中引入Dropout以减少过拟合,并且引入AC-Net增强特征提取能力,有效提高了模型准确率。陈欣等[18]针对复杂背景下遥感小目标的检测问题,在原SSD算法中引入通道注意力模块,通过构建权重参数空间,将注意力集中在关注目标区域的通道,有效降低了背景干扰。Bao等[19]基于Deeplab V3+使用轻量级网络Mobile net V3提取特征,然后使用空洞金字塔结构扩展感受野,最后采用双线性插值法对输出特征图像进行上采样得到像素级预测分割图,取得了良好的分割效果。Pan等[20]针对边缘像素易被误分割问题,提出一种渐进式边缘引导网络(PEG-Net),利用检测模块(Edge Detection Mod⁃ule,EDM)和引导模块(Guidance Module,GM)对特征空间进行重构,通过重新学习易出错的边缘像素提高分割模型的判别能力。Pan等[21]注意到上采样重建过程中小区域变化难以检测等问题,设计了一个密集连接的特征融合网络(DCFF-Net),通过两个VGG流架构差异提取网络,在融合过程引入注意力,有效弥补了池化操作造成的高分辨率位置信息丢失。

随着深度学习网络深度的增加,在卷积网络的训练过程中易出现梯度过多或消失的情况,导致训练无法正常进行。为了解决这一问题,He等[22]提出深度残差网络(Resnet),通过在卷积层中加入残差学习单元,能有效缓解网络训练问题。王宇等[23]利用Resnet学习建筑物特征并建立高维强非线性分割模型,通过条件随机场的成对势函数调节各像素点之间的关联关系,构成全连接条件随机场对分割结果进行调节,有效提升分割精度。徐胜军等[24]在Resnet的基础上中引入空洞卷积增大特征提取的感受野,以捕捉更丰富的多尺度细节特征,这种方法不仅提高了分割精度,而且有效克服了道路、树木等因素的干扰,得到了较清晰的建筑物边界。Zhao等[25]将注意力机制应用于通用ASPP模块以提高模型性能,对Resnet网络进行了细化调整,同时引入CNN模型中的池化层(Pooling layers in CNN models,PIC)模块将高级特征与低级特征进行融合,能够有效地捕获多尺度信息。

基于深度学习网络的遥感图像建筑物的准确分割依赖于对建筑物图像特征信息的有效表达,然而建筑物由于光照、季节、角度和边界不清晰等数据本身存在的干扰,导致深度学习网络难以真正学习到其本质边缘特征,因此常造成遥感建筑物图像分割边缘的模糊。分形维数(Fractal Dimension)作为刻画分形集合性质的维数,不仅可以反映图像的空间结构信息,而且能定量描述图像的复杂性[26]。遥感图像中,树木、河流、草地等自然景物具有强分形,而建筑物、道路等人造物体具有弱分形。受此启发,提出了一种融合分形几何特征Resnet遥感图像建筑物的分割模型,根据遥感图像中不同物体的分形特征先验知识,利用分形先验知识增强深度学习网络对不同物体图像特征的描述能力,从而提升对建筑物和复杂背景边界的分割精度。所提模型由编码和解码两部分组成,编码部分引入融合分形先验的空洞空间金字塔池化模块,通过分形维数获得目标邻域的分形特征,增强了Resnet网络的几何特征描述能力;解码部分引入深度可分离卷积注意力融合机制,融合编码层特征,得到丰富语义信息的特征图。实验结果表明,本模型具有良好的细节分辨率,能够更加有效、准确地提取遥感图像中的建筑物目标。

2 相关基础理论

2.1 分形维数

2.1.1分形维数概念

图像的纹理是所有物体表面共有的一种内在特征,分形维数可以有效表达图像的纹理特征[27],这种纹理特征反映了图像中同质现象的视觉特征,且不依赖于图像颜色或亮度变化。相关研究表明[28],分形维数直观上与物体表面的粗糙程度相吻合,本质刻画了图像像素邻域灰度空间分布的规律。由于自然物体和人工物体的图像在分形维数存在差异使得基于分形理论的图像分析成为可能。因此,分形维数作为一种刻画图像表面特征的重要参数,是描述分形特征的定量指标,也是描述分形图像自相似的不确定特点的一个重要的参数。

2.1.2分形维数计算方法

分形维数存在多种计算方法,其中差分盒维数法(Differential Box Counting,DBC)[29]具有计算量小、计算精度高等优点,广泛应用于分形维数的计算。DBC方法的计算过程如下:

令X表示一幅大小为W×W的遥感图像,基于分形理论,通常可以将遥感图像X划分为大小w×w×G的立方体网格,其中w×w表示划分的立方体网格的长和宽,G表示遥感图像像素的灰度级。在立方体网格中进行盒子划分,划分盒子高度为h=w×G/W,计算分割尺度为r=w/W。对每个网格从底层向上编号,找出最大灰度值和最小灰度值所在盒子编号作差,则可求出该网格差分盒子数nr,对nr求和可得总盒子数Nr。最终用最小二乘法对多组log(Nr)和log(1/r)进行线性拟合,拟合直线的斜率即为图像X的分形维数D。

2.2 Resnet101网络

建筑物遥感图像具有高维性、强背景干扰等特征,浅层网络提取的浅层特征在传播过程中信息丢失严重,因而常导致遥感图像分割出现误分割现象。深度残差神经网络(Resnet)[22]在网络中引入了残差模块(Residual module),通过学习多个网络层输入、输出之间的残差,既保留了浅层特征在传播过程中的完整性,又有效提高了位置信息的利用率,解决了网络层数加深带来的梯度消失和精度下降的问题。所采用的Resnet101网络共由四个大的残差模块(Residual module)组成,四个Residual module中分别由3、4、23、3个小的残差块组成。另外在网络的最前端由1个7×7的卷积层和maxpool层组成,最后端为平均池化层。Resnet101网络及其残差模块如图1所示。

图1 Resnet101网络及其残差模块Fig.1 Resnet101 network and residual module

图1(a)表示Resnet101的网络结构,图1(b)表示其残差模块,该模块在核尺寸为1×1的两个卷积层之间连接3×3卷积层,这种架构设计称为瓶颈设计(Bottle Neck,BN),与两层3×3卷积层的残差块相比,在几乎不造成信息损失的同时有效降低了参数量和计算量。

3 融合分形特征的Resnet网络模型

由于遥感图像中建筑物尺寸大小不一,Resnet网络利用固定大小的建筑物特征无法对一些较小尺寸的建筑物实现精细化分割,甚至出现漏分割的问题,另外由于建筑物遥感图像中存在复杂多样的自然背景和环境噪声,这些干扰因素导致深度学习网络难以真正学习到其本质边缘特征,因此常造成建筑物图像边缘分割不清。针对此问题,基于分形能够有效描述图像几何特征的特点,利用分形维数描述图像像素邻域灰度空间分布,建立遥感图像中不同物体的分形特征先验知识,并结合通道注意力机制,提出了一种融合分形特征的Resnet网络模型用于遥感图像建筑物分割,提出的网络利用分形先验知识增强深度学习网络对不同物体图像特征的描述能力,从而提升对建筑物和复杂背景边界的分割精度。提出网络的整体结构如图2所示。

所提出的模型整体结构分为编码器和解码器两大部分。编码器部分以Resnet101为主干网络捕获遥感图像特征,通过在四个残差层后引入提出的融合分形先验的空洞空间金字塔池化模块(Fractal Dimension in Atrous Spatial Pyramid Pooling,FD-ASPP),利用遥感图像不同对象的分形先验知识增强网络对不同遥感物体图像特征的辨别能力。解码部分设置了4次上采样,可以将遥感图像特征图的分辨率还原为输入图像大小。每次上采样之后,高层次特征图(网络的上采样层)跳跃连接相同尺寸的低层次特征图(网络的前4个Block层),使用深度可分离卷积注意力机制(Deeply Separable Convolution At⁃tention Fusion,DSCAF)进行特征融合。经过3次融合的特征图,保留了更深层次的语义信息。最后通过输出层将特征图的像素进行二分类,获得分割结果。

图2 网络整体结构Fig.2 Overall structure of the proposed network

3.1 融合分形先验的空洞空间金字塔池化模块

空洞空间金字塔池化(Atrous Spatial Pyra⁃mid Pooling,ASPP)在遥感图像分割任务能较好提取遥感图像特征,但对于复杂背景下的建筑物遥感图像而言,由于多尺度感受野随着膨胀率的增加,使得模型捕获细节信息特征能力受到限制,因此导致遥感图像建筑物分割时边缘分割效果易受干扰因素影响。分形特征能够增强深度学习网络的对不同物体图像特征的描述能力,从而提升对建筑物和复杂背景边界的分割精度。因此,提出一种融合分形先验的空洞空间金字塔池化模块,具体结构如图3所示。

DeeplabV3中原有的ASPP模块包含4个空洞率为(1,6,12,18)的并行支路,由于具有不同尺度的感受野,因此可以获取多个尺度的目标信息。然而这种空洞率参数选择方案会产生网格效应[29],导致空洞卷积会损失信息的连续性,部分信息被人为忽略。为改善这种状况,该模块采用没有最小公倍数的混合空洞率的空洞卷积,将空洞率设置为(3,5,11,15),使采样能够覆盖到每个像素点。

图3 融合分形先验的空间金字塔池化模块Fig.3 Fractal dimension in atrous spatial pyramid pooling

FD-ASPP包含多个分支,每个卷积分支中包含两个并行块,分别为DBC分形维数子块和空洞卷积子块。DBC分形维数子块提取遥感图像特征的几何特征信息,空洞卷积子块提取遥感图像的多层次特征信息,然后将两个子块分别提取的多层次特征信息和分形几何特征信息进行融合,得到新的融合特征作为该分支的输出。最终将FD-ASPP中多个分支的输出融合特征信息进行拼接,再用1×1的卷积将通道数恢复为与原特征图相同的通道数,即可得到融合分形先验的多尺度特征。

所提的FD-ASPP模块通过多尺度空洞卷积可以实现较高的学习效率,利用扩大感受野的方式提取多尺度的遥感图像特征,融合不同尺度的特征信息提升模型对细节特征的表达能力;为进一步提取更具分辨力的先验特征信息,通过引入分形特征增强了ASPP网络对遥感图像不同对象的几何特征描述能力,不仅能抑制建筑物附近的道路、树木、阴影等因素的干扰,而且为遥感图像建筑物的分割提供了更具辨别力的几何特征信息。

3.2 分形特征提取

遥感图像特征提取的质量对于基于深度学习网络建筑物分割精度至关重要。待分割区域的边缘几何特征描述不充分常导致网络对遥感图像建筑物的分割精度不高。分形维数作为一种有效的纹理度量方法用于遥感图像分割能够有效提升深度学习网络的几何特征描述能力。由于遥感图像具有分辨率高,数据量大的特点,传统的DBC算法[30]较为简单,在提取遥感图像几何特征时常表现出精度不足的问题。传统DBC对整张特征图或固定大小的网格求取分形维数,而本文改进算法以每个像素点为中心进行局部区域划分,并计算每个像素点所在局部区域的分形维数,记为该像素点的分形维数,最终得到输入图像的分形维数矩阵。

改进的DBC算法步骤如表1所示,遥感图像的分形特征提取过程如图4所示。

一般来说,自然图像的几何结构越复杂,其图像的纹理特征越丰富。如图4所示,p点所在图像区域较为粗糙,而q点所在区域较为光滑,因此p点的分形维数大于q点。也就是说,p点的纹理特征比q点更为丰富,而分形维数的比较也正好说明了这一点。因此,分形维数的大小可以用来表达不同区域的遥感景物特征及其特征分布。

表1 改进的DBC算法步骤Tab.1 Improved DBC algorithm steps

图4 分形特征提取过程Fig.4 Fractal feature extraction process

3.3 分形特征融合

为使FD-ASPP模块中各分支的两个子块提取到的特征图能够匹配,需要设置尺度参数使两个子块在同一尺度下提取遥感图像的局部区域特征信息。因此,设定算法1的基于改进DBC的分形维数算法的滑动窗口参数ω与不同空洞率的空洞卷积核参数σ满足如下关系:

其中:n为卷积核大小,r为空洞卷积采样率。

为了将ASPP和FD两个子块分别提取的深度特征和分形特征进行有效融合,在每个分支的两个子块之后增加了一个特征融合层。在特征融合层中采用add特征融合操作,特征融合公式如下:

由式(2)可知,所提FD-ASPP在获取更深层信息的同时增加了分形特征,有效弥补了ASPP模块对遥感图像深度特征细节信息表达的不足,提取的分形特征对于遥感图像不同物体的几何本质特征表达更具分辨力,因此提出的FDASPP模块不仅增强了对细节特征的描述能力,而且为建筑物分割提供了更具辨别力的几何特征。

FD-ASPP的参数设置及特征融合输出如表2所 示,表 中,表 示 第n个FD-ASPP的输出。

表2 参数设置及特征FD-ASPP输出Tab.2 Parameter settings and FD-ASPP output

3.4 解码器

高层次特征图具备更丰富的遥感图像语义信息,而低层次特征图的细节信息更为丰富,包含了更多位置性信息。由于解码阶段的高层次特征图通过直接上采样还原,会丢失很多细节位置特征。为了保留更多的遥感图像细节特征,常采用高层次特征图与低层次特征图融合的策略,获取更加丰富的遥感图像语义信息和位置细节信息。针对此问题,提出一种深度可分离卷积注意力融合(Deeply Separable Convolution Atten⁃tion Fusion,DSCAF)机制,这种机制通过利用高层次特征图的注意力信息,指导低层次特征图与高层次特征图的融合,通过Sigmoid分类得到最终的分割结果。

LANet网络[31]中通道注意力机制中采用的全局平均池化操作对于特征图每个位置赋予了相同的权重,这种平均池化的策略在某种程度上加强了非重要特征,而抑制了重要特征。为了根据特征的重要程度赋予特征图每个位置可学习权重,提出的DSCAF融合机制利用深度可分离卷积操作替代全局平均池化,在实现了全局池化功能的同时赋予了特征图每个位置可学习的权重,其结构如图5所示。

图5 深度可分离卷积注意力融合模块Fig.5 Deeply separable convolution attention fusion module

DSCAF模块首先将高层次的特征图H利用深度可分离卷积进行维度压缩,将输入的H进行深度卷积,H∈RC×M×M,每个通道利用一个大小为K×K的卷积核进行卷积操作。当K=M时,得到C×1×1大小的类别信息特征图f1,f1∈RC×1×1,然后在f1之后设置一个全连接层,其计算见公式(4),δ为每个特征通道生成权重,表征特征通道间的相关性。利用激活函数Sigmoid对δ×f1进行运算,将特征映射到0和1之间,表示通道重要程度,输出为特征图f2,f2∈RC×1×1。

低层次特征图L∈RC×M×M,将经过特征选择后的特征图f2逐通道对低层次特征图L进行加权,完成对特征图L在通道维度上的重标定,再与特征图H进行融合得到具有更丰富语义信息的特征图f3。计算过程如公式(4)所示:

其中:Fscale(L,f2)表示低层次特征图L与f2进行对应通道相乘,⊕表示特征融合操作。

解码器部分基于所提出的DSCAF机制,将经过转置卷积进行上采样恢复后的高层次特征图H和低层次特征图L利用DSCAF机制进行特征融合,网络通过3层不同尺度的注意力机制进行融合,最后的输出不仅包含了遥感图像中丰富的高级语义信息,而且捕获了空间细节位置信息,因此所提的网络有效减少了建筑物边缘像素的误分割现象,提升了建筑物整体分割的准确率。

3.5 损失函数

遥感建筑物提取问题可看作是对像素的二分类问题,通常此类问题采用二分类交叉熵损失函数。yt表示真实标签类别,yp表示预测为该类别的概率值,则将二分类的交叉熵损失函数定义为:

4 实验和结果分析

4.1 实验数据集及实验平台参数设置

实验在Ubuntu系统下进行,GPU型号为NVIDIA GeForce RTX 2080Ti,环 境 配 置 为CUDA10.2+Python3.6.9+Py-Torch1.6。 实验采用WHU Building Dataset数据集[32],该数据集由8 189张大小为512×512像素的超高分辨率(0.3 m/pixel)包含有约22 000座独立建筑的图像构成。数据集按照训练集(4 736张)、验证集(1 036张)和测试集(5 416张)进行划分。

模型初始学习率设置为1×10-3,训练的ep⁃och为100,batch size为8。对于所提的融合分形先验的Resnet遥感图像建筑物分割网络,训练过程各项指标如图6所示,可以看出网络训练在初期损失下降较快,训练到50次左右时损失下降曲线趋于平稳,最终收敛在0.2左右,说明所提网络参数的训练结果较为理想。

图6 网络训练过程中损失下降曲线图Fig.6 Graph of loss decline during network training

4.2 分割性能指标

本次实验采用精准率(Precision)、召回率(Recall)、F1分数(F1-score)和均交并比(mIoU)等指标作为衡量模型分割效果,首先定义建筑物为正样本,非建筑物为负样本,预测正确为真,否则为假,各类指标计算公式如下:

精准率(Precision,P)表示在所有被预测为正的样本中实际为正的样本概率,如式(6)所示。

召回率(Recall,R)表示在样本中实际为建筑物的像素点被预测为属于建筑物的概率,如式(7)所示。

F1分数(F1-score,SF1)是精准率与召回率的平衡点,让两者同时达到最高点,如式(8)所示。

均交并比(mIoU,mIOU)表示正样本交并比和负样本交并比的平均值,如式(9)所示。

其中,TP表示为预测为建筑物,且标签为建筑物的像素点个数;TN表示为预测为非建筑物,且标签值为非建筑物的像素点数;FP表示为预测为建筑物,但标签为非建筑物的像素点个数;FN表示为预测为非建筑物,但标签为建筑物的像素点个数。

4.3 实验结果分析

为了对比所提模型有效性,与FCN[6],Seg⁃net[7],Deeplab V3[8],U-net[9],SETR[10],AlignSeg[11]等模型进行对比实验,实验对比结果如图7所示,其中(a)列为分辨率512×512的遥感图像,(b)列为建筑物Ground truth图像,(c)列为FCN网络的分割结果,(d)列为Segnet网络的分割结果,(e)列为Deeplab V3网络的分割结果,(f)列为U-net网络的分割结果,(g)列为SETR网络的分割结果,(h)列为AlignSeg网络的分割结果,(i)为所提模型分割结果。为了更清晰对比不同网络的分割结果,在图中用红线围出区域为分割细节对比和错分及漏分情况。

图7 建筑物提取局部结果对比Fig.7 Comparison of local results for building extraction

由图7分割结果图中能够看出,FCN网络分割的建筑物误分、漏分较多,如图7(c)中所示,第一行小型建筑物被误分为背景,第四行的大型建筑物上方缺失。这种误分割主要是因为FCN网络利用上采样将融合后的特征图直接还原到输入图像大小,造成特征信息丢失现象,导致FCN网络的表达能力较弱。图7(d)中,Segnet网络利用了编解码结构,将最大池化指数转移至解码器中,改善了分割分辨率,尽管能将大多数建筑物从背景中分离出来,但边缘分割效果不好,且有一些细节丢失的现象。图7(e)中,同样使用了ASPP结构来改进Resnet的Deeplab V3网 络,由于缺乏几何的细节特征,对建筑物边缘分割效果不佳,如第一行小型建筑分割中出现了粘连现象,第三行图中大型建筑物上方边缘平滑性较差。图7(f)中,U-Net网络对建筑物分割效果相对较好,其通过在上采样过程中,跳跃连接相同尺寸的特征图并进行特征融合。由于其利用的2倍上采样倍数小,特征保留相对比较丰富,对小型建筑分割效果不错,建筑物轮廓也能够基本分割出来,但也存在一些错分现象如图7(f)中第5行大型建筑物右侧集装箱错分为建筑物。图7(g)中SETR使用transformer作为编码器来替代原来的堆叠卷积进行特征提取的方式,保持了输入和输出的空间分辨率不变,同时还能够有效的捕获全局的上下文信息,对细小建筑物分割表现较好,但是建筑物的边缘分割效果不佳。图7(h)AlignSeg利用特征对齐分割网,采用一种简单的可学习插值策略来学习像素的变换偏移量,可以有效缓解多分辨率特征聚合导致的特征错位问题,得到了较好的边缘分割效果。图7(i)为所提模型分割结果,从第一行和第二行分割结果图中能够看出,所提模型在树木背景干扰下仍能有效分割小型建筑物的边缘,具有较强的抗干扰能力。由于受到道路的干扰,几个经典网络模型在第四行的大型建筑物上均未能完整分割,而所提模型实现了较为准确的分割且边缘完整度更高,使丢失细节信息的现象得到了有效缓解。所有对比模型的分割结果中,所提模型在建筑物边缘分割效果表现最好,预测结果也更为接近Ground truth图。因此,所提模型不仅获得了更好的分割准确率,而且在建筑物的边缘获得更好的效果。

所提的融合分形先验的Resnet网络模型由于增加了FD-ASPP模块,因此更有效利用了不同尺度特征和分形特征信息,提升了建筑物边缘信息上分割准确性;提出的模型与其它几种对比模型相比,建筑物分割的边缘较为清晰平滑,明显减少了树木、道路、阴影等干扰下的误分割和建筑物之间距离较近而导致建筑物粘连的情况,分割结果优于FCN,Segnet,Deeplab V3,U-net,SETR和AlignSeg模型。对比实验的定量性能指标如表3所示。

表3 WHU Building Dataset数据集性能对比Tab.3 WHU Building Dataset performance comparison

表中Params表示参数量,能够衡量模型的空 间 复 杂 度;FLOPs(Floating-point Operations)表示浮点运算次数,能够衡量模型的时间复杂度。与6种主流分割模型相比,所提模型由于增加了FD-ASPP和DSCAF模块,导致网络的训练参数量较大。此外,所提模型的Flops值为95.56 G,与其他模型相比,计算量并未增加太多。分割精度方面,与FCN,Segnet,Deeplab V3,U-Net,SETR和AlignSeg网络模型相比,所提 模 型 在Precision、Recall、F1-score和mIoU等评价指标上分别达到了94.48%,94.62%,94.55%和94.15%。因此,所提模型虽然在复杂度上有所增加,但有效提升了分割精度。

为了进一步对比所提的FD-ASPP加入网络的个数对遥感建筑物图像分割任务的有效性,量化分析了不同FD-ASPP的数量对分割指标的影响,对比将该模块加入残差网络不同层的输出后的模型分割性能,并在WHU数据集上进行了测试。可以看出,相比原始的Resnet101,提出的FD-ASPP在WHU数据集上使网络的召回率(Recall),平均交并比(mIoU)均有了不同程度的提升。从实验的比较结果中可以看出,在每层后都加入该模块相比于单层加入该模块来说,分割效果更好,当Resnet101在Layer1至Layer4中均加入FD-ASPP模块时,其各项指标均达到了最优。具体实验结果见表4。

表4 FD-ASPP不同层对分割指标的影响Tab.4 Influence of different layers of FD-ASPP on segmentation index

4.4 消融实验

为了验证所提模型及其各个模块对遥感建筑物图像分割任务的有效性,进行了消融实验对比,并在WHU数据集上进行测试。所提模型是以Resnet101为特征提取网络,通过转置卷积进行特征恢复,故选取该网络结构作为Baseline网络。FD-ASPP代表融合分形先验的空洞空间金字塔池化模块,DSCAF代表深度可分离卷积注意力融合机制。对比结果如表5所示。

表5 WHU Building Dataset模块消融研究Tab.5 Ablation of void convolutional modules in the WHU Building Dataset

从实验结果可以看到,Baseline的Precision,Recall和mIoU的结果分别为91.41%,92.43%和91.27%;添加FD-ASPP模块后,三个指标分别提高了1.85%,1.60%,2.53%;添加DSCAF机制后三个指标比Baseline分别提高了1.48%,1.13%,1.95%;最后将FD-ASPP和DSCAF都添加到Baseline中,使用所提的网络模型,与Baseline相比,三个指标分别提升了3.07%,2.19%,2.88%。

4.5 不同场景下对比实验结果分析

为了进一步证明所提模型在不同场景遥感图像中对建筑物分割提取的性能,分别针对建筑物遥感图像中存在的道路、树木、阴影等干扰进行对比实验分析。对比实验分别采用FCN[6],

Segnet[7],Deeplab V3[8],U-Net[9],SETR[10],AlignSeg[11]和所提模型作为分割网络进行训练测试,并对结果进行对比分析。其分割结果如图8~10所示。

图8 道路干扰条件下建筑物提取局部分割Fig.8 Local segmentation of building extraction under road interference conditions

图8为包含道路信息干扰的遥感图像分割结果对比,从图中可以发现,基于FCN,Segnet,Deeplab V3,U-Net,SETR和AlignSeg等模型的建筑物分割结果中均出现了建筑物粘连的现象。并且由于建筑物常和道路比较接近,且均是人工场景,因此在复杂道路的干扰下,建筑物出现了错误分割的情况。所提出的FD-ASPP模块有效提取了不同分割对象的分形特征,为网络提供了更具分辨力的信息,受道路的干扰较小,可较好提取建筑物的边缘。

图9为树木干扰情况下的遥感图像建筑物分割对比。由图中可知,FCN,Segnet,Deeplab V3,U-Net,SETR和AlignSeg等 模 型 在 提 取 建筑物边缘特征时易受树木和林带的影响,建筑物边缘存在明显的误分割现象,不能识别出被树木部分遮挡的建筑物。所提模型受到树木的干扰较小,可较好提取建筑物的边缘信息。

图9 树木林带干扰条件建筑物提取局部分割结果Fig.9 Building extraction local segmentation results under trees interference conditions

图10为阴影干扰下的遥感图像分割结果对比。由图中可知,建筑物右侧均有阴影。Segnet,U-net在受阴影干扰时,边缘均不能实现精细化分割,FCN整体受阴影干扰较小,但边缘分割效果也不尽人意。如图10(g)、图10(h)所示,SETR,AlignSeg模型虽然取得了较好的分割结果,但是在图中标记区域,两个对比模型对建筑物局部区域出现了误分割现象。而所提模型在该区域具有准确的分割结果。因此,和对比模型相比,所提模型可更加完整地识别建筑物主体,分割出较平滑边缘轮廓,能有效克服阴影的干扰,可以较为准确的分割建筑物。不同场景下对比实验结果分析如表6所示。

图10 阴影干扰下建筑物提取局部分割结果Fig.10 Local segmentation results of buildings extracted under shadow interference

表6 不同场景下对比实验结果分析Tab.6 Comparative experimental results in different sce⁃narios

5 结 论

由于遥感影像建筑物与背景特征的区分度较低导致传统的深度语义分割网络分割边界不清晰等问题,提出一种融合分形几何特征的Resnet的遥感图像建筑物分割模型。所提模型在编解码结构的基础上,基于Resnet主干网络将分形几何特征融入特征图深度信息用于遥感影像的建筑物特征提取,并在解码阶段运用深度可分离卷积注意力机制借助高层信息指导底层信息进行特征融合。在WHU Building Dataset遥感图像建筑物数据集的分割实验的结果表明,所提 模 型 的Precision、Recall、F1-score以 及mIoU等评价指标上分别达到了94.48%,94.62%,94.55%和94.15%。提出的网络模型不仅有效克服了道路、树木、阴影等因素的干扰,具有更好的建筑物分割效果,而且得到了较清晰的建筑物边界。

猜你喜欢

维数分形建筑物
修正的中间测度和维数
β-变换中一致丢番图逼近问题的维数理论
邻近既有建筑物全套管回转钻机拔桩技术
现代中小河流常用有坝壅水建筑物型式探讨
感受分形
描写建筑物的词语
分形之美
分形——2018芳草地艺术节
分形空间上广义凸函数的新Simpson型不等式及应用
火柴游戏