基于双分支融合策略的遥感建筑物提取轻量化网络

2023-12-22李贺鹏张连蓬

无线互联科技 2023年19期

李贺鹏,张连蓬

(江苏师范大学地理测绘与城乡规划学院,江苏徐州 221116)

0 引言

随着地空观测技术的不断成熟,通过高分辨率遥感影像可以获取更加丰富的地物信息。建筑物作为组成城市的关键要素之一,是与人类生活密切相关的人工地物目标,快速、准确地完成建筑物提取在数字化城市建设、人口预测评估、城市远景规划等领域应用意义重大[1]。在高分辨率遥感影像中,建筑物具备较为明显的形状特征和纹理特征,基于人工解析推测时间周期长,难以满足即时性需求。

近年来,卷积神经网络在图像分类和语义分割等领域表现出众,且已成功应用于遥感影像智能处理。Long等[2]首次提出端到端的全卷积神经网络(Fully Convolutional Neural Networks,FCN)对图像进行像素级分类。Ronneberger等[3]提出Unet是对FCN的改进,通过跳跃连接接收低层次特征,输出并保留边界信息。Chen等[4-6]提出了DeepLab系列,DeepLabV3采用空洞空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模块对目标进行多尺度特征提取[5],利用解码器融合多尺度的特征进行精细分割。Shao等[7]提出一种建筑物剩余细化网络BRRNet,添加预测模块和残差细化模块,进一步提高了建筑物提取精度。然而,复杂的网络结构导致网络推理时间减缓,限制了模型在许多计算资源有限场景下的部署和使用。为了克服计算开销和内存容量限制问题,许多学者提出具备实时性且轻量化的网络。Paszke等[8]提出轻量化网络ENet,舍弃下采样最后阶段来减少参数量,但信息提取不完整。Howard等[9]提出的MobileNets使用深度可分离卷积,可以降低网络参数但会对检测精度产生影响,在此基础上改进的MobileNetv2模型体量更小且性能更优。Tan等[10]设计跨尺度连接的特征融合模块Bi-FPN并使用联合缩放方法,提出了EfficientNet,网络参数少且推理速度较快。Han等[11]提出Ghost模块,构建了全新的轻量级神经网络GhostNet。上述模型在推理速度上更快且具备更少参数,但精度与非轻量化网络相比仍然有很大上升空间。本文基于FastSCNN网络[12],提出一种双分支策略融合的轻量化语义分割网络,包含全局信息提取分支和空间信息提取分支。全局信息提取分支使用带残差的bottleneck块并利用空洞空间金字塔池化模块获取多尺度信息;空间信息提取分支内添加卷积块注意力模块,提高对建筑物目标的识别精度。将本文方法在航空遥感图像数据集上进行对比,经过实验分析,本文设计的模型大小仅1.19 M,正确建筑物提取精度可达92.09%,IoU可达86.28%。

1 方法

1.1 网络结构

为尽可能降低模型参数量以及计算量的同时确保模型分割精度,本文在FastSCNN网络基础上,改进提出新的双分支融合策略的轻量级卷积神经网络,网络整体结构如图1所示。

图1 双分支融合策略网络模型

网络对输入图像的底层特征高效提取,双分支共享图像底层特征。全局信息提取分支连续使用卷积块并添加ASPP模块代替下采样,最后利用双线性插值上采样恢复空间分辨率。空间信息提取分支将卷积块注意力模块融进残差结构内。双分支特征融合两部分语义特征信息,从而更加准确快速完成遥感影像中建筑物的提取。

1.2 反向瓶颈残差结构

卷积层数较深的网络包含大量参数且学习和推理速度较慢,会带来梯度弥散和爆炸等网络退化问题。Sandler等[13]在MobileNetV2网络中基于原始的残差结构重新设计了反向残差瓶颈结构。将其引入到本文的网络中,每个结构内分别包含2个、3个残差块。

当输入和输出大小相同时,对瓶颈残差块进行短路连接。该结构逆转原始通道维度,利用深度可分离卷积减少参数和浮点数运算数量。在最后利用空洞空间金字塔池化聚合多尺度上下文信息。

1.3 空洞空间金字塔池化

在进行全局信息提取过程中,下采样操作可有效降低网络层数增加带来的计算量,但下采样增大感受野的同时降低空间分辨率,这会直接导致对目标提取精度降低。改进后的ASPP模块包含3个空洞率分别为6、12、18的空洞卷积层和1个1×1卷积层以及全局平均池化层。空洞卷积可以在获取较大感受野的同时减少分辨率损失,1×1卷积层可用于提取更细小的目标,而全局平均池化层能够整合特征信息。从不同尺度提取特征融合,得到最终结果。改进的ASPP模块利用并行滤波器有效增强了语义分割效果。

1.4 卷积块注意力模块

卷积块注意力模块(Convolutional Block Attention Module,CBAM)是一种简单有效的前馈卷积神经网络注意模块[14]。CBAM组合通道注意力机制和空间注意力机制,将得到的权重与输入特征图相乘进行自适应特征细化。

1.4.1 通道注意力

通道注意力模块(channel attention module,CAM)使用一个新的神经网络结构计算特征图像各个通道的权重。Squeeze操作进行全局平均池化,将特征图从[H,W,C]压缩为[1,1,C]的特征向量;Exciatation操作给每个特征通道生成一个权重值,输出的权重值数目与特征图通道数相同,大小均为[1,1,C],最后将归一化权重加权到每个通道的特征上,生成加权后的特征图。利用两个全连接层学习特征权重,会增加更多参数,ECANet做了进一步提升,通过一维卷积来完成跨通道之间的信息交互,卷积核的大小通过自适应函数进行变化,可以使得通道数较多的层进行更多跨通道交互。自适应函数为:

1.4.2 空间注意力

空间注意力模块(Spatial attention module,SAM)保证空间维度不变的同时,压缩通道维度,使网络更加聚焦目标位置信息,提高对目标显著特征的筛选能力。SAM沿通道分别应用平均池化和最大池化操作,连接后生成有效的特征描述符,大小为[H,W,2]。对此特征描述符进行卷积操作,经激活函数后得到空间注意特征图。计算公式如下所示:

Ms(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))

2 实验与结果评价

2.1 实验数据及环境设置

为验证本文设计网络模型的有效性,本文采取WHU数据集。经滑动窗口处理后,图像被分为4 736张、2 416张、1 036张的训练集、测试集和验证集。

实验平台为i5-12490F@3.00 GHz八核处理器,NVIDIA GeForce RTX 3060 12 GB显卡。Python版本3.7,PyTorch版本1.7.1。选用交叉熵损失函数、Adam优化器,批处理大小为8,学习率为1e-3。

2.2 实验结果分析

为检验设计模型性能以及分割效果,本文将设计网络与其他深度学习网络模型在WHU建筑物数据集上进行实验。实验结果如图2所示。

图2 各网络模型提取结果

从左到右依次为原始图像、标签、ContextNet结果、SegNet结果、FastSCNN结果、DeepLabV3+结果以及本文网络结果。如图,在WHU数据集上,本文提出改进网络针对大小尺寸不同的建筑物模型均有较好的识别效果。圆环标注区域(1-2行)的对比发现,ContextNet、SegNet以及FastSCNN对较为紧密的大型建筑物识别会出现空洞、不连续等现象,本文的网络一定程度上弱化了这些问题,但并未完全解决,DeepLabV3+模型相对表现较好。从圆环标注区域(3行)可以得出,ContextNet、SegNet、FastSCNN都存在边缘不连续的问题,本文所改进的网络和DeepLabV3+一定程度上表现较好。圆环标注区域(4行)可观察到网络整体没有出现太多漏检的现象,但对于小型建筑物,本文设计网络更贴合实际形状。从方形标注区域(2行)可以看出,在建筑物提取过程中,除DeepLabV3+之外均存在对于部分建筑物连续识别能力不够。方形标注区域(3行)则表明在建筑物提取过程中,均存在建筑物边角不清晰,边角小范围内形成错分等现象。

如表1所示为不同模型在WHU数据集上的精度对比。通过对比可得,本文改进网络与其他多路径网络FastSCNN、ContextNet相比,精度分别提升了0.47%、0.38%,IoU分别提升了3.51%、2.81%,模型大小较为接近。对比之下,DeepLabV3+网络性能效果较好,但其模型参数量达到64.4 MB,推理速度慢。本文所改进的网络在Precision上取得最优,但模型大小仅为1.19 MB,能很好地克服计算开销和内存容量,表明对于建筑物样本的提取效果最好。