APP下载

基于改进型UNet模型的遥感图像建筑物变化检测

2023-06-03江勇张红梅付雪峰阮仁松

电脑知识与技术 2023年10期

江勇 张红梅 付雪峰 阮仁松

关键词:高分遥感影像;建筑物变化检测;深度可分离卷积;坐标注意力机制;特征金字塔

中图分类号:TP79 文献标识码:A

文章编号:1009-3044(2023)10-0001-04

0 引言

城市建设所导致的地表覆盖类型变化将对地球资源和生态环境产生深远的影响[1]。地表变化检测是遥感应用的重要组成部分,它为基础地理空间数据更新、城市规划、环境影响评价和应急救灾决策提供必要信息。建筑物是城市地表主要类型之一,在城市化过程中,不断有建筑物被新建、改建和拆除。而依靠人工实地调查建筑物变化费时且精度不够,不能满足当前智慧城市管理的需求[2]。因此,建筑物变化智能解译仍为遥感技术应用的重要研究内容。

遥感技术已日趋成熟,对地观测能力达到了前所未有的水平[3]。目前,遥感数据源更加多样,信息提取技术快速发展。然而现有研究表明,遥感影像分辨率的提高并未带来解译精度的大幅提高[4-6]。随着分辨率的提高,噪声和背景信息的干扰也更明显,仍然存在“同物异谱”和“同谱异物”现象,利用高分遥感影像进行建筑物变化检测仍然面临挑战,需继续深入研究。

国内外学者在利用遥感技术进行地表变化检测方面已做了诸多努力,特别是在提取策略和提高提取效率方面做了大量研究,提出了很多方法[7]。从高分辨率图像提取建筑物及变化信息的研究也取得了一些进展[8-9]。但随着影像分辨率的提高,地物细部特征得以展现,图像信息量增大但图像整体复杂度将上升,已有方法在检测过程中出现误判概率更高,造成结果图精度低难以达到生产要求,或存在效率不高的问题。

本文尝试将语义分割模型应用于遥感变化检测中,通过构建改进型UNet模型进行基于高分辨率遥感影像的建筑物变化检测,即利用多时相高空间分辨率遥感影像来识别和分析建筑物的变化。

1 数据资料与预处理

实验采用季顺平团队基于航片和卫片制作的建筑样本数据,即WHU建筑数据集[10]。该数据集源自同一覆盖面积为20.5km2地区2012年和2016年的航片数据,可反映该地区2011年地震后的建筑物变化,且提供了真实变化标签图像。不同时期(T1、T2)遥感影像的规格均为32 507 ×15 354,生成的标签图像也是32 507×15 354。由于图幅较大,若将其作为样本数据直接送入网络进行训练,可能会因内存不足而无法完成训练任务。因此,对数据集进行了两项处理:1) 以规则滑动窗口将遥感图像切成256×256的小尺寸图像;2)将这些小尺寸遥感图像按9:1随机分为互不重叠的训练集和验证集。

2 改进型UNet模型构建

2.1 UNet模型原型

UNet模型原型由Ronneberger于2015年提出。它的网络结构由两部分组成(图1):全卷积部分和反卷积部分。全卷积部分用一个编码路径实现特征提取,即通过编码路径中的多个卷积和池化等操作,生成了从低维到高维不同尺寸的特征图;反卷积则用一个解码路径来精确定位,经解码路径中的多次反卷积上采样操作,最后输出与输入图像具有相同尺寸的结果图。

2.2 带深度可卷积分离的残差结构

深度可分离卷积先对输入图像进行逐层卷积,再进行逐点卷积。即采用逐层卷积把H×W×C×N的空间特征图像分为C组,然后对每组做逐点卷积,以获得C个通道的空间特征,再进行1×1卷积得到每个点的特征组成。

随着网络深度的逐步扩大,网络会出现收敛困难或不收敛的现象。因此,借鉴He团队[11]提出的残差结构思想,构建的残差结构如图2所示。此方法可在不增加模型参数的同时扩大数据的表征范围,使输入网络结构中的特征更丰富,从而提高网络性能。

2.3 坐标注意力机制

为防止因2D全局池化引起方位信息损失,先用两个1D全局池化操作将沿垂直与水平方向的输入特征分别聚合为两种相互独立的空间方位感知特征图,再将其分别编码为两种注意力地图,空间方位信息也因此可以被存储于其所生成的注意力地图中,然后使用乘法将两种注意力地图都应用于輸入特征图中并进一步强调注意区域表示(图3)。图3中的W、H、C 分别是特征图像的宽、高和波段数。

坐标注意力编码波段间关系和远程精确位置信息依赖分两步执行[12]:

2.4 特征金字塔

本文采用图4所示特征金字塔结构(FPN),它由自下而上路径、自上而下路径和横连构成。此结构可使每一层不同尺度的特征图都具有较强的语义信息,能在增加较少计算量的前提下融合低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图。

2.5 改进型UNet 模型

改进型UNet呈对称结构,是一个端到端的模型,在网络中最大卷积层为35,共实现4次下采样、4次上采样操作,但无全连接层,如图5所示。编码部分由4 层带有深度可分离卷积块的残差结构和1层普通3×3 卷积构成。为了降低梯度小时现象,把ReLu作为模型的激活函数。每进行一次卷积计算,都会带有BN 层,使得所有batch在编码的每一级特征中都有归一化分析操作,使每一次分布都比较稳定,从而提高建模的鲁棒性,加快收敛。在第2、3次下采样中,经过残差结构的卷积后,在其阶跃连接部分引入坐标注意力机制,使其更好地提取深层信息。解码层由从底向上的反卷积层组成,在解码前先增加一个丢失层,把该层的概率参数设置为0.5,随机地让一半隐藏节点权重被识别,这可以在一定程度上增强系统的泛化性能并抑制过拟合。在每次反卷积后,进行两次3×3卷积运算以减少混淆效应,同时添加分支路径。由于在解码阶段中每一个特征都是支路,会输出4个预测,再由上采样统一最后输出大小,之后做通道汇合。此策略提取了各个尺度的信息,这些信息在建模训练和反向传播过程中都发挥着关键作用,还有助于建模的稳健性大幅提升。最后获取特征图并传送到模型末端Sig?moid分类器。此模型通过Adma优化器实现模型优化,在后向传播过程中,所用的能量损失函数为交叉熵损失函数。

3 实验结果与分析

3.1 实验条件

改进型UNet模型运行的软硬件环境:处理器为英特尔Xecon(R) CPU E5-1620 v3 @3.50GHz,内存为32GB,显卡为NVIDIA GeForce GTX1080Ti;深度学习框架为Pytorch,编程语言为Python3.6,开发环境为Pycharm。

3.2 模型训练

训练时的输入影像维数为3×256×256,训练流程如图5所示。模型训练样本来自规格相同的T1和T2期影像数据,并对标签图像进行了one-hot处理。从模型训练的准确率与损失值随迭代增加变化曲线(图6)中可发现,在经過一百轮训练后,模型都达到了准确度较高的稳定状态,可在训练完成后,对测试数据做出预测。

3.3 评估指标

采用5种不同模型对建筑物开展两组变化检测试验,并选择准确率、召回值、F1值和运行时间为主要评价指标。F1值的计算公式为:

式中,P为准确率;R为召回率。

3.4 实验结果

为了对模型效能进行定性和定量的评价,选取了两个实验区(A、B)进行实验。两组实验的输入影像规格均为1024×1024×3。实验初始学习率为0.0001,每批次训练的样本数为16个,其他参数为默认值。

a.T1时期影像;b.T2时期影像;c.真实变化情况;d.UNet的结果;e.DSG UNet的结果;f.CA UNet的结果;g.FPN CA UNet的结果;h.改进UNet的结果

5种模型的变化检测结果见图7和图8,其中白色为建筑变化区。由图可知,UNet虽然能够分析邻域元素间的交叉关系,但变化检测效果并不好,有丢失特征的情况,说明其在建筑特征提取方面仍存在不足;而DSG UNet模型因为采用了残差结构,尽管仍存在损失特征的情况,但分割效率却明显提高;而CA UNet 模型则因为采用了坐标注意力机制,使得模型预测时的定位精度提高;FPN的CA UNet模型因为引进了坐标注意力机制并在解码中形成了一个金字塔系统,使模型预测点数提高的同时检测图边缘效果更佳;而改进型UNet模型因同时拥有残差结构、坐标注意力机制和FPN的多尺度预测能力,检测效果更优。其特征提取效率和对微小变化的检测能力都更好,能克服噪声的影响,也对“伪改变”具有更好的识别能力。

模型运行效能的评价指标值见表1。由表1 可知,改进型UNet的召回率和F1指标值最优,准确度和测试时间也表现较好。分析认为,改进型UNet模型在编码部分引入的4层残差机制,在分割结果图的边缘明显改善;在阶跃连接部分,从最后两层引入的坐标注意力机制有助于召回率的明显提高;在解码部分,由于采用了FPN技术,分割结果图边缘的效果明显改善。改进型Unet模型的架构有利于特征提取,有更优的对小目标的检测能力。实验所得该模型的准确度、召回率以及F1值均达96%以上,且和其他语义分割模型相比,时效性也更好。

4 结束语

针对传统监督分类、面向对象分类以及经典UNet 模型效能方面的不足,文章试验了把深度学习和语义分割的理论运用到建筑物变化检测中。改进型UNet 模型以UNet为基本框架,通过残差结构改善了图像特征提取,在阶跃连接中导入坐标注意力机制,有效减少了对非变化类图像特征的关注度,增强了模型对不同建筑物图像特征的敏感度,在解码过程加入了FPN,将浅层细节知识与深层语义知识集成,增强了对建筑物特征提取能力和对细小物体的检测能力。从实验结果来看,用改进型UNet模型从高分遥感影像提取建筑物变化信息具有很高精度,可作为建筑物变化检测的方法,具有推广价值。由于受标签数据集的限制,此模型还未用其他遥感数据进行检验,下一步将开展针对GF-2、GF-6等卫星获取的高分辨率多光谱遥感数据的测试。