APP下载

融合类别语义特征的卷积神经网络建筑物提取

2021-12-17张涛丁乐乐史芙蓉

遥感信息 2021年5期
关键词:语义卷积神经网络

张涛,丁乐乐,史芙蓉

(1.天津市勘察设计院集团有限公司,天津 300191;2.武汉大学 测绘遥感信息工程国家重点实验室,武汉 430079)

0 引言

建筑是城市最主要的基础地理要素之一,准确的建筑信息对城市动态监测、城市密度估计与城市环境评价等方面具有重要意义[1-2]。当前,从高分辨率影像上提取建筑信息吸引了众多学者的关注,成为测绘遥感领域的热点研究问题[3]。

建筑提取方法主要可以分为两大类:基于人工设计特征的方法和基于卷积神经网络的深度学习方法。传统人工设计特征方法主要根据专家先验知识,综合考虑建筑的光谱、纹理、形状和空间关系等方面信息[4],构建建筑知识规则,实现建筑的提取。该方法主要依赖人工设计特征的精巧程度。实际上,由于建筑自身和周围环境的复杂性,人工设计特征在描述建筑属性时,依然存在巨大挑战。

近些年来,以卷积神经网络模型(convolutional neural network,CNN)为代表的深度学习方法在图像处理领域取得了巨大的成功[5-6]。深度学习拥有强大的特征学习和表达能力,能够从标记数据中自动学习中高层的抽象特征[7]。建筑提取可以看成是一个二类的语义分割任务,即在影像上对建筑与非建筑区域进行像素级的区分。目前,典型的语义分割模型有全卷积神经网络(fully convolutional network,FCN)[8]、SegNet[9]、U-Net[10]、Deeplab系列[11]等。其中,SegNet网络模型引领了目前在语义分割任务中广泛采用的编码-解码结构,成为很多算法改进的基本模型[12]。该模型结构简单清晰,通过编码层提取影像特征,再经过解码还原图像的尺寸和细节信息。此外,SegNet在解码过程中使用了池化位置信息,训练参数体量较小,训练速度较快。一些研究已经将SegNet等CNN模型应用于建筑提取任务。例如:陈凯强等[13]基于编解码结构的CNN,学习多级并具有区分度的特征,实现航空影像中建筑物的提取;Boonpook等[14]采用标准的SegNet模型,从无人机影像上提取了沿河边的居民区建筑。

虽然深度学习模型不依赖于人工设计特征,但是良好的特征,尤其是具有高层语义信息的特征依然能够有助于问题的解决。当前建筑提取的深度学习方法多采用标准的三通道彩色影像(RGB)输入,在数据层对建筑语义信息利用不足。因此,有必要从影像中提取合适的建筑语义特征,作为初始RGB影像的补充通道,进一步增强建筑信息表征,提升建筑提取精度。形态学建筑指数(morphological building index,MBI)是一种有效的建筑表征指数[15],已经成功应用于变化检测和灾害评估等领域[16]。它通过一系列数学形态学基本运算(如重构、顶帽变换)来描述建筑的基本信息(如尺寸、方向、对比度等)。MBI指数是一种具有高层语义信息的特征,它能够较好地突出建筑形态特点,直接表征建筑覆盖信息,能够增强建筑与背景的可分性,有助于深度学习模型的训练和预测。

综上,本文提出一种融合类别语义特征的卷积神经网络建筑物提取方法。首先,采用SegNet作为基本网络模型,同时提取形态学建筑指数MBI作为建筑语义特征,在数据层进一步增强建筑特征,提升类别可分性;然后,联合原始光谱信息一起输入到卷积神经网络中进行模型训练和预测。融合标准RGB影像和建筑语义特征的语义分割模型有望进一步提升建筑提取效果。

1 建筑提取方法

图1展示了本文的方法框架。首先,对原始影像提取高层次的建筑语义特征,在初始数据层增强建筑类别的特征表达能力;然后,将建筑语义特征作为补充通道,叠加原始RGB波段共同输入到SegNet网络中进行模型训练并进行建筑信息的提取。

图1 本文方法框架与卷积神经网络结构图

1.1 建筑语义特征

卷积神经网络的输入通常是标准的RGB影像,本文希望在数据层进一步增强建筑类别的表征能力,预先提取高层次的建筑语义特征作为原始RGB影像的补充通道。具体地,本文采用形态学建筑指数MBI来增强建筑语义信息。MBI是一种有效的建筑特征提取指数,能够较好地突出高分辨率影像上的建筑信息。它的思想旨在建立建筑的内在属性(如亮度、对比度、方向和尺寸等)与基本的形态学操作(如白顶帽变换、形态学差分)之间的关联。MBI的构建主要包含以下几个步骤。

1)亮度影像计算。计算输入的多波段的亮度影像作为后续处理的基影像。由于建筑的材质在可见光波段范围内一般表现为较高的反射率,因此亮度影像定义为每个像素在可见光波段的最大值。

2)白顶帽变换。对亮度影像做重构开运算,重构开运算能够更好地保持边缘信息。然后,从亮度影像中减去其开运算后的图像,该操作称为形态学白顶帽变换。白顶帽变换的效果是凸显影像中的亮结构目标。

3)形态学建筑指数。采用多尺度和多方向的线性结构元素对亮度影像进行白顶帽变换,并生成差分形态学特征(DMP-WTH)表征不同尺度和方向上的建筑分布。考虑到建筑相对于狭长的道路显得更加各向同性,因此对差分形态学谱进行均值聚合凸显建筑的存在,得到形态学建筑指数MBI。

图2展示了几个典型的RGB影像及其对应的建筑语义特征。可以看到建筑语义特征图上,建筑类别表现为高亮区域,尤其是具有较高对比度的建筑,而背景信息(如树木、草地、裸地和道路等)响应较弱。建筑语义指数进一步增强了建筑特征,同时也抑制了背景区域,这为后续的建筑识别提供了辅助信息。

图2 局部影像及其建筑语义特征示意图

1.2 卷积神经网络模型

建筑的像素级提取在计算机视觉领域可以看成是一个语义分割任务。FCN使用卷积层替换原CNN中的全连接层,可以接受任意尺寸的输入图像,并通过图像上采样的方式,保证了输出影像和输入影像大小一致,从而实现了基于端到端(end-to-end)的CNN图像语义分割任务。

此后,基于FCN的语义分割方法蓬勃发展,SegNet网络模型是其中一个经典的变体,成为很多改进算法的基础模型。SegNet模型结构简单清晰,是一种基于编码-解码的全卷积神经网络。它通过先编码提取影像特征,再解码还原图像的位置和细节信息,从而完成图像的分割任务。如图1所示,该网络的前五层为编码层,通过卷积和池化完成图像的下采样操作。网络的后五层为解码层,通过反池化和卷积操作完成图像的上采样操作。SegNet的特色在于其编码器结构与解码器结构一一对应,在池化过程中,记录相应的最大池化索引值位置,然后在解码时通过对应的池化索引实现非线性上采样。因此,SegNet在上采样阶段无需学习新参数,减少了训练参数的体量,节省了内存空间,提升了模型训练的效率。基于这些特点,SegNet模型非常适合作为本文研究的基础网络。

1.3 精度评价

针对二分类语义分割问题,本文采用准确率P(precision)、召回率R(recall)和F分数(F-score)这三个常用的指标来衡量建筑提取的精度[17]。其中,准确率表示建筑提取的正确性,反映建筑提取的错分误差;召回率表示建筑提取的完备性,反映建筑提取的漏检误差。通常情况下,准确率和召回率这两种指标是此消彼长的,而F分数是同时考虑建筑提取正确性与完备性的综合指标。

2 实验与分析

2.1 实验数据与实验设置

本文采用的实验数据是武汉大学季顺平团队生产的建筑数据集(WHU building)[18],该数据集是国际上用于建筑提取的一套标准数据集(http://study.rsgis.whu.edu.cn/pages/download/)。WHU building数据集为航空影像,空间分辨率为0.3 m,包含RGB三个可见光波段,覆盖范围超过400 km2,共含有18万栋不同大小、不同色彩和不同功能的建筑(图3)。为了便于深度学习方法的处理,WHU building数据集被裁剪成了512像素×512像素的瓦片,其中包含4 736个训练样本块、1 036个验证样本块和2 416个测试样本块,分别对应图3中的蓝色、黄色和红色边框区域。

图3 本文实验数据集

本文采用动量梯度随机下降法(stochastic gradient descent with momentum,SGDM)进行卷积神经网络模型的训练,并对主要的训练参数进行了调试优化,将动量参数(momentum)设为0.9,batch size大小设为2,学习率设为0.001,训练轮数(epoch)设为80。训练过程中,每一轮迭代完成后做一次精度验证。图4展示了两种方法的网络中间训练过程,训练精度与验证精度都趋于平稳,这表明本文的训练参数选择是合理的。形态学建筑指数在计算过程中,考虑建筑的实际尺寸,将线性结构元素尺寸的最小、最大值分别设为5 m和60 m,方向包含0°、45°、90°和135° 四个方向。

图4 卷积神经网络训练过程

2.2 建筑提取结果与分析

1)建筑提取整体精度。表1展示了建筑提取的总体精度。具体来说,对于标准RGB影像输入的SegNet网络模型,建筑提取结果的准确率、召回率和F分数分别为83.02%、94.13%和87.57%。加入建筑语义特征一起训练模型后,准确率、召回率和F分数分别为85.06%、93.16%和88.41%。可以看到,提取结果的召回率比正确率要高,这说明在该数据集中,建筑提取结果的误差主要是错分误差,而遗漏误差相对较小。此外,建筑语义特征的加入对准确率有较高提升,而召回率有所下降。一般而言,正确率和召回率两个指标是此消彼长的,提升其中一个精度往往有损于另一个指标。但是对于综合指标F分数,本文融合建筑语义特征的方法还是从整体上提升了建筑提取的精度。

表1 建筑提取总体精度

2)精度变化分布。本文进一步对所有的测试样本统计了在引入建筑语义特征后的精度变化分布。表2展示了本文方法在各个精度提升区间的影像块比例。

表2 本文方法相对传统方法的精度变化分布 %

整体上,正确率P和F分数呈右侧分布,召回率R呈左侧分布,这与之前的总体精度评价是一致的。具体地,对于正确率,本文方法在49.9%的测试图像中将精度提升了0.02以上。对于召回率,本文方法在40.2%的测试图像中精度下降了0.01以内,但有16.4%的测试图片,召回率提升了0.01以内。最后,本文方法在32.0%的测试图像中将F分数提升了0.01以内,其次也有25.0%的测试图像的F分数提升了0.01至0.02。综上,由于测试图像中地物覆盖的多变与差异,本文方法的效果也不尽相同。整体上,本文方法更加有利于正确率P和综合指标F分数的提升。

3)分类可靠性比较。卷积神经网络不仅能预测类别标签,同时也能输出每个像素属于每个类别的概率信息。对于二类分割任务,分类概率可以直接衡量分类可靠性。分类概率值越大,则该像素的分类可靠性越高。本小节比较本文方法与传统方法的分割结果中高可靠性分类结果的比例。对于某一个测试样本块,本文设置分类概率大于0.9为高可靠性分类结果。

图5展示了所有测试图像块的高可靠性像素所占比例的箱形分布图。整体上,本文方法提升了分类结果中高可靠性像素的比例。具体地,高可靠性像素比例分布的中值由94.8%(标准RGB输入)提升到95.7%(本文方法)。

图5 所有测试图像块的高可靠性像素比例分布

4)目视结果对比与误差源分析。图6展示了几个典型的建筑提取结果及其精度图,这些区域的建筑具有不同的光谱、形状和密度分布。从图6(a)和图6(b)可以看到,建筑语义特征较好地凸显了建筑特征并同时抑制了背景信息,这有助于更准确的建筑提取。图6(c)中,标准RGB影像输入的SegNet网络在一些裸地广场、高大树木的区域会产生一些虚警,而建筑语义指数在这些区域都是弱响应,并且响应的空间形态与建筑也有较大区别。这表明,在这些区域,建筑语义特征能够提供与原始光谱互补的信息。图6(d)中,融入建筑语义特征的SegNet网络消除了这些虚警,提升了建筑提取的整体精度。

注:TP为正确提取的建筑;FP为错误提取的建筑;FN为遗漏的建筑。

本小节继续分析了本文算法在一些复杂场景下的表现,探究建筑提取中的主要误差来源。在图7(a)和图7(b)中,建筑提取结果主要表现为错分误差,成片的施工裸地以及建筑周围邻接的道路与建筑的光谱特征非常类似,容易与建筑混淆,成为建筑提取的主要误差源。图7(c)中,建筑提取误差主要表现为漏检误差。建筑由于其高度不同,在屋顶上产生了阴影,这些阴影区域容易被误认为是背景,影响建筑提取的完整性。综上,本文算法的建筑提取结果在一些复杂场景下也存在一定的错分和漏检误差,但整体上的表现是合理的,对于影像中常见的主要道路、裸地、植被等区域,本文算法都能将其与建筑较好地区分开来。

注:TP为正确提取的建筑;FP为错误提取的建筑;FN为遗漏的建筑。

3 结束语

建筑信息提取是测绘和计算机视觉领域的研究热点和难点,对城市规划与管理具有重要作用。传统的卷积神经网路建筑提取方法对建筑的语义信息利用不足,本文提出了一种融合类别语义特征的卷积神经网络建筑物提取方法。该方法首先提取影像的高层次建筑语义特征,预先突出建筑覆盖信息,并作为原始影像的补充通道一起输入到卷积神经网络模型中训练进行建筑提取。实验表明,相对于原始的RGB影像输入,建筑语义特征的加入能够在数据层增强建筑特征表达能力,整体上提升建筑提取的精度。后续工作中,可以考虑融合其他有效的类别语义特征(如植被指数),进一步区分建筑与背景区域,从而有助于更准确的建筑提取。

猜你喜欢

语义卷积神经网络
基于3D-Winograd的快速卷积算法设计及FPGA实现
语言与语义
神经网络抑制无线通信干扰探究
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
“上”与“下”语义的不对称性及其认知阐释
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定
认知范畴模糊与语义模糊