APP下载

基于多尺度特征和注意力机制的航空图像分割

2020-07-15胡诗雨雷印杰陈炳才

控制理论与应用 2020年6期
关键词:尺度注意力卷积

宁 芊,胡诗雨,雷印杰†,陈炳才

(1.四川大学电子信息学院,四川成都 610065;2.新疆师范大学物理与电子工程学院,新疆乌鲁木齐 830054;3.大连理工大学计算机科学与技术学院,辽宁大连 116024;4.新疆师范大学计算机科学技术学院,新疆乌鲁木齐 830054)

1 引言

航空图像分割对高精度地图的绘制和地区规划有很重要的作用.航空图像的建筑与非建筑标注能实现土地覆盖和变化检测的绘图,在林业和城市规划等领域得到应用.例如大规模分析区域建筑分布特征和更新建筑覆盖地图.通过对航空图像的建筑与非建筑的自动标记,实现航空图像的分割.航空图像的数据较为复杂,航空图像的建筑与非建筑标注存在以下挑战:

1) 遮挡.建筑存在被树木小面积或大面积遮挡的情况;

2) 类别分布不均匀.建筑类别分布不均匀,有些分布密集,有些稀疏,甚至图像中并无建筑;

3) 建筑形状大小不定.在航空图像中,若建筑面积很小,导致分割困难;

4) 阴影.阴影的存在导致建筑外观发生变化,降低分割准确性;

5) 背景复杂.分割背景可能存在与建筑相似度很高的物体.

这些挑战共同导致了建筑检测和定位的分割困难,即使对于表现很好的模型,产生的分割结果也存在高度的不确定性[1].图像分割的准确性将直接影响后续任务的有效性,因此,使用更好的分割方法来提升实际分割效果,具有十分重要的意义.

近年来,神经网络在手写数字识别、语音识别、分类整个图像和检测图像中的对象方面取得了巨大的成功[2-3].卷积神经网络(convolution neural network,CNN)同样也能应用于图像分割,但由于其末端使用全连接层(full connected layers,FC),所以只能使用提取周围像素特征的方法来对中心像素进行分类,但基于CNN的语义分割方法存在像素区域的大小无法确定、计算量和存储量大、感受野(receptive field)大小受限制的问题,导致只能提取部分局部特征.

使用全卷积网络进行航空图像的分割能够实现像素分类的端到端(end-to-end)训练,从而得到更好的分割效果.由于语义分割中的类别标签需要和原图像对齐,因此随之提出了两种不同的构架来解决像素位置的问题.第1种是编码-解码(encoder-decoder)结构,编码过程中通过连续的池化层和下采样减少位置信息、减少图像分辨率,提取特征;解码过程使用上采样逐渐恢复其位置信息.第2种是空洞卷积(atrous convolutions)[4],该结构在不使用池化层的情况下,使用空洞卷积来增加感受野获取更多的信息.

多尺度特征在很多模型中得到了广泛应用,使用了多尺度特征之后,模型的语义分割能力有明显的提高[5-10].对于不同尺度的图像,神经网络模型提取的特征图也不全相同,将多个尺度的特征进行融合能更全面获取图像的特征信息,实现更准确的分割.最近,注意力模型在自然语言处理(natural language processing,NLP)和计算机视觉(computer vision,CV)任务中取得了巨大的成功[11-14].与将整个图像或序列压缩成静态表示不同,注意力模型允许模型根据需要聚焦最相关的特性.利用注意力模型的这一特性,能对图像进行有效的监督,提升模型的分割能力.

为了提高模型的语义分割性能,这里使用一种结合多尺度特征和注意力模型(attention model)的方法来进行分割,提升图像的分割边界效果.实验将语义分割模型,与多尺度特征输入和注意力模型共同训练.首先,将处理为多尺度的图片输入全卷积神经网络,分别得到不同尺度下神经网络提取的特征图;其次,将特征图融合到一起同时送入注意力模型得到特征图各个像素点的权重分布;最后将权重分布与融合的特征图进行点乘,得到最后的网络输出特征图.数据集采用结果表明,使用注意力模型和多尺度特征能有效提高模型的分割精度.实验结果表明,该方法能有效提升模型的分割能力和分割效果.

2 相关方法

在2014年,伯克利提出全卷积神经网络(full convolutional networks,FCNs)[8],将图像分类拓展到了像素级的分类.该网络在图像分类网络构架的基础上将末端的全连接层改为1×1的卷积层,并使用反卷积来将特征图恢复到与输入图像相同分辨率的大小.网络在层之间添加跳转链接来将下采样和上采样的特征进行融合,以优化输出的语义信息并提高空间精度.将网络全连接层转换1×1的卷积层.由于网络中使用了5个步长(stride)为2的最大池化操作,所以原始网络的spatial decimation factor为32,此时网络为FCN-32s,然后将输出的特征图作为反卷积层的输入,通过两次插值上采样得到系数为8的密集输出,并在下采样和上采样之间使用跳转连接进行对应层之间的融合,得到更加密集的特征,此时网络为FCN-8s.最后为了与手工标记图像进行比较,将每个像素点分类的概率图(score map)进行双线性插值得到原始图像分辨率.

在此基础上,提出的编码解码结构网络SegNet[15]和U-Net[16]能很好的捕获上下文信息,提升分割效果.U-Net主要由两部分组成:收缩路径(contracting path)来获取上下文信息;一个对称的扩张路径(expanding path)来精确定位.在收缩路径中采用典型的卷积网络结构,构架采用几个重复的模块(block)结构,每个模块中都有两个卷积层和一个池化(pooling)层,卷积层中卷积核的大小均为3×3,激活函数均使用ReLU,两个卷积层后为一个步长为2的2×2的最大池化层,每次下采样后将特征通道的数量加倍.在扩张路径中同样采用几个重复的模块结构,首先使用反卷积将特征图的大小加倍并将特征通道数量减半,之后将反卷积结果与收缩路径中对应步骤的特征图融合,融合后的特征图再通过两次大小为3×3的卷积.网络的最后一层是卷积核大小为1×1的卷积层,目的是将特征图通道数转化为指定深度.

多尺度特征在计算机视觉任务应用能够提升效果[17-18].Farabet人使用Laplacian金字塔结构通过共享网络(share-net)对每个尺度的图像进行训练,并融合所有尺度的特征[5];Pinheiro等人将多尺度图像应用于循环卷积神经网络,作为不同阶段的输入[6];Eigen和Fergus将3个不同尺度的图像依次输入基于深度卷积神经网络(deep convolutional neural networks,DCNNs),输入的尺度不同对应的DCNNs结构也不同,该模型需要分两步进行训练[19].

在计算机视觉中,注意力模型被广泛应用于图像分类[20-22]和目标检测[23-25].Mnih等人研究了一种能自适应选择图像区域进行处理的注意力模型,但该模型不可微,所以无法实现端到端训练[13].由于将多尺度特征应用于全卷积神经网络(FCNs)中能有效提升语义分割的效果,2016年,Chen等人提出一种注意力机制,可以学习对每个像素位置的多尺度特征进行轻微加权,并且允许在不同位置和尺度上诊断可视化特征的重要性[26].

在航空图像分割方面,Yuan等人利用7种算法对航空图像进行分割[29];Permuter等人使用混合高斯模型实现了对航空图像较好的分割[30];Marmanis 等利用FCN实现了航空图像多类分割,且取得较好的效果[31].

在这里,本文提出使用全卷积神经网络结合多尺度特征和注意力机制来实现航空图像的建筑与非建筑分割.使用两个不同深度的全卷积神经网络共同作为分割模型的基本网络并进行对比:深度神经网络U-Net与基于VGG-16网络的FCN-8s,并将模型与注意力机制结合,得到新的分割模型.本文利用不同尺度的航空图像作为神经网络的输入,以提供输入目标的不同表现;注意力模型能得到每个尺度上每个像素点的最佳权重,突出网络在各个尺度图像中提取的不同特征.以这样的方式完善输出结果,提升分割效果.

3 基于多尺度和注意力机制的航空图像分割

本文将多尺度和注意力机制应用于航空图像分割,以此来提升分割效果.流程图如图1所示.

4 基于多尺度特征和注意力机制的全卷积神经网络

由于航空数据集中分割目标(建筑类)的大小和分布密集度差异较大,在同一图像中同时获取不同大小目标的物体特征较为困难.图像的不同尺度能提供同一图像的更多特征;根据在不同尺度图片中,注意力机制对不同物体的注意力不同,便于获取更多图像特征[26]:对尺度大的图片能获取小目标特征;对尺度中等的图片,获取中等目标特征的表现力更好;对尺度小的图片,获取大面积目标的能力更好.由于采用的航空数据集,图像中建筑目标包含了小、中、大3个不同的大小,所以这里使用3个不同尺度的图片进行训练,能很好地提供图像中这3个不同大小的建筑特征.

图1 图像分割流程图Fig.1 Split flow chart

常用的一种提取多尺度特征方法是将多个已调整大小的图像作为共享权值的深层网络的输入,然后合并网络输出的特征图来进行像素分类.如图2所示,本文将输入的图像改变大小(resize)为3个尺度,并分别通过同一全卷积神经网络进行训练,得到不同尺度下对每个像素点分类的概率图(在Soft-Max之前最后一层的输出),再将不同尺度的概率图进行融合,最后将融合的特征送入软注意力模型(soft attention model)产生权重图(weight map),权重图反应了在全卷积神经网络生成的权重图在不同尺度和不同位置下的特征的重要性.将权重图与融合的特征图进行点乘,得到最终的特征图.这里使用的注意力模型允许人们在不同位置和尺度上判断特征的重要性,从而达到更好的分割效果.

4.1 注意力机制

注意力机制(attention mechanism)起源于对人类视觉的研究,当注意某个目标或场景时,空间不同部分分配的注意力不同.同样,当描述一件事情时,语句和描述的事情的部分片段最相关,随着描述的变化,相关性也在不断地改变.注意力的方法分为软(soft attention)和硬(hard attention),这两种方法的输出向量分别为软分布(soft)与独热分布(one-hot),方法的选择将直接影响对上下文信息的选择效果.注意力模型能根据需要聚焦最相关特征的特性,从而提高网络输出质量.与在二维空间和时间度中使用注意力模型不同[27-28],这里将注意力模型和多尺度特征共同应用于语义分割,以提高模型的分割能力.

图2 模型说明Fig.2 Introduction of model

4.2 多尺度的注意力机制

这里使用的注意力模型是基于多尺度特征的,利用注意力模型来为每个尺度和位置计算一个软权重(soft weight),并且该模型允许损失函数的梯度反向传播.因此,该模型和FCNs实现端对端训练,使模型能自适应找到尺度上的最佳权重.如图3所示,在全卷积网络中,假设一个输入图片被处理为多个尺度s∈{1,…,S},每个尺度通过全卷积神经网络(权重在所有尺度上共享)并产生所有尺度s 的概率图为所有空间位置的范围,c∈{1,…,C}表示类的数量.然后使用双线性插值将特征图改变为相同分辨率,这里令所有尺度在(i,c)上的每个像素点分类的概率图的权重和为gi,c,则

图3 注意力模型实现过程Fig.3 Attention model implementation process

5 实验结果和分析

语义分割网络最终输出为一个为512×512二值化图像,其表示哪些像素为建筑或非建筑,所以分割的目的是将每个像素点分类为建筑(前景)或非建筑(后景).在该实验中,本文将每个经过切割的航空图像经过分割模型得到的输出,与正确标注进行比较.因此,越多像素点被分类正确,则模型的准确度越高.

实验通过在像素级(pixel-level)上进行标注来训练神经网络学习参数,将所有尺度的概率图进行融合再通过一个Soft-Max得到最后输出,并且使用随机优化方法Adam,进行回传来得到损失函数的最小值.

5.1 网络结构

这里采用了两种语义分割网络作为分割模型:FCN-8s和U-Net.这两个网络模型已经证明在语义分割方面取得了很好的效果.对于FCN-8s,网络参数初始化使用预训练的VGG-16[2]网络参数;对于U-Net网络参数采用高斯初始化的方式来初始化参数.

5.2 数据集

数据集采用了Inria航空图像标记数据集(aerial image labeling dataset),该数据集图像涵盖了多个城市区域,从人口密集地区到高山城镇,覆盖面积广,空间分辨率高.如图4所示,图像的正确标注(ground truth,GT)为建筑类和非建筑类两个语义类别的单通道图像,其中建筑类像素值为255,非建筑类值为0.训练集包括Austin,Chicago,Kitsap county,Western Tyrol,Vienna5个地区,每个地区包含36个高分辨率航拍图像,并从1-36进行编号.根据Inria航空图像标记数据集的说明,这里将数据集中每个城市的前5个图像作为验证集,其余作为训练集(每个城市的6-36号作为训练数据集,1-5号作为对应验证集).

图4 数据集Fig.4 Datasets

由于数据集为大尺寸高分辨率(5000×5000)航空图像,需要将其进行切割处理为多个小分辨率的图片,这里将航空图像统一切割处理为512×512大小的图片.在使用注意力模型进行训练时,将图像进行处理,增加两个尺度:256×256,1024×1024,最终同时输入3个尺度的图像进行训练.

5.3 评估方式

由于数据集中像素的高度不平衡,使用交并比(Intersection over Union,IoU)和Dice系数来对网络表现进行评估更为可靠.所以这里使用Dice系数和IoU对网络效果进行评估.

5.3.1 Dice系数

Dic系数是一种集合相似度度量函数,常用于计算两个样本的相似度,范围为0到1.其表达式为

将网络输出和真实标记值的建筑类看作X和Y 两个集合,由式(3)求得两类的交集和并集即求出相似度.

5.3.2 交并比(IoU)

IoU是物体检测中的一个概念,用于测量真实和预测之间的相关度,相关度越高则值越高.表示产生的预测图像与原标记的边界框(bounding box)的交叠率,即两框的交集与并集的比值.若两框完全重叠,此时为理想情况,比值为1.表达式为

在语义分割中,用像素区域来代替标记边界框,以此来计算图像分割的交并比,平均交并比为

其中:ncl为类的个数,nij表示将i类预测为j类的像素个数,表示i类像素点总数.这里使用建筑

类的IoU作为评价指标,即在预测和参考中标记为建筑的像素点数量,除以在预测或参考中被标记的像素点数量.

5.4 网络训练

实验的语义分割网络采用U-Net和FCN-8s两种基本结构,并与结合多尺度和注意力模型的分割模型进行对比,观察添加注意力模型后的分割效果以及模型的收敛速度.网络训练的优化器采用Adam,初始学习率为0.001,学习率衰减设置为0.0005,相当于学习率在2000次迭代后乘0.1.由于硬件限制,在训练未加注意力模型时,mini-batch size设置为5;在训练加入注意力模型的网络结构时,mini-batch size设置为2.

5.5 结果分析

通过绘制训练的损失(loss)曲线观察注意力机制对整个网络训练的影响.如图5,在训练迭代1次结束,结合多尺度特征的网络模型的训练损失迅速减小到1以下,并随着训练次数的增加训练损失缓慢减小并趋于平稳;而对于未使用注意力机制的网络模型,第1次训练损失超过4.5,在过后几个训练epoch后损失迅速下降,随后缓慢下降趋于平稳.加入注意力机制的网络模型,由于不同尺度的权重ωsi对该尺度的关注点不同,所以网络能提取到更多特征,网络参数调整更快,模型训练损失下降更快.

表1显示了不同网络结构对航空图像进行建筑标注分割的表现.其中:“FCN-8s&Attention”表示结合多尺度特征和注意力机制的FCN-8s; “U-net&Attention”表示结合多尺度特征和注意力机制的U-net.通过对比未结合注意力机制的网络模型,深度神经网络U-Net的IoU和Dice系数均比FCN-8s 高(IoU高0.11,Dice系数高0.9),因为更深层的网络能提取更高等级的特征,所以更深层的网络在语义分割上有更好的表现.通过对比FCN-8s和U-Net及其结合了多尺度特征和注意力机制的网络模型,发现结合了多尺度特征的网络模型,IoU和Dice系数均得到提升,同样更深层的神经网络U-Net分割效果更好(IoU为0.784,Dice系数为0.879).结果证明结合多尺度特征和注意力机制的语义分割模型分割表现有所提高.

图5 训练损失曲线图Fig.5 Curve of train

表1 实验结果Table 1 Result of experience

总的来说,结合了注意力机制的语义分割模型,通过计算图像的每个尺度中每个位置的软权重来注意图像中的不同目标,获取图像更多的特征信息,达到提升分割结果的目的.

实验分割结果如图6,图片均为512×512的二值化图片.上4行为以FCN-8s为基本网络的分割结果,下4行为以U-Net为网络骨架的分割结果:从左往右依次为航空图像、基本网络分割结果、结合注意力机制的模型结果、标注图片.结果图中红圈标注部分表示对结果改进最为明显的部分.

仔细分析分割结果图.图6中第1行和第4行分别为以FCN-8s和U-Net为基本网络对同一图片的分割结果,结合了注意力机制的网络模型建筑分割更加清晰;与原图和标记图对比发现,对于左下角将道路分割为建筑的错误,使用注意力机制的模型明显减少了分割错误.对于第2行和第4行分割结果的红圈部分,分割整体效果有明显改善,建筑分割边界更加清晰.从第3行和第6行的红圈标注中能明显看出,结合注意力机制的分割模型能更好地分割建筑的边界细节,并且能更加明显地展示出大建筑边缘更小的突出部分.对于倒数第2行的小建筑分割,结合注意力机制的网络模型同样也展示出了很好的分割能力,分割的小建筑更加清晰,并且对于边界清晰度改善更为明显.最后1行展示了对于大建筑中,对非建筑细节的分割提升,未结合注意力机制的基本模型几乎不能分割出建筑中的非建筑部分,而结合注意力机制的模型能清晰的分割出该部分,有效展示了该模型对于建筑分割效果的提升.

图6 实验结果Fig.6 Experimental result

但是使用注意力机制后的网络模型,分割结果仍然有待提升.与原图进行对比,使用注意力机制的模型进行分割依旧存在与建筑颜色相似的像素点分类为建筑类的错误:在第4行中,两建筑间的道路部分有少量像素点标记为建筑类.同样也存在与建筑颜色相差较大的建筑分类为非建筑类的问题:最后一行,建筑中央颜色与建筑整体相差较大,这部分分割结果出现灰色阴影,展示出了模型对于这部分的不确定性.

总体来说,结合了多尺度特征和注意力机制的网络模型,对航空建筑分割效果有较大的提升.

6 结束语

本文结合多尺度特征和注意力机制实现航空图像分割.采用多尺度特征,并将注意力模型分别和基本网络FCN-8s与U-net结合,使模型自适应找到尺度上的最佳权重,减少人工干预,实现端到端的训练.采用两种全卷积神经网络结构进行训练,实验结果表明使用注意力模型能在不同尺度的不同位置产生一个软权重,以此添加额外的监督,获得更好的模型性能;结合多尺度特征来获取图片更多信息.因此,将结合多尺度特征和注意力机制的分割网络模型应用于航空图像标记,能有效提升分割效果.

猜你喜欢

尺度注意力卷积
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
财产的五大尺度和五重应对
如何培养一年级学生的注意力
卷积神经网络的分析与设计
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
A Beautiful Way Of Looking At Things
宇宙的尺度
9