APP下载

基于卷积神经网络的多尺度图像语义分割*

2023-05-12王钦玉段先华

计算机与数字工程 2023年1期
关键词:空洞编码器语义

王钦玉 段先华

(江苏科技大学计算机学院 镇江 212000)

1 引言

对于计算机视觉任务而言,场景理解的重要性在现实应用中逐渐突出,越来越多的应用场景需要从图像中推理出相关语义,包括图像编辑,自动驾驶[1]、图像搜索引擎[2]、无人机应用、虚拟现实等。语义分割是基于像素级别的、具有高精度的图像分割,对图像中的每个像素点进行密集预测,使每个像素点均被标注上对应物体或区域的类别。

在深度学习时代到来前,语义分割工作多是根据图像像素自身的低阶视觉信息来进行图像分割,如N-Cut,Grab cut 等。该类算法计算复杂度不高,但在较困难的分割任务上分割效果并不能令人满意。深度学习让相关领域都发生了翻天覆地的变化,包括语义分割在内,许多计算机视觉问题都开始使用深度学习架构解决,其效率和准确率都远远超过传统方法。

以全卷积神经网络(Fully Convolutional Net⁃works,FCN[3])为代表的一系列基于卷积神经网络训练的语义分割方法相继提出,不断刷新图像语义分割精度。出自Berkeley 实验室的全卷积神经网络FCN 是深度学习在图像语义分割任务上的突破性算法,它基于主流的深度卷积神经网络模型(CNN),直接进行像素级端到端的语义分割。但是它固有的空间不变性这一特点,没有考虑到图像的全局上下文信息,并且其效率在高分辨率场景下还远达不到实时应用的要求。为了克服这些缺点,Chen 等[4]在FCN 网络后引入了一个条件随机场作为后处理过程来调优结果;Yu 等[5]提出空洞卷积(dilated convolutions),将网络中会造成全局信息损失的池化层去掉,通过扩大感受野的方式保留空间信息。除FCN外,编码器-解码器(Encode-Decode)架构通过编码器提取特征并压缩特征图的尺寸,解码器逐步恢复特征图尺寸达到与输入图像相同的分辨率,获得上下文信息,如SegNet[6]、U-Net[7]、Re⁃fineNet[8]等。Deeplabv3+[10]通过引入空洞空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)[9]模块,捕获多尺度空间特征,同时加入简单高效的De⁃code模块,是目前最成熟的语义分割网络之一。它在提取局部特征和利用较小感受野进行预测方面效果较好,但其不能很好地分割精细地物和相似地物,也不能对事物轮廓作出很好识别。

为此,本文基于DeeplabV3+,提出一种改进算法,对多尺度特征融合展开研究,通过多尺度特征融合,将图像的低层特征信息与经过多次采样后的高层特征融合,从而减轻了信息损失,提高了分割准确度。

2 相关介绍

2.1 DeeplabV3+网络结构

DeeplabV3+是在DeeplabV3[11]的基础上,使用其编码器模块,并添加解码模块实现端到端的语义分割。它的网络结构如图1 所示。编码器结构采用深度卷积神经网络提取低层细节信息,通过空洞卷积来控制输出特征图的分辨率;接着将初始特征传递至ASPP 模块,由不同扩张率的空洞卷积获取到更丰富的语义信息;使用1×1 的卷积将输出通道调整为256。由于编码器输出的特征图尺寸为原图的十六分之一,直接16 倍上采样会损失信息,因此解码器先将输出特征图使用双线性插值法进行四倍上采样,然后与深度卷积神经网络中对应分辨率的特征图进行拼接,再进行四倍上采样使特征图与原始图像尺寸相同,从而逐步获得清晰的分割物体边界。

图1 DeepLabV3+网络结构

2.2 空洞空间金字塔池化

空洞空间金字塔池化(Atrous Spatial Pyramid Pooling)对给定的输入以不同采样率的空洞卷积进行采样,用于获取不同尺度的特征信息,增大感受野的同时,不会降低空间维度。它的结构如图2 所示。

图2 ASPP结构

空洞卷积就是在标准卷积中注入空洞,通过不同的空洞率获取不同的感受野,捕捉一些因普通池化导致的信息损失。感受野是卷积神经网络中每一层输出的特征图上每个像素点在原始图像上映射的区域大小,神经元感受野的值越大代表其能接触到的原始图像的范围就越大,进而得到语义层次更高更全局的特征。

经过卷积后的特征图尺寸M 的计算公式如式(1):

其中ksize为普通卷积核尺寸,W 为输入图像尺寸,S为卷积步长,P为补零层数。

空洞卷积核的实际大小计算公式为式(2):

感受野的大小计算公式为式(3):

其中ksize 为普通卷积核尺寸,rate 为卷积核扩张率。空洞卷积即在普通卷积的基础上,相邻权重之间的间隔为rate-1,其中普通卷积的rate 默认为1;不同扩张率的空洞卷积和对应感受野如图3所示。

图3 不同扩张率的空洞卷积

3 本文方法

本文算法在DeeplabV3+的基础上进行改进,提出了基于卷积神经网络的多尺度图像语义分割方法,具体的流程如图4 所示,网络包括编码器和解码器两个模块。首先编码器模块采用修改后的ResNet 网络,设置block4 卷积的空洞率,以弥补随着分辨率降低感受野的缩小。然后接入ASPP模块获取多尺度信息,并通过全局平均池化获得全局信息。其次,加入两个3×3 卷积网络对输入原分辨率图像进行特征提取以获得高层次语义特征,将其与之前解码模块获得的特征图融合。最后使用一个1×1卷积调整通道数,以便于分割。

图4 多尺度特征的语义分割算法

常见的多层融合方法分为Addition 融合和Concatenate 融合,在ResNet 中采用Add 融合方式,在通道数不变的情况下特征图相加;在ASPP 模块和解码器模块采用Concat融合方式,通过通道数合并的方法融合特征图。

3.1 编码器模块

在编码器模块使用修改的ResNet_101 网络[12]和空洞空间金字塔池化结构提取多尺度特征。传统卷积神经网络或全连接层在训练过程中,随着网络层次的加深,信息丢失过多,准确率下降。而ResNet 利用残差学习的思想,解决了这一损耗问题。ResNet_101 中使用由1×1,3×3,1×1 共三个卷积构成的“building block”作为一个残差模块,通过1×1 卷积改变维度从而减少参数数目,降低计算量,当特征图尺寸缩小一半,通道数将增加一倍。本文算法的编码器网络基于ResNet_101 进行了修改,去掉了其后面的全连接层,在block4 使用了空洞率为4 卷积,以保证在分辨率不降低的情况下扩大感受野,并在最后接入了ASPP模块。

为了更好地提取不同尺度的特征,本文算法的ASPP 模块选择了扩张率分别为6,12,18 的卷积核(其感受野分别是23×23、47×47、71×71);为了更好地获取图像全局信息,增加了全局平均池化(Glob⁃al Average Pooling,GAP)[13]来增加图像级特征。

3.2 解码器模块

标准的DeepLabv3+设计在原图的四分之一分辨率处与编码器生成的特征图拼接,代价就是最终模型的精确度降低。精细分割往往要求以数据集的原始分辨率进行操作,因此我们对解码器部分进行修改,在四倍上采样后,结合浅层特征图,通过融合图像高分辨率特征信息,获得拥有更多上下文细节信息的特征图。最后在经过一个1×1 卷积调整输出通道为待分割类别数,通过Softmax 函数分类得到最终分割结果。相比传统语义分割网络只在最后一个解码块的输出中使用Softmax 分类,本方法通过拼接浅层特征获取到其他解码块输出的细节和位置信息,使最终结果更精确,边界也更清晰。

4 实验研究

4.1 实验环境配置

本文实验所需要的设备环境为Ubutu16.04 系统,CPU 为Inter Core i9-6700,GPU 为NVIDIA Ge⁃Force GTX 2080,显存为12G 等,使用TensorFlow 深度学习框架来训练并测试本文的语义分割模型。在PASCAL VOC2012的训练过程中,编码网络的参数初始化使用在ImageNet[14]上预训练过的ResNet_101预训练参数,迭代步数设定为30000步,采用交叉熵作为损失函数,学习率设为0.001,动量参数为0.9,权重衰减为0.0005。

4.2 数据集

PASCAL VOC 2012[15]为图像分割提供了一套优秀的数据集,包括人、动物、交通工具、室内物体等20个对象类和1个背景类,不同类别的物体用不同颜色表示。其中训练图片、验证图片、测试图片的数量分别为1464 张、1449 张、1456 张,数据集每张图的尺寸大小不固定。在此基础上,额外采用标注生成的增强数据集[16],包括10582 张训练图片。本文在前述数据集的训练集上训练网络,在验证集上进行评价指标计算,利用测试集上比较语义分割结果。

4.3 评估标准与分析

实验结果的评价采用平均交并比(mean Inter⁃section over Union,mIoU)作为算法性能评价标准。在图像分割领域mIoU 是评价图像分割精度的重要指标,IoU 表示预测结果与真实值(Ground Truth,GT)的交并比,mIoU 即表示在每个类别上计算IoU后的平均值。计算公式为式(4):

其中k 表示标记的类别数,k+1 表示包含背景或空类在内的总类别数,pii表示预测正确的像素数量,pij表示实际属于i类被预测为j类的像素数量,pji表示实际属于j类被预测为i类的像素数量。mIoU的值越大,说明预测的效果更准确。

本文将提出的算法和其他现有的一些语义分割算法进行比较,都是基于PASAL VOC 2012 数据集,结果如表1所示。由表1可知,本文算法分割优于其他语义分割算法,本文在物体细节处理方面做出了改进,对细节部分有着更好的分割性能,mIoU值为82.1%,性能得到了有效提高。

表1 在PASCAL VOC 2012数据集上的mIoU对比结果

4.4 实验结果

为了进一步验证所提方法的有效性,本文算法采用公开数据集PASCAL VOC 2012 进行实验验证。可视化分割结果的对比图如图5 所示,其中第一列为原始图像,第二列为DeepLabV3+的语义分割结果,第三列为本文方法的语义分割结果图像,第四列为Ground Truth。由图5 比较的结果可知,本文算法结合了多尺度特征信息,分割表现优于DeepLabV3+算法,结果更接近于真实值,对物体类别的细节分割都较为完整,在物体边缘处理准确性方面有着一定的提升。

图5 在PASCAL VOC 2012上的实验结果对比图

5 结语

本文基于DeepLabV3+对全卷机神经网络进行了改进。采用编码器解码器结构,编码端使用残差网络和ASPP 结构提取不同尺度的信息,保证了细节特征的表达;利用双线性插值法上采样以恢复图像分辨率;解码端结合了多个输出,融合图片高分辨率特征信息,最终得到拥有更多上下文细节的特征图。通过实验结果表明本文的优化方法拥有不错的语义分割能力,能得到较好的结果。

猜你喜欢

空洞编码器语义
语言与语义
基于FPGA的同步机轴角编码器
空洞的眼神
基于PRBS检测的8B/IOB编码器设计
“上”与“下”语义的不对称性及其认知阐释
JESD204B接口协议中的8B10B编码器设计
用事实说话胜过空洞的说教——以教育类报道为例
认知范畴模糊与语义模糊
多总线式光电编码器的设计与应用
臭氧层空洞也是帮凶