APP下载

基于全卷积网络的图像语义分割算法

2021-12-17陈孝如

电脑知识与技术 2021年33期

陈孝如

摘要:计算机视觉中图像处理及图像理解是重要技术,图像语义分割对于图像理解具有直接影响。为能够进一步提高图像语义分割准确性以及效率,提出一种基于全卷积网络的图形语义分割可将任意尺寸图片输入其中,端对端实施像素级分割,能够显著提高分割准确度。但是在实际应用中,容易出现分辨率低问题,为提升图像语义分割精度,该文从FCN基础实施改进,减少池化步长、实现多尺度池化和叠加高层语义因此以及改进代价函数。针对研究算法在PASCAL VOC 2012数据集上对其实施验证以及评测,研究结果发现这一算法和原有算法相比平均交并比得到相助提升,达到0.6%。

关键词:全卷积网络;图像语义;分割算法

中图分类号:TP393        文献标识码:A

文章编号:1009-3044(2021)33-0012-02

开放科学(资源服务)标识码(OSID):

在深度学习以及全卷积网络发展中,有效促进了图像语义分割发展,在无人驾驶、机器导航以及医疗诊断等中有广泛应用。图像语义分割算法能够实现图像的像素级分类,以此得到图像整体信息。全卷积网络是当前一个重要图像语义分割算法,效果好,具有创新性,能够将卷积神经网络全连接层采用卷积层进行替换,且在像素级分类任务中具有应用价值。但是全卷积神经网络图像语义分割算法在实际应用中,也存在一定问题,例如分辨率低、前景和背景分布不平衡、上下文推断能力不足等等,为进一步提高图像语义分割算法准确度,需要实现对其算法实施改进,本次基于FCN基础实施改进,对其算法和应用效果实施验证及评测。

1 全卷积神经网络结构设计

应用最广泛的语义分割算法为全卷积神经网络FCN,将全连接层采用卷积层进行替换,将最后输出特征灰度到图像输入尺寸,以能够预测分析各像素。全卷积神经网络对于图像位移、形变和缩放存在有高度不变性,在图像分割中具有应用价值。另外本身的学习能力以及特征表达能力较强,能够实现端对端处理,减少了中间的复杂处理步骤,有助于显著提高图像分割精度。其中全卷积神经网络结构简化设计见图1。卷积包括有卷积1和卷积2两部分。在卷积2中采用卷积实现对神经网络全连接的替代,且转置卷积最后卷积层的输出特征图,以能够实现上采样目的,确保输出特征图和输入图像尺寸的一致性,以此实施像素级语义分割。在上采样操作中,针对输入的任何尺寸图像均可以实施分割,传统图像分割也就转变为了像素级分割,也能夠得到具有语义信息的分割图像,进而显著提升分割精度。但是实际应用中,也存在问题即为网络连续池化导致特征图分辨率不高,输出稀疏,上下文推断能力弱以及复杂样本关注度低等等。本次针对这一问题实施改进分析。

2 空洞卷积及感受野

全卷积神经网络实施图形语义分割中,需要通过5次池化层,每次均为一次下采样,实现对特征图尺寸降低基础上也可以加大节点感受野。FCN中各个池化层池化步长都是2,通过一次池化层输入特征分辨率会降低到当前层输入特征分辨率的1/2。进过5次池化层后,所得最终输出特征和输入图像相比为1/32。在转置卷积上采样应用下,能够将其输出特征图像恢复到输入尺寸,进而实施像素级预测。在这一过程中会导致输出特征非常稀疏,特征提取及分类中难度较大,对分割结果具有不良影响。想要得到更稠密特征,想要对其进行改进,确保前3层池化层池化步长没有改变,将第4池化层池化步长从2降到1,改进后可以将输出特征图提高到输入图像的1/8,提高输出特征稠密性,也能够有效确保图像的更多信息。但是将第4层池化层池化步长进行降低后,会降低神经元节点感受野,掌握全局信息难度较大,因此需要采用能够将特征图变稠密,同时感受野没有编校方式,最佳方式即为空洞卷积。

空洞卷积能够从输入特征图和卷积核两个视域理解。基于输入特征图,空洞卷积在实施采样,采样频率即为空洞卷积dilation rate,之后针对采样后特征图和标准卷积核实施卷积操作;基于卷积核分析,空洞卷积即为实现卷积核扩大的一个尺寸,将其和特征图实施卷积操作。空洞卷积感受野大小表示方式为:

rn=rn-1+(kn-1)×dn×[i=1n-1Si],n≥2

在以上公式中,rn为第n个卷积层各阶段感受野,kn为第n个卷积层卷积核大小,Si为第i个卷积层卷积核步长,dn即为第n个卷积层空洞卷积的dilation rate,计算公式如下所示:

dn=dn×Sn-1

通过以上公式能够发现,空洞卷积dilation rate随着指数的增长而增长,在其为1,2,4的第3个空洞卷积后神经元节点感受野大小具体为15×15。通过上分析能够发现,随着层数增加标准卷积感受野呈现出线性增长趋势,空洞卷积感受野随之增长。如果是在网络深度一致情况下,空洞卷积感受野和标准卷积相比明显偏大。所以,可以实现对以上问题的有效解决。

3 多尺度池化及多层特征融合策略

在研究过程中,想要在叠加过程中融合特征图,需要实现对各个特征图尺寸一致性的分析,特别是确保通道数的一致性。本次研究针对特征图第三维数据分析,比如7×7×512特征图的通道数即为512。想要实现对通道数一致性提供保障,也就需要采用1×1×128卷积核实现对4种不同尺寸特征图实施卷积,所得卷积结果为:1×1×128、2×2×128、4×4×128以及7×7×128,之后在双线性插值方法的应用下,对其实施上采样,实现对特征图尺寸的统一,也就能够获取4个28×28×128特征图,最后将其和多尺度池化前特征实施叠加,以能够实现相互融合,即可以得到上下文信息。其中多尺度池化和上采样见图2。

多尺度池化和特征图融合中,能够得到更多信息,如果各层军采用多尺度池化,也容易导致出现问题,即为特征维度小以及深度提取不佳等等。所以,本次研究仅在最后一层池化层实施多尺度池化,以实现对以上问题的防范,也能够实现对不同区域上下文信息的聚合,进而提升网络结构得到全局信息的能力。

4 改进代价函数

卷积神经网络分类器训练中,默认各像素权重为均匀分布,模型对于图像中样本数量较大类别更有偏向性,对于样本数量较少类别有所忽视。如果图像中负样本数量较多,且黑色背景部分分类容易,容易导致模型优化发横偏差,分类无法实现对前景目标的准确语义分割,影响分割准确性。针对这一问题,本次研究中最大化减少易分类样本权重,提高模型对难分类样本的关注,以免出现偏向。卷积神经网络中多分类问题研究中,通常为代价函数,如下所示:

L(y,[y])=-[1mi=1my]ln(softmax(x(i)))

以上公式中L{}为指数函数,m为训练样本,[y]为真实概率分布。本次对其改进,如下所示,一般情况下会给常用代价函数增加一个调制系数,实现对简单样本权重分布的调节,以能够实现对分类器偏向问题的解决。

L(y,[y])=-[1mi=1my]×[(1-softmax(x(i)))γ]×ln(softmax(x(i)))

以上公式中[γ]为超参数,即为权值系数对代价函数的一个影响作用,取值不同音响作用也具有差异;[(1-softmax(x(i)))]为调制系数,主要实现对易分类样本权重的减低。

5 实驗验证

本次研究采用数据集PASCAL VOC 2012对其算法应用实施验证。在算法优劣分析中具有多种评价方法,本次采用的是网络训练时间以及平均并交比两个指标,后者即为真实值和预测值交集和并集的比值所得平均值。将本次研究算法和DeepLab v3算法训练时间和平均并交比对比,所得结果见表1。

6 结语

通过以上分析能够看出,本次算法显著降低了总训练时间和平均并交比,中平均并交比降低0.6,相较而言这一算法分割精度高,训练时间短,应用范围更加广泛。

参考文献:

[1] 李瀚超,蔡毅,王岭雪.全局特征提取的全卷积网络图像语义分割算法[J].红外技术,2019,41(7):595-599,615.

[2] 邓寒冰,周云成,许童羽,等.基于RGB-D的肉牛图像全卷积网络语义分割优化[J].农业工程学报,2019,35(18):151-160.

[3] 吴止锾,高永明,李磊,等.类别非均衡遥感图像语义分割的全卷积网络方法[J].光学学报,2019,39(4):393-404.

[4] 郭亚男.基于全卷积神经网络的图像语义分割技术的发展及应用综述[J].数码世界,2019(7):10.

[5] 王朵.基于全卷积神经网络的遥感图像语义分割及变化检测方法研究[D].西安:西安电子科技大学,2018.

[6] 孙海川.基于全卷积网络的图像语义分割算法研究[D].哈尔滨:哈尔滨工业大学,2018.

[7] 于倩倩,黄文龙,付世荣.基于全卷积神经网络的图像语义分割[J].电脑与信息技术,2019,27(5):16-18,21.

【通联编辑:代影】