APP下载

半监督的语义分割综述

2021-12-19吴坚

电脑知识与技术 2021年32期

吴坚

摘要:本文主要介绍图像处理中的半监督的语义分割的主要算法。包括全卷积网络,分类激活匹配,多扩张卷积定位,对抗网络的半监督的语义分割,交叉一致性训练的半监督的语义分割等算法。这些算法从不同的角度描述半监督语义分割的研究内容。

关键词:语义分割;半监督;损失函数

中图分类号:TP18      文献标识码:A

文章编号:1009-3044(2021)32-0131-03

1 语义分割概述

语义分割是图像处理研究的一个分支,语义分割的目标主要是给图像指定语义标签,例如人,狗,路,鸟,飞机,等等,并且将其按语义标签进行图像的划分。语义分割有着广泛的应用,如自主驱动和图像编辑等等。目前语义分割是研究热点问题,语义分割有很多的研究方法,其中一种研究方法是根据监督类型对语义分割进行分类,如监督的语义分割、半监督的语义分割、弱监督的语义分割以及无监督的语义分割等[1,3,5,6]。本文主要介绍半监督的语义分割。

2 全卷积网络FCN(Fully Convolutional Networks)

2.1 FCN原理

随着卷积神经网络CNN(Convolutional Neural Network)运用,使得语义分割的技术得以极大的发展。在CNN的基础上Long提出了全卷积網络(Fully Convolutional Networks,简称FCN)。FCN基于CNN的,而且依赖于空间坐标。卷积网络的每一层数据是三维序列h×w×d,其中h和w是空间的维度,即h是高度,w是宽度。d是特征或色彩通道的维数。在较高层的位置相应于在图像中被路径连接的位置,称作接收域。FCN具有卷积网络的特征如卷积,池化和激活函数等组成部分,并依赖于相对的空间坐标。假定[xij]是某一个特定的层在位置为[(i,j)]的数据向量,[yij]为下一层的数据输出向量,该输出向量由下式计算:,其中k是核的大小,s是步长,[fks]定义为层的类型:如卷积或者池化的矩阵乘积、最大池化的空间最大值、或者激活函数的逐元的非线性的激活函数,以及其他的非线性层的函数。这个函数的形式由复合函数维护,并服从带有核的大小和步长的传输规则:[fks∘gk's'=(f∘g)k'+(k-1)s',ss']。同时,一个通常的深度网络计算一个非线性函数,一个网络带有唯一的层可以计算一个非线性滤波器,我们称之为深度滤波器或全卷积网络FCN[2]。

2.2损失函数

损失函数与优化有关。优化是指改变自变量x以最小化或最大化某个函数的任务。把最小化的函数称作损失函数。一个实值的损失函数由FCN定义的任务组成。如果损失函数是关于最后一层的空间维数的损失的总和,[l(x;θ)=ijl'(xij;θ)],那么它的梯度是每一个空间组成部分的梯度的总和。这样,在整个图像上的随机梯度下降[l]的计算和在[l']上的随机梯度下降的计算是相同的,将所有最后一层的接收域用小批量来计算。当这些接收域产生极大的重叠时,前馈计算和反向传播非常得有效,此时在整个图像上逐层计算而不是非独立的逐块计算[2]。

2.3 FCN的优势

FCN比起CNN的优势是可以使输入为任何的尺寸,并产生相应的空间维数的输出。全卷积网络是现代卷积网络分类的一种特殊而丰富的类的模型。通过它,可以将分类拓展到语义分割,并改善多个解决层组合起来动态的结构。可以简化并加速学习和推理的过程[2]。

3 分类激活匹配(Class Activation Mapping,简称CAM)

3.1 CAM原理

Zhou提出了分类激活匹配CAM。该网络由大量的卷积层和最终的一个输出层组成。在卷积特征匹配中使用全局平均池化,并使用全连接层以产生期望的输出。根据这个简单的连接结构,识别出图像的重要的区域,这主要是通过向后投影输出层的权值到卷积特征匹配,这项技术就是CAM。全局平均池化输出在最后一个卷积层的每个单元的特征匹空间平均值。这些值带权重的总和用于生成最后的输出。类似的,通过计算最后一个卷积层的特征匹配的权值的总和来获取类的激活匹配[4]。

如果给定一个图像,如果令[fk(x,y)]表示在空间位置为(x,y)的最后一个卷积层的激活单元。对于单元k,全局平均池化的结果[Fk]定义为[x,yfk(x,y)]。给定一个类c,输入转化的softmax函数为[Sc],[Sc=kωckFk]其中[ωck]为单元k的相当于类c的权重。最后计算类c的softmax函数,[Pc]由下式给定:[exp(Sc)cexp(Sc)],通过将[Fk=x,yfk(x,y)]嵌入分类分数[Sc]中 ,得到[Sc=kωckx,yfk(x,y)=x,ykωckf(x,y)],定义[Mc]为类c的激活匹配函数,[Mc(x,y)=kωckfk(x,y)]直接指示了空间位置(x,y)的激活的力度以导出图像的类c的分类。基于前面的叙述,期望每个单元以某种可视化的方式在它的接收域内被激活。[fk]是这种可视化的方式的存在的匹配。CAM是不同的空间位置的可视化方式所表示的带权的线性和。对于输入图像的尺寸,通过采用简单的增采样的分类激活匹配,可以识别出特殊区域的分类最相关区域[4]。

3.2 CAM优势

Zhou提出的CAM算法是对于CNN使用全局平均池化的技术,它确保了用分类训练的CNN技术学习并执行相应的对象的定位,而不使用边界盒子的注记。CAM在任何给定的图像可视化预测的分类得分,突出显示被CNN检测出来的区分于对象的部分。此外,CAM位置技术产生其他的可视化识别任务,例如产生类的局部深度特征,可以有助于通过CNN的其他领域的研究来理解并区分图像的问题[4]。

4 多扩张卷积定位(Multi-dilated Convolution for Localization,简称为MDCL)

4.1 MDCL基本概念

在CAM 的基础上,Wei[5]提出了多扩张卷积定位MDCL。使用两类卷积操作。一类是使用标准卷积例如d=1,这种匹配下,可以获得准确的定位匹配,以这种方式,某些目标对象的区分部分被突出的显示,图像相关的区域被忽略。另一类是转移稀疏的突出的区域的可区别的知识为其他对象区域,改变扩张率以扩大核的接收域。以这种方式,从近邻的突出显示的可区别的特征可以被转换为和对象关联的区域,而这些区域是原来没有被找出的。由于大的扩张率会产生不关联的区域,因此,使用小的扩张率(例如d=3,6,9)。注意到真实的正的关联对象区域通常被两个或者多个局部区域匹配,而真实的负的区域在不同的扩张区域产生分支。为了降低错误的区域,通过采用由不同的扩张卷积区域生成的定位匹配的平均操作(例如d=3,6,9)。使用[H0]和[Hi](其中[i=1,...nd],[nd]是扩张卷积区块的数量)表示由标准的和扩张的卷积区域所生成的定位匹配。最终的用来生成对象区域的定位匹配由下式产生:[H=H0+1ndi=1ndHi][5]。

4.2弱监督学习

用[Iω]表示来自弱监督训练集[Γω],[Mω]是由密集的极限匹配产生的相应的伪分割掩码。C是背景分类标签集。目标是训练一个带有可学习的参数θ的语义分割模型[f(Iω;θ)](例如全卷积网络FCN),FCN模型中任何标签c在任何位置u的条件概率是特殊分类信念匹配[fu,c(Iω;θ)],使用[Mω]表示的在线已预测的分割掩码[Iω],它与[Mω]它与共同用来优化弱监督的FCN,其损失函数由下式定义[5]:

[minθIω∈ΓωJω(f(Iω;θ))]

其中:

[Jω(f(Iω;θ))=-1c∈CMcωc∈Cu∈Mcωlogfu,c(Iω;θ)-1c∈CMcωc∈Cu∈Mcωlogfu,c(Iω;θ)]

并且|.|像素的个数。

4.3半监督学习

随着大量的图像带有图像层的注记,本算法关注实现像素层的注记,通过小数量的图像使图像分割具有更好的性能,强的和弱的注记图像可以通过共享参数被组合成学习语义分割网络,令[Is]表示来源于强监督训练集[Γs]和[Ms],是被标记的语义分割掩码。用于优化半监督的FCN,其损失函数定义为[5]。

[minθIω∈ΓωJω(f(Iω;θ))+Is∈ΓsJs(f(Is;θ))]

其中:[Js(f(Iω;θ))=-1c∈CMcsc∈Cu∈Mcslogfu,c(Iω;θ)]

4.4 多扩张卷积优势

Wei提出了不同扩张率的多卷积区块的杠杆原理以生成密集度对象定位匹配。这种方法容易实现,并且生成的密集的定位匹配可以用来学习语义分割网络来实现,并用弱监督或半监督的方式来学习。这是一个仅仅通过分类网络并以简单而全新的方式挖掘出了密集度对象区域[5]。

5 对抗学习的半监督语义分割(Adversarial Learning for Semi-Supervised Semantic Segmentation)

5.1 对抗网络基本思想

Hung提出了一种对抗网络的半监督的语义分割。模型由两个模块组成:分割网络和鉴别网络组成。分割网络用任何的语义分割网络,假定输入图像的维数是H×W×3,语义分割网络的输出是具有H×W×C的类的概率匹配,C为语义分类的数量。鉴别网络是基于FCN的,它把类的匹配作为输入,或者来源于分割网络或者基于真实的标签匹配,或者输出的空间概率匹配H×W×1,如果像素p来源于真实图像标签的樣本,则p=1,如果来源于语义分割网络那么p=0。典型的生成式对抗网络(Generative Adversarial Nets 简称为GAN)只有固定地输入图像,并输出单一的概率值,将变为全卷积网络可以输入任意的尺寸,更重要的是,这个变换是提出的对抗学习策略的基础[1]。

5.2对抗网络损失

Hung提出了对抗学习策略。在半监督的训练过程中使用有标签的和无标签图像。当使用标签图像,分割网络的损失函数同时被真实标签匹配的标准交叉熵损失[Lce]计算和鉴别网络的对抗损失[Ladv]计算。该算法只运用标签数据训练鉴别网络。对于没有标签的图像,运用半监督的方法训练分割网络,在从分割网络中获取无标签图像的初始化的分割预测之后,通过鉴别网络的分割预测计算信度匹配。轮流地处理这种信度匹配作为监督的信号,并使用掩码交叉熵损失[Lsemi]的自主学习的策略来训练分割网络。这种置信匹配指示了预测段区域的质量。损失函数就是最小化的目标函数。通过使用最小化语义网络的损失函数定义为:[Lseg=Lce+λadvLadv+λsemiLsemi],其中[Lce]定义为空间的多类交叉熵损失,[Ladv]对抗损失,[Lsemi]定义为半监督损失。[λadv,λsemi]定义为是最小化所提出的多任务损失函数的两个权重。

和已有的实现弱监督的图像的算法相比可以对无标签的图像的杠杆原理以加强语义分割模型,该算法有更有效的性能[1]。

5.3对抗学习的特点

通过训练鉴别网络,以增强带有标签和没有标签的图像的分割网络。对于带标签的图像,分割网络的对抗损失被设计为学习更高的次序结构信息而不需要标注的过程。对于没有标签的图像,鉴别网络产生置性度图,用自主示教的方式以精炼分割网络[1]。

6交叉一致性训练(Cross-Consistency Training,简称为CCT)的半监督语义分割

6.1聚类假设

Ouali根据基于语义分割的聚类算法,提出了交叉一致性训练的方法。通过测量每个像素和它的局部临近点来确定局部的变化来估计局部的平滑度。可以通过计算每个空间位置和它的八个临近点的平均的欧几里得距离。对于输入,计算某一块的平均距离。对于隐藏表示层,计算与输入尺寸增采样的特征匹配,然后计算激活的临近区域的平均距离。对于编码的输出,在类的边界有高的平均距离的地方维护聚类假定[3]。

6.2交叉一致性训练(CCT)原理

在使用半监督的学习过程中,使用小量的带有标签的数据集的训练的实例,和大量的无标签的数据集的实例。令[Dl={(xl1,y1),...,(xln,yn)}]表示n个标签实例,[Du={xu1,...,xum}]表示m个没有标签的实例。[xui]表示第i层的没有标签的输入图像,[xli]表示第i层带标签的输入图像,[yi]为相应的像素层的标签。该算法使用的结构是由共享的编码h和主要的解码g组成,并组成了语义网络[f=g∘h]。同时引入附加K个的解码集[gka]。同时,分割网络f用传统的监督方式训练标签集[Dl],附加的网络[gka∘h]被没有标签的数据集[Du]训练,是通过加强在主要解码和附加解码间的一致性预测的。为了从没有标签的数据集[Du]中提取出额外的训练信号,主要依靠在主要的解码[gm]和附加的解码[gka]加强一致性检测,对于一个标签训练实例[xli]及其像素标签[yi],语义网络f通过基于监督损失的交叉熵(Cross-Entropy)[Ls=1Dlxli,yi∈DlH(yi,fxli)]来训练。公式中H为交叉熵。对于没有标签的实例[xui],一个输入 的中间表示是计算共享的编码[zi=h(xui)*],考虑R个随机扰动函数,用[pr]表示,其中一个扰动函数可以被指定为多个附加解码。将扰动函数作为附加解码的一部分,例如[gka]可以看作是[gka∘pr]训练的目标是最小化无监督损失[Lu],它用来衡量主要编码输出和附加编码输出的差异。[Lu=1Du1Kxui∈Dud(g(zi),gka(zi))],其中[d]表示表示两个输出的概率分布的距离测度。选择均方差函数作为距离的测度[3]。

6.3 损失的计算

综合损失由下式计算:[Lu=Ls+ωuLu]其中[ωu]是无监督的权重损失函数。Ouali提出的使用交叉一致性训练是一种简单,有效而灵活的方法。它也能适应并在其他的视觉任务和学习设置中检测CCT的有效性[3]。

7 结束语

本文总结了近年来半监督的语义分割的研究方法及这些方法的研究基础,这些方法从不同角度解决了语义分割中的一些实际问题,使语义分割有了较快和较好的发展。

参考文献:

[1] Wei-Chih Hung,Yi-Hsuan Tsai,Yan-Ting Tsai,et al. Adversarial Learning for Semi-Supervised Semantic Segmentation.arXiv .preprint arXiv:1802.07934,2018.

[2] Long J,Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 7-12,2015,Boston,MA,USA.IEEE,2015:3431-3440.

[3] Ouali Y,Hudelot C,Tami M.Semi-supervised semantic segmentation with cross-consistency training[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020,Seattle,WA,USA.IEEE,2020:12671-12681.

[4] Zhou B L,Khosla A,Lapedriza A,et al.Learning deep features for discriminative localization[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:2921-2929.

[5] Wei Y C,Xiao H X,Shi H H,et al.Revisiting dilated convolution:a simple approach for weakly- and semi-supervised semantic segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:7268-7277.

[6] Song C F,Huang Y,Ouyang W L,et al.Box-driven class-wise region masking and filling rate guided loss for weakly supervised semantic segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 15-20,2019,Long Beach,CA,USA.IEEE,2019:3131-3140.

【通聯编辑:唐一东】