APP下载

基于渐进结构感受野和全局注意力的显著性检测

2021-01-07王永雄

电子科技 2021年1期
关键词:全局注意力卷积

董 波,周 燕,王永雄

(上海理工大学 光电信息与计算机工程学院,上海 200093)

视觉显著性检测是对人类视觉注意力机制进行建模,准确定位图像中最重要的前景信息。作为计算机视觉任务的预处理过程,视觉显著性检测在诸多视觉任务中有着广泛的应用,包括场景分类[1]、图像检索[2]、图像自动编辑剪切[3]、视觉跟踪[3-5]、人脸再识别[6]和图像恢复[7]等。

受人类视觉感知系统的启发,早期的显著性模型[8-9]主要依靠计算的方式提取图像中的低层次特征(如颜色、灰度、形状、纹理等),通过局部与全局分析等启发式互补先验[10-11]推断出显著性目标区域。但是,常规的局部特征缺乏识别显著性物体内部同质区域的能力,而全局特征受到复杂背景的影响,缺乏高级语义信息,限制了其应用复杂场景的能力。随着深度学习方法在计算机视觉方面的突破,用于图像识别任务的卷积神经网络,如(Very Deep Convolutional Networks,VGG)[12]和(Residual Neural Network,ResNet)[13]通过迁移学习进一步应用到其他计算机视觉领域。其中,全卷积神经网络(Fully Convolutional Networks,FCNs)[14]作为VGG的一种改进,在显著性检测任务中发挥重要的作用。该模型突破了早期模型计算方式的瓶颈,通过插值或学习反卷积滤波器进行上采样操作[15],实现了对每个图像像素进行预测。与早期的模型相比,这种方法可以有效地提高密集标记任务的性能。然而,在密集标记任务中,FCNs框架的不完善之处在于其存在多尺度空间信息融合问题。大量的跨步卷积和池化操作导致基本的低层精细细节(底层次的视觉线索)丢失,而这些精细细节是无法通过上采样操作重建的。同时,高层信息又缺乏对空间上的语义表达能力。为了解决上述问题,文献[16~18]提出了以下观察和原理:(1)深层特征编码高层信息易于定位全局对象;(2)较浅层的特征具有更好的空间表现能力,利于重构空间细节。研究人员分别提出了跳连接、短连接和特征聚合等策略或机制来增强空间信息。虽然这些策略带来了令人满意的改进效果,但它们依然不能预测整体结构,并且难以检测精细的边界(如图1所示,虚框表示错误检测)。为了获得更加精细的对象边界,一些研究者不得不使用耗时的完全连通条件随机场方法[19-20]细化最终的显著性图。

(a) (b) (c) (d) (e)图1 不同方法模型识别效果对比(a)复杂图像 (b)真值图 (c)本文算法(d)PAGR (e)AmuletFigure 1. Model identification comparison of different methods (a) Complex image (b) Truth graph (c) Proposed algorithm (d) PAGR (e) Amulet

基于卷积特征和多尺度特征融合在显著性对象识别中发挥着重要作用,本文提出了一种基于渐进结构感受野和全局注意力的显著性检测模型,如图2所示。针对底层和高层的卷积特征在显著性检测模型中发挥着不同的重要作用。首先利用FCNs作为骨干网络获取多层级特征;然后采用特征金字塔结构对各层次特征进行卷积操作生成多尺度特征;之后;利用渐进结构感受野引导多尺度特征进行融合,通过上采样-卷积方式将多级语义信息以渐进的方式整合在一起,使得模型能够高效地获取并融合多尺度特征,同时保持了显著性对象的空间结构。为了精确学习显著性检测物体的边缘,避免高级特征中噪声特征的干扰,本文引入全局注意力机制,采用自监督的方式,再利用卷积后细化的不同通道的特征作为权值,采用残差连接的方式,取剩余通道特征作为偏置,并利用初级显著性映射引导骨干特征产生边界明显的显著图。文中所提出的模型具有准确检测图像中显著性对象的能力,同时无需附加任何后处理即可准确清晰地分割出显著性对象边缘。

图2 本文提出的渐进结构感受野和全局注意力的显著性检测模型Figure 2. Progressive structural receptive field and global attention saliency model proposed in this paper

1 相关工作

显著性检测是视觉研究热点之一,方法众多,可以被归纳为两个类别:早期的计算方法和基于深度学习的方法。目前主要的研究热点包括多尺度特征融合、注意力机制、边缘损失、全局与局部信息的联合。下面主要从本文聚焦的多尺度特征融合和注意力机制进行叙述。

1.1 多尺度特征融合

为了提高显著性检测的准确性,大多数深度学习方法都是基于FCNs网络。该网络能够获取全局语义信息,但是分割的结果仍比较粗糙。最近,许多研究者通过利用特征金字塔结构,融合不同尺度和层级的特征增加显著性对象的层次化表征。文献[17~18]将多层特征连接到多个子网络中,每个子网络都可预测最高分辨率的显著图。虽然较深层次的特征可以辅助定位目标,但是空间细节的丢失可能会阻碍较浅层次特征的提取,难以恢复目标区域边界。考虑到不同尺度的特征可能会被模糊信息混淆,简单地将其串联起来可能会导致显著性检测失败。因此,Liu等人[21]提出近年来最先进的方法,采用了由粗到细的特征提取方法,通过引入递归聚合方法,将各级初始特征融合在一起,逐级生成高分辨率的语义特征,较好地解决了这一问题。尽管这类方法取得了良好的性能,但仍有较大的改进空间。该方法通过高层的语义信息逐层传输到浅层,所捕获的深层位置信息逐渐稀释或缺失,依然会导致边缘模糊,在某些级别上不准确的信息还会导致错误检测。

1.2 注意力机制

近年来,注意力机制被广泛地应用于显著性检测的神经网络中,通过模拟人类视觉系统中的视觉注意机制可以减小噪声特征的干扰。Lslam等人[22]提出将每个编码器和解码器块之间的门单元作为注意力模型。这些门单元控制前馈信息的传递,滤除边缘模糊信息。然而,消息传递是由初始注意力机制控制的,这意味着一旦前一阶段出现错误,不准确的引导和这些特性的过度使用可能会导致显著性对象分割出现意想不到的漂移。Zhang等人[23]利用多路径递归反馈,对渐进式注意引导网络对边缘特征进行迭代优化。通过利用空间与通道注意力机制生成分层的注意特征,分层注意信息作为下一阶段提供指导,自适应地生成新的注意特征。但是这种多次循环强注意力机制导致部分的显著性内部区域丢失,会造成显著性区域高亮不均匀。

因此,本文提出的显著性检测模型使用渐进结构感受野引导不同阶段的特征提取,实现了高效的多尺度特征融合,并利用全局注意力机制在高级特征中纠正错误,提高了显著性检测的准确率。

2 算法原理

高级语义特征有助于获取显著性目标的空间位置[17,24];此外,将深层提取的特征由粗级提升到细级,也需要低层和中层特征中细微的边缘信息。基于以上知识,本文提出了一个新颖的显著性检测模型,设计了渐进结构感受野引导多尺度特征提取,实现深层特征的精细化处理,利用全局注意力机制消除噪声产生的干扰,提高了对边缘的感知性能。

2.1 模型概述

FCNs是显著性检测模型中应用最为广泛的网络,该网络模型的较浅层能提取到低层次特征,较深层能提取到更有效的高层次特征。本文把最新的FCNs作为骨干网络,引入特征金字塔结构从骨干网抽取的多层次特征。然后,采用通道维度聚合的进行多尺度特征融合,有效避免FCNs对应点聚合的弊端,生成了更加丰富的特征信息。

本文模型网络结构如图2所示,首先将图像I输入网络,其通道数为C,图像的高和宽分别为H和W。利用骨干网络F(θ,I)提取多层初级特征图Fsi(i=1,2,3,4),其中θ表示骨干网络的网络参数。为了使网络能够完全解析同层次中不同尺度的卷积特征,利用特征金字塔结构实现深度挖掘。首先,对初级特征图Fsi(i=2,3,4)特征进行卷积操作,分别得到3级特征Fi(i=2,3,4)。然后,利用本文提出的渐进结构感受野模块引导Fi进行特征融合,减小了多尺度金字塔特征图之间的差距,如图3所示。最后,利用上采样-卷积机制,有效避免了显著性图不同分辨率对卷积和池化操的影响,该机制如式(1)~式(3)所示。

(1)

(2)

ξi(Sj)=Conv3×3(upk=2(Sj))

(3)

其中,add(·)函数表示矩阵元素求和;“*”表示元素相乘;ξi(·)函数表示双线性插值与卷积层的组合,i=1,2,3,4;Sj(j=1,2,3)表示经渐进结构感受野模块处理后大小为[H/21+j,W/21+j]的显著性特征映射。

深层次的特征聚合了许多显著性信息,但由于特征信息的不对等性,直接使用卷积特征预测显著性得到的结果往往不是最优的。为此,本文利用全局注意力机制对深层特征进行优化,更加关注图像中的前景信息。为了避免重复特征对最终结果的影响,本文采用分层学习融合的方式对两层的显著性特征进行处理,使得最终的融合结果集中了全部显著性映射的有效特征,如式(4)所示。

(4)

2.2 渐进结构感受野

当显著性目标内部结构复杂时,现有方法所利用的多尺度特征的方式区别不大,导致最终获得的显著性区域高亮不均匀。本文从显著性对象的结构出发,利用特征金字塔结构对FCNs骨干网络提取的特征进行卷积操作,将全局信息传递到不同层次的特征图上。然而,如何建立不同层次中全局信息之间的关系是一个值得探讨的问题。

为此,本文提出使用渐进结构感受野作为引导模块。该模块由4个分支组成,如图3所示:首先,为了降低参数量,增加模型的非线性表达能力,利用1×n和n×1不对称的卷积对每一个分支进行处理,其中n=1,2,3,4。然后,为了扩大模型的感受野,更加关注整个空间区域,采用相同大小的扩张卷积进行上采样解码;最后分别将两个子分支进行连接,使得模型捕获到任意空间位置在不同尺度下的上下文语义信息,从而建立显著性对象区域的结构性特征信息。通过卷积核大小为3和1的卷积消除融合过程带来的噪声,降低特征维度。最后利用Relu作为非线性激活函数。通过渐进结构感受野处理后的特征映射能够有效获得完整的前景信息,解决了显著性对象区域高亮不均匀的问题。

图3 渐进结构感受野模块Figure 3. Structure receptive field module

2.3 全局注意力机制

为了获得更好的突出目标检测的显著性映射,近年来的方法融合了不同层次卷积神经网络的特征,取得了显著的进展。然而,不同特征层之间的差异给融合过程带来了困难,可能导致显著性预测不理想。为了解决这一问题,本文提出了全局注意力机制来增强显著目标检测的特征间一致性。首先,利用1×1的卷积层将特征进行升维,通道的增加使得特征离散化分布,对输入特征映射的通道数进行统一处理,接着使用3×3卷积提取细节信息,从而达到区分细化特征的效果。得到的特征图利用BatchNorm2d函数映射到[0,1]区间得到注意力图。随后,对得到的注意力图添加Relu函数线性修正单元,激活离散并细化后的特征,从而消除特征图中的非显著特征。最后将此特征映射拆分为权重与显著因子,将不同的通道信息提取作为残差操作,使得处理后的特征映射具有很强的语义一致性。

S′=S2+B(φ(Ru(E;θ));S2)

(5)

其中,Ru(·;θ)表示卷积操作,其参数为θ,旨在改变通道特征的数量特征;φ(·)函数表示ReLU激活函数;B(·;S2)表示BatchNorm2d归一化函数;S2表示骨干网络获取的特征;E表示增强后的特征。

同一特征图的不同位置所含信息的重要程度有所差别,利用全局注意力机制能够有选择性地进行筛选,从而提高语义特征的有效性。所设计的注意力机制将较为浅层的显著图中的显著性区域位置传递到骨干网络获取的高层特征,可使其显著性对象区域更加明确。

3 实验和结果分析

本节首先描述实验设备、参数、使用的目标函数、数据集和评估方法;然后在5个公共基准数据集上进行了定量和定性的实验;最后叙述了本文方法与其他先进方法的比较和分析。

3.1 实验细节

本实验采用GTX 1080Ti GPU进行加速训练。网络模型训练分为两个步骤:(1)训练骨干网络。采用VGG-16预训练模型初始化骨干网络参数,利用DUTS-TR[7]作为训练集,其中使用了Adam优化器进行训练,初始化学习率为5e-5,衰减权值为5e-4,共训练20个epoch;(2)加入底层分支,采用相同的数据集,使用Adam优化器,初始学习率设为5e-6,权重衰减为5e-5。在步骤(2)中,网络训练10个epoch。采用分层训练方式可以促进底层分支收敛,并且利用底层分支优化深层分支使网络在正确的方向上快速收敛,从而提高网络的性能。

3.2 目标函数

本文采用文献[25]中的显著性回归策略对最终的显著性结果进行监督训练,目标函数如式(6)所示。

L(X,Y,Z)=(1-λ)Lg(X,Y,θ)+λ×Ls(X,Y,θ)

(6)

其中,X是一个输入图像;Y是相应的显著图;θ为网络参数;λ=0.5为平衡参数;总损失函数包括全局损失Lg(X,Y,θ)和局部损失Ls(X,Y,θ)。其中全局损失函数如式(7)所示。

(7)

局部损失函数如式(8)所示。

(8)

其中,N+表示显著性区域的像素数,N-表示非显著性区域的像素数;N表示总像素数;xi表示输入图像X中的每一个像素值,X={xi|i=1,2,…,N};yi表示真值图Y中的每一个像素值,Y={yi|i=1,2,…,N}(Y=Yj|j=1,2,…,N,Yj∈{0,1}),其值在[0,1]之间;f(·)函数表示网络处理的过程;Ψ(·)函数表示Smooth-L1函数;Lg(X,Y,θ)关注于全局损失,使得网络输出的结果更加接近真值图,有利于降低网络对训练样本分布的敏感性;Ls(X,Y,θ)表示显著性目标区域像素的额外损失,使损失函数更关注显著性区域。

3.3 数据集

本文使用5个显著性基准数据集来评估本文的模型。DUTS[7]数据集包含用于训练(DUTS-TR)的10 553张复杂图像和测试评估(DUTS-TE)的5 019张图像。DUT-OMRON[11]包括5 168张具有挑战性的图片,每张图片通常都有复杂的背景。ECSSD[26]有1 000个语义上复杂的图像。PASCAL[27]数据集由850幅图像组成,均是带有像素级注释的自然图像。HKUIS[28]包含4 447张低对比度的图片,每张图片中都有多个前景对象。

3.4 评估方法

为了客观准确地评估本文的模型,本文使用3个常用指标,分别是P-R曲线(Precision-Recall Curve)、F-measure得分和平均绝对误差MAE(Mean Absolute Error)。

3.4.1P-R曲线

平均准确率(Prediction)是指检测到的显著性图中正确分配的显著性像素的比例,召回率(Recall)是指正确的显著性像素在地面真值中的比例。如式(9)和式(10)所示。

(9)

(10)

3.4.2F-measure

为测量整体性能,由平均准确率和召回率加权均值计算,如式(11)所示。

(11)

其中,β2通常置为0.3,用于强调模型精度。F-measure值越大,模型的性能越好。本文对比分析F-measure最大值和平均值,分别用MaxF和AvgF表示,以凸显本文模型的整体优势。

3.4.3 平均绝对误差(MAE)

计算网络输出的显著图与真值图像素之间的平均绝对误差,进行更全面的比较,如式(12)所示。

(12)

其中,H和W表示显著性图S的宽度和高度,S(x,y)和G(x,y)表示像素点(x,y)处的显著性值和二元真值。MAE分数越小,显著图与真值图之间差距越小,相似程度高。

3.5 实验结果分析与讨论

为了验证本文提出的方法,在5个公开数据集上与PiCANet[21]、PAGR[23]、MDF[28]、RFCN[29]、UCF[30]、NLDF[31]、 Amulet[18]等7个方法进行了定量对比分析,均不采用任何后期处理方式优化结果图。

3.5.1P-R曲线分析

本文展示了3个常用数据集的P-R曲线,如图4所示。本文方法得到的P-R曲线(加粗)与之前的所有方法相比较为突出。当平均召回率值接近1时,平均准确率比其他方法更高,说明显著性图的假阳性率很低。

(a)

3.5.2 定量分析

如表1所示,其中最佳的结果加粗标记,本文提出的方法在所有的数据集上都取得了当前最好的F-measure和MAE指标。从平均绝对误差MAE值可以得出,本文的算法明显减小了预测图与真值图之间的差距,表现了良好的性能。同时本文的F-measure 指标有大幅度提升,在5个数据集DUTS-OMRON、PASCAL、DUTS-TE、ECSSD和HKUIS上明显优于次优算法。其中综合评价指标F-measure的最大值指标分别提高了0.3%、1.5%、1.0%、0.5%和0.6%,其均值指标提升了6.4%、6.1%、5.5%、2.7%和2.3%,平均提升了4.62%。结果表明,本文模型的错误预测数明显少于其他方法,能够适应各种复杂场景,体现了算法的高效性和可扩展性。

表1 基于5个数据集上进行定量对比结果Table 1. Quantitative comparison results of 5 datasets

3.5.3 定性分析

为了进一步说明本文方法的优点,在图5中给出了定性比较结果,图5(a)~图5(e)分别为前景与背景对比度较低的场景、较大的显著性对象、复杂边缘、带有阴影的对象和多目标小对象。显著性检测次优方法PiCANet在图5(b)~图5(d)中表现良好,能够基本检测出显著性对象,但显著性区域仍存在高亮不均匀问题。该方法在图5(a)及图5(e)中不能正确检测出显著性对象。其他先进的方法均存在较大问题。然而,本文提出的方法能够准确地识别图像中最显著的目标对象,并且在几乎所有情况下都能保持其尖锐的边界分割,目标区域高亮均匀,在特征融合以及抗噪性能方面达到了最优效果。

图5 本文算法与其他模型定性比较结果Figure 5. Quqlitative comparison between the proposed algorithm and other models

3.6 有效性验证

为了验证本文提出的渐进结构感受野、全局注意力机制以及分层学习融合方式的有效性,本文对各模块进行了研究。在整体框架上进行验证实验,采用DUTS-TR数据集作为训练集,DUTS-TE数据集作为测试集。表2的每一列的最佳结果都用加粗突出显示。实验结果说明,各个模块对模型精度都有一定的提升,缺失任何模块都会对模型精度造成影响。

表2 基于DUTS-TE数据集的有效性分析Table 2. Validity analysis based on DUTS-TE dataset

4 结束语

本文提出了一种有效的可用于显著性检测的渐进结构感受野和全局注意力框架。该方法结合了FCNs与特征金字塔结构的优势,利用渐进结构感受野模块作为块引导,将多级语义信息进行整合,避免了卷积和池化对不同分辨率显著图的影响,解决了显著性区域高亮不均匀的问题。文中提出的新方法引入全局注意力机制,去除了背景噪声,并且提高了模型对显著性对象边缘的感知性能。通过定量定性的实验验证了本文提出模型的准确性,证明了其在复杂环境中能够达到当前最优的性能。

猜你喜欢

全局注意力卷积
Cahn-Hilliard-Brinkman系统的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
从滤波器理解卷积
落子山东,意在全局
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
新思路:牵一发动全局