APP下载

基于改进F3Net网络的显著性目标检测

2022-01-15王元东杜宇人

关键词:解码器测度分支

王元东, 杜宇人

(扬州大学信息工程学院, 江苏 扬州 225127)

近年来, 显著性目标检测(salient object detection, SOD)已成为图像和视频压缩、图像重定位、视频跟踪和机器人导航等计算机视觉应用中重要的预处理步骤[1].SOD模型的快速发展得益于卷积神经网络(convolutional neural network, CNN)能够同时提取图像高层语义信息和低层特征信息, 解决了传统手工选择特征方法缺少高级语义信息的问题, 如AFNet[2]、PoolNet[3]等网络一般使用编解码器架构, 结构简单且计算高效.BASNet[4]网络运用一种混合损失函数充分利用了边界信息; CPD[5]网络采用双分支结构和整体注意力模块, 通过一路分支生成的初始显著图像去细化另一路分支的特征信息; MINet[6]网络提出一种聚合交互模块和自交互模块, 通过相互学习的方式有效利用相邻层的特征.然而, 在模型提取图像特征的过程中不同层次的特征分布特性各异, 如何有效聚合这些特征生成高质量的显著性图像成为显著性目标检测研究的热点.目前, SOD网络编码器部分通常使用深度残差网络.由于大卷积核会导致参数量增多和计算复杂度的提高, 故深度残差网络一般采用3×3的小卷积核, 但该卷积核不能处理全局输入图像.本文采用由锥体卷积组成的PyConvResNet[7]网络作为F3Net网络编码器部分的特征抽取网络, 以不同大小和深度的卷积核并行处理输入图像, 减少空间分辨率损失, 同时使最高层特征先通过一个感受野模块(receptive field module, RFB)后进入解码器, 以期进一步扩大感受野, 改善目标细节丢失问题.

1 F3Net网络

F3Net[8]网络通过在解码器部分设计一种交叉特征模块(cross feature module, CFM)以缓和特征间的差异.CFM模块按元素相乘的方法提取出低级特征和高级特征的共同部分, 再按元素相加的方式使相乘的结果与各自原始特征相加.通过多次特征交叉, 高低级特征吸收彼此的有用信息, 形成重要特征间的互补.此外, F3Net采用如图1所示的级联反馈解码器架构迭代地改进特征.该架构中包含多个子解码器, 每个子解码器都会经历如下2个过程: 1) 自底而上. 由交叉特征模块逐步聚合多层次特征; 2) 自顶而下. 经最后一个CFM模块聚合的特征直接进行下采样, 然后反馈至下面的多层特征中并对多层特征进行细化.

图1 级联反馈解码器架构Fig.1 Cascaded feedback decoder architecture

F3Net网络在编码器部分选用ResNet-50深度残差网络结构.通过ResNet-50深度残差网络对输入图像进行5层特征抽取, 然后将抽取出的第2,3,4,5层特征输入级联反馈解码器.

图2 锥体卷积Fig.2 Pyramidal Convolution

虽然F3Net网络采用交叉特征模块和级联反馈解码器对图像特征进行细致的控制,解决了背景噪声和冗余特征的问题,获得更加精确的显著性图像,但是仍存在因特征抽取而导致空间分辨率损失的问题.

2 改进的F3Net网络

2.1 锥体卷积

锥体卷积(PyConv)是包含n层不同类型内核的金字塔型结构, 如图2所示.与传统的标准卷积核相比, 本文采用的锥体卷积可以在不同的内核尺度上处理输入, 且不增加过多的计算成本和模型复杂度.

(1)

(2)

其中O1+O2+O3+…+On=O.

本文针对深度残差网络下采样处理中出现的空间分辨率损失问题,使用由锥体卷积组成的PyConvResNet网络, 移除了PyConvResNet网络最后的平均池化层和全连接层.根据输出特征图像的空间大小(112×112, 56×56, 28×28, 14×14, 7×7), 将网络划分为5个阶段, 如表1所示, 表中G代表分组数.本文采用的PyConvResNet网络与原始残差骨干网络不同, 在阶段2之前并未应用最大池化层来减小空间尺寸,而是将最大池化层放在阶段2的第一个短连接上.通过这种方式, 特征图像下采样都在阶段2,3,4,5的第一个区块执行.这将使网络能够在阶段2获得更大的空间分辨率,同时从最大池化层提供的平移不变性中获益.

表1 PyConvResNet参数结构Tab.1 PyConvResNet parameter structure

2.2 感受野模块

图3 改进的特征提取融合示意图Fig.3 Improved feature extraction fusion diagram

为了进一步扩大感受野以更好地捕获全局对比信息, 本文设计了一种新的感受野模块.在编码器第5层抽取特征的后面设置RFB模块, 使第5层特征经过该模块后再与第4层特征进行特征融合, 如图3所示.

感受野模块的设计分为2个大分支, 每个大分支下又有3个小分支.其中一个大分支为了更好地获取全局信息,首先使输入特征图像经过自适应平均池化层生成7×7的特征图像,然后进行后续处理.3个小分支主要使特征图像经过3×3,5×5, 7×7这3个卷积核,进行不同感受野的特征提取.特征提取过程如下:首先, 将3个小分支提取的特征按通道维连接; 其次, 将两大分支也按通道维连接, 再经过一个3×3的卷积核进一步特征融合; 最后, 使原始特征图像经过一个1×1的卷积核与融合后的特征按元素进行相加, 达到一致映射[9], 防止细节丢失.设计的感受野模块如图4所示.

图4 感受野模块Fig.4 Receptive field module

将经过RFB模块后的最高层输出特征表示为f′5, 其计算公式为

(3)

通过加入自适应平均池化层保持最大空间尺寸维数为7, 即使输入图像大小变化,仍可确保网络能够捕获完整的全局信息.同时, 在小分支上加入3个不同空间大小的卷积核,随着空洞率d的不断增加,原始网络最高层接受域变大,可以聚集更多的语义信息, 故新的感受野模块可有效提高网络的检测性能.本文改进的F3Net网络每秒浮点运算可达56次, 相较于目前的主流网络, 依然具有很快的执行速度.

3 实验结果与分析

3.1 实验环境

本文实验环境为英伟达RTX2080Ti显卡,使用框架为PyTorch, 与原始F3Net网络一样采用随机梯度下降(stochastic gradient descent, SGD)算法进行32轮训练.训练过程为端到端, 动量和权重衰减分别设置为0.9和0.000 5, 批量处理中的批量大小设置为32.为了增加模型的泛化能力和提高鲁棒性, 应用F3Net网络在训练过程中数据增强的方法, 将输入图像进行水平翻转或随机裁剪等处理.同时, 本文利用ECSSD、PASCAL-S、DUT-OMRON、HKU-IS和DUTS-TE等5个经典显著性检测数据集进行网络性能测试.

3.2 评价标准

显著性目标检测常用F测度值、S测度值[10]、E测度值[11]和平均绝对误差(mean absolute error, MAE)等4个评价标准来评判网络性能的好坏, 其中F,S,E测度值越大, 表明生成的显著性图像越好; MAE值越小,表明生成的显著性图像和实际图像越相似.

F测度值为准确率P和召回率R的加权调和平均值,

(4)

式中β为平衡参数, 本文设置为0.3.F测度值可反映图像的精确度.

S测度值用于评价生成的显著图像和真值图像之间的结构相似性,

S=α×So+(1-α)×Sr,

(5)

式中So,Sr分别为对象感知结构相似性度量和区域感知结构相似性度量, 权重系数α设置为0.5.

E测度值则综合考虑局部像素级值和图像级平均值,

(6)

式中φGT,φFM分别为真值图像的偏差矩阵和二元前景图像的偏差矩阵;f为一个凸函数; ∘表示哈达玛积.

MAE可反映显著性图像R与真值图像Y之间的差异,

(7)

3.3 实验结果

本文方法与原始F3Net、AFNet[2]、PoolNet[3]、BASNet[4]、CPD-R[5]及MINet[6]等方法进行对比, 结果如图5和表2所示.

图5 不同模型的视觉比较图像Fig.5 Visual comparison figures of different models

表2 指标参数比较

由图5可见, 采用本文方法可生成相比其他网络更加精确的显著性图像.由于没有捕获足够多的上下文信息,其他网络检测出的物体不完整且场景物过多,而改进后的网络能很好地检测出显著性物体.

由表2可知, 本文方法的MAE值低于其他方法的, 而F、S、E值都高于其他方法的,表明本文方法可以捕获更多的目标细节, 有效减少了空间分辨率的损失.

猜你喜欢

解码器测度分支
局部紧的阿贝尔群上谱测度的几何结构
一类离散时间反馈控制系统Hopf分支研究
软件多分支开发代码漏合问题及解决途径①
我国要素价格扭曲程度的测度
巧分支与枝
侏罗纪公园
浅谈SCOPUS解码器IRD—2600系列常用操作及故障处理
几何概型中的测度
做一个二进制解码器
因人而异调整播放设置