一种自适应权重学习的轻量超分辨率重建网络

2021-11-12张宇浩程培涛张书豪王秀美

西安电子科技大学学报 2021年5期

张宇浩，程培涛，张书豪，王秀美

(1.西安电子科技大学机电工程学院，陕西西安 710071；2.西安电子科技大学电子工程学院，陕西西安 710071)

图像超分辨率重建(Super-Resolution，SR)是计算机视觉领域中的一个重要研究方向，目的在于根据给定低分辨率图像(Low Resolution，LR)恢复对应的高分辨率图像(High Resolution，HR)[1]。近年来，基于深度卷积神经网络(Convolutional Neural Networks，CNN)的图像超分辨率重建方法取得了较好的效果，成为超分辨率重建领域的重要研究方向之一[2]。

文献[3]在2014年将深度学习应用于超分辨率重建，提出了基于深度卷积神经网络的图像超分辨率重建方法(Super-Resolution Convolutional Neural Network，SRCNN)。在此之后，学者们围绕设计更准确、更高效的超分辨率重建网络展开了广泛研究[4-17]。文献[6]提出了一个用于图像超分辨率重建的超深度卷积神经网络(Super-Resolution using Very Deep convolutional networks，VDSR)，利用全局跳跃连接加深网络，将上采样的低分辨率图像逐元素添加到输出的重建图像中，提升了网络性能。文献[18]提出的拉普拉斯金字塔超分辨率网络(Laplacian pyramid Super-Resolution Network，LapSRN)使用逐步上采样、逐级预测残差的方案来解决速度和精度问题。文献[7]提出了增强型深度超分辨率重建网络(Enhanced Deep Super-Resolution network，EDSR)和多尺度深度超分辨率重建系统(Multi-scale Deep Super-Resolution system，MDSR)，这两种方法删除了前人方法中常用的BN层，使网络中信息更新范围更加灵活，从而极大地提高了性能。文献[8]借鉴文献[9]提出的密集连接网络(DenseNet)，提出了基于残差密集连接的超分辨率重建网络(Residual Dense Network for image super-resolution，RDN)，在减小参数量的同时提高了性能，但密集连接网络有更高的时间复杂度，导致推理时间过长。

注意力机制是使设备计算资源的分配更偏向于信息中最有表征意义的一种方法[20]。近些年来，注意力机制已经成功地应用于深度卷积超分辨率重建网络，将网络的操作重点引向含有更多信息的特征区域。注意力机制主要分为通道注意力机制与空间注意力机制，其中通道注意力机制的代表性工作是文献[5]提出的基于残差注意力的超分辨率重建网络(very deep Residual Channel Attention Networks，RCAN)。它将通道注意力应用于超分辨率重建，通过通道之间的相互依赖自适应地调整通道特征，使得RCAN的重建结果在准确性和视觉效果上均超越了EDSR方法；但是该方法只提取了一阶图像特征，忽略了高阶图像特征，因而无法获取局部区域以外的信息。针对此问题，文献[21]提出了一个基于二阶注意力的超分辨率重建网络(Second-order Attention Network，SAN)，利用二阶的特征统计量自适应地细化通道间的特征。这种二阶通道注意力机制更关注有用的高频信息，提高了网络判别能力。文献[22]提出的深度残差非局部注意力网络(very deep Residual Non-local Attention Networks，RNAN)则是利用Non-local模块[23]提取整个特征图之间的空间相关性，实现更好的重建效果。文献[24]提出的基于整体注意力的超分辨率重建网络(Holistic Attention Network，HAN)结合了两种注意力机制，从而捕获更多有用信息，学习到不同深度、通道和位置之间信息的相关性。

上述方法显著提高了重建性能，但是随着网络参数量的不断增加，网络的时间复杂度和空间复杂度也在逐步增大，导致这些方法无法应用于移动终端等轻量化场景。针对这一问题，文献[25]提出的一种级联残差网络(CAscading Residual Network，CARN)使用逐层逐块的多级连接结构，使信息高效地传递，虽然减小了参数量，但是重建性能也大幅降低。文献[26]提出了一种信息蒸馏网络(Information Distillation Network，IDN)，通过通道拆分策略，聚合当前信息与局部跳跃连接的信息，从而利用较小的参数量获得了良好的性能。之后，文献[27]又提出了信息多级蒸馏网络(Information Multi-Distillation Network，IMDN)，通过信息精细蒸馏模块进一步改进了IDN，重复使用通道拆分策略，从而提取细粒度的图像特征。IMDN在峰值信噪比和测试时间方面均有良好的表现，但其参数量大于VDSR[6]、IDN[26]和MemNet[28]等大多数轻量级重建网络。

为了进一步减小网络规模，文献[29]提出了一种像素级注意力网络(Pixel Attention Network，PAN)，以极小的参数量取得了更好的重建结果，但其网络结构中含有多个注意力模块，需要为网络设置苛刻的超参数和训练策略，同时网络的表征能力也有所下降，在相同数据集下训练的效果略逊于其他方法。文献[30]在此基础上提出了一种基于attention in attention机制的重建网络。此机制提升了重建能力，但网络参数量从261 000增加至1 063 000。

为更好地平衡网络参数量与性能，笔者提出了一种基于自适应权重学习的轻量化超分辨率重建方法。该方法基于像素级注意力网络的整体框架，设计了一种堆叠多个自适应权重模块(Adaptive Weight Block，AWB)的非线性映射网络，每个模块能够提取到不同层级的特征信息。另外，引入了一种低参数量的自适应权重分配机制，将网络分为注意力分支和无注意力分支。注意力分支用于增强有用信息，无注意分支用于学习其他信息。为了充分利用两个分支提取的信息、增强高贡献度信息并抑制冗余信息，利用自适应权重融合分支以动态方式分配两个分支的权重，同时通过特定的卷积层拆分和融合两条分支，大幅降低了注意力分支和无注意力分支的参数量，更好地与自适应权重分配机制结合，在保证网络重建性能的同时，降低了网络的参数量。

1 基于自适应权重学习的轻量化超分辨率重建网络

1.1 网络结构

笔者提出的基于自适应权重学习的轻量化超分辨率重建网络由3个子网络组成，即特征提取网络、由多个自适应权重模块构成的非线性映射网络以及由上采样模块与3×3卷积层构成的重建网络，其结构如图1所示，特征提取网络和重建网络与PAN[29]方法保持一致，而文中提出的基于自适应学习的非线性映射网络则是重建网络的核心部分。

图1 基于自适应权重学习的轻量化超分辨率重建网络示意图

重建时首先利用特征提取网络对低分辨率图像提取浅层特征。该过程可表示为

xshallow=fshallow(ILR) ，

(1)

其中，fshallow(·)表示卷积核大小为3×3的卷积层，其作用是从输入的低分辨率图像ILR中提取特征；xshallow是提取的特征图。为了尽可能轻量化网络，此处仅使用了一个卷积层。

完成特征提取后，利用由多个堆叠的自适应权重模块(AWB)组成的非线性映射网络来学习有足够表征能力的映射关系，该过程可表示为

(2)

其中，xn为第n个自适应权重模块输出的特征图。

最后，利用重建网络将特征上采样到指定的高分辨率图像大小。参考PAN[29]方法，重建网络由两个带有像素级注意力机制的上采样块(Upsampling block with Pixel Attention，U-PA)和一个3×3卷积层构成。在网络中同时引入了全局连接操作fbi对输入ILR执行双线性插值，将插值结果与重建网络的输出进行逐元素相加求和，最终可以得到：

ISR=frec(xn)+fbi(ILR) ，

(3)

其中，frec(·)表示重建网络，ISR是网络最终的输出结果。

1.2 自适应权重模块

自适应权重模块堆叠而成的非线性映射网络是LAWN网络的核心部分，也是网络中参数量占比最大的部分。自适应权重模块的结构如图2所示。与PAN方法不同，笔者提出的自适应权重模块包含3个分支：注意力分支、无注意力分支和自适应权重融合分支。其中注意力分支与无注意力分支分别使用1×1卷积层作为分支首层，记作fbranch(·)。假设xn-1和xn分别为第n个自适应权重模块的输入和输出，则对于给定输入特征xn-1，有

图2 自适应权重模块结构示意图

x′n-1=f′branch(xn-1) ，

(4)

x″n-1=f″branch(xn-1) ，

(5)

注意力分支包含两个3×3卷积层和一个1×1卷积层，其中在第1个3×3卷积层后加入了像素级注意力机制，该分支将x′n-1转换为x′n。而在无注意力分支中，为了尽可能保证原始的无注意力信息，仅使用一个3×3卷积层进行特征映射，使用一个1×1卷积层进行通道重组，以便与自适应权重融合分支进行权重融合。

像素级注意力机制可以为不同通道分配不同的权重，因此笔者为每个自适应权重模块都引入了注意力机制。但是并非所有注意力机制都可以提高网络性能[30]，网络中仍然存在一些无效的、多余的参数。为了进一步增强特征表达能力，受文献[31]的启发，笔者提出了自适应权重融合分支作为模块的第3分支，该分支利用加权求和分配注意力分支和无注意力分支的权重，自动舍去一些不重要的注意力特征以使两个分支达到自适应平衡。注意力分支的输出x′n和无注意力分支的输出x″n分别传入1×1卷积层提升通道数，然后乘以不同的权重λ1和λ2，并进行对应元素相加，最后传递到1×1卷积层输出，与自适应权重模块残差相加，得到最终特征xn。

自适应权重模块的框架受到了PAN方法的启发，而二者的不同之处在于，笔者提出的自适应权重模块利用1×1卷积层将两个分支输出特征(x′n与x″n)的通道数升至与xn-1相同的通道数；更为重要的是，利用自适应权重融合分支动态调整两个分支的权重占比，进一步提高了网络的表征能力，以上两点使得LAWN网络能够在只增加极少参数量的前提下将自适应权重机制融入模块内，提高了网络表示的泛化能力。

2 实验

为了验证笔者提出的基于自适应权重学习的轻量化超分辨率网络的重建性能，选用了DRRN[9]、IDN[26]、CARN[25]、IMDN[27]和PAN[29]这5种轻量化超分辨率重建方法进行对比实验。

实验中使用DIV2K[32]作为训练数据集，DIV2K数据集包括800张高质量的RGB训练图像。在测试中，使用Set5[33]、Set14[34]、BSD100[35]和Urban100[36]这4个数据集作为测试数据集。采用峰值信噪比(PSNR)和结构相似性(SSIM)[37]作为客观质量评价指标。所有值均在YCbCr通道中的Y通道上计算。

2.1 实验设置

在MATLAB中使用双3次插值对高分辨率图像进行下采样，同时使用90°、180°、270°旋转以及水平翻转进行数据增强，生成大小为64×64的低分辨率图像作为训练数据，batchsize设置为32，总迭代次数为1×106，使用Adam优化器对网络进行训练，参数分别为β1=0.9，β2=0.99，ε=10-8。初始学习率设置为1×10-3，每隔2×10-5次迭代衰减一半。硬件配置为Intel(R)Core(TM)i7-8700K CPU @ 3.70GHz处理器，GeForce RTX 3090显卡，32GB内存，实验是在Ubuntu18.04.5操作系统下进行的，运行库版本为CUDA 11.2，开发环境为Pytorch 1.8。

2.2 实验结果与分析

不同方法在Set5、Set14、BSD100和Urban100数据集上进行不同放大倍数重建结果的客观质量评价如表1所示，其中×2、×3和×4表示超分辨率重建的放大倍数分别为2倍、3倍和4倍。

从表1可以看出，笔者提出的LAWN方法在大多数数据集上的性能优于其他方法，尤其在Set5数据集上×2和×3时重建结果的峰值信噪比相较于排名第2的方法分别提升了0.03 dB和0.06 dB。虽然在×4时的重建结果与第2名基本保持一致或略有升降，但参数量仅有其65%，证明文中方法在性能和网络大小之间实现了更好的平衡。

表1 在Set5、Set14、BSD100和Urban100数据集上不同超分辨率重建方法的平均PSNR/SSIM

在主观质量评价方面，图3给出了不同方法对BSD100数据集中的图像58 060进行2倍超分辨率重建的结果，从图中可以看出，IDN、CARN、IMDN方法的重建结果无法正确重建出第3组黑条纹，PAN方法虽然可以重建出黑色条纹，但重建效果没有LAWN方法的重建效果清晰。图4给出了不同方法对Urban100中的图像062进行3倍超分辨率重建的结果。从图中可以看出，其他方法的重建结果会将窗户竖向边缘错误地重建为横向边缘，而LAWN可以正确地重建出窗户的边缘轮廓。图5给出了不同方法对Urban100中的图像093进行4倍超分辨率重建的结果，其他方法重建的图片会将横向条纹错误地重建为竖向条纹，而LAWN对条纹的重建结果最为准确，与原图接近。

图3 BSD100数据集中img_58 060的2倍超分辨率重建结果

图4 Urban100数据集中img_062的3倍超分辨率重建结果

3 结束语

针对主流超分辨率重建网络参数量过大而无法应用于移动终端等场景的问题，笔者提出了一种基于自适应权重学习的卷积神经网络，以实现精确且轻量化的超分辨率重建。笔者构建了一种自适应权重模块提取图像特征，使用注意力分支和无注意力分支提取不同信息，并设计自适应权重融合机制动态分配网络中两个分支的权重，从而在保证网络性能的前提下大幅度降低网络的参数量。实验表明，笔者所提出的方法相较其他主流轻量化超分辨率重建方法有明显优势。在后续研究中可以继续探索该网络在其他视觉任务中的应用。