基于深度学习的单幅图像超分辨率重建算法综述

2023-06-04曹春阳徐晨光邓承志

黑龙江科学 2023年8期

胡诚,曹春阳,徐晨光,邓承志

(江西省水信息协同感知与智能处理重点实验室,南昌 330099)

0 引言

单幅图像超分重建算法是视觉任务中图像处理技术的研究热点,快速有效地获取高质量的HR图像是其在实际应用中发挥作用的重要前提。深度学习技术是不断创新网络结构及学习机制,实现复杂事务处理自动化,更加智能、出色地完成现实任务。近年来,基于深度学习的图像超分算法不断改进,网络模型泛化能力和目标图像重建效果远优于传统算法,具有良好的应用价值。超分辨率重建技术(Super-resolution,SR)是从硬件升级或改进软件角度使原始图像分辨率有所提高的技术总称,即由一幅或多幅模糊却相似的低分辨率(Low Resolution,LR)退化图像利用相应的算法,重建出一幅或多幅清晰的高分辨率图像(High Resolution,HR)[1]。图像超分技术的理论基础是由时间序列长度获得空间精细程度,采集多张相同情景下的图像来提升空间分辨率。常用的基于深度学习的图像超分网络包括卷积神经网络、深度残差网络及生成式对抗网络等。综述了浅层直连、残差学习及博弈思想下的几种经典算法,并进行了实验对比。

1 基于深度学习的超分模型

1.1 基于直接连接的网络模型

SRCNN(Super-Resolution convolutional neural network)是超分技术在深度学习领域的第一次尝试,由Dong[2]等参考稀疏编码的理念设计而来,网络结构十分简单,是一个仅包含三层卷积层的浅层网络超分模型。该模型是典型的直连结构,采用双三次(bicubic)插值预处理方式,将原始图像放大至目标尺寸,通过三次卷积核大小不同的卷积操作,实现低分辨率图像到高分辨率图像端到端的映射。三次卷积操作分别解释为图像块提取与特征表示、特征非线性映射及图像重建。使用均方误差作为损失函数训练网络,相比于传统的稀疏表示超分方法,在重建质量和运算速度上具有一定的优越性。

基于网络训练过程中内存消耗、计算量大小及模型收敛速度等因素的考量,Dong[2]在SRCNN网络模型末端加设反卷积层来实现上采样操作,并于非线性映射部分采用更小的卷积核与更深的网络设计,提出了FSRCNN模型,减小计算量的同时加快了训练时间,模型性能有所提升。2016年,Shi[3]等根据像素重新排列组合思想,提出了ESPCN(Efficient Sub-Pixel CNN)模型,将在低分辨率图像上进行卷积操作提取出来的特征图输入到亚像素卷积层,经过通道重新排列组合得到高分辨率图像。这种像素重组法是一种新的插值方式,通过网络训练学习得到LR-HR之间的映射关系并隐含在前面的卷积层中,为实现多尺度图像超分提供了一种新的思路。

1.2 基于残差学习的网络模型

网络深度不断增加,越深层次的网络层拥有的感受野不断增大,对上下文信息的利用率更高,具有更好的特征学习能力。网络参数也逐渐增多,训练难度加大,模型难以收敛导致性能不升反降。在图像超分问题上,原始的低分辨率图像与重构的高分辨率图像之间的相似部分占比很高,即LR图像与HR图像之间包含大量相同的低频信息,因此网络只需学习高、低分辨率图像之间的高频残差部分,在一定程度上减小了训练难度[4]。

Kim[5]等把残差学习运用到解决图像超分问题中提出了一个20层的网络模型VDSR(Very Deep CNN for SR),将预处理低分辨率图像输入网络,经学习得到的残差再与其相加,重构出最终的高分辨率图像。残差连接很好地解决了深度网络中的“退化”问题,外加自适应梯度裁剪策略(Adjustable Gradient Clipping)的应用,在加快模型收敛速度的同时,最大限度抑制了梯度消失或爆炸,创新性地提出了对不同放大倍数图像进行混合训练,以实现多尺度图像超分。SRResNet在VDSR全局残差思想的基础上通过堆叠多个残差块来学习图像的局部细节,提高了模型深度和精度。Lim[6]等在SRResNet模型结构上去除了残差块中的批量归一化处理,提出网络模型EDSR(Enhanced Deep Residual Network for SR),在相同的计算资源下可以扩展网络模型规模,以提升性能。

为了加强层间信息传递,DRCN(Deep Recursive CNN)[7]借鉴递归神经网络的思想,利用全局残差学习,共享递归层间参数。受DRCN的启发,Tai[8]等将局部残差学习、全局残差学习及多权重递归学习相结合,提出DRRN模型,其具有规模更大、计算更为复杂的52层网络结构。除了递归学习以外,基于密集连接的SRDenseNet、RDN(Residual Dense Network for SR)等网络模型日新月异,这类网络由一系列密集残差块串联组成,充分利用各层级获得的高频局部特征进行全局信息融合重构HR图像,在实际视觉环境下,为了区分一幅图像不同通道特征的重要性,将通道注意力机制引入到400层的残差网络模型RCAN(Residual Channel Attention Networks)中,为每个残差块都加入了通道注意力机制,对通道之间特征的重要程度进行自适应学习划分,相当于为各通道特征赋予大小不同的权重,合理利用了特征通道,减小了计算资源的浪费。RCAN采用RIR(Residual In Residual)结构来降低网络训练难度,通过跳跃连接学习粗粒度残差信息稳定训练过程,在一定程度上提升了模型的特征学习能力。

1.3 基于GAN的网络模型

解决图像超分问题时采用均方误差作为损失函数训练出来的网络模型,重建的高分辨率图像往往会丢失部分高频细节,虽然能够获得较高的峰值信噪比,但人的视觉感受并不是很好。生成对抗网络(Generative Adversarial Network,GAN)是一种生成模型,其核心思想是两个深层网络相互博弈、交替优化,进而达到某种平衡,在图像合成、图像修补及草稿复原等领域有着良好的表现。

SRGAN是Ledig在图像超分领域GAN的初次尝试,模型分为生成器和判别器两个对立模块,生成器对原始图像添加随机噪声,合成出尽可能真实的高分辨率图像,判别器则负责辨别输入图像是来源于生成网络还是真实图像。两个深层网络经过联合训练,博弈达到纳什平衡时,即判别器无法判断图像真伪时,就可认为生成网络具有合成高质量SR图像的能力。SRGAN重构出的图像虽然没有获得很高的PSNR值,但其视觉感知效果更为真实,在重建图像高频细节的方向上取得了一定的进步。

2 实验方案

2.1 图像质量客观评价指标

图像质量的客观评价指标通常采用峰值信噪比(PSNR)和结构相似度(SSIM)两个指标。PSNR是原图像与输出图像之间的均方误差相对于(2^n-1)^2的对数值,单位为分贝(db)。SSIM是一种衡量两幅图像相似度的指标,结合图像的整体结构、亮度及对比度3个模块信息来估计重建图像的失真程度[9]。

实验环境配置参数如表1所示。

表1 实验环境配置参数Tab.1 Parameters of experimental environment configuration

2.2 实验过程与结果分析

在公开数据集Set5、Set14、BSD100下分别对几种基于深度学习的图像超分模型进行客观实验及比较分析。由表2可知,传统方法的代表(Bicubic)耗时最短,但图像高频部分难以重建,图像失真较为严重,而神经网络的特征学习可解决这个问题,随着网络层数的加深与残差学习及博弈优化策略的引入,重建效果越来越好。VDSR与DRCN取得了较高的PSNR和SSIM值,均超过31 dB,SRGAN在这两个指标上稍弱,只有29.90 dB,但其改进了损失函数,通过对抗训练在视觉上重构出更加真实、更贴近人类视觉感受的图像。

表2 实验数据Tab.2 Experimental data

综上所述,基于深度学习的方法在SISR问题上具有优势,列举的算法中DRCN的性能最优,但在时间与感官效果上还有待提高。

3 展望

图像超分是计算机视觉研究方向上的重要分支,对其他交叉领域的研究具有良好的推动作用。目前,技术重难点由传统算法走向深度学习,网络模型不断迭代更新,算法性能不断提升,人类感官效果越来越好。但基于深度学习的图像超分技术仍存在一些问题,包括数据集、网络模型适应性与损失函数及学习机制创新问题等,需要继续加强研究。