APP下载

基于多级Transformer的超大倍率重建网络:参考图像超分辨率

2022-08-18周登文

计算机与现代化 2022年8期
关键词:倍率纹理修正

陈 彤,周登文

(华北电力大学控制与计算机工程学院,北京 102206)

0 引 言

图像超分辨率[1](Super-Resolution, SR)是从一个低分辨率图像[2](Low-Resolution, LR)重建其对应高分辨率(High-Resolution, HR)图像,它应用十分广泛。SR的研究已有很长的历史,当前大多研究集中于单图像超分辨率(Single Image Super-Resolution, SISR)。近年来,提出的基于参考(Ref)图像的SR方法(Reference-based image Super-Resolution, RefSR)[3-8]用相似的高分辨率图像作为Ref,从Ref图像中将相似纹理补充到LR中以恢复丢失的相关信息,打破了SISR的性能瓶颈。

Transformer是一种基于自注意力机制的深度神经网络,最初是在自然语言处理领域中应用。受到Transformer强大表征能力的启发,Yang等人[3]提出了TTSR(Texture Transformer Network for Image Super-Resolution),首次将Transformer引入RefSR,取得显著的性能提升。当图像4×,丢失的信息超过93%,在超大尺度8×、16×甚至32×时,信息几乎完全丢失,如此倍率下恢复图像是一个极具挑战的任务,RefSR正好弥补了这个缺陷。Zhang等人[4]在艺术画作修复中首次将RefSR方法扩展到8×和16×,弥补了超大倍率RefSR的缺失,目前是8×和16×RefSR中的SOTA(state-of-the-art)。本文主要利用Transformer和Ref图像解决超大倍率(例如8×、16×、32×)下SR问题,提出多Transfomer的超大倍率网络(Multistage-Transformer Limit-Factor network, MTLF)。

本文主要贡献包括:1)MTLF在超大倍率下优于SOTA方法。8×和16×超过目前RefSR的SOTA[4]大约1.24 dB和1.35 dB。且MTLF首次开拓RefSR方法至32×并取得不错的性能。2)在超大尺度这一背景下,利用多级Transformer提取相似的纹理进行融合,使RefSR性能得到巨大提升。3)对于多级Transformer得到的不同倍率注意力,提出注意力修正模块,利用更高频的注意力去修正低频注意力,使超大倍率下合成的SR纹理更清晰。4)MTLF具有很强的鲁棒性,即使Ref不相似也能取得很好的性能。

1 相关工作

1.1 单图像超分辨率

Dong等人[5]提出了第一个基于卷积神经网络(Convolutional Neural Network,CNN)的SISR方法SRCNN(Super-Resolution Convolutional Neural Network),之后各种各样的结构[6-10]改善了SISR性能。对于超大倍率,Lai等人[11]提出了多阶段拉普拉斯网络重建子带残差,同时Zhang等人[12]提出RCAN(Image Super-Resolution Using Very Deep Residual Channel Attention Network)网络使用注意力机制尝试解决大倍率问题。但是由于8×、16×甚至32×等超大倍率下信息几乎完全丢失又没有额外信息补充,且难以捕捉长距离的特征造成SISR很难有效恢复。

1.2 基于参考图像的超分辨率

随着深度神经网络的兴起,RefSR的性能也越来越强,Zhang等人[13]提出基于特征块合成的方法SRNTT(Super-Resolution by Neural Texture Transfer),打破了SISR的性能瓶颈,Yan等人[14]提出CIMR-SR(Content Independent Multi-Reference Super-Resolution)方法,建立一个通用Ref资源池,单建立Ref资源池的方法需要消耗大量的存储资源。Xie[15]提出E2ENT(End-to-End Learning for Reference-based Image Super-resolution)从端到端的反向传播上解决对Ref依赖的问题,实现更精准的搜索性能。但这些方法都是直接将特征块转移至LR,造成错误的纹理合成。Shim等人[16]提出了SSEN(Similarity Search and Extraction Network),采用可变形卷积搜索最相似的纹理特征,这在一定程度上缓解了局部相似特征的限制,扩大了相似特征的搜索范围。最近Yang等人[3]提出TTSR采用纹理Transformer将相似特征的搜索范围直接扩大到全局,有效地解决了相似特征长依赖问题。以上都是在较低倍率,而Zhang等人提出了进行艺术画作修复,首次将Ref方法应用到大倍率下(8×,16×),取得目前大倍率下SOTA性能。本文受到TTSR的启发,采用一种新颖的多级Transformer提取相似特征进行更精确的重建,极大地超越文献[4],并首次将RefSR方法扩展到极限倍率32×。

1.3 Transformer

Transformer最初应用于自然语言处理任务。Transformer的引进使计算机视觉有了显著的提高。除HLV(High-Level Vision)任务,很少有研究将Transformer应用于LLV(Low-Level Vision)。Parmar等人[17]首次将Transformer扩展到LLV,提出Image Transformer模型来制定像素级别图像转换和生成。Yang等人提出Transformer网络TTSR,为首个Transformer的SR模型。本文主要利用Transformer和Ref图像的额外信息解决超大倍率问题,多级Transformer实现更精确的重建效果,Ref对超大倍率丢失的信息加以补充。

2 方 法

MTLF细节如图1所示,其中MTFM输出逐级放大的相似特征和注意力,8×注意力经过CAC模块修正。主体网络采用逐级放大的方式,最终上采样多个尺度特征并融合成SR。利用多级Transformer特征匹配模块(Multistage-Transformer Feature Match module,MTFM)提取相似特征和注意力,且部分注意力经过跨级注意力修正模块(Cross-level Attention Correction module, CAC)能更精确地重建SR,由于篇幅原因,本文以16×为例,其中8×只需要切掉16×尾部,而32×只需要再接一个32×尾部。

图1 MTLF的整体框架

2.1 网络架构

上采样16倍的LR↑,下/上采样16倍的高分辨率Ref↓↑和原始高分辨率Ref图像作为MTFM模块的输入,其中对Ref图像进行下/上采样是为了模拟LR↑的下采样。MTFM内由多级Transformer堆叠在一起(如图2),输出5种(1×,2×,4×,8×,16×)不同倍率的相似特征和注意力。为了使多级Transfomer之间交互信息,本文提出CAC模块修正注意力,详细在2.3节。受HRNet[18]启发本文利用相同的多倍率特征融合模块(Cross-Scale Feature Integration module, CSFI)交互多个倍率相似特征。CFSI模块之间由RBs组成,能更快地收敛和保留高频特征。由于MTLF的目的是解决大倍率下RefSR重建精度不佳的问题,相似特征经过多次提取已经足够抽象,过多的RBs反而会导致性能下降,RBs中具体残差块数量分别为16、8、4、4、4、4。

其中MTFM输出的注意力权重Wi和特征Ti在CSFI模块中融合,Fi-1为上一级特征,如公式(1):

Fi=Fi-1+Conv(Concat(Fi,Ti))⊙Wi

(1)

2.2 多级Transformer模块

Transformer被证明在SR领域有不错的表现,但TTSR[3]中单独Transformer会因为倍率太大导致匹配的特征不够准确。MTFM模块是多级Transformer连接的形式,目的在于多级连接会减少倍率太大的影响。下面详细介绍多级Transformer。

Transformer在LR↑和Ref↓↑中匹配相似特征时极大地消耗GPU显存,因为Transformer需要搜索整个Ref↓↑图像以找出Ref↓↑中相对于LR↑每个像素最相似的特征。Zhang等人也遇到类似的问题,他们采取一种下采样的方式降低对显存的依赖,但这种方式在大倍率时匹配精度不高。受DenseNet[19]启发,本文提出MTFM模块,采取多级连接方式堆叠Transformer(如图2)提高相似纹理匹配的准确性。

先根据放大倍率S定义L层数,这里S=2L:

L=log2S

(2)

利用低倍率特征(比如1×、2×)指导高倍率特征(4×、8×)的搜索和匹配。这里定义多级跨度d为2表示跨2级倍率。假设需要的相似特征在第L层,就用L-2层上的LR↑图像和Ref↓↑图像进行特征搜索和匹配,如图2和公式(3)所示:

ML-2=HL-2(φL-2(ILR↑),φL-2(IRef↓↑))

(3)

其中,HL-2(·)表示在倍率L-2上的匹配操作,匹配操作依靠Transformer完成,其中ML-2包含L-2倍率上最相似特征在原始Ref图像中的索引和注意力权重。而φL-2(·)表示提取特征操作,对Ref↓↑使用φL-2(·)相同的操作,然后使用匹配到的ML-2直接从Ref提取L-2倍率上最相似特征T和注意力A并直接上采样d倍至L倍率,如公式(4)所示:

TL,AL=HL-2(φL-2(IRef),ML-2)↑

(4)

Transformer的输出一是目标倍率L的输出,一是低倍率L-2的输出。如图2最上面Transformer中T2和A2的巨量计算被T0和A0所代替,T2和A2需要计算的Ref↓↑大小为40×40,而采用T0和A0减少到10×10,减少了93%计算量。同理最下面Tansformer中T4和A4的巨量计算被T2和A2代替同样减少了93%。当多级跨度d为3时,T0和A0会替代T3和A3的计算,计算量减少98%。多级Transformer既解决了原始倍率下GPU显存不够,也解决了单Transformer重建不够精确的问题。

图2 左为降尺度方式图,右为多级Transformer堆叠细节图

2.3 跨级注意力修正模块

Transfomer包含注意力机制,权重越高说明相似度越高,权重越低说明相似度越低。正如2.2节所言,多级Transformer之间包含的信息不同,为更好融合多级Transformer之间的信息,本文提出跨级注意力修正模块利用更高频细节信息修正AL。如图3所示,A3由A2上采样2倍得到。利用更高频注意力信息A1修正A3。因为A2与T2大小相同且由同一个Transformer得到,大小为40×40。A2上采样2倍A3大小为80×80。同时利用更高频的信息(上采样2倍的A1)修正A3。受到空洞卷积[20]启发,本文提出CAC模块。CAC模块从相邻注意力权重引入更精准权重值Ai-2替代Ai↑,W3由A1和A2通过CAC模块计算而来。具体来说,8×是由前一级4×放大而来,经过前2级2×的修正能得到更精准注意力值,其中2×和4×均为准确值。而16×前一级为8×,其本身是估计值,并不适合再使用4×修正。放大倍率进一步变化,CAC模块会直接作用到d-1级倍率。这种注意力修正的方法使MTFM从Ref图像中提取的相似特征在转移时更为精准,改善了注意力机制在大尺度RefSR中的使用,提高了SR的重建质量。

图3 跨级修正注意力模块示意图

3 实 验

3.1 设置

为了公平评估MTLF,采用RefSR方法共同使用的CUFED5数据集[5],训练子集包含13761个配对图像。测试子集含126组样本,每组测试样本包含一个HR和4个相似级从高到低的L1、L2、L3和L4参考图像。测试阶段所有彩色图像均转换到YCbCr[21]颜色空间中Y通道[22]计算PSNR[23]和SSIM[24]。在训练过程中采取RefSR相同的设置:随机水平翻转和随机垂直90°、180°和270°旋转增强训练图像。λrec,λadv和λper分别为1、10-3和10-2。Adam优化器[25]β1和β2分别为0.9和0.999,ε=10-8且初始学习率为10-4。

3.2 模型分析

对比的模型分别选择性能最好的SISR和RefSR方法。SISR方法包含最基本的Bicubic插值,EDSR(Enhanced Deep Residual Network for Single Image Super-Resolution)[26]、RCAN[16]和SRGAN(Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network)[27]。其中RCAN在SISR方法为PSNR(Peak Single-to-Noise Ratio)上SOTA且能直接放大至8×,EDSR和SRGAN分别为主流SR和视觉性能代表。除RCAN可以直接8×,其他都不能放大8×和16×,本文采取一些措施去保证公正的对比:在8×放大,先利用RCAN将LR放大至2×大小(保证SOTA性能),中间结果会被输入EDSR和SRGAN中。同理在16×和32×放大中,也是利用RCAN先放大至4×和8×大小,然后进一步放大至所需的目标。对于主流方法SRNTT,本文直接改造使其能直接适用于8×、16×和32×放大。

3.2.1 量化分析

表1可以看出MTLF的PSNR和SSIM(Structural SIMilarity)明显高于RefSR中SOTA方法[4],其中数据均摘自各原论文。这里有个有趣的现象:在MTLF提出之前,SISR比RefSR方法获得更高的PSNR和SSIM。这是因为SISR方法主要利用MSE损失,MSE损失会追求更高PSNR值,而RefSR搜索和匹配过程中搜索到的特征相似程度不够会降低PSNR。MTLF多Transformer可以更精准转移Ref图像中相似纹理特征。

8×时SISR最高为23.37 dB(RCAN),RefSR中最高的是文献[4]为22.40 dB。MTLF提出之后,8×超文献[4](SOTA)1.24 dB,16×超1.35 dB,表1为各种方法在CUFED5[5]下8×、16×、32×PSNR和SSIM值。分为2个类别:SISR(前4个)和RefSR。最好结果与次好结果用粗体和斜体标出。Lrec表示仅使用L1损失。可以看出MTLF在PSNR和SSIM都具有优秀性能。MTLF也是首个应用于极限尺度32×的RefSR方法,为了进一步探索MTLF在32×的性能,由于SISR在32×的性能已经无法有效复原并且文献[4]没有开源,所以这里依旧选择对比主流RefSR方法SRNTT,可以看出MTLF在32×下性能领先。

表1 各种方法在CUFED5下8×、16×、32×PSNR和SSIM值

3.2.2 视觉分析

低倍率下SISR方法可以在一定程度上恢复纹理细节,但是在超大尺度下信息几乎已经完全丢失,尺度继续增大会造成严重的模糊效果。目前RefSR方法补充大量额外信息且使用多种损失函数(比如:纹理、感知和对抗损失)在视觉效果上已经超越主流SISR方法,为了节约篇幅本文只比较RefSR方法。由于在RefSR方法中只有SRNTT可以开源获取并且其最具代表性,其余没有复现条件(文献[4]的数据集未公开)。图4比较了在8×和16×倍率下的视觉效果。8×下可以清晰地看出MTLF比SRNTT更清晰并且细节纹理更明显。16×下,整体视觉效果明显,特别是树叶的纹理更清晰,虽然还有很多模糊的地方,但已经比之前的方法好许多。

图4 MTLF和其他Ref方法在8×和16×视觉效果对比:

从左到右分别是HR,Ref(最相似),HR块和SRNTT,MTLF对应的SR。可以看出MTLF的纹理细节更多更逼真。

3.2.3 MTFM模块存在的影响

MTFM模块既有效减少对GPU显存的依赖,也提升特征匹配的准确度,这里验证MTFM有效性。没有MTFM模块时,16×的特征搜索匹配和转移全部在1×倍率,如表2所示。移除MTFM之后,由于倍率太大所以8×有MTFM提升0.09 dB,16×有MTFM增加0.16 dB,32×有MTFM增加0.13 dB。可以看出多级MTFM模块对MTLF有明显提升。

表2 MTFM模块对重建性能的影响

3.2.4 MTFM模块多级跨度d的影响

探究MTFM中多级跨度d对性能的影响,对比L=log2S和L=log3S性能差距。通过表3可以看出多级跨度d越小性能提升越大,因为d越小丢失的信息越少,相似度就高,能转移更精准的特征。当多级跨尺度d为1时,退化成原特征进行搜索匹配。跨尺度d为3时,丢失的信息变大会导致相似特征不准确。由于L=log4S特征匹配模型已经退化为无MTFM情形,数据参考表2。d等于2时,相似特征更精确,可以在有限资源下取得不错的性能。

表3 MTFM对重建性能的影响

3.2.5 CAC模块的影响

CAC模块的目的在于修正多级Transformer之间的信息,用更高频注意力权值修正较低频权值。为了验证CAC模块对MTLF的影响,本文在8×和16×还有32×模型上进行对比实验。可以看出CAC模块对MTLF有着不错的提升。

由于CAC在上采样中用更高频注意力权重进行修正,这样可以很好地增强纹理。从表4可以看出CAC模块对MTLF有效。

表4 CAC对重建性能的影响

4 结束语

本文提出了一个适用于超大倍率下基于参考图像的超分辨率方法MTLF,该方法利用多级Transformer特征在超大倍率例如8×和16×下超越SOTA[4]。同时首次应用在32×倍率并取得了优异的性能。多级Transformer特征使超大倍率下重建的性能得到了巨大的提升,并且在跨级注意力修正模块CAC的帮助下可以实现更精确的重建效果,最后合成最终SR。在对比了目前超大尺度SOTA[4]和大量的对比实验之后验证了MTLF有着不错的性能。

猜你喜欢

倍率纹理修正
Some new thoughts of definitions of terms of sedimentary facies: Based on Miall's paper(1985)
修正这一天
数控机床进给倍率修调的实现
倍率控制下的机器人轨迹生成算法
基于BM3D的复杂纹理区域图像去噪
使用纹理叠加添加艺术画特效
TEXTURE ON TEXTURE质地上的纹理
软件修正
多用电表的内阻与档位关系
高功率钛酸锂电池倍率及低温性能研究