APP下载

改进的生成对抗网络的超分辨率方法研究

2022-03-01朱煜君迟杏任志强张欣

智能计算机与应用 2022年1期
关键词:残差主观分辨率

朱煜君,迟杏,2,任志强,张欣

(1 贵州大学 大数据与信息工程学院,贵阳 550025;2 贵州装备职业技术学院 电气自动化系,贵阳 551499)

0 引言

分辨率是评价图像清晰度的重要指标之一,又可以分为显示分辨率与图像分辨率两种,本文研究的内容聚焦于图像分辨率。拥有高分辨率的图像能够给人们展示出更多的信息,使人能更快、更精准的定位所需要的部分,图像的超分辨率重建技术应运而生,即由单帧或序列的低分辨率(Low Resolution,LR)图像生成视觉效果更好的高分辨率图像(High Resolution,HR),在天文,医学影像等领域都有着广泛的应用。图像的超分辨率技术经历了几个重要的发展阶段:基于插值重建的方法,该方法简单、易操作,但重建后的图像较为模糊,且存在振铃效应,重建效果较差;基于深度学习的方法属于传统的机器学习领域,通过神经网络强大的特征提取和数据表示能力学习高分辨率图像与低分辨率图像之间的普遍差异与联系,构建出统计学模型,这种方法生成的高分辨图片的效果更好,方法更具有优势。2014 年,Dong 等提出基于卷积神经网络的图像超分辨率模型 SRCNN(Super-Resolution Convolutional Neural Network),通过在卷积层上进行特征映射得到超分辨率图像,但因其网络深度不够、特征感受野小等问题,当放大倍数过大时,造成的生成图像过于平滑;同年十月,由Goodfellow 等提出的生成对抗网络(Generative Adversarial Network,GAN),给基于学习的图像超分辨率技术提供了一种全新的思路;随后,Ledig 等将超分辨率重建技术与GAN 相结合,提出了基于生成对抗网络的图像超分辨率SRGAN(Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial),首次提出了内容损失加对抗损失的组合,提升了生成图像的真实感和感知相似性,具有较强的重建效率以及更好的重建效果。但SRGAN 同时也遗留着生成对抗网络训练难收敛,网络易崩溃等问题,本文针对此问题,分析原因后做出相应优化,稳定了训练过程,加快了收敛;针对生成器输出图像信息不稳定的情况,改进了生成器网络结构,提高了网络的特征表达能力;同时引入更适合超分辨率重建的损失函数,提升了重建后图像的视觉效果。实验证明,对比于原网络,相应评价指标明显增高。

1 生成对抗网络

1.1 GAN的模型理论

GAN的核心思想来源于博弈论中的纳什均衡,“博弈”双方是生成对抗网络的基本组成部分:生成器(Generator,G)与判别器(Discriminator,D)。“博弈”的内容是生成器通过学习输入的随机分布信息,进而学会伪造数据,再判别器对真实数据和生成的伪造数据进行判别。生成器会不断学习模仿真实数据的分布,而判别器就是不断的学习如何识别真假数据。双方不断的反馈、学习,优化过程就类似寻找二者之间的纳什均衡。

对于生成器而言,伪造出的数据越接近真实数据,表示生成器训练效果越好,当双方“博弈”达到动态均衡时取得最优解,此时的判别器已经无法辨别真实图像与生成器重建出的图像。

1.2 SRGAN的模型

SRGAN 借助GAN的思想,把GAN模型引入图像的超分辨率领域,将原高分辨图像通过下采样预处理后得到的低分辨率图像送入生成器,生成器会模仿并伪造出超分辨率图像,判别器为了区分原高分辨率图像与伪造的超分辨图像不断的学习优化,根据判别器的反馈结果不断更新,当判别器无法正确判别时,生成器训练完成。具体SRGAN 流程如图1 所示。

图1 SRGAN 网络流程Fig.1 SRGAN network flow

2 相应的改进

2.1 改进的网络结构

BN 层能一定程度上加速网络收敛,防止过拟合的出现,被广泛应用于图像分割、检测等领域,但由于BN 层做标准化(normalization)的目标是浅层特征上的每一位像素点,对于超分辨率重建任务而言,堆积过多的BN 层则会导致网络提取特征图像时原色彩分布被归一化,混淆了原始图像的对比度,不利于超分辨率图像的重建。通过进行对比实验,,将生成器网络残差块中的规范化层 BN(Batch Normalization)层删除,将原残差块中激活函数换成自适应能力更好的缩放指数型线性单元函数,残差块对比如图2 所示。

图2 残差块对比图Fig.2 Comparison of residual blocks

通过后续实验证明,使用函数的实际效果更为理想。16个改进后的残差块组成的深层残差网络模块利用其强大的特征提取能力,提取的特征信息通过由Sub-pixel Layer(亚像素卷积层)为主构造的上采样块将其恢复成放大倍数4 倍的超分辨图像,为了得到更好的拟合效果,将原输出激活函数替换成双曲正切曲线Tan函数,结构如图3 所示。

图3 改进后的生成器网络结构图Fig.3 The improved generator network structure diagram

2.2 改进的损失函数

原始的GAN 是用并不连续的散度去描述真实分布与生成分布之间的距离,其目标函数如公式(1):

其中,PP分别为真实图像分布与伪造图像分布,通过分析GAN 网络训练不稳定的因素,得知当PP的支撑集是高维空间中的低维流形(manifold)时,其重叠部分为0的概率为1;当这两者的分布并无重叠部分或重叠部分可忽略,则由公式(1)可知,此时的散度就恒为定值-2lg2,从梯度下降的角度来分析,此时梯度为0,出现梯度消失现象,生成器无法从判别器的反馈中学习。针对这个问题,本文使用距离来代替散度,用距离也称()距离来描述分布差异。距离的定义如式(2):

其中,P表示真实数据分布; P表示生成器生成的数据分布;∏(PP)是PP所有可能组合起来的联合分布。

穷举出所有的可能,从中找出最短的距离,此时GAN的优化目标就变成找出真实图像的分布与生成器生成图像分布的距离,并不断根据反馈优化这个目标,近似的由分类问题变成了回归问题。

网络损失函数L由内容损失L和对抗损失L两部分组成,如公式(3):

虽然损失函数具有较好收敛的特性,但因为其强大的约束力在图像的超分辨重建任务中对不同误差像素点的不均衡惩罚,即增大了对高误差像素点的惩罚,又对误差小的部分缺少相应的约束,使得生成的图像过于平滑,缺少细节。所以,本文换成对高频信息更加敏锐1 损失函数代替损失函数。具体如公式(4)所示。

得到原高分辨图像与生成器生成的图像之间逐个像素之间的1 距离,这里的为放大倍数,、分别为对应图像的长和宽。

3 实验结果分析

实验的硬件环境为CPU:Inter Xeon® W-2235处理器,GPU:RTX 2080Ti,运行内存为32 G。用Python3.6 作为本次实验的编程语言,以TensorFlow框架搭建环境。本次实验使用的是超分辨率领域经典的DIV2K 数据集,其中包含1 000张高质量图像(2分辨率),将其中800 张用来训练,100 张验证图像,最后100 张测试图像,再使用Set5,Set14 以及BSD100 数据集作为测试集来验证网络模型的性能。为证实本次实验的结果,通过与传统方法中较为经典的双三插值(Bicubic)法,基于学习的SRCNN、VDSR 网络以及原始的SRGAN 做比较与分析,本次实验是在重建放大倍数为4 倍的条件下进行,在训练模型之前,初始化生成器,并优先对生成器迭代100 轮,将开始的学习率初始化为0.000 1,衰减率为0.1,设置为16,一共迭代30 000 次,使用交替训练的方法更新生成器与判别器。

3.1 评价标准

本文所采用客观评价标准与主观评价标准。客观评价标准为峰值信噪比(Peak Signal to Noise Ratio,PSNR)与结构相似度(Structural Similarity,SSIM);主观评价使用平均主观意见分(Mean opinion score,MOS)。

峰值信噪比是使用最为普遍的一种图像客观评价指标,其原本是表示信号可能的最大功率和噪声功率的比值,但在用作图像的评价指标时是基于待做比较的图像之间对应像素点的差值来进行比较的。的基本单位是dB,越大则表示重建的图像越接近原图,即失真越小,定义式如公式(5):

其中,为原图像素的最大峰值,表示原图像与待比较图像之间的均方误差值。

结构相似度是从亮度、对比度和结构3个层面来衡量图像的相似性。对应公式(6)~(8)。

其中,μμ表示比较相似度的两张图像,的均值;σσ分别表示,的方差;σ表示,的协方差;,,均为常数。的定义为式(9)为:

定义在闭区间0~1 内,在这个区间内的值越大,表示图像失真越小。

3.2 客观结果分析

将实验结果分别在Set5,Set14 数据集和BSD100 数据集上进行验证,计算通过不同超分辨率方法重建出的超分辨率图像与真实高分辨率图像的和的平均值。通过对比发现,经过双三插值法重建后的图像相比与其他几种方法,无论是客观数据分析还是主观感受都较差,图像模糊严重,伪影较深,而运用深度学习的另外几种方法则体现出明显的优越性。本文所使用的方法在Set5,Set14和BSD100 验证集上的表现都强于同环境下的其他方法,其他各种方法在不同数据集上的表现各有优劣,其生成的图片在高频域即细节部分表现并不理想,同时生成的图像在与指标上明显比本文的方法差。综合Set5,Set14和BSD100 上的表现,本文所使用的方法较原SRGAN 网络在上提升1.8 dB,在上提升6%,也证明了本文所做改进的有效性,客观评价指数见表1,各超分辨方法重建效果图如图4~6 所示。

表1 客观评价指数对比表Tab.1 Comparison table of objective evaluation index

图4 不同超分辨率方法在测试图“comic”中的局部对比图Fig.4 The partial comparison diagram of different super-resolution methods in the test chart "comic"

图5 不同超分辨率方法在测试图“lenna”中的局部对比图Fig.5 The partial comparison diagram of different super-resolution methods in the test chart "lenna"

图6 不同超分辨率方法在测试图“baby”中的局部对比图Fig.6 Partial comparison of different super-resolution methods in the test chart "baby"

3.3 主观结果分析

主观评价标准采用平均主观意见分(Mean opinion score,MOS),即随机找30个无视觉障碍的正常人,让他们根据自己的主观视觉感受对使用不同超分辨率方法的测试图像进行评分,共有5个等级,从1~5 分主观视觉效果依次递增,统计后计算出平均分,见表2。

表2 主观评价对比表Tab.2 Comparison table of subjective evaluation

从主观评价来分析,经过双三插值法重建出的图像可以看到明显的方块模糊,在不同的测试集上SRCNN 与VDSR的表现各有优劣,但本文所使用的方法在主观真实感上都更强。经过多个对比,不论是从客观评价标准峰值信噪比与结构相似度上来说,还是从重建后的图主观意见得分(MOS)来分析,本文所使用的方法都被证实是最优的。

3.4 对比实验分析

为探究在生成器网络中BN 层以及相关激活函数对超分辨重建效果的影响,本文做出对比实验,验证结果,对比试验结果见表3。

表3 关于生成器改进的对比实验Tab.3 Comparative experiment on generator improvement

4 结束语

通过研究SRGAN 网络中存在诸多的问题,本文针对GAN 网络收敛困难,模型易崩溃的问题,引入距离来代替散度,优化对抗损失;通过实验证明了去除生成器残差块中繁杂的BN 层,引入激活函数,提升了重建图像的精度,稳定了网络收敛;引入1 损失函数代替原损失,增加了生成图像的主观视觉效果,增加了图像高频信息的重建。通过对比实验,证明了本文所使用的方法是优于原网络的。接下来作者将继续实验探究基于GAN 网络的图像超分辨重建的方法,从分析判别器网络结构,弥补重建过程中损失的高频信息入手,通过实验找出一种更具有效率的超分辨重建的方法。

猜你喜欢

残差主观分辨率
多级计分测验中基于残差统计量的被试拟合研究*
用于处理不努力作答的标准化残差系列方法和混合多层模型法的比较*
我国科学家发明计算超分辨图像重建算法拓展荧光显微镜分辨率极限
后印象
有主观小量倾向的“数+量/名+之+形/动”格式
挣多少钱,才可以买到快乐
对立与存在
ARM发布显示控制器新品重点强化对分辨率的支持
测量数据的残差分析法
连续型过程的二元残差T2控制图