APP下载

基于GAN的图像超分辨率方法研究

2019-07-08王旺徐俊武

软件导刊 2019年6期
关键词:深度学习

王旺 徐俊武

摘 要:图像超分辨率是一种采用软件算法提高图像空间分辨率的技术,由于传统超分辨率方法超清程度有限,基于深度学习的图像超分辨率方法成为研究者们近年来的研究重点。基于生成对抗网络(GAN)的图像超分辨率方法,在其网络模型结构基础上增加批处理归一化(BN)层以提升网络收敛速度、加强网络训练稳定性,更改上采样层网络并对损失函数作相应修改。在网络训练过程中,选择当前比较通用的Adam优化器。实验结果表明,该方法具有很好的超分辨率图像重建能力,且在训练过程中训练稳定性得到提升,收敛速度也有所加快。

关键词:超分辨率;生成对抗网络;深度学习;图像重建

DOI:10. 11907/rjdk. 182450

中图分类号:TP317.4

文献标识码:A文章编号:1672-7800(2019)006-0181-03

Abstract:Image super-resolution is a technology that uses software algorithms to improve the spatial resolution of images. The traditional super-resolution methods can not avoid the limitation of blur or super-resolution. Image super-resolution method based on deep learning has become the focus of researchers. Generative adversarial networks (GAN) are the hottest deep neural networks in recent years. This paper explores the method based on GAN. The super-resolution method which increases the use range of batch normalization and modifies the up-sampling method, also modifies and optimizes the loss function and its optimizer selection, optimizes the training instability of the image super-resolution method based on GAN and greatly enhances the stability. The optimized method is still very good. Excellent images and super resolution capability verified the features in an experimental way.

Key Words:super-resolution; generative adversarial network; deep learning; image reconstruction

0 引言

圖像超分辨率(Super Resolution,SR)是将低分辨率(Low Resolution,LR)图像通过一定算法提升到高分辨率(High Resolution,HR)[1]的技术。图像超分辨率技术可应用于许多重要领域,例如:卫星图像要求为高分辨图像,以便地面中心能更好地识别出相关信息;某些检测识别控制装置也需要分辨率较高的图像,以保证分类精确度;在医学领域,高分辨率图像是重要的疾病判断依据[2]。

图像超分辨重建技术于20世纪60年代由Harris[3]首次提出,传统图像超分辨率方法有基于插值的方法、基于重建的方法与基于学习的方法[4]。其中基于插值的方法具有最简单的计算过程与最低计算复杂度,经典方法包括最近邻插值[5]、双线性插值[6]和双三次插值[7];基于重建的方法也称为基于模型的方法,通常分为建模与重建两个步骤,经典方法包括迭代反投影法[8]、凸集投影法[9]与最大后验概率估计法[10-11];传统基于学习的方法是基于浅层网络的学习方法,主要包括基于流行学习[12]的方法与基于稀疏表示[13]的方法。

Dong[14]最早提出基于深度网络学习的方法,基于卷积神经网络的图像超分辨率方法(SRCNN)首次使用深度学习解决图像超分辨率问题,之后不断有学者对其进行优化与改进。本文主要研究基于生成对抗网络(GAN)的图像超分辨率方法。

1 网络模型设计

1.1 生成对抗网络

生成对抗网络(Generative Adversarial Networks,GAN)是Goodfellow等[15]在2014年提出的一种生成模型,其是在深度学习生成模型基础上发展而来的。它在网络结构上除生成网络外,还包含一个判别网络。生成网络与判别网络之间是一种对抗关系[16]。

以图像超分辨问题为例,在解决该问题过程中,生成网络要将模糊的低分辨率图像作为输入,并输出一个高分辨率的清晰图像。判别网络则要判断输入图像是真实图像还是生成网络生成的图像,生成网络得到判别网络的反馈之后继续进行图像生成,直到判别网络无法准确区分真实图像与生成图像,即达到理想的纳什均衡状态。

1.2 网络模型设计与优化

在基于GAN的图像超分辨率方法(SRGAN)中,网络模型分为生成网络模型和判别网络模型。

1.2.1 生成网络模型

原SRGAN方法的生成网络模型结构如图1所示,其中每种色块表示一层网络,相同网络使用相同颜色。在其网络模型中,基本结构是先输入一张LR图像,使用激活函数ReLU接入一层卷积层进行特征提取;之后接入5个残差网络[18-19]模块(Residual Networks Blocks)。在图1中可以看出每个残差网络模块的内部结构,每个模块使用两个卷积层及两个批量归一化层[20]。残差网络最重要的结构是跳跃连接(skip connection),通过该方式可以保持梯度,避免网络退化问题;在残差块之后使用两个上采样层,通过亚像素卷积层[17]实现上采样操作,每层放大2倍,总共实现放大4倍的效果;最后通过一层卷积将通道数降为RGB通道,输出最终图像。

由于GAN网络本身存在的缺陷,在实现过程中很难达到最理想状态,也即纳什均衡状态,具体表现为其在训练中十分不稳定,计算损失时高时低,而且训练最终也不一定能达到最低点,收敛不是很彻底,并且还可能出现模式崩溃(model collapse)问题,导致训练效果非常差,即使增加训练时间也无法改善,在SRGAN中也存在类似问题。本文主要优化项包括:①使用转置卷积[20]替换亚像素卷积进行上采样,亚像素卷积虽然被称为卷积,实际上没有卷积操作,而卷积在提取图像特征方面发挥着重要作用,所以使用转置卷积进行上采样会达到更好的效果;②由于BN层可起到很好的提升收敛速度、稳定网络训练效果的作用,本文在每一层卷积之后都使用BN层进行归一化处理;③将生成网络输出层的激活函数改为Tanh函数。

1.2.2 判别网络模型

判别网络相当于一个特征提取模块,激活函数选用leak ReLU函数,可以防止梯度稀疏,总共执行4次卷积运算。除在输入层之后不添加BN层外,在之后的三层卷积之后都添加BN层,最后卷积降维到1,接入sigmoid激活函数,输出对输入图像的判断结果。其中leaky ReLU函数斜率设置为0.2。网络结构如图2所示。

1.2.3 损失函数设计与优化

在传统深度学习的图像超分辨率方法中,使用的损失函数大多是MSE,但是使用该函数在图像放大倍数为4倍时,生成的图像会显得过于平滑而缺少一些细节上的真实感。在本文的优化方法中,对生成网络定义的损失函数采用GAN网络的通用方法,其损失函数除生成过程本身造成的重建损失外,还有通过判别网络反馈的对抗损失,从而有效提升了最终生成的图像效果。

2 实验设计

本实验使用的硬件配置为:CPU i7 6700,16G内存,GTX970m显卡;软件环境为:Tensorflow 1.4,python 3.6。实验采用训练集为DIV2K数据集,这是一种用于图像复原任务的高质量(2K分辨率)图像数据集。

本实验评价标准分为主观评价与客观评价,其中主观评价是从视觉效果上感受图像细节清晰程度,客观评价是通过计算原图像与生成图像的PSNR(Peak Signal-to-Noise Ratio)和SSIM(Structure Similarity Index)指标进行评价。其中PSNR是最常用的图像质量评估指标,SSIM主要用来衡量图像结构完整性。这两个值越高,代表重建结果的像素值与标准越接近。

2.1 实验方法

在图像集中选取一张测试图像进行1/4倍降采样处理,将其作为输入的低分辨率图像,然后通过SRGAN方法生成高清图像。同时,本实验还将低清图像采用双三次插值法进行重建,并与生成图像的超分辨率效果进行对比。

2.2 实验结果分析

图3分别展示了通过插值法生成的高清图像、通过SRGAN方法生成的高清图像与原始高清图像。从重建效果来看,插值法虽然在尺寸上与跟高清图像一致,但其在视觉效果上非常模糊,图像细节不清晰,边缘也不够锐利,而SRGAN方法生成的图像则视觉效果较好。根据表1中的数据,从客观评价来看,SRGAN生成图像的PSNR与SSIM值也比传统插值法高。因此,实验从主观与客观两方面都验证了SRGAN确实具有较好的超分辨率图像重建能力,并且生成图像的视觉效果优于传统方法。

3 结语

本文通过对生成对抗网络进行研究,对其生成网络与判别网络模型进行深入探索,然后对基于GAN的图像超分辨率方法进行优化,通过添加BN层提升网络的训练稳定性与收敛速度,修改上采样层网络以提升网络超分辨率重建能力与生成图像效果,并修改损失函数和优化器,加强网络训练与输出。最后实验验证结果表明,优化后的方法具有良好的超分辨率图像重建能力,生成的图像效果十分优异。

参考文献:

[1] PARK S C,MIN K P,KANG M G. Super-resolution image reconstruction: a technical overview[J]. IEEE Signal Processing Magazine,2003,20(3):21-36.

[2] 韩小虎. 基于深度學习的图像超分辨算法研究[D]. 开封:河南大学, 2016.

[3] 黄冬冬. 基于深度学习的图像超分辨率重建算法研究[D]. 马鞍山:安徽工业大学,2017.

[4] 于海平,林晓丽,周凤丽,等.基于稀疏表示的单幅图像超分辨率重建研究[J].软件导刊,2017(11):225-229.

[5] SCHULTZ R R, STEVENSON R L. A Bayesian approach to image expansion for improved definition[J]. Image Processing IEEE Transactions on,1994,3(3):233-242.

[6] HOU H,ANDREWS H. Cubic splines for image interpolation and digital filtering[J]. IEEE Transactions on Acoustics Speech & Signal Processing, 1978, 26(6):508-517.

[7] LI X,ORCHARD M T. New edge-directed interpolation[J]. IEEE Trans Image Process,2001,10(10):1521-1527.

[8] IRANI M, PELEG S. Improving resolution by image registration[J]. Cvgip Graphical Models & Image Processing,1991,53(3):231-239.

[9] STARK H,OSKOUI P. High-resolution image recovery from image-plane arrays, using convex projections[J]. Journal of the Optical Society of America A Optics & Image Science,1989, 6(11):1715

[10] SCHULTZ R R, STEVENSON R L. Improved definition video frame enhancement[C].International Conference on Acoustics, Speech, and Signal Processing. IEEE, 1995:2169-2172.

[11] SCHULTZ R R, STEVENSON R L. Extraction of high-resolution frames from video sequences[J]. IEEE Transactions on Image Processing a Publication of the IEEE Signal Processing Society, 1996, 5(6):996-1011.

[12] ROWEIS S T, SAUL L K. Nonlinear dimensionality reduction by locally linear embedding[J]. Science, 2000, 290:2323-2326.

[13] YANG J, WRIGHT J, HUANG T, et al. Image super-resolution as sparse representation of raw image patches[C].Computer Vision and Pattern Recognition, CVPR 2008. IEEE Conference on. IEEE, 2008.

[14] DONG C, LOY C C, HE K, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 38(2):295-307.

[15] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C].International Conference on Neural Information Processing Systems. MIT Press, 2014:2672-2680.

[16] 唐賢伦, 杜一铭, 刘雨微,等. 基于条件深度卷积生成对抗网络的图像识别方法[J]. 自动化学报, 2018(5):?855-864.

[17] SHI W, CABALLERO J, HUSZáR F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[J]. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016:1874-1883.

[18] 麻旋,戴曙光. 基于残差网络的图像超分辨率算法改进研究[J].软件导刊,2018(4):91-93.

[19] IOFFE S,SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[J]. ARXIV,2015:448-456.

[20] DUMOULIN V,VISIN F. A guide to convolution arithmetic for deep learning[DB/OL]. https://arxiv.org/pdf/1603.07285.pdf.

(责任编辑:黄 健)

猜你喜欢

深度学习
从合坐走向合学:浅议新学习模式的构建
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
利用网络技术促进学生深度学习的几大策略
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
构建“单元整合、主题牵引”诗歌鉴赏“深度学习”课堂的策略