APP下载

基于改进生成对抗网络的红外图像超分辨率重建

2020-04-07乐,陈峰,李

激光与红外 2020年2期
关键词:网络结构分辨率红外

马 乐,陈 峰,李 敏

(火箭军工程大学,陕西 西安 710025)

1 引 言

红外图像由于不受光照条件和云层遮挡的影响,拍摄距离远,温度灵敏度高,在导航、监控、遥感、目标识别等领域具有极大的应用需求。但在实际处理中,拍摄器材往往价格过高,容易受到成本和性能等因素的限制,难以获取高分辨率的红外图像,提高红外图像分辨率面临迫切的应用需求。

随着生成对抗网络(Generative Adversarial Networks,GAN)[1]的提出,深度学习在红外图像超分辨率重建上得到了较好的发展,研究者一般将低分辨率红外图像输入至多层的卷积神经网络中,通过特定目标函数实现超分辨率重建。GAN也存在生成方式过于自由的缺点,同时容易产生训练崩溃。为此研究者提出将感知损失函数(perceptual loss)[2],L1损失函数[3]等作为额外惩罚项使用,同时提出了DRCN[4],SRGAN[5]等[6-8]网络结构,提升重建性能。多数重建网络生成的图像更追求可视效果,生成的目标细节与原图像有可能不一致,这在一些严谨应用方面如遥感,飞行器导航和嫌疑犯面部还原方面存在一定的风险。

由于红外图像的超分辨率重建是一个输入与输出的场景一致,背景与目标的特征没有明显变化,是一个从固定的图像类型向另一个特定图像类型的图像翻译任务,因此本文以pix2pix[9]网络结构为框架,加入图像间的欧式距离作为额外约束条件,同时将传统GAN使用的KL散度替换为Wasserstein[10]距离,优化网络模型结构与算法流程,提出改进红外图像重建算法IISR(Improved Infrared Image Super-resolution)。实验在LTIR数据集的garden部分进行,结果表明,本文算法提升了红外图像的超分辨率重建倍数,保证了图像高频细节的修复,确保目标细节的有效性,同时提升了视觉效果。

2 算法原理

2.1 数学原理描述

本文算法IISR在cGAN的基础上进行构建,网络结构包含两个模型,生成模型G和鉴别模型D。最终目标是获得可靠的生成模型G,由输入的低分辨率红外图像ILR生成超分辨率红外图像ISR。并利用图像间的欧式距离(L2损失函数)来对图像进行全局一致性检验,引导网络增强生成模型的生成能力,如公式(1)所示。选择L2的具体分析见2.4节。添加额外惩罚项后的目标函数如公式(2)所示:

L2(G)=Ex,y,z[||Y-G(X,Z)||2]

(1)

minGmaxDLc(D,G)=LcGAN(D,G)+αL2(G)

(2)

但公式(2)仍存在GAN本身训练不稳定的问题,即鉴别模型的训练效果越好,生成模型的梯度消失问题越严重。Martin Arjovsky[10-11]等人理论证明了,接近最优的鉴别模型采用KL散度时,对于重叠很小的真实数据分布和生成数据分布,计算的KL散度接近一个定值,这对于梯度下降的优化方法相当于获取到的梯度为0,生成模型无法优化。Wasserstein距离在分布没有重叠时,也能够正确反映它们的远近。在本文中W距离计算方法如公式(3)所示,当L越大,表示生成数据分布与真实数据分布距离越大。

L=Ex,y[D(x,y)]-Ex,z[D(G(x,z))]

(3)

鉴别模型通过输入计算距离L,此时,生成模型的损失函数如式(4)的LG所示,鉴别模型的损失函数如式(5)的LD所示,将LD取L的负数可以和LG同时进行最小化优化。Li表示Lipschitz限制的梯度惩罚,便于鉴别器进行优化。

(4)

按照W距离修改原始的算法流程和目标函数后,目标函数为式(5):

G*=argminG[L+αL2(G)+Li]

(5)

式(5)越小,生成模型效果越好,生成图像与原始图像的W距离越小;L2(G)越小,生成图像与原始图像的欧式距离越小,图像整体越相似。α为超参数,调整L2(G)的影响。

2.2 网络结构

本文算法的网络结构如图1所示,由生成模型G和鉴别模型D组成。生成模型G的输入为红外低分辨率图像X=ILR和随机高斯分布噪声Z,输出为超分辨率重建红外图像G(X,Z)=ISR。将X的参照图像Y=IHR和G(X,Z)输入至鉴别模型D,计算生成数据和真实数据间的W距离,并计算L2距离作为一同反馈至生成模型中。

图1 网络结构

2.2.1 生成模型

生成模型采用U-NET网络结构,该结构由ISOLA P提出[9],该结构在编码过程中,保存每一步的特征图谱,在解码过程中,将对应的镜像编码层保存下来的特征图谱直接读取出来,这个步骤被称为跳步。跳步可以在输入输出之间可以共享大量的低维信息,比如物体的边缘细节,防止使用卷积后数据缺失的问题。生成模型实现细节如图2所示,虚线的连接部分表示U-NET的跳步动作。

2.2.2 鉴别模型

鉴别模型采用Patch Discriminator结构。该结构将输入图像分解为N×N固定大小的图像块,对图像块进行计算得到整个图像的距离矩阵,最后做平均值后输出。N越小,图像边缘越明显,但物体的形状会更尖锐,同时小于一定范围后会有重影的现象出现。本文基于数据集进行比较和调整,取N=45进行实验。最终的鉴别模型网络结构如图3所示。

图2 生成模型的实现框架

图3 鉴别模型的实现框架

2.3 Wasserstein距离优化

本文对模型的实现进行了以下改进:(1)删除了鉴别模型的最后一层sigmoid;(2)对鉴别模型的参数更新设立了惩罚项;(3)将鉴别模型的所有Norm层改为Instance Norm。

原GAN中鉴别模型设定为分类器,判别输入是否真实,sigmoid在最后一层将输出映射到0~1之间作为类别概率。替换为W距离后,鉴别模型需要拟合出最佳的W距离,相当于回归任务,需要删除最后一层的sigmoid。

原WGAN论文设立阈值C对鉴别模型更新作Lipschitz限制,但网络更新时总是会趋于最优化结果,因此实际总会取C值进行更新,不能很好进行约束。完整的Lipschitz限制需要对整个样本空间进行随机取样,而IISR每输入一对图片更新一次,无法对整体样本取样,建立随机矩阵al构建差值样本x,完成近似Lipschitz限制[12],如式(6)。由于Batch Norm会加入其他样本的依赖,破坏惩罚项的效果,因此改为不带来其他样本影响的Instance Norm。

Li=

(6)

2.4 额外惩罚项

鉴别模型只对图像块进行处理,缺少参考整张图像时的约束,导致无法确保图片的整体相似度和低频相似性。L1和L2距离在许多问题上都表现出准确捕捉低频特性的能力,可以弥补鉴别模型的不足。考虑到L1距离的计算方法是将权值向量w中各个元素求绝对值之和再平均,这种方法与鉴别模型的方法有很大的重复,多次对数据的各个元素进行重复处理容易产生过拟合现象。因此,为确保生成图像的整体相似度,防止过拟合,采用L2距离即公式(1)作为额外惩罚项,可以更好地提高生成图像的有效性。

3 实验与分析

3.1 实验数据集

本文在LTIR数据集的garden部分进行实验,对其进行5倍的下采样获得对应的低分辨率图像,将其中的前600张图像作为训练数据,后76张作为测试数据进行实验。数据集的主要场景为房屋后侧的小型花园,目标为移动的行人,成像器在拍摄中有随机的摆动,行人并不一直位于画面中央,涉及到的其他物体包括多种植物,完整房屋,屋顶,石凳,栏杆,草地等。在实验前,IHR和ILR拼接在一起组成训练图像对和测试图像对如图4,所有单张图像的大小均为256×256,一个图像对为一个输入样本。

图4 对应图像对

3.2 实验环境和相关算法

本文方法构造的目标函数为W+L2,为验证目标函数相较于KL距离的有效性和优势,进行三组实验,Patch Discriminator均取N=45,第一组实验为本文IISR的W+L2方法;第二组采用W+L1方法;第三组采用KL+L2即原pix2pix算法。所有训练在GTX860m上完成加速。实验采用batch size=1的训练模式,即每输入一个训练图像对,都会对模型的参数进行更新。模型的具体参数如卷积核大小,步长,输出通道均在图2、图3中标注。所有编码器都采用LeakyReLU激活函数,解码器采用ReLU激活函数。本文算法的训练流程如表1所示。

表1 本文算法训练流程

3.3 实验结果分析

本文采取峰值信噪比(PSNR)和结构相似度(SSIM)作为客观评价指标,PSNR值越高,越接近原图像,当高于40 dB时表示重建图像质量极好; SSIM取值范围为[0,1],1表示两个图像为一张图像,0表示两个图像没有相似点,各个算法的平均值如图5所示。重建结果如图6所示,物体细节如图7,训练时损失函数值如图8。

图5 客观指标平均值对比图

在只训练200轮的情况下,KL+L2算法效果较差,出现了训练崩溃情况,使用W距离可以准确计算分布间的距离,证明了本文算法的有效性。L1函数会使物体边缘变化更平滑,图像整体偏模糊,主观视觉效果最好,但某些细节如头部、栏杆阴影等可能会因此消失。L2函数会使物体边缘变化明显,能重建出较多的物体细节,但在草地等背景上,会出现类似噪点的现象,降低主观视觉感受。

图6 重建结果对比图

图7 重建细节对比图

图8 损失函数值监测图

由于红外图像中物体能展示的细节较少,为保证重建后细节不丢失,目标仍然具有有效性,本文算法选择使用L2损失函数作为额外惩罚项。实验证明本文算法综合W距离和L2损失函数,牺牲主观视觉效果充分约束重建图像与原图像保持一致,保证图像的有效性。

4 结 论

本文算法通过构造图像对的完全监督模式,使用W距离替代原始的KL散度,与L2额外惩罚项建立新的目标函数实现红外图像超分辨率重建。同时构建Li限制,改进网络结构,减少样本间依赖关系的影响。实验证明本文算法可以更快更稳定地学习低至高分辨率映射关系,保证目标细节的准确度。在WGAN论文中作者证明可以基本解决collapse mode问题即输出不够多样化,但在超分辨率重建中,输出有明确的原图像参照,无法进行验证。

致 谢:感谢ChengBinJin在github中开源共享的基于tensorflow实现的pix2pix代码,本文算法基于此进行修改和优化完成实现。感谢Linköpings universitet共享的LTIR数据集,该数据集由Amanda Berg[13]制作使用并分享。

猜你喜欢

网络结构分辨率红外
网红外卖
闪亮的中国红外『芯』
EM算法的参数分辨率
8路红外遥控电路
TS系列红外传感器在嵌入式控制系统中的应用
原生VS最大那些混淆视听的“分辨率”概念
一种提高CCD原理绝对值传感器分辨率的方法
基于深度特征学习的图像超分辨率重建
基于广义混合图的弱节点对等覆盖网络结构
体系作战信息流转超网络结构优化