基于迭代深度网络的红外图像增强算法

2021-02-23陈世红陈荣军

激光与红外 2021年1期

陈世红,陈荣军

(1.广东生态工程职业学院信息工程系,广东广州 510520；2.广东技术师范大学计算机科学学院,广东广州 510665)

1 引言

为了提高红外图像的视觉效果,使其更符合人眼或计算机处理的要求,国内外学者从软硬件方向展开了科研攻关。在硬件领域,随着大面阵、小间距的集成电路技术的发展,红外图像的分辨率也逐渐提升[1-3]。以昆明211所为代表的国产科研机构已经研制成功高分辨的探测器阵列[4]。由于制造工艺和材料性能的限制,单纯依靠增加红外焦平面阵列密度来提升成像质量是非常困难的。同时,降低像元尺寸也会导致的探测灵敏度下降,信号噪声增大。因此,在红外探测器硬件性能提升有限的情况下,采用软件技术提升图像质量是目前最经济可靠的方式。

红外图像增强是指从给定的低质量图像中恢复高清晰的图像的过程。现有的红外增强算法大致可以分为基于模型驱动的信号处理方法与基于数据驱动的机器学习方法[4]。模型驱动主要是利用数学模型方法重建出高质量的红外图像,其关键技术是如何构造基于先验正则的目标函数[5-6],虽然在一定程度上改善了图像的质量,但实际采集的红外图像的受到各种干扰因素的影响。往往并不服从某种单一的假设先验。文献[7]假定红外图像中存在大量自相似区域,提出了基于低秩和邻域嵌入的单帧红外图像增强算法,确保了重建图像均匀区域的一致性,又保留了图像的细节信息和边缘轮廓的完整性,但该算法只适用于具有明显边界的面目标场景,对于需要探测点目标的对空红外图像的效果不理想。

相比之下,基于数据驱动的机器学习方法不受成像模型的影响,这种方法在很大程度上主要针对大数据样本学习潜在的隐藏特征,而不是对具体模型进行了优化[8]。2015年,Dong等人首次将卷积神经网络(CNN)应用于图像增强重建,提出了SRCNN增强模型[9],通过将使用CNN模型来拟合低质量图像和高质量图像的映射关系,并使用大量的高/低图像对训练模型,其结果优于邻域嵌入[7]和稀疏编码。然而,SRCNN的三层结构并不能满足更高重建精度的要求,主要是由于低层卷积只能得到图像的浅层纹理信息。为了获得更准确的深度特征并提升重建效果,有必要使用更深的卷积网络,Kim等人在VGG网络和ResNet网络的基础上,设计了20层权值网络的VDSR模型[9],解决了网络深度增加引起的梯度爆炸问题。所有这些重建方法中的低质量图像都是先双三次插值,再输入网络进行增强。文献[10]提出了一种基于生成性对抗网络(GAN)的图像增强模型,通过引入感知损失函数提升重构图像细节。针对非盲影像去模糊问题,文献[11]设计出多层感知网络来去除重建伪影；文献[12]采用DCNN进行非盲影像去模糊,并利用迁移学习理论,提升了深度网络的学习效率。近年来,基于深度学习的红外图像增强算法取得了很好的增强性能,但大多数算法是将图像增强问题当作去噪问题来处理,通过将多层感知网络级联起来,并没有探索图像的固有特征,同时也忽略了观测模型。

针对现有基于深度网络的红外增强应用忽略了观测模型,以及可解释性较弱的问题,提出了一种改进红外图像深度增强模型,该模型将图像增强任务嵌入到一个深度网络中,通过增强网络模块和反投影模块交错优化,实现红外数据一致性约束。实验结果也表明,该模型重建出的高质量图像在点目标等弱小区域也能获得清晰的效果。

2 基于迭代优化的红外增强模型

红外图像增强模型的数学本质是一个NP难的数学优化问题,其模型如下所示:

E=f(θ,x,y)+J(x)

(1)

其中,E表示目标函数；x,y分别表示需要重构恢复的信号及其相应的观测信号；保真项f描述了x与y之间的约束关系,正则项J表征了先验知识。大多数情况下式(1)的求解采用变量分离技术,并将其分解为两个子问题交替优化。若新增一个辅助变量z,式(1)可以改写为:

E=f(θ,x,y)+J(z),s.t.z=x

(2)

为了求解式(2),最常用的方法就是将z=x转换成误差项,增加到目标函数中。也就是说,在实际应用中式(2)可以进一步改写:

(3)

根据交替方向乘子法思想,该模型可以通过交替求解两个子问题来实现优化:

(4)

(5)

可以看出,式(4)具有闭式解,一般表示为x(t+1)=W-1b,其中W通常是与退化矩阵A相关。然而,实际应用中W的逆矩阵无法直接计算,只能采用经典共轭梯度算法[13]求解x(t+1),其解如下所示:

x(t+1)=xt-δ(AT(Ax(t)-y)+η(x(t)-v(t)))

(6)

3 红外增强网络结构

3.1 系统架构

图1 图像增强模型框架

3.2 增强网络模块

现有的图像增强优化问题被分解为两个单独的子问题:一个用于处理数据保真项,另一个用于正则化项,通过交替求解获得最优的图像质量。具体地说,与正则化相关的子问题是一个纯去噪问题,因此也可以采用其他无法表示为正则化项的更复杂的去噪方法,例如BM3D[14],Low-Rank和Sparse-learning方法[15]。本文选用的图像增强模块是一种基于深度卷积网络的学习模块,旨在降低图像的退化干扰,并尽可能地保留图像的细节信息,尤其是保留弱小点目标。

受DCNN在影像去噪应用的启发,本文采用的增强网络结构如图2所示,该网络结构类似于U-net网络,可以分为特征提取与图像重建模块,其中特征提取部分采用多个3×3卷积,每个卷积后跟一个RELU和一个步长为2的用于下采样的2×2最大池化操作,有助于增加神经元的感受野大小,并降低提取到的特征图的分辨率。本文设计了多个卷积层以提取不同层次下的深度特征,灰色箭头所表示的特征编码层如图3(a)所示。每个特征编码层包含4个3×3核的卷积层和ReLU非线性激活函数,每次卷积过程将生成64通道特征映射。本文设计的结构在前四个编码层后面添加了一个以2为采样因子的下采样层,沿垂直/水平方向降低特征映射的空间分辨率。图像重建模块与特征提取模块是相对应的结构,重建模块是由卷积层,上采样层构成,其中卷积层对应着特征解码,如图3(b)所示。特征重建阶段每个解码块由五个卷积层组成,第一层采用利用1×1卷积和ReLU控制卷积核的数量达到通道数大小的放缩,同时实现跨通道的交互和信息整合,将特征提到从128降到64。剩下的卷积层采用3×3核的卷积层和ReLU非线性激活函数重构出64个通道的特征图,并采用缩放因子2的反卷积获取最终重构特征。由于卷积层、池化层、上采样层实现端到端的图像增强,不可避免存在空间信息的丢失,导致重建图像的细节不完整。因此,直接通过逐层特征提取与特征重构,最终重构得到的红外图像丢失了大量的空间信息,不能完全恢复出精细的图像细节。为了保留特征空间的细节信息,受U-net网络启发,本文将特征编码阶段生成的深度特征与特征解码阶段对应的同大小的上采样特征进行融合,以获得表征能力更强,细节更丰富的特征。为了操作方便,本文采用的特征融合是基于级联实现。本文设计的增强网络模块主要恢复图像中丢失的细节,即高频信息,具有更加鲁棒的重建性能。

图2 网络增强模块

图3 编解码模块

3.3 网络训练

使用变量分离技术,强大DCNN去噪器可以为模型优化带来图像先验。值得注意的是,文献[11]提出的DCNN网络不必预先训练,而本文提出的网络结构是需要通过端到端训练。为了减少参数个数且避免过拟合,本文强制每次迭代运行的增强模块共享相同的参数,并采用最小均方误差和感知损失函数共同优化网络,其总损失函数表示为:

L=LMSE+λLp

(7)

其中,LMSE,Lp分别表示像素级欧氏距离与感知损失;λ是权值参数。感知损失更符合自然图像分布规律,使重建结果具有非常逼真的细节效果。感知损失函数可以表示为:

(8)

其中,wi,hi分别表示特征映射图的尺寸；Ci表示第i个卷积层;R(Y)=Y-X表示高频残差,理想情况下R(Y)≈N;式(8)可以采用随机梯度下降算法优化求解。

4 实验结果与分析

为了验证本文提出的深度网络图像重构算法的有效性,本章设计了红外图像去模糊与红外图像去噪任务,并为不同的任务训练了对应的模型。

4.1 实验数据集及参数设置

为了训练增强网络模块,实验构造了一个具有1000张图像的训练样本库,所有的图像都有制冷型红外热像仪采集,其默认为高清晰图像,其中图像大小是640×480。同时,我们也构造了一个50张不同场景的非制冷热像仪采集的低质量图像作为测试库。

本文提出的增强网络采用Python3.5进行开发,以TensorFlow作为深度学习框架实现,所有实验均在均在相同硬件平台上进行。采用ADAM优化器来训练网络,其参数设置为β1= 0.9,β2=0.999和ε= 10-8,并采用Xavier初始化方法对所提的网络的卷积层进行初始设置,使得每一层输出的方差尽量相等。另外,与退化矩阵A相关的线性层则由退化模型A进行初始化,参数δ与η则分别经验设置为0.1和0.9。实验结果表明,图1所示的处理流程仅仅需要6次迭代就可以得到满意的增强效果。图像质量评价主要采用峰值信噪比(PSNR)和结构相似性度量(SSIM)对各算法进行定量描述。

4.2 定性定量分析

由于图像增强问题可以表示为y=Ax+n。对于A的不同设置,可以表示不同的图像增强问题。本文提出的算法能够应用于红外图像去噪、去模糊等任务中。为了便于定性定量的分析,本章将对不同任务进行针对性分析。

4.2.1 图像去噪

对于图像去噪任务,退化矩阵A=I,因此图像增强问题就装换成y=x+n。本文所提出的去噪网络嵌入变量分析优化模型,通过逐渐迭代增强红外图像的清晰度。

为了客观公正的分析本文提出的模型在去噪任务上的性能,实验选用几种常用的对比算法进行比较,即BM3D方法[14]、EPLL方法[15]、TNRD方法[16]、DnCNNs方法[17]和MemNet方法[18]。BM3D是一种经典的去噪算法,该算法利用图像中的自相似性构建相似性矩阵,并在变换域上实现软阈值去噪。EPLL是一种采用最大似然估计算法对高斯混合模型进行训练的去噪模型。TNRD是一种非线性反应扩散模型,该模型通过展开固定数量的梯度下降推断步骤来学习出无噪图像；DnCNNs是利用前馈去噪卷积神经网络来实现去噪；MemNet是一种基于限制的长期记忆网络的图像增强算法。表1展示了所有对比算法的平均PSNR和SSIM结果。对于低噪声水平,MemNet方法与DnCNNs方法的增强效果类似,但指标上都不如本文提出的算法；对于高噪声水平,MemNet方法,DnCNNs方法与本文方法在噪声方差50下的SSIM分别是0.783,0.625与0.798,因此本文所提模型能够重构出更多的图像细节信息,去噪性能优于MemNet方法。非均匀噪声是红外图像中不同位置的噪声服从不同分布,实验采用文献[19]的非均匀噪声仿真方法。表2展示了非均匀噪声下的图像增强的定量指标。本文的模型是在迭代优化中引入了深度网络,提升了去噪的性能。

为了进一步验证该方法的有效性,实验选用了多幅图像做定性比较,如图4与图5所示。可以看出,基于模型的方法(即BM3D和EPLL)恢复的图像边缘和纹理被过度平滑。基于深度学习的方法:TNRD、DnCNNs、MemNet和本文方法,的重构图像具有更加清晰的细节信息,尤其是图4(a)中树丛,一些纹理信息很明显,而BM3D方法则过度平滑。虽然BM3D在树干区域的效果很清晰,但对于很难找到自相似块的空天背景的区域,重建效果较差,且存在较多划痕。MemNet采用不同的记忆单元实现密集连接,由于卷积核为1×1的卷积层,负责将所有记忆单元的存储信息分别输出,大大耗费运算资源,且上采样恢复过程会引入伪影噪声。从重构结果也可以看出,图4(b)中水渠大坝处存在一些条纹,这就是在上采样过程增加的伪影。DnCNNs是采用单个残差单元来预测残差图像,并采用批量归一化加快训练效率。由于DnCNNs要求端到端的训练,实现输入输出大小保持一致,需要在卷积过程中补0填充,这使得重建结果存在边界伪影；图4(c)是把公路上的车辆都去除,而本文算法不仅增强了弱小目标,还尽可能还原了细节信息；图4(d)与4(e)在同质区域仍然存在一些噪声。图5是非制冷红外采集图像的一个小区域的重建结果对比,其中BM3D、EPLL方法则过度平滑,深度学习算法的结果优于传统算法。本文的算法在去除噪声的同时,也能保持好细节信息。因此,与TNRD、DnCNN-S和MemNet方法相比,本文提出的方法在恢复图像细节方面取得了更好的效果。

图4 不同算法的去噪性能对比

图5 非制冷红外采集图像的一个小区域的重建结果对比

4.2.2 红外图像去模糊

对于去模糊任务,退化矩阵A是模糊卷积核。为了训练去模糊网络,首先将训练图像与模糊核卷积,生成模糊图像,然后从模糊图像中提取128×128大小的训练图像块,并在模糊样本中加入随机方差的高斯噪声。清晰图像与对应模糊图像的对比图如图6所示。训练样本也通过翻转和旋转等操作对数据集进行扩充,总共生成300000个图像块样本用于训练。为了便于定量分析,本文选用的模糊核分别是标准差为1.6的25×25高斯模糊核与文献[20]给出的运动模糊核。本文选用的对比算法分别是EPLL[20]、IDDBM3D[21],NCSR[22]和MemNet,其中MemNet需要模糊图像块对和原始图像块组成的样本对进行训练。为了进行公平的比较,所有的深度学习模型都采用相同的训练样本与测试样本。

表1 部分测试图像的PSNR与SSIM结果对比

表2 非均匀噪声下的重构质量

图6 模糊图像对比

所有对比算法的去模糊结果如表3所示。可以看出,本文提出的方法与MemNet算法的去模糊性能优于EPLL、IDDBM3D和NCSR[24],而本文所提方法的平均性能比MemNet方法高出0.58 dB。对于噪声方差超过20的运动模糊核图像,本文提出的模型比MemNet方法稍差,但后者需要更多的迭代(最多30次迭代)才能得到满意的结果。图7展示了所有对比方法的去模糊结果。与其他去模糊方法相比,本文所提出的方法不仅获得了更锐利的边缘,而且恢复了更多的细节信息。图7(a)的原始模糊图像边缘模糊,细节不清楚,经过EPLL、IDDBM3D和NCSR处理后,所有的结果都能获得相对清晰的边缘。EPLL是一种利用图像块似然概率先验信息的对数期望实现图像去模糊。从图7(b)可以看出,该方法对高斯模糊的效果较好,但对运动模糊下的重建效果较差,主要归咎于先验信息对运动模糊的拟合精度较差。IDDBM3D是基于BM3D的改进算法,主要用于图像去模糊。从处理结果可以看出,IDDBM3D对匀质区域的处理效果较好,尤其是图中的路面结果非常平滑。NCSR是基于中心稀疏的迭代型去模糊算法,该算法的去模糊效果优于IDDBM3D与EPLL,细微的纹理和边界保留的较完整,但其重构结果不如基于深度学习的MemNet与本文提出的模型。由于非制冷红外热像仪采集的红外图像存在大量噪声,且细节模糊,从图7(e)可以看出本文提出的改进的深度神经网络能够提升图像恢复的质量。尤其是对于空天背景的小目标图像,本文提出的算法考虑了保真项的约束,增强了原始图像的弱小目标的细节。表3的定量结果也表明了本文提出的去模糊算法的PSNR与SSIM分别高于MemNet 0.43 dB与0.1定性定量实验结果表明,本文研究方法取得了优于其他对比算法的复原效果。

表3 去模糊算法的平均PSNR与SSIM

图7 去模糊对比

5 结论

由于基于深度模型的图像恢复算法忽略了观测模型,导致了重构的图像存在虚假的纹理,尤其是对于红外图像中的弱小目标,大多数算法也并不能增强弱小目标的细节。本文提出了一种改进的深度神经网络用于提升图像恢复的质量,该网络将图像增强模块嵌入到基于迭代优化模型中,通过图像增强模块和反投影模块交错而成,增强数据的一致性,保留纹理细节。实验结果表明,本文提出的方法可以在图像去噪和去模糊任务上获得非常有竞争力的恢复结果。下一步,本文将着重对算法性能进行优化,并将其移植到嵌入式智能平台,实现工程化应用。