基于多尺度变换和VGG网络的红外与可见光图像融合

2021-08-06付涵严华

现代计算机 2021年16期

付涵，严华

(四川大学电子信息学院，成都 610065)

1 介绍

图像融合的目的是将不同源图像中的重要信息整合到同一张融合图像。近年来，红外与可见光图像的融合问题已经成为图像融合领域一个重要的分支。红外图像由红外传感器获得，反映了图像中物体的温度差异，但细节信息较少、对比度低；可见光图像由可见光传感器获得，保存了目标的颜色、亮度等信息。将红外与可见光图像进行融合，可以提高图像的分辨率，并获得更为丰富、全面的信息。

基于多尺度变换的融合方法是解决红外与可见光图像融合问题的经典方法，如拉普拉斯金字塔(LP)[1]、低通金字塔(RP)[2]、梯度金字塔(GP)[3]、离散小波变换(DWT)[4]、平稳小波变换(SWT)[5]、双树复小波变换(DTCWT)[6]和非下采样轮廓波变换(NSCT)[7]等。这些方法一般是先将源图像进行多尺度分解，然后执行特定的融合规则处理变换后的系数，最后再进行多尺度逆变换。上述经典方法虽然很好地保留了红外与可见光图像的细节，但是却存在颜色失真、对比度损失等潜在问题。基于优化的融合方法在很大程度上解决了多尺度变换的局限性，如基于广义随机行走[8]和马尔可夫随机场[9]的方法。这些方法大多先求解能量函数，进而估计空间平滑和边缘对齐的权重，再将像素值进行加权平均，以获得融合图像，但是由于多次迭代，效率十分低下。Li Shutao等人[10]提出了一种基于引导滤波的融合方法，该方法使用了快速的两尺度分解，引导滤波的方法被用于图像的局部滤波。但大量的实践证明，该方法存在着可能出现伪影等问题。Liu Yu等人[11]提出了一种图像融合框架，该方法首先将源图像进行多尺度分解成高通和低通部分，低通部分与基于稀疏表示的融合方法进行结合，高通部分则使用流行的最大绝对值融合规则。近年来，随着深度学习的兴起，许多深度学习的方法被应用到图像融合领域中。Liu Yu等人[12]提出了一种基于卷积神经网络(CNN)的融合方法，他们将源图像灰度化后输送到训练好的CNN模型中，经过小区域去除和引导滤波后，获得决策图。然而，该方法只提取了后面几层的结果，丢失了中间层的重要信息。Li Hui等人[13]提出了一种基于深度学习框架的方法，他们将图像进行两尺度分解，细节内容被输送到VGG-19网络中以提取特征，基础部分使用了加权平均方法，使图像丢失掉很多亮度信息。

本文将深度学习框架与多尺度变换进行结合，提出了一种有效的红外与可见光图像融合方法。首先，将红外与可见光图像进行拉普拉斯变换分解，获得图像的高通和低通部分。对于图像的高通部分，我们将其输入到预训练的VGG-19网络模型中，获取图像的深层特征，通过L1范数和加权平均的融合策略，得到初始的特征图，对于每个relu层执行相同的操作，再通过平均策略，得到高通部分的融合图像。对于图像的低通部分，我们使用最大选择策略，以获取更多的亮度信息。将融合后的低通部分和高通合并后进行拉普拉斯逆变换，就可以获得最终的融合图像。

2 提出的方法

提出的融合方法如图1所示，大致分为以下几个部分：

图1 本文提出的融合框架

(1)LP分解：将获得的一对红外与可见光图像通过拉普拉斯变换分解成低通和高通部分。

(2)低通部分的融合：采用最大融合策略。

(3)高通部分的融合：利用VGG-19深度学习网络获取高通部分的深层特征，再通过L1范数和平均策略获得融合后的细节部分。

(4)图像重构：将融合后的低通与高通部分先进行重构，再经过拉普拉斯逆变换，得到最终的融合图像。

2.1 LP分解

假定有两张预先配准的红外与可见光图像，我们通过拉普拉斯变换将这两张源图像分解成低通部分{s1_1，s2_1}和高通部分{s1_h，s2_h}。

2.2 低通部分的融合

为了获得更多的亮度信息，增强融合图像的对比度，我们在低通部分采用最大选择融合策略，如等式(1)所示。

S_1=max{s1_1,s2_1}

(1)

2.3 高通部分的融合

(1)让表示第k张源图像的高通部分所提取的第i层细节特征，则：

(2)

其中，sk_h表示第k张源图像通过拉普拉斯变换分解获得的高通部分，Φi(·)表示VGG-19网络，i是我们从VGG-19网络中提取的relu层，此处i∈{1，2，…，16}分别代表relu1-5中所有的relu层，共16层。

(2)让表示第k张源图像的高通部分所提取的第i层细节特征，则：

(3)

(4)

在本文中，k∈(1，2)。

(5)

为了保留更多细节，我们使r=1。

(6)

此处，我们令K=2。

(6)通过上采样，将权重图调整到和输入图像相同的大小：

(7)

p，q∈{0，1，…，(2i-1-1)}

(8)

此处K=2。

(8)最后，为了保证所有的细节内容都不被丢失，我们对高通部分每个位置的初始融合图像取平均值：

(9)

2.4 重建融合图像

首先，将获得的低通部分和高通部分的融合图像进行重构，如(10)式所示：

F=S_1+S_h

(10)

然后，再进行LP逆变换，以获得最终的融合图像。

3 实验结果与分析

3.1 实验设置

为了验证所提出的方法的有效性和可靠性，我们在47对红外与可见光图像上进行了实验，它们分别来自不同的场景和细节。在本文中，我们选取了其中的4对源图像。我们将9种先进的图像融合方法作为对比，包括基于ResNet的图像融合[21]、自适应稀疏表示(ASR)[16]、梯度传递融合(GTF)[17]、低通金字塔(RP)[2]、曲波变换(CVT)[18]、双树复小波变换(DTCWT)[6]、离散小波变换(DWT)[4]、拉普拉斯金字塔(LP)[1]和使用深度学习框架的图像融合方法(DL)[13]。

3.2 主观分析

由于篇幅限制，我们以两组图像为例，对我们的图像进行主观评价。

第一对红外与可见光图像如图2(a)(b)所示，(c)-(k)为不同方法生成的融合图像，(l)为本文提出的方法生成的融合图像。可以看出，本文提出的方法获得的融合图像在红框内具有更多的细节信息。在行人处，(e)(f)(g)(h)存在一些伪影，而本文提出的方法生成的融合图像在保留细节的前提下做到了过渡自然，明显优于其他竞争方法。

图2 第一组实验图像，(a)-(l)依次为红外图像和可见光图像，ResNet、ASR、GTF、RP、CVT、DTCWT、DWT、LP、DL、OUR。

第二对红外与可见光图像如图3(a)(b)所示，这是夜间植物的场景。(c)-(k)为不同方法生成的融合图像，(l)为本文提出的方法生成的融合图像。对于红框内的部分，通过所提出的方法获得的融合图像包含较少的噪声，而图(f)(g)(h)(j)则存在较为严重的噪声。从图片的整体上看，本文生成的融合图像具有更多的亮度信息，且边缘清晰，视觉效果更佳。

图3 第二组实验图像，(a)-(l)依次为红外图像和可见光图像，ResNet、ASR、GTF、RP、CVT、DTCWT、DWT、LP、DL、OUR。

3.3 客观评价

为了更好体现出不同融合方法的性能差异，本文采用了四种常用的图像融合评价指标，分别是熵(EN)、互信息(MI)、标准差(SD)和非线性相关信息熵(NCIE)。评价指标的值越高，证明融合图像的质量越好。四个指标的定义如下。

3.3.1 熵(EN)

根据香农信息论，熵值大小反映了图像包含信息量的多少，熵值越大，图像融合的效果越好。熵定义如下：

(11)

其中，pi是图像中第i个灰度级的概率，L表示图像灰度级别，在我们的实验中，将L设置为256。若图像存在严重的伪影或噪声，会使EN的值增大，因此，EN的值并不能完全代表融合图像的质量。

3.3.2 互信息(MI)

互信息反映了融合图像与源图像的相似性，它描述融合图像保留源图像的信息量的多少。MI的值越大，表示从源图像到融合图像的信息量越大。根据文献[19]，定义如下：

(12)

其中PABF(i，j，k)表示源图像A、B与融合图像。

F的归一化联合灰度直方图分布，PAB(i，j)是图像A与B的归一化联合灰度直方图分布，PF(k)是融合图像F的归一化边缘灰度直方图分布。L为灰度级数，(i，j，k)分别代表源图像A、B与融合图像F的像素值。

3.3.3 标准差(SD)

图像的标准差表示图像中单个像素的值相对于图像像素均值的偏移程度。在数学上，定义如下：

(13)

其中x是M×N维的融合图像，xi，j表示在(i，j)处的像素值，μ是融合图像的平均像素值。标准差越大，灰度越分散，也就说明图像具有较高的对比度，视觉效果更佳。

3.3.4 非线性相关信息熵(NCIE)

根据文献[20]，非线性相关信息熵(NCIE)定义为：

(14)

3.3.5 实验数据分析

进一步地，我们通过图像的评价指标来验证所提出的方法的有效性。

表1第一行列出了第一对图像的所有融合方法的评价指标。不难看出，本文提出的方法的EN和NCIE值略高于其他方法，MI和SD值则明显高于其他方法。从评价指标的数据上来看，我们的方法保留了大量源图像的有用信息，且具有较高的对比度。

表1 四组图片的评价指标对比

表1第二行列出了第二对图像的所有融合方法的评价指标。对于指标EN和NCIE，所有方法的值都非常接近，我们的方法略有优势。DWT、DL和我们的方法的MI值明显高于其他的方法，进一步地，我们的方法相比DWT和DL又具有更大的优势。而对于指标SD，我们的方法明显优于其他方法。通过以上分析可以得出结论，我们的方法具有更大的价值。

表1第三行列出了第三对图像的所有融合方法的评价指标。从数据上来看，对于第三对图像，我们的四项评价指标值虽然没有与其他方法拉开明显的差距，但是都会稍高与其他的方法，结合主观视觉效果分析，我们的方法是优于其他方法的。

表1第四行列出了第四对图像的所有融合方法的评价指标。从EN、MI和SD三项指标值来看，我们的方法均与其他方法拉开明显差距，具有非常大的潜力。而NCIE值也略高于其他方法，综上分析，我们的方法总体上优于其他方法，在红外与可见光的图像融合方面具有一定优势。

4 结语

本文提出了一种有效的基于VGG-19深度学习框架的图像融合方法。首先，通过拉普拉斯变换将源图像分解为低通部分和高通部分。低通部分包含图像更多的基础信息，高通部分则含有更多的细节内容。对于低通部分，我们采用最大融合策略。对于高通部分，我们利用预训练的VGG-19深度学习网络来获取深层特征，然后通过L1范数和平均操作进行优化，再经过Softmax和上采样，获得最终的权重图，将所有relu层的权重图进行平均，就得到高通部分的融合图像。最后，我们将融合后的高通和低通部分进行重构，通过拉普拉斯逆变换，获得最终的融合图像。为了验证提出的方法的可靠性，我们在47对红外与可见光图像上进行了实验，在4个指标的基础上与9种先进的图像融合方法进行了对比。实验结果表明，我们的方法无论是从主观视觉效果还是客观评价指标上来看，都具有先进的性能。