基于注意力机制的残差密集网络红外/可见光图像融合

2022-09-15屈天刚

中国电子科学研究院学报 2022年7期

屈天刚, 闫锋

(1.中国西南电子技术研究所，四川成都 610036；2. 西安现代控制技术研究所，陕西西安 710065)

0 引言

复合制导技术的发展使得红外/可见光图像应用成为一种有效的融合模式，能够克服由于单传感器获取信息不足导致的目标检测失败的问题。红外传感器对热辐射敏感，可以对目标发热轮廓获得较好图像，且不受天气影响；可见光图像对目标细节特征具有好的分辨效果，但易受雨雾等天气影响。因此，面对弹载高机动场景通过红外与可见光图像在线融合能够实现对目标特征的有效获取[1]，对高精度打击目标具有重要意义，同时红外与可见光融合在智能交通、监控安防等领域也具有重要的应用[2-3]。

传统的红外与可见光融合算法已经无法满足新型制导武器需要，以YOLO系列为代表的深度学习模型，在图像处理中取得了巨大成功，通过模仿人类感知系统，出现了一系列的智能算法，近几年，越来越多学者将深度学习模型引入到图像融合领域，采用基于预训练的VGG19和ResNet50网络模型被提出，通过预先训练好的模型实现图像特征信息提取，有效增强目标的特征信息，实现多层次深度特征实现两种图像的融合，文献[4]采用有监督的训练方式完成深度学习算法的图像融合，以上算法均需要进行人工设计融合规则，对网络规则设计者要求比较高，否则融合的效果将受到影响。为了实现端到端的网络框架，无监督的卷积神经网络成为当前学者研究的重点。文献[5]在端到端无监督神经网络学习框架下不仅实现训练模型，而且由于计算结果存在信息丢失，提出了新型的密集块的架构，实现层与层连接特征的全连接，有效避免梯度消失问题。文献[2]提出一种自动编码器网络实现红外/可见光图像的特征提取与融合，采用可见光训练模式，未考虑红外图像特征。

本文针对图像融合中不同特征反映目标细节问题，采用在网络浅层特征中引入密集块，实现密集特征的传递，同时由于网络深度增加导致特征退化，在残差密集网络的基础上，引入注意力机制，实现对关键特征的持续更新，图像处理领域的注意力机制主要包括：1)空间域的方法，例如通过无训练参数空间模块对特征图位置赋权提高重点位置注意[6]；2)通道域的方法，将不同的数据源考虑为不同的通道信息增加其通道信息间的联系；3)混合方法，既考虑空间分布，也考虑通道间的关联关系。文献[7]提出卷积注意力模块通过通道和空间依次推断注意力图，实现注意力图与输入特征的耦合，从而实现自适应的特征优化。本文主要工作主要包括以下三方面工作。

1)由于公开数据集融合图像标注数据缺乏，采用无监督训练模式，形成其初步的图像库，并通过与可见光图像、红外图像进行比对，增强目标细节及位置特征。

2)采用空间注意力机制，完成不同图像特征区域的关联，有效提高对目标特征的重点位置关注。

3)针对所有层次特征特点，构建残差密集块特征的连续存储，并根据全局链接，设计浅层特征和深层特征的融合模式，有效提高对目标细节的保留能力。

2 基于注意力机制的残差密集网络模型构建

为了充分利用红外与可见光图像的通道间的关系，将可见光图像与红外图像联合形成多通道图像输入，通过引入空间注意力机制，实现对目标区域特征的关注，自适应地选择输入特征图中表征目标内容和所在位置的显著特征，并经过生成器训练生成融合图像，系统结构如图1所示。为了能够对融合结果进行评价，选取文献[7]的融合结果作为训练过程中的对比模型，通过反复训练获得更有效的纹理细节及位置信息，从而使其特征细节更加丰富。

图1 系统结构图

2.1 特征提取

根据不同数据源获取的图像信息，构建不同特征的输入模式，主要包括浅层特征提取、深度特征提取和全局特征提取，主要功能如下。

1)浅层特征提取：浅层特征提取通过将红外与可见光图像通过通道累加，合并特征后作为整体输入后边网络节点，一般设计为两层卷积层，第一层为卷积层的输出，用于后续特征提取的输入和全局残差的输入，同时作为注意力机制的输入。第二层特征作为深度特征提取的输入，为了保留更多的细节特征，采用3×3卷积核。

2)深度特征提取：残差密集块(Residual Dense Block, RDB)模型设计包括密集连接块、局部特征融合模块、残差信息等模块。设计特征信息的连接模式，采用跳跃连接能够有效实现局部残差学习，通过Concat对密集块的输出及空间注意力模块进行特征融合，从而形成完整的局部残差学习。残差密集连接网络具体结构如图2所示。

图2 残差密集连接网络

3)全局特征提取：将短接3×3卷积的输出和第一层特征提取特征进行融合，实现全局特征的残差学习。

4)融合图生成：通过与浅层特征融合，通过注意机制的融合图实现图像恢复，获得融合图像，卷积核仍设为3×3。

2.2 空间注意力模块

空间注意力模块是通过特征在空间上的相关性实现其有效性的提取，采用原始图像实现特征图的平均池化和最大池化，通过将输出拼接在一起，有效形成特征描述器，用于对目标区域特征保持，最后在拼接的特征描述器上，采用7×7的卷积生成空间注意力图AS∈R1×H×W，通过该模型，有效形成突出或抑制的区域，注意力机制生成模块具体操作模型如图3所示。

图3 注意力机制生成模块

(1)

式中：Conv7×7代表7×7的卷积操作。

通过图像特征的输入，经过空间注意力模块，能够自适应地选择和增强目标的显著内容和位置特征。采用输入特征图与注意力图相乘，能够实现显著特征图增强，增强重要特征且抑制无用特征，从而大幅提升关键区域的融合效果。

3 损失函数

红外与可见光图像的融合需要尽可能保留目标信息，便于在具体应用中对目标的新息加权，因此，在红外图像像素亮度值低的区域应该赋予可见光更高的权重，因此在设计融合图像损失函数时，通过典型的特征函数进行分析，针对图像融合架构，采用如下损失函数，一种为获取更多的图像细节，一种为图像之间差异质量的度量，可以表示为

L=Lmask+Ls

(2)

为了保证各点信息平滑，采用如下掩模函数:

(3)

(4)

为了衡量其融合图像结构相似性，旨在通过将不同区域提取的结构信息与比较图像区域比较，是一种有效的图像差异的图像质量度量，采用如下评价：

Ls=1-SSIM(O-I)

(5)

式中：I表示输入图像；O表示输出图像；SSIM()表示输出图像与输入图像的结构相似性。其计算公式为

(6)

(7)

(8)

式中：LL(x,y)、LC(X,Y)、S(x,y)分别为图像的亮度对比度函数、对比度对比函数、结构对比度函数；ux，uy表示图像x，y的均值；δx，δy表示图像x，y的标准差；δxy表示图像x与y的协方差。一般情况下：

C1=(k1×L)2

(9)

C2=(k2×L)2

(10)

C3=C2/2

(11)

SSIM(LL(x,y))，LC(x,y),S(x,y)=

(12)

针对图像计算而言，k1=0.01，k2=0.03，L为像素值的变化范围，本文中设置为255，由于其像素值范围为0～255。

4 实验结果

将文献[8]提供的不同场景下的可见光与红外图像作为本实验的数据，为了保证实验效果，通过扩充训练集模式，使图像数据更多的用来训练，最大训练次数设置为5 000次，将本文算法与公开算法CBF，CNN、FPDE、GTF等算法进行对比，形成典型目标图像融合结果对比结果。

实验平台：Windows 64位，CPU为Intel Core i5,主频3.2 GHz,内存：32 G内存，软件版本：Matlab R2019b。

具体融合结果和原始图像通过多次融合，选取其中典型的融合结果，经过多次试验，形成典型的注意力机制生成模型，在实际操作中可以通过多通道特征生成单幅图像模式，实现其注意力机制生成。具体实验结果如图4～图5所示。

图4 停车场1实验结果对比

图5 停车场2结果

从图4、5可以看出，不同的融合算法都在一定程度上有效提高了目标的特征，CBF算法具有一定的伪影，且表现出明显的处理痕迹，而CNN、FPDE、GTF得到的效果表现出明暗图像变化大的特点，融合图像细节不够丰富，本文算法与其他几个算法相比，由于注意力机制的引入，对目标的细节保留比较好，同时有效地增加了目标的细节信息，对环境信息保留也比较丰富，FPDE算法在目标边界处较为尖锐，形成较为典型的目标处理痕迹。其中，在雪天场景下，能够充分保留路面及行人的细节，信息比较丰富，能够满足后续目标检测的应用。

为了对融合结果进行定量评价，采用典型的边缘信息保持度，视觉保真度和平均梯度三个指标对融合图像进行客观评价。具体分析结果见表1和表2。

表1 第一组客观指标评价

表2 第二组客观指标评价

从表1与表2可以看出，在同一时刻获取的图像，依据以上统计指标客观评价及三个定量分析，根据边缘保真度信息，从不同算法比较可以看出，算法边缘保真度相差不大，视觉信息保真度和平均梯度方面存在较大差异，本文算法在视觉信息保真度与平均梯度上都有优势，平均梯度度量越大，说明融合图像的梯度信息就越多，融合算法的性能越好，相比CNN算法，本文算法平均梯度高1.091，这样可以保证在图像融合中保留足够多的细节信息，使得融合后的目标保留更多纹理特征，有助于在深度特征提取中保持更高的识别能力。因此，在实际精确制导武器应用中，融合质量越高，目标检测效果越好。

在实际应用中，融合的效果直接表现在目标检测中，通过以上数据库，采用Yolo v5算法，样本数据量1 000张，测试样本500张情况下，对目标检测效果进行测试，可见光图像目标检测准确率为88.4%，红外图像目标检测准确率为85.3%，融合图像的目标检测准确率为91.2%，可见，采用融合图像能够有效提高待打击目标的检测准确率，为精确制导武器提供可靠的目标信息支撑。

5 结语

针对目前主流的红外与可见光图像融合算法融合后细节突出不明显，目标存在不同程度的模糊问题。本文采用注意力机制的残差密集网络的红外与可见光融合的方法，有效凸显目标细节特征。首先，采用原始图像特征对可见光图像进行预处理，提高图像的对比度与亮度；然后，通过浅层特征、深层特征、全局特征在注意力机制下的融合，有效提高其融合精度；最后，通过与融合特征复原，还原真实的融合图像。通过不同的图像融合方法进行定性与定量分析，证明本文算法在改善噪声的同时，能够保持更丰富的细节信息。