APP下载

基于双重注意力机制的RGB成像光谱重建方法研究

2023-09-11孙帮勇喻梦莹

光谱学与光谱分析 2023年9期
关键词:特征提取残差注意力

孙帮勇, 喻梦莹, 姚 其

1. 西安理工大学印刷包装与数字媒体学院, 陕西 西安 710054

2. 复旦大学工程与应用技术研究院, 上海 200433

引 言

光谱图像以数据立方体形式表达特定场景的空间和光谱信息, 谱段数为几个到几百个之间, 因此与三通道RGB图像相比, 光谱图像蕴含更为丰富的光谱特征, 常被用于航空航天、 医疗诊断以及军事遥感等挑战性领域。 然而, 光谱成像设备结构复杂、 数据处理难度大, 导致其成本较高、 应用范围不广。 近年来, 在信息控制、 人工智能等理论快速发展背景下, 学者们提出了一系列RGB图像光谱重建方法, 即在彩色RGB图像基础上利用特定数学模型计算出每个像素的高维光谱信息, 并达到一定的光谱重建精度, 从而极大提升了光谱图像的应用领域。

理论上, 由三维RGB图像重建高维光谱数据是一个病态的数学逆问题, 特别是较高维度光谱重建(例如30谱段以上)的求解难度一直较大, 所以RGB图像光谱重建已成为光学、 数学、 计算机视觉等领域的挑战性研究热点之一。 为解决该任务, 一些学者通过稀疏编码[1-3]、 维纳估计[4]、 核偏最小二乘[5]、 相机响应值扩展[6-7]、 非线性降维[8]、 加权线性回归[9]等方法恢复光谱数据立方体。 但是这些传统光谱重建方法多是针对单张RGB图像或单个RGB像素值建立三维到高维的映射关系, 忽略了单张图像各像素间的空间信息相关性或者没有考虑多张图像间的共性光谱特征问题, 导致光谱重建精度偏低、 模型泛化性能不高。

近年来, 随着深度学习理论的快速发展, 人们提出了一系列基于卷积神经网络(CNN)的光谱重建方法, 并获得了较高的重建精度。 例如Yan等[10]通过联合编码RGB图像局部和非局部相似性进一步提高了光谱重建精度; 李勇[11]等提出了基于改进残差密集网络的重建算法。 另外, Xiong等[12]针对光谱重建提出HSCNN的网络框架去生成高光谱图像; Nathan等[13]基于注意机制残差密集模型提出了一种轻量级网络; Zhao等[14]提出使用像素重排列来减少像素信息的丢失, 从而提高光谱图像的重建质量; 刘鹏飞等[15]通过端到端的对抗生成网络去恢复光谱图像; Li等[16]提出了一种新的自适应加权注意网络, 通过描述中间特征和上下文信息之间的相互依赖关系实现光谱重建。

研究发现, 以上基于深度学习的光谱重建方法在一定程度上弥补了传统重建方法的缺陷, 提高了光谱重建精度。 但是, 其深度网络模型在高稀疏性光谱重建任务中的学习能力仍不足, 特别是三维RGB重建30谱段以上高光谱任务。 因此, 针对高维度的RGB图像光谱重建任务, 从提升各通道信息的特征提取能力和不同特征层之间信息融合能力出发, 提出了一种基于双重注意力机制的光谱重建网络, 其在提高重建网络学习机制方面的工作和贡献如下: (1)在提取单层次特征时, 构建了有效多频率通道注意力块来计算多频率通道信息, 同时采用一维卷积生成无降维的通道权重值, 从而准确地获取各通道之间的相互关系; (2)在提取多层次特征时, 引入层特征加权融合注意力块学习不同深度特征层之间的关系, 优化提取各特征层的关键信息。

1 实验部分

1.1 数据集

实验采用IEEE光谱重建挑战赛NTIRE 2020和美国Columbia大学CAVE两个数据集进行训练或测试。 NTIRE 2020数据集是由Specim IQ高光谱相机采集, 包含450张训练图像、 10张验证图像、 20张测试图像, 每张图像的空间分辨率为482×512, 光谱波段数为31, 光谱范围为400~700 nm。 CAVE数据集是由Apogee Alta U260光谱相机采集的32张室内图像组成, 空间分辨率为512×512, 每张图像31个波段, 光谱范围为400~700 nm, 采样间隔为10 nm。 本工作采用NTIRE 2020数据集的450张训练图像作为训练集, 并将这些图像在训练前按照步长64裁剪成128×128图像块以提高模型稳定性, 测试集则选用NTIRE 2020的官方验证图像集以及CAVE数据集的全部图像。

1.2 RGB光谱重建网络框架

本工作所提出的光谱重建网络结构如图1所示, 主要由浅层特征提取、 高光谱特征生成以及光谱重建三个模块组成。 首先, 浅层特征提取模块对输入RGB图像的浅层特征信息进行提取, 选择参数少、 特征提取效率高的3×3卷积进行操作; 然后, 高光谱特征生成模块对前端浅层特征进行深度处理, 利用跳跃连接、 通道注意力和加权融合等机制生成信息丰富的高光谱特征; 最后, 重建模块将已生成的高光谱特征转换为指定维度的高光谱图像。

图1 所提算法的网络结构图

可以看出, 高光谱特征生成模块是所提重建网络的关键, 其在网络结构上主要由M个残差组(residual group, RG)堆叠而成, 这些RG通过跳跃机制进行连接, 并利用层特征加权融合注意力机制进行融合。 每一个RG内部包含多个残差频率通道注意块(residual frequency channel attention blocks, RFCAB), 为最大化提取各通道的有效信息, 并在RFCAB中引入了多频率通道注意力机制来计算通道的最优权重系数。 如图1, 所构建高光谱特征生成模块的关键是, 在特征提取和学习过程中引入有效多频率通道注意力机制(effective multi-frequency channel attention, EMFCA)和层特征加权融合注意力机制(layer feature weighted fusion attention, LFWFA), 这种双重注意力机制分别从优化计算多通道权重系数和多特征层之间的信息融合两方面提升了光谱重建网络的学习能力。 与常用的通过学习通道和空间权重系数去提高特征表达能力的通道-空间混合注意力机制相比, 本文所提双重注意力机制重点在改进传统通道注意力的基础上进行有效的各通道特征提取, 同时利用LFWFA机制加权融合网络学习的不同深度特征信息, 从而在特征提取和融合信息方面进行光谱重建精度的提高。 以下对该双重注意力机制在所提光谱重建网络中的特征提取机理和对光谱重建精度的影响进行阐述。

1.2.1 有效多频率通道注意力机制

各通道注意力机制通过学习特征图中不同通道的权重来优化新分配特征信息, 应用到光谱重建网络中能够一定程度提升光谱重建质量。 如图2(a), 传统通道注意力机制的基本原理是, 通过全局平均池化压缩空间信息再计算出一个标量代表通道的分配权重, 其运算简单但易造成关键细节信息的丢失。 另外, 传统通道注意力机制采用两个非线性全连接层以先降维再升维的方式来计算通道权重系数, 在降维中通道与权重系数不直接对应, 导致各通道的权重系数计算不够准确。

图2 (a)通道注意力; (b)有效多频率通道注意力

针对传统通道注意力机制的缺陷, 本工作在光谱重建网络中引入EMFCA以提高多通道特征提取精度。 EMFCA的学习过程如图2(b)所示, 对于给定尺寸为C×H×W的输入特征图, 首先将其沿通道方向平均分为S部分, 其中C1=C2=…=CS=C/S,S为可被C整除的整数。 这些S均分的特征图, 根据频率分量计算方法[17], 都对应特定的离散余弦变换(discrete cosine transform, DCT)频率分量。 然后经过DCT处理, S个DCT频率分量与分离出来的S个特征图对应元素相乘, 再使用一维卷积快速生成通道权重系数, 并将该权重系数与输入特征相乘, 最后经过残差跳跃连接与输入特征相加。 可以看出, 有效多频率通道注意力与传统通道注意力相比, 采用了DCT替代通道注意力中的全局平均池化压缩信息策略, 并利用多个频率分量来表示通道信息, 解决了使用全局平均池化压缩时造成的信息丢失问题, 因为此时全局平均池化压缩相当于DCT一个分量压缩的结果。 另外, 有效多频率通道注意力采用一维卷积去生成权重能够避免维度缩减问题, 获得了更为准确的通道权重系数, 同时也实现了通道间信息的有效交互。

1.2.2 层特征加权融合注意力机制

高光谱图像的每个谱段对应不同的成像波长, 所成像物体在每个成像波长的响应是不同的, 若将高光谱图像投影成三维RGB图像, 各谱段图像在形成R、 G、 B每个通道图像时的贡献会存在较大差异。 因此, 由RGB三通道图像重建高维光谱图像时, 所设计的高光谱特征生成模块在计算不同的光谱特征层时, 应该学习RGB图像和高光谱图像之间的依赖关系, 为各特征层本身以及不同层之间的相关性分配最优的权重系数。 考虑到LFWFA在计算不同层权重、 获取特征层关键信息方面的优势, 在光谱重建网络中引入LFWFA来融合不同层的特征信息, 获取它们之间的最优依赖关系, 从而进一步提高网络的表达能力。

层特征加权融合注意力机制(LFWFA)的结构如图3所示, 该模块的输入是M个残差组(RG)提取的中间特征层, 其维数为M×C×H×W, 利用层特征加权融合注意力机制计算各个残差组的权重, 可实现所有残差组特征信息的优化融合, 最终输出维数为MC×H×W。 在所提出的光谱重建网络中, 首先将残差组输入特征转换为M×CHW的矩阵, 通过对该矩阵及其转置进行矩阵相乘运算, 并使用softmax函数可计算出不同层之间的特征相关系数; 然后利用相关系数与M×CHW矩阵进行相乘, 同时将矩阵相乘运算结果的维数转换为M×C×H×W, 便于跳跃连接中与输入特征相加; 最后对输出特征进行维度变换为MC×H×W。

图3 层特征加权融合注意力

1.3 损失函数

为了进一步提高光谱重建质量, 本工作基于高光谱图像三维投影成RGB的先验知识, 在LMRAE(平均相对绝对误差)的基础上引入了RGB图像损失函数LRGB, 以此提高光谱精度并同时增加视觉感受质量。 由于NTIRE 2020数据集中的RGB图像是通过CIE 1964颜色匹配函数将高光谱图像转换所得, 所以在计算LRGB损失函数时, 首先利用该颜色匹配函数将重建的光谱图像转换成RGB图像, 然后与原始输入RGB图像进行对比来计算LRGB损失。 因此, 损失函数可表示为

L=LMRAE+λLRGB

(1)

式(1)中,λ是调制参数, 两个损失函数被分别定义为

(2)

(3)

1.4 实验参数设置

将python3.7作为编译环境, 使用pytorch1.2作为深度学习模型框架。 由表1可知, 训练中设置残差频率通道注意力块(RFCAB)个数P=5, 残差组(RG)个数M=4,LRGB损失调制参数λ=3。 训练模型的批数量设置为4, 优化器选择Adam(β1=0.9、β2=0.999、ε=10-8), 初始学习率设置为0.000 1, 并采用多项式函数设置为power=1.5的衰减策略, 迭代次数设置为100。

表1 训练中RFCAB的数量P, RG的数量M和λ的数量对网络的影响

2 结果与讨论

2.1 评价指标

采用四种客观评价指标来测试所提光谱重建方法的有效性, 分别为均方根误差(RRMSE)、 峰值信噪比(RPSNR)、 光谱角映射器(RSAM)以及无量纲相对全局误差 (RERGAS)。 其RSAM、RERGAS的计算方法分别为

(4)

(5)

四个评价指标中,RRMSE越小或RPSNR越大, 重建的高光谱图像与真实高光谱图像的误差就越小, 也就越接近于真实值; 而RSAM和RERGAS越小, 光谱畸变即失真程度就越小, 对应光谱重建的质量就越高。

2.2 主观分析

为了验证所提光谱重建方法的有效性, 将其与现有的7种主流方法进行对比, 分别为Arad[2], A+[3], Galliani[18], Yan[10], Nathan[13], HRNet[14]和AWAN[16]等重建模型。 图4和图5分别为NTIRE 2020数据集和CAVE数据集所选代表性测试图像在5个波段上的重建误差图, 所选5个波段为470、 520、 570、 630和680 nm, 其对应的波段排列顺序是图中的第一行到第五行。 而误差热图是通过计算真实高光谱图像和重建高光谱图像之间像素绝对误差获得, 在该误差图中, 热图显示的颜色越蓝, 代表重建的误差越小, 即所重建的光谱质量越高。

图5 CAVE数据集中一个高光谱图像在5个波段上的重建误差图

如图4和图5所示, 与其他7种方法相比, 所提光谱重建方法在5个波段的误差都相对较小, 证明该方法更具有先进性。 具体分析, Arad是一种基于稀疏恢复的光谱重建方法, 其误差在所有波段都比较大, 特别是470和520 nm波段更为明显, 这主要是因为该方法依赖字典选取导致重建精度不高。 A+是在Arad的稀疏编码方法上进行改进的算法, 虽然在一定程度上提高了Arad的重建性能, 但其在470和520 nm波段的误差仍然较大, 这是由于该模型单独对RGB矢量进行处理, 没有充分考虑图像的空间上下文信息。 Galliani和Yan是基于CNN的早期光谱重建方法, 网络结构简单, 其在470、 520和680 nm的重建精度不高, 主要由于特征提取和学习能力不高所造成的。 Nathan是一个基于轻量级的残差密集注意力网络, 涉及参数的数量个数很少, 其重建能力在所有5个波段表现比较均衡, 但都存在一定的误差。 HRNet使用像素重排列和残差密集块去重构高光谱图像, 虽然能够保留原始像素信息, 但是不能够有效地去除伪影, 导致其重建效果不理想, 尤其是在680 nm波段处重建的图像, 对应较大的光谱误差。 AWAN利用自适应加权注意网络挑选出空间域和通道域的有用特征信息, 从而获得了高质量的高光谱图像, 其在5个波段的重建性能整体上优于前6种。 而本工作通过引入EMFCA和LFWFA学习机制, 优化了通道权重分配过程并提取到最优的特征信息, 在5个波段的重建误差最小, 从而证明其在以上所列出对比模型中的光谱重建性能是最优的。

2.3 客观分析

表2和表3进一步对所有模型在NTIRE 2020和CAVE数据集上的表现进行定量分析。 可以看出, 在NTIRE 2020数据集上, 所提方法与目前已有文献中重建性能较好的AWAN方法相比, 在RRMSE、RSAM、RERGAS指标上分别降低了18.9%、 16.6%、 22.2%, 而RPSNR指标提高了4.5%。 在CAVE数据集上, 与其他7种方法相比, 所提方法在RRMSE、RPSNR指标上表现最好, 而在RSAM、RERGAS指标上虽然不是最高但依然排在前列。 所以, 通过综合分析两个测试集上的四种客观量化指标表现, 也证明所提方法优于其对比的7种同类方法。

表2 NTIRE 2020数据集的定量结果

表3 CAVE数据集的定量结果

2.4 消融实验

为验证EMFCA和LFWFA模块表现, 本文在NTIRE 2020数据集上进行消融实验, 结果如表4所示。 a代表大量普通卷积层堆叠而成的基准网络, b代表在a的基础上附加LFWFA模块, 以通过加权融合不同层的特征信息来获得网络不同深度特征信息的依赖性, 与a相比, b的结果使RRMSE指标降低了13.8%。 c代表在a的基础上, 仅引入EMFCA模块, 其在RRMSE指标上比a降低了22.7%, 主要原因是EMFCA模块有效地提取到了通道间相关联特征信息, 增强了网络的特征表达能力。 d为本文所提出方法, 其结合EMFCA和LFWFA模块进一步加强了网络的学习能力, 实验结果表明, 同时使用这两个模块获得了最优的性能。

表4 NTIRE 2020消融研究的对比结果

3 结 论

现有基于深度学习的RGB图像光谱重建方法仍存在一定缺陷, 特别是重建图像的结构细节丢失以及光谱精度不够高。 研究发现, 该缺陷主要源于图像重建网络中的特征提取和融合方法存在不足, 为此提出了一种基于双重注意力机制的RGB图像光谱重建方法。 所建立的光谱重建网络通过引入EMFCA和LFWFA, 实现了对有效通道特征的关注以及网络不同深度特征的加权融合, 从而提高了光谱重建模型的精度。 在NTIRE 2020和CAVE两个数据集上对所提算法和7种对比算法进行试验验证, 结果表明, 本工作设计的网络模型在主观和客观指标方面均获得了最优重建效果, 其为进一步扩大高光谱图像的应用范围提供了理论支持。 此外, EMFCA和LFWFA模块一致性较强, 可用于空间超分、 图像分类、 压缩光谱成像等其他领域。

猜你喜欢

特征提取残差注意力
基于双向GRU与残差拟合的车辆跟驰建模
让注意力“飞”回来
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
基于Daubechies(dbN)的飞行器音频特征提取
“扬眼”APP:让注意力“变现”
Bagging RCSP脑电特征提取算法
A Beautiful Way Of Looking At Things
平稳自相关过程的残差累积和控制图
基于MED和循环域解调的多故障特征提取