APP下载

改进的基于通道注意力反馈网络的遥感图像融合算法

2021-04-20杨晓敏

计算机应用 2021年4期
关键词:光谱卷积注意力

吴 蕾,杨晓敏

(四川大学电子信息学院,成都 610065)

0 引言

遥感图像融合是一种将低分辨率多光谱(Low-resolution MultiSpectral,LMS)遥感图像和高分辨率全色(PANchromatic,PAN)遥感图像融合成高分辨率多光谱(High-resolution MultiSpectral,HMS)图像的算法。高分辨率多光谱遥感图像广泛地应用在地球观测、分类、目标检测、环境监测和光谱分解等领域[1-2]。然而由于当前硬件的局限性,遥感卫星只能分别获取地表多波段的多光谱LMS 图像和单波段的全色PAN 图像,这两种图像在信息上是互补的。为了得到HMS 图像,遥感图像的融合技术得到了研究者们的广泛关注。随着遥感图像越来越重要,遥感图像融合算法也在不断地改进,如何将多光谱图像和全色图像的互补信息尽可能多地融合到高空间分辨率多光谱图像中,是遥感图像融合中重点关注的问题。

近几十年来,遥感图像融合算法的效果一直在不断提升,传统的遥感图像融合算法大致能够分为两类:一类是基于成分替换(Component Substitution,CS)的算法;另一类是基于多分辨率分析(Multi-Resolution Analysis,MRA)的算法[3-5]。由于PAN 和LMS 图像的光谱范围不一致,即使在融合策略上进行了改进,现有的CS/MRA 算法也会表现出一定程度的光谱失真。

通过整理总结传统的遥感图像融合算法,可以发现许多提取和整合空间细节特征的过程和卷积神经网络有相似之处,并且卷积神经网络所提取到的特征比手工设计的提取规则所提取到的特征具有更强的表征能力。因此,为了克服传统算法所存在的缺点,已经有很多基于卷积神经网络(Convolutional Neural Network,CNN)的遥感图像融合算法被提出。例如,Masi 等[6]使用基于超分辨率的三层CNN 结构进行了遥感图像融合,率先提出了基于CNN 的遥感图像融合算法PNN(Pansharpening by CNN),显著提高了遥感图像融合算法的性能。Wei 等[7]提出了一种深度残差遥感图像融合神经网络DRPNN(Pansharpening by Deep Residual CNN),用于鲁棒和高质量的PAN 和LMS 图像融合。该算法融合了残差学习过程,在残差学习架构的支持下,形成了极深的卷积滤波框架,提高了融合的精度,同时也保证了网络的性能可以快速收敛。Shao 等[8]提出了双分支的CNN 来分别提取LMS 和PAN图像的特征,并采用残差连接以增强遥感图像融合的性能。Yang等[9]提出了一种结合了有关遥感图像融合的先验知识的网络结构,该算法从LMS 和PAN 图像中提取高频信息,并将它们用作网络的输入。该网络是在频率域而不是空间域中进行训练的,因此其泛化能力和性能都优于传统算法和基于简单网络结构的遥感图像融合算法。

上述算法中所有的卷积神经网络都是前馈的,由于前馈网络的感受野较小,获取的上下文信息不足,浅层卷积层所提取到的浅层特征表征能力不足,在网络随后的卷积层中这些浅层信息会被重用,这会导致网络的重构性能降低。同时LMS 图像和PAN 图像具有不同的信息,但是上述算法在融合时,平等地对待特征图的各个通道,忽略了各个特征图之间各通道的相互依赖关系。针对以上问题,本文提出了改进的通道注意力反馈网络,即使用反馈网络将深层特征反向传回从而优化浅层特征并且引入通道注意力机制充分利用各通道之间的相互依赖关系来进一步提升反馈网络的性能。本文的主要工作有两个,分别如下:

1)引入了反馈卷积神经网络,学习深层特征和浅层特征之间的相互依赖关系,在保留LMS 图像的光谱信息和PAN 图像的细节信息的同时可以生成更深层次的特征。

2)使用注意力机制为反馈过程中产生的特征图以及特征图的各个通道,自动分配不同的注意力资源,使网络模型可以学习到尽可能多的有用信息。

1 相关工作

1.1 反馈机制

在人类视觉系统中普遍存在反馈机制,能够将信号从高阶区带到低阶区[10]。将反馈机制应用在图像处理中可以取得很好的效果。例如,对于单幅图像的超分辨率,Haris 等[11]根据反投影理论构造了上投影和下投影单元,以此来实现一种迭代误差的反馈。Li 等[12]精心设计了一个反馈模块,为低级视觉任务提取强大的高级表示,并传输高级特征来细化低级特征,实现反馈机制。

同样地,反馈机制也可以应用到遥感图像融合中,通过学习深层特征和浅层特征之间的依赖性来得到更深层次的特征。本文设计了一种具有特殊特征提取模块的反馈模块,特征提取模块由三对密集跳跃连接的上下采样层组成,通过迭代的上、下采样实现了反投影机制,通过学习各种上、下采样算子,使网络生成强大的特征。其中的密集跳跃连接允许重用来自前一层的特征,避免重复学习冗余的特征。该特征提取模块可以提取出强大的高级表示,然后网络的反馈连接将高级表示反向地传回到输入,并再次送入反馈模块来进行处理。通过不断的反馈学习,得到最终的深层特征。

1.2 通道注意力机制

在卷积神经网络中最重要的就是卷积算子,它使网络在提取每一层特征时能融合空间信息和信道信息。基于特征的这种空间组成关系,Hu 等[13]提出了一个新的建筑单元,称为“压缩-激发”模块,该模块首先明确地表示出通道之间的互相依赖关系,然后根据依赖关系来自适应地校准通道相关的特征响应,来提高网络产生的特征的质量。这是一种通道注意力机制,该机制通过运用全局信息,有偏向地强调有用的信息特征,抑制作用有限的特征。Zhang 等[14-15]将通道注意力(Channel Attention,CA)应用在了图像超分辨率中,并且取得了不错的效果。

在遥感图像融合算法中,LMS图像是多通道的,每个通道都有不同的光谱信息,PAN 图像是单通道有非常清晰的细节信息的灰度图。在融合的过程中,首先将PAN 图像和LMS 图像在通道上进行拼接,如果平等对待每个通道则不能很好地保留LMS 图像的光谱信息和PAN 图像的细节信息。将通道注意力机制应用在遥感图像融合中,就可以针对性地提取出LMS图像的光谱特征和PAN图像的细节特征。

2 本文算法

2.1 算法框架

为了直观地展示本文算法,首先给出了本文的总体网络结构如图1所示。算法的实现主要有3个步骤:1)用了双通道特征提取层分别提取LMS 图像的光谱特征和PAN 图像的细节特征,并且将这两部分特征与反馈输出的表征能力较强的深层特征拼接在一起。其中,特征提取层2 在提取PAN 图像特征的同时会对特征下采样以适应LMS 特征的尺寸;2)结合以后的特征输入到反馈层,在反馈层中先经过残差通道注意力模块(Residual Channel Attention Block,RCAB)强调有用的信息来优化特征,然后将优化后的特征输入到反馈模块(Feedback Block,FB),在反馈层中经过若干次反馈,最终输出具有有力表征能力的特征,在这之前的输出结果都是作为反馈量和输入特征合并到一起的;3)反馈结构输出的特征经过重建层(1 个反卷积层和1 个3×3 的卷积层)再与上采样后的LMS图像相加,从而得到最终的重建HMS图像。

图1 本文算法框架Fig.1 Framework of proposed algorithm

2.2 通道注意力机制

以前基于卷积神经网络的遥感图像融合算法平等地对待LMS 和PAN 图像各通道的特性,这对于实际情况不灵活。为了更多地获取有用信息,可以通过特征通道之间的相互联系性来更多地关注到有用的信息特征,从而形成通道注意机制。该机制最重要的就是如何合理地去关注每个通道上的特征。对此,本文主要考虑两个方面:一方面,LMS 图像和PAN 图像中包含的信息并不相同。PAN 图像中的信息是高频成分,包含了很多细节和纹理信息;LMS 图像中具有丰富的光谱信息和低频成分。另一方面,在卷积的过程中每个卷积算子都只有一个局部的感受野,并不能充分利用到上下文信息,因此获取的特征也是缺少上下文信息的。

基于这些分析,引入了通道注意力机制。首先运用全局平均池化将全局的通道空间信息转化成信道描述符,如图2所示。

图2 通道注意力机制示意图Fig.2 Schematic diagram of channel attention mechanism

X=[X1,X2,…,XC]是一个通道注意力机制的输入,其中包含C层大小为H×W的特征图。通过空间维度H×W对X进行收缩,可以得到通道级的统计量z,第c层的元素z可以表示为:

其中:xc(i,j)为第c层特征xc在(i,j)处的值;FGP(·)为全局池化函数。这种通道统计量可以看作是局部描述符的集合,其统计量有助于表达整个图像。

为了通过全局平均池化完全捕获聚合信息的通道依赖性,本文引入了一个门控机制。正如文献[14]中讨论的,门控机制应该满足两个标准:首先,它必须能够学习通道之间的非线性交互作用。其次,由于需要的是多通道的特征,而不是单一的激活,它必须学习一种非互斥的关系,本文选择使用sigmoid函数来实现简单的门控机制:

其中:f(·)和变量δ(·)分别表示sigmoid 门控和ReLU(Rectified Linear Units)函数;HD是降维卷积层的权值集,降维卷积层起到的通道降维作用,降维比例为r。降维后的维信号被ReLU函数激活后,再通过升维卷积层增大通道数r倍,升维卷积层权值集为HU。然后得到最终的通道统计量w,用于重新调节输入xc:

其中:wc和xc分别为第c层通道的比例因子和特征图。

同时,受文献[7]中残差模块(Residual Block,RB)的启发,本文将CA 集成到RB 中,提出残差通道注意力模块(RCAB),如图3所示。

其中:Cb为通道注意函数;Fb-1和Fb是RCAB 的输入和输出,RCAB 从输入中获取残差Xb。剩余分量主要由两层叠加得到:

图3 残差通道注意力模块示意图Fig.3 Schematic diagram of residual channel attention block

2.3 反馈模块

在反馈模块中,本文采用了三组由下采样卷积层和上采样反卷积层构成的投影组,在每个卷积层和反卷积层之间又加入了稠密连接,这样可以增加各层特征之间的联系,通过特征重利用的方式,在相同的卷积层数下,可以生成表征能力更强的特征。

如图4所示,第t次迭代的反馈模块接收到反馈信息来纠正浅层表示然后将更强大的深层表示输出到下一次迭代和重构模块。FB 按顺序包含3 个投影组,它们之间有密集跳越连接。每个投影组主要包括一个上采样操作和一个下采样操作,它们可以将深层特征投影到浅层特征中。

在FB开始时,通过卷积层Conv(1,m)对进行拼接和压缩,通过反馈信息来优化输入特征产生重新优化的输入特征,公式表达如下:

其中:Conv(·)为初始压缩卷积操作;的拼接。设为FB 中第i组投影组在第t次迭代时给出的HMS和LMS特征图。可以由式(7)得到:

其中:Ci↑为在第i个投影组使用反卷积层Deconv(k,m)的上采样操作。对应地可由式(8)得到:

其中:Ci↓为使用卷积层Conv(k,m)在第i个投影组的下采样操作。除了第一个投影组外,在Ci↑和Ci↓之前添加卷积核大小为1的卷积层Conv(1,m)来减少参数和提高计算效率。

为了从每个投影组中挖掘有用信息,并确保在下一次迭代中映射输入LMS 特征的大小不变,对投影组生成的MS特征进行融合(图4中的实线箭头),生成FB的输出:

其中:Conv表示Conv(1,m)的函数。

图4 反馈模块示意图Fig.4 Schematic diagram of feedback block

3 实验验证与分析

3.1 实验设计

3.1.1 实验设置与数据集

本文实验中使用PReLU(Parametric ReLU)作为激活函数,每次迭代中除最后一层之外的所有卷积层和反卷积层都使用了PReLU。除了在每次反馈中具体分析每个输出的图像,将最后一次反馈网络输出的图像作为最终的锐化结果。使用文献[12]方法初始化网络参数,采用Adam 优化网络参数,初始学习率为0.000 1,每200 个epoch 学习率乘以0.5,提取的图像特征层数为64。网络是在Pytorch 框架上实现,并在NVIDIA 1080TiGPU上进行训练。

各个卫星得到的图像种类不尽相同,为了验证算法的适用性,实验采用了三种卫星的图像,分别是Spot-6、QuickBird和WorldView2,这三种卫星图片覆盖了建筑、植被和海洋等场景。所有的LMS 图像尺寸为64×64,PAN 图像的尺寸256×256。由于无法获取真正的HMS 图像,本文将原始的尺寸为256×256的MS图像作为参考图像,原始MS图像下采样4倍的图像作为LMS 图像来充当训练集。由于有些对比算法需要训练集,为了公平原则,所有的训练集图像都保持一致。

3.1.2 不同通道注意力模块的对比实验

在本节实验中探讨了反馈网络中添加不同的通道注意力机制模块(CA 和RCAB)的效果。结果图像和HMS 图像之间的相关系数如图5 所示,一共训练了1 000 个epoch。图5 中:Base表示添加任何通道注意力机制模块;CA表示添加了通道注意力机制模块;RCAB 表示添加了残差通道注意力机制模块。从图5可以看出:添加了RCAB模块的反馈网络得到的结果图像与HMS 图像的相关系数最高,未添加任何通道注意力模块的反馈网络得到的结果图像与HMS 图像的相关系数最低,这说明通道注意力机制确实可以改进反馈网络的效果,并且RCAB模块能表现出更好的性能。

图5 不同通道注意力模块结果的相关系数Fig.5 Correlation coefficients of different channel attention block results

3.2 评价方法

本文对所对比的其他遥感图像融合算法和本文算法得到的结果图像进行了定量和定性分析。主观上通过观察结果图像的整体颜色和局部放大图的细节来进行比较;客观上采用了6 种常见的客观评价指标:1)计算两幅图像相似性的相关系数(Correlation Coefficient,CC)[16],CC 的值越大,说明与HMS 图像越相似;2)全面反映锐化结果质量的合成图像无方向性全局相对误差 ERGAS(Erreur Relative Global Adimensionnelle de Synthese)[17],ERGAS 的值越小,说明锐化结果越好;3)平均通用图像质量指数Q[18],Q 的值越大,说明锐化效果越好;4)反映结果图像光谱质量的波谱角度映射表(Spectral Angle Mapper,SAM)[19],SAM 的值越小,说明光谱质量越好;5)对所有通道求平均光谱误差(Relative Average Spectral Error,RASE)[20],RASE 的值越小,表示锐化结果的平均光谱表现越好;6)直接对结果图像和参考图像求像素值差异的均方根误差(Root Mean Square Error,RMSE)[20],RMSE的值越小,说明锐化结果和参考图像之间差别越小。

3.3 实验结果分析

在本实验部分,通过大量的定量和可视化评估,验证了本文算法可以表现出优良的性能。实验对比了六种不同的遥感图像融合算法,这六种算法都是具有代表性的且涵盖了遥感图像融合的三大类算法:1)基于多分辨率分析的算法有基于小波变换的算法(Least-Squares,LS)[21];2)基于成分替换的算法有用抠图算法进行锐化(Pansharpening with Matting Model,MMP)[22]、主成分分析法(Principal Component Analysis,PCA)[23]、快速强度-色调-饱和度遥感影像融合算法(Fast Intensity-Hue-Saturation,FIHS)[24];3)基于深度学习的算法有PNN[6]和DRPNN[7]。

3.3.1 Spot-6数据集

图6 展示了一系列Spot-6 卫星的建筑图片,其中:图6(a)~(c)分别为参考的HMS、PAN 和LMS 图像;图6(d)~(j)分别为通过LS、MMP、PCA、FIHS、PNN、DRPNN 和本文算法所得到的锐化结果。由于卫星图像是多通道的(R、G、B、近红外),为了主观效果的展示,锐化结果仅仅展示了R、G、B三个通道。

从图6 的实验结果可以看出:LS、PCA 和FIHS 算法得到的锐化结果有一定程度的光谱失真,尤其是PCA 算法和FIHS算法所得到的图明显偏蓝;LS算法和MMP算法的结果细节比较模糊,细节信息丢失严重。相对于LS、MMP、PCA、FIHS 这些传统算法,PNN 算法、DRPNN 算法和本文算法在细节方面跟图6(a)中参考图像比较一致;但是在光谱方面,PNN 算法和DRPNN 算法的结果图像颜色比参考图像淡。所以在主观评价上,本文算法取得了较好的结果。

图6 Spot-6 卫星图像在不同算法下的融合结果Fig.6 Fusion results of Spot-6 satellite images under different algorithms

表1为各个算法结果图像的客观评价指标的值。

表1 图6实验结果的客观评价指标Tab.1 Objective evaluation indicators of Fig.6 experimental results

其中:CC 和Q 这两个指标的值越大表示算法的效果越好,而ERGAS、SAM、RASE、RMSE 这四个指标的值越小表示算法的效果越好。从表1 可以看出本文算法在CC 和Q 指标上取得了最大值,在ERGAS、SAM、RASE和RMSE指标上取得了最小值,在各个指标上都是最优的。本文算法的RMSE 降低最明显,比传统算法降低了50%以上,相较于次优的DRPNN 算法降低了12.92%。结合前面视觉上的效果,由此可以得出在Spot-6 卫星图像上,本文算法无论在主观还是客观上都取得了较好效果。

3.3.2 QuickBird数据集

图7 展示了一系列QuickBird 卫星的建筑和海洋图片,其中:图7(a)~(c)分别为参考的HMS、PAN 和LMS 图像;图7(d)~(j)分别为通过LS、MMP、PCA、FIHS、PNN、DRPNN 和本文算法所获取的锐化结果。由于卫星图像是多通道的,但是能显示出的彩色图是3 通道的(R、G、B),为了主观效果的展示,锐化结果仅仅展示了R、G、B三个通道。

图7 QuickBird 卫星图像在不同算法下的融合结果Fig.7 Fusion results of QuickBird satellite images under different algorithms

图7的实验结果中:FIHS算法的结果有严重的光谱失真,整幅图像颜色偏白;PCA 算法的结果的纹理和轮廓边缘都很模糊;LS 算法的结果也有轻微的光谱失真。从总体上看,MMP 算法、PNN 算法和DRPNN 算法都跟图7(a)中的参考图像比较接近。但是从放大的跑道图中可以看出,这三个算法在细节上都有一定的模糊。无论是整体图和局部图7(j)中本文算法的效果都比较好。

从表2 可以看出本文算法在CC 和Q 指标上取得了最大值,在ERGAS、SAM、RASE 和RMSE 指标上取得了最小值,在各个指标上都是最优的,DRPNN 算法的结果都是次优的。本文算法的RMSE 降低最明显,比传统算法降低了50%以上,相较于次优的DRPNN 算法降低了11.52%。结合前面视觉上的效果,由此可以得出在QuickBird 卫星图像上,本文算法无论在主观还是客观上都取得了较好效果。

表2 图7实验结果的客观评价指标Tab.2 Objective evaluation indicators of Fig.7 experimental results

3.3.3 WorldView2数据集

图8 展示了一系列WorldView2 卫星的植被和建筑图片,其中:图8(a)~(c)分别为参考的HMS、PAN 和LMS 图像;图8(d)~(j)分别为通过LS、MMP、PCA、FIHS、PNN、DRPNN 和本文算法所获取的锐化结果。由于卫星图像是多通道的,但是能显示出的彩色图是3 通道的(R、G、B),为了主观效果的展示,锐化结果仅仅展示了R、G、B三个通道。

图8 的实验结果中:LS 和PCA 算法的结果细节模糊非常严重,局部图中树的边缘都看不清;MMP 算法的结果有轻微的光谱失真;FIHS 算法的结果有严重的光谱失真,整幅图像颜色偏紫、偏白。从总体上看,PNN 算法和DRPNN 算法、本文算法结果都跟图8(a)中的参考图像比较接近。但是从放大的局部图中可以看出,PNN和DRPNN的放大图中树的纹理都没有了,而本文算法的放大图与参考图像非常接近,树的轮廓和纹理都比较清晰。

图8 WorldView2卫星图像在不同算法下的融合结果Fig.8 Fusion results of WorldView2 satellite images under different algorithms

从表3 可以看出本文算法在CC 和Q 指标上取得了最大值,在ERGAS、SAM、RASE 和RMSE 指标上取得了最小值,在各个指标上都是最优的。本文算法的RMSE 降低最明显,比传统算法降低了60%以上,相较于次优的DRPNN算法降低了53.55%。结合前面视觉上的效果,由此可以得出在WorldView2 卫星图像上,本文算法无论在主观还是客观上都取得了较好效果。

表3 图8实验结果的客观评价指标Tab.3 Objective evaluation indicators of Fig.8 experimental results

4 结语

本文针对以往遥感图像融合的深度学习算法中没有利用深层特征去修正浅层特征的问题,提出了一种改进的反馈网络遥感图像融合算法。本文算法使用反馈的深度学习网络来进行遥感图像融合,而且在反馈网络中加入了残差通道注意力模块对其进行改进。首先通过通道注意力机制重构输入图像的各通道特征,然后通过反馈连接将包含有用信息的深层特征带回到输入中以优化输入的浅层特征,最后重建出来的HMS 图像在光谱上和细节上都有较好的效果。通过实验验证,本文算法在不同的数据集上锐化得到的图像没有出现光谱失真和畸变,空间细节也比较丰富,在六种客观评价指标上也表现出最佳性能,这说明本文算法能较好地将LMS 图像的光谱信息和PAN图像的细节信息融合到一起。

由于卷积神经网络是反馈的,卷积的参数比较庞大,在运行时需要较大的内存,运行速度较慢,而且需要较大的数据集来训练网络。如何减少网络的参数、提升运行速度是值得继续研究的问题。

猜你喜欢

光谱卷积注意力
基于全卷积神经网络的猪背膘厚快速准确测定
基于三维Saab变换的高光谱图像压缩方法
煤炭矿区耕地土壤有机质无人机高光谱遥感估测
基于图像处理与卷积神经网络的零件识别
让注意力“飞”回来
基于3D-CNN的高光谱遥感图像分类算法
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
A Beautiful Way Of Looking At Things
阅读理解两则