APP下载

面向高光谱遥感图像分类的连续空间依赖增强型空—谱卷积神经网络

2021-12-08涵,倪欢,马

地理与地理信息科学 2021年6期
关键词:训练样本卷积光谱

周 子 涵,倪 欢,马 林 飞

(南京信息工程大学遥感与测绘工程学院,江苏 南京 210044)

0 引言

高光谱遥感图像分类旨在利用其丰富的空—谱信息为每个像元分配一个地表覆被类型[1],可为自然资源调查提供支撑[2]。但由于高维度特征和训练样本匮乏问题,使高光谱图像分类仍存在局限[3,4]。传统高光谱图像分类研究引入经典机器学习方法[5](如支持向量机[6]和随机森林[7]等),但这种依赖于人工设计特征的分类方法很难取得较高的分类精度[8,9],且难以应对少量样本支持下的高维度特征[10,11]。卷积神经网络(Convolutional Neural Network,CNN)[12]可实现特征维度的快速变换,并有效改善高层次语义的表达能力[13],已应用于高光谱遥感图像分类研究[14]中。其中,DFFN(Deep Feature Fusion Network)[15]和MSKNet(Multibranch Selective Kernel Networks)[16]等二维CNN框架仅挖掘了高光谱图像的光谱特征,未能充分利用其中蕴含的空—谱信息。近年提出了各具特色的三维CNN网络结构[17]以解决上述问题,如SSRN(Supervised Spectral-spatial Residual Network)[18]、FDSSC(Fast Dense Spectral-Spatial Convolution)[19]、DPyResNet(Deep Pyramidal Residual Network)[20]和A2S2K-ResNet(Attention-Based Adaptive Spectral-Spatial Kernel ResNet)[21]。其中,具有代表性的A2S2K-ResNet采用卷积核选择思想[22],详细探讨卷积核尺寸对特征表达的重要性,通过设计一种为波段间关系建模的模块EFR(Efficient Feature Recalibration),充分发挥高光谱图像的高维度优势,对基于三维CNN的残差网络(ResNet)[23]进行改进,以增强空—谱联合特征的提取能力。A2S2K-ResNet的精度虽然较高,但其引入的卷积核选择思想类似于不同预设卷积核特征的加权求和,在训练过程中不能完全自适应选择卷积核,且该过程预先定义的两个卷积核尺寸(3×3×7和1×1×7),并未充分增大或细化CNN的感受野;其次,虽然该过程引入注意力机制辅助概括语义,但其采用均值池化方式提取一维注意力向量,再经过卷积变换形成权值以增强卷积特征,不足以充分表达图像空间依赖关系,导致分类结果存在噪声。鉴于此,本文提出一种连续空间依赖增强(Continuously Spatial Dependency Enhancement,CSDE)模块,替代A2S2K-ResNet中的卷积核选择过程,以弥补A2S2K-ResNet在以上理论方面的不足,并改善分类结果。

1 研究方法

1.1 A2S2K-ResNet

A2S2K-ResNet[21]的整体网络框架由1个基于注意力机制的自适应空—谱核模块(A2S2K)和4个嵌入EFR的三维ResNet模块(EFR-ResNet)构成,利用1个由池化层和全连接层相结合的预测层,实现从特征到类别的预测。

(1)

(2)

[za,zb]=softmax([za,zb])

(3)

(4)

三维ResNet多用于高光谱图像处理,其经过多组卷积层、归一化层、ReLU激活层处理后,通过残差连接的方式增强输入特征的表达能力[24]。EFR-ResNet将EFR过程融入三维ResNet中,利用3组卷积层(图1)使三维ResNet更有效地建立波段相关性。假设EFR的输入是F∈RB×Cin×S×S×C,则EFR用于捕捉F在Cin维度各波段间的相关性。EFR首先通过三维均值池化操作压缩F,生成s∈RB×Cin×1×1×1,然后在Cin维度对s的各波段进行线性变换(式(5)),最后将ω与F进行逐像素相乘,以增强F的波段相关性。在两个ERF-ResNet执行完成后,引入两个三维卷积层,在不同维度上实现卷积,以增强卷积特征的表达能力。

图1 EFR-ResNet框架示意Fig.1 Framework of EFR-ResNet

(5)

1.2 连续空间依赖增强(CSDE)模块

当前A2S2K使用的自适应加权机制(式(4))是对两个卷积特征图谱进行整体加权,对感受野的扩充作用有限。为增大CNN的感受野并顾及细节特征,本文提出CSDE模块(图2)以替换A2S2K模块,该模块采用自注意力矩阵为图像块整体空间依赖关系建模,并进行逐像素加权。

图2 面向高光谱遥感图像的连续空间依赖增强(CSDE)模块Fig.2 Continuously spatial dependency enhancement (CSDE) module for hyperspectral imagery

(6)

(7)

(8)

(9)

式中:Conv3×3×7(·)和Conv1×1×7(·)分别为具有3×3×7和1×1×7卷积核的三维CNN层;EFR(·)为式(5)所示的EFR;Conv3×3为具有3×3卷积核的二维CNN层。

(10)

(11)

(12)

1.3 本文方法网络结构

图3 本文方法整体网络结构示意Fig.3 Overall network architecture of the proposed method

表1 本文方法各卷积层、池化层、全连接层参数和结构详情Table 1 Parameters and structure information of the convolutional,pooling and fully-connected layers in the proposed method

2 实验

本文方法采用Python语言并结合PyTorch,引入高光谱研究领域广泛使用的4组标准测试数据集(Indian Pines(IP)、Salinas、Pavia University(PU)和Pavia Centre(PC))对本文方法和A2S2K-ResNet进行性能评估,并采用整体精度(OA)、平均精度(AA)和Kappa系数(K)对两种方法进行精度对比。其中,OA表示全部正确分类的像素比例,AA表示各类别正确分类像素比例的平均值。

2.1 实验配置

本文方法与A2S2K-ResNet方法的实验配置[21]相同:在训练过程中采用Adam优化方法,学习率初始值设置为0.01,衰减策略采用文献[25]方法,Batch大小设置为16;为分析模型稳定性,在每组数据集上训练5次,根据每次训练完成得到的模型获取分类结果,并统计分类结果精度的标准差。

为充分验证本文方法性能,将整体样本划分为互不相交的训练集、验证集和测试集,并设置训练集和验证集样本数量相等。其中,训练集用于模型训练,测试集用于测试模型分类精度,验证集在训练过程中实时计算当前模型的损失函数和验证精度,以选择模型。因训练样本数量直接影响模型的预测精度,本文限定训练样本数量占比分别为0.5%、1%、2%和4%,进而确定4组数据集训练集、验证集和测试集样本数量(表2)。训练集样本和测试集样本数量均以像素为单位,以当前像素为中心在9×9窗口内的像素值参与当前训练样本的特征计算,不参与损失函数计算、后向传播和模型参数优化过程;在预测过程中,同样以每个待预测的像素为中心,将其9×9窗口内的像素值输入训练好的模型中进行特征计算(窗口内的所有像素均不包含类别信息),再根据深度学习模型的预测层实现该像素类别的预测。

表2 4组数据集训练集、验证集和测试集样本数量Table 2 Details of the training,validation and testing samples for the four datasets

2.2 模型训练

为检验本文实验训练过程的有效性,计算训练集和验证集随循环训练不断推进的训练损失、验证损失和精度(OA、AA和K)(图4),训练过程的循环次数限定为200次,图4中每点均对应每次循环后整个训练集的损失和精度,以及当前模型作用于验证集上的损失和精度。限于篇幅,这里仅列举IP数据集取4%训练样本时的情况。

图4 模型训练过程的损失、训练精度和验证精度Fig.4 Loss,training and validation accuracy values in the training procedure of the proposed method

由图4a可知,验证集和训练集的损失变化规律类似,即前几次训练循环大幅减小了损失值,当循环次数达到30次时,损失趋于平稳,在后续循环中,训练损失和验证损失缓慢减小。由图4b-图4d可知,训练精度和验证精度的变化趋势相同,虽然验证精度略低于训练精度,但二者均超过0.95,因此,该训练过程不存在训练精度高而验证精度未达到任务需求的过拟合问题,模型训练有效。

3 实验结果分析

3.1 可视化分析

考虑到分类结果规律相同,本文只列举2%训练样本情况下的分类结果(图5-图7彩图见附录1,图8彩图见附录2)。可以看出,IP数据集分辨率较低,类别多(16个),类间样本数量差异大,在2%训练样本下,其包含的9个类别的训练样本量极少,导致A2S2K-ResNet分类结果存在大量噪声(图5c),而本文方法增强了空间依赖信息,有效抑制了噪声(图5d);与IP数据集类似,在Salinas数据集上本文方法也有效抑制了噪声,且比A2S2K-ResNet的误判现象少(图6d左上角);PU和PC数据集样本数量较多、类别较少(9个),两种方法分类结果接近,但A2S2K-ResNet方法误分类现象更多,如在图8e和图8f标记区域,其分类结果存在单个像素形式的误判点,本文方法则不存在该问题。整体而言,本文方法优于A2S2K-ResNet。

图5 数据集IP的实验结果及可视化对比Fig.5 Experimental results and visual comparison of the IP dataset

图6 数据集Salinas的实验结果及可视化对比Fig.6 Experimental results and visual comparison of the Salinas dataset

图7 数据集PU的实验结果及可视化对比Fig.7 Experimental results and visual comparison of the PU dataset

图8 数据集PC的实验结果及可视化对比Fig.8 Experimental results and visual comparison of the PC dataset

3.2 定量化分析

由表3可知,在取0.5%、1%、2%和4%训练样本情况下,本文方法于4组数据集上均取得了比A2S2K-ResNet更高的分类精度和较低的分类精度标准差,表明本文方法性能较稳定。如图9所示,随着训练样本数量增加,两种方法的OA、AA、K值均呈上升趋势且逐渐接近,在训练样本占比达到4%时,两种方法的分类精度均较高,在数据集Salinas、PU和PC上,OA、AA、K值均超过0.99,但在数据集IP上,精度偏低,这与图5中的可视化结果相吻合。当训练样本数量极少时(0.5%),两种方法的分类精度下降明显,尤其是在数据集IP上,A2S2K-ResNet的K值低于0.6,而本文方法降幅较小,优于A2S2K-ResNet。

表3 4组数据集测试精度(精度均值±标准差)对比分析Table 3 Comparison analysis on the testing accuracy (mean value±standard deviation) of the four datasets

3.3 空间一致性后处理的影响分析

本文采用3×3窗口对两种方法的分类结果进行空间一致性后处理(图10),以消除分类结果中的噪声。对比图9的初始分类结果可以看出,空间一致性后处理均提高了两种方法的分类精度,但两种方法的精度差异未发生明显变化,本文方法分类结果依然更佳,进一步证实了本文方法的优越性。

图9 分类结果精度对比Fig.9 Comparison of the accuracy values of classification results

图10 分类结果经空间一致性处理后的精度对比分析Fig.10 Comparison analysis on the accuracy of results processed by the spatial consistency post-processing

3.4 综合性能评价

FLOPs(the number of floating-point operations)是衡量深度学习模型计算复杂度的指标,其值越大,说明模型计算复杂度越高。对两种方法的参数量和计算复杂度进行统计:本文方法的参数量为0.371 M,与A2S2K-ResNet并无差别;但在并行输入16个大小为9×9×204的图像块(窗口)时,A2S2K-ResNet的FLOPs值为2.807 G,本文方法的FLOPs值为2.768 G,在不断扩大输入图像块大小时,该差异更突出。因此,相比A2S2K-ResNet,本文方法在未增加参数量的前提下可提高分类精度,降低计算复杂度。

4 结论

A2S2K-ResNet作为一种面向高光谱遥感图像的深度学习分类方法,具有精度高、速度快等优点,但其A2S2K不能有效优化CNN感受野,进而影响分类结果。本文提出的面向高光谱图像的连续空间依赖增强(CSDE)模块,可有效建立图像空间依赖关系,消除人为选定预设感受野尺寸带来的不确定因素。引入4组高光谱遥感图像标准分类测试数据集进行实验,并结合国际通用的3种精度评价指标进行方法验证和对比分析。可视化对比分析表明,本文方法有效抑制了A2S2K-ResNet分类结果中存在的噪声,减少了分类误判现象;定量化对比分析表明,本文方法的分类性能更稳定,且随着训练样本数量递减,优势逐渐增大。此外,两种方法参数量和计算复杂度的统计结果显示,相比A2S2K-ResNet,本文方法在未增加参数量的前提下降低了模型计算复杂度。

本文方法虽然解决了A2S2K-ResNet潜在的部分问题,但仍具备改进空间,如CSDE模块仅考虑了当前像素周围邻近区域的连续空间依赖关系,未能将其拓展到整个图像空间,未来将在不增加计算复杂度的前提下解决该问题;同时,将聚焦极少训练样本支持下的高光谱图像分类任务,以全面提升高光谱图像分类模型的实用性。

猜你喜欢

训练样本卷积光谱
基于三维Saab变换的高光谱图像压缩方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
人工智能
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
基于稀疏重构的机载雷达训练样本挑选方法
星载近红外高光谱CO2遥感进展
苦味酸与牛血清蛋白相互作用的光谱研究