融合植被指数的3D-2D-CNN高光谱图像植被分类方法

2021-10-15廖金雷周湘山陈洪刚熊淑华卿粼波

科学技术与工程 2021年27期

廖金雷，张磊，周湘山，陈洪刚*，熊淑华，卿粼波

(1.四川大学电子信息学院，成都 610065； 2.中国电建集团成都勘测设计研究院有限公司，成都 611130)

植被覆盖分类是反映生态系统的重要信息，对碳循环、栖息地和生物多样性以及公共卫生研究具有重要意义。高光谱图像具有图谱合一的特性，能够比较准确地从光谱中捕获物体间的细微差别，因而被引入到植被精准分类与识别的研究[1-2]中。

中外对基于高光谱图像的植被分类的方法进行了大量的研究。较为直接的方法是将图像数据视为一组像素与光谱特征相对应的离散信号，进一步利用神经网络[3]、支持向量机[4]或多项式逻辑回归[5]等研究方法进行分类。这些方法剥离了像素间的空间相关性，只利用光谱特征对植被进行分类。但同物异谱、同谱异物现象的存在，限制了的这类方法在分类精度上的进一步提升。

相较上述方法，采用空间信息和光谱信息相结合的特征提取显然更有利于植被分类[6]。典型代表包括基于结构滤波分类方法，如利用方形邻域内的样本均值或者方差表征目标像素点空间特征[7]；基于形态学轮廓分析方法，比如文献[8]首先采取主成分分析进行降维，再采用一系列不同的滤波模板进行空间特征提取；以及基于二维卷积神经网络对高光谱图像进行处理[9]。整体而言，空谱结合的思路使得植被分类的研究取得了明显的进展。但由于空谱特征分别提取再融合的多过程设计思路，使得网络模型十分复杂。

高光谱图像是同时具有两个空间维度(宽w、高h)和一个光谱维度(波段B)的三维立方体，因而使用三维卷积 (three-dimensional convolutional neural networks，3DCNN)对其进行处理不仅模型简单，而且能够更直观地实现光谱信息和空间信息的结合，在高光谱图像植被分类工作中具有一定的优势，因而基于3DCNN的方法成为了植被分类研究的新热点[10]。比如文献[11]使用原始3DCNN直接处理高光谱立方体，相较于1D-2D模型，提高了分类精确度。另外一些架构也被提出用于处理高光谱三维数据块，如多尺度特征提取[12]和半超视觉[13]。光谱空间残差网络(spectral-spatial residual network，SSRN)[14]将原始3D立方体作为输入数据，光谱和空间残差块从高光谱图像大量的光谱特征和空间上下文中连续学习判别特征。这些方法在处理植被分类问题时，将早期1D、2D CNN两种模式识别策略结合到一个滤波器中，所需的参数和层数更少且具有更高的性能[15]，整体上更适合进行高光谱图像分类。但是，由于高光谱图像样本数量少，而光谱信息量大等特性，使用原始的3D卷积网络获取特征的方法通常会面临过拟合和训练代价巨大等问题。如文献[11]和文献[12]都未能达到较高的分类精度，文献[14]虽在分类效果上有一定优势，但由于其巨大的训练，其训练时间远远超过其他算法。

另一方面，植被指数利用不同遥感波段间数据进行线性或非线性组合，可以敏锐地捕捉光谱间的差异，并将其放大[16]。近年来，中外对结合植被指数和卷积神经网络对高光谱图像进行分类进行了一些尝试。文献[17]对将多种植被指数组合作为1DCNN的输入数据；文献[18]在线性支持向量机上对比了分别利用CNN和归一化植被指数(normalized difference vegetation index，NDVI)两种特征提取方法进行土地覆盖分类的效果，并验证了植被指数特征提取方法的有效性。文献[19]对比了分别以红波段、近红外波段以及NDVI数据作为输入数据，在简单2DCNN体系结构上的表现，其中利用NDVI在分类结果中取得最好的结果。文献[20]将NDVI二维图像作为输入，CNN作为深度学习模型，对水稻生长阶段进行估算，并在部分高度的实验样本中取得较好结果。但是总体来说，利用植被指数方法进行分类的方法并没能取得具有优势的分类效果。文献[17]由于剥离了空间相关性，该尝试在分类精度上表现不佳，文献[18]分别对比了CNN与植被指数方法在特征提取阶段的有效性，却未将两者结合；文献[19]与文献[20]虽将植被指数数据作为2DCNN的输入，但由于依靠2DCNN无法从光谱维数中提取出具有良好鉴别能力的特征图，两者均未在分类精度上取得令人满意的结果。

由此可见，植被指数方法和卷积神经网络对高光谱植被图像分类问题具有潜力，但是在现阶段的研究中，还没有将两者结合的有效方法。针对以上问题，以植物园数据集、IP(indian pines)数据集和PU(pavia universty)数据集为研究对象，提出将植被指数和3DCNN相结合的方案。将融合植被指数与光谱主成分数据作为输入，利用分块方法改善传统三维卷积分类方法存在的过拟合和训练代价巨大的缺点，并设计了2D-3D卷积结合的网络。期望该方法可以在取得较好的分类效果的同时，减小训练和处理需要的时间成本。

1 提出方法

1.1 整体结构

本文中提出的基于高光谱图像的植被分类方法，其整体框架结构如图1所示。

图1 融合植被指数的3D-2D-CNN高光谱图像植被分类方法整体框图Fig.1 Block diagram of 3D-2D-CNN hyperspectral image vegetation classification method with vegetation index fusion

将待处理的高光谱图像看作宽度为w、高度为h和光谱维度波段数为B的三维立方体，记作X∈Rh×w×b。

首先采用本文提出的融合植被指数的特征提取方法，对初始数据进行预处理；然后将预处理得到的数据块依次送入训练好的网络进行分类；最后网络的输出为分类结果。

1.2 融合植被指数的特征提取方法

本文方法，融合了植被指数特征与主成分数据特征。主要过程包括数据整理、植被指数提取、波段选择(主成分分析)、特征融合、数据分块等。

首先使用植被指数相关定义，先计算提取得到其植被指数数据，然后利用主成分分析法(principal components analysis，PCA)对其进行波段选择得到主成分数据；将植被指数数据与波段选择后的降维数据拼接融合得到新的联合数据；最后将联合数据切块成为重叠的若干小数据块。至此，预处理步骤完成。具体各阶段处理方法介绍如下。

1.2.1 植被指数提取

植被对红外波段(R)吸收强烈，而近红外波段(near infrared,NIR)反射强烈，捕捉两者之间的差异相比于单个波段更敏感。植被指数则是根据绿色植被的光谱特性，将红外波段(R)与近红外波段(NIR)数据进行线性或者非线性组合获取的数据，因为其可以简单且有效地对地表植被情况进行度量而被用于植被分类的研究中。图2所示为植物园数据集包括的13种植被光谱曲线。

图2 植被光谱曲线Fig.2 Vegetation spectral curve

通过观察图2可以发现，桑树和槐树、樟树和朴树、天竺桂和松树及木芙蓉、灯台树和桉树的光谱曲线具有较高的相似性，利用单一的光谱数据进行分类容易造成混淆。因此引入植被指数的特征和光谱特征进行融合后分类，以有效提取植被的特征信息。选择经过实践证实并且得到广泛应用的归一化植被指数 NDVI、差值植被指数(difference vegetation index,DVI)、比值植被指数(ratio vegetation index,RVI)[20]。

(1)比值植被指数 RVI 表示绿色植被在红外与近红外波段上的反射率ρ的比值，即

(1)

(2)归一化植被指数NDVI为近红外波段反射率和红外波段反射率差值与其和值的比值，即

(2)

(3)差值植被指数 DVI 定义为近红外波段和红外波段反射率的差值，即

DVI=ρNIR-ρR

(3)

许多光谱波段具有相似的纹理，即使经过主成分分析后光谱数据依然存在信息冗余，因而采用植被指数对近红外波段与红外波段间显著的差异特征进行提取。根据植被指数定义，选取k组波段计算得到w×h×k植被指数数据。借助植被指数特征的有效性，在后续的波段选择过程中可以减少至更少的光谱波段数，进而降低3D卷积过程中的计算量。

1.2.2 波段选择

在大多数情况下光谱维数远远大于空间邻域，导致了众所周知的维数灾难——即当样本数量有限时，随着特征维数的增加分类精度反而下降。为缓和高维性，有策略地进行波段选择，同时剔除光谱冗余、压缩数据是十分必要的。现采用主成分分析法对图像进行数据降维，筛选提取包含有效光谱信息特征的波段，将光谱波段由D维压缩至B维，得到压缩后的w×h×B数据立方体。

1.2.3 特征融合

将植被指数数据与对应像元的主成分波段数据进行拼接，融合成尺寸为w×h×(k+B)的新三维数据块，特征融合后的三维数据块同时保留了空间光谱特征，其中光谱特征融合了更为敏感的植被指数特性。

1.2.4 数据分块

将新融合的三维特征数据块分成若干重叠的S×S×(k+B)立方体小块，分块后小块宽度与高度均为S，以中心像素的标签决定小块的真值标签。该步骤为后续特征融合提取过程同时提供了相邻空间与相邻波段间的光谱信息，并且忽略了对分类判别帮助不大的非相邻空间信息。该过程将巨大尺寸的三维图像数据进一步切分，将小立方体块视作新的实验样本，并依次送入CNN网络训练。

1.3 3D-2D-CNN网络结构

本文设计的网络结构(图1)，主要包括三个三维卷积层(three dimensional convolution layer， conv3D)、一个二维卷积层(two dimensional convolution layer，conv2D)、两个全连接层(fully connected layers，FC)与softmax分类器，网络的输出为分类结果。下面以IP公开数据集的参数设置为例，展示3D-2D-CNN网络结构的具体过程。

输入数据块大小为15+3，25×25(表示空间域大小为25像素×25像素，图层包括15层主成分数据层和3层植被指数层)。

首先对输入的数据块进行3D卷积，以同时对融合植被指数的光谱信息与空间信息进行特征学习。第一卷积层的滤波器尺寸参数设置为8，3×3×7；第二卷积层的滤波器尺寸参数设置为16，3×3×5；第三层卷积层的滤波器尺寸参数设置为32，3×3×3，三层3D卷积层步长均设置为(1,1,1)，并采用relu激活函数。输入图像块与滤波器3D卷积后得到了尺寸为的新特征图。

紧接着对卷积后数据进行整形再对其进行2D卷积以对空间信息进行充分的再提取。经过3D卷积的新特征图先通过Reshape函数整形成二维数据，然后经过与参数尺寸设置为64，3×3的2D滤波器进行卷积。

然后设计了两层全连接层以规避单层有时无法解决的非线性问题，设置神经单元结点数分别为256与128，并采用relu作为激励函数来促进网络的稀疏性，并缓解反向传播时的梯度弥散问题。全连接层之后分别紧接参数设置为0.4的Dropout层，以缓解由于训练样本过少造成的过拟合问题。

最后采用softmax分类器实现对植被的分类。

网络参数设置如表1所示。在训练时，每次读取样本数(batch_size)为256，学习率(lr)为0.001，迭代次数为100个epoch。

表1 网络参数设置表

二维卷积通常用于提取空间域的特征，为了增强特征表示能力，依次将各波段光谱作为通道信息参与特征提取的制作——所有波段都参与了卷积的计算，提取大量涉及光谱信息的空间特征作为训练通道，为后续层提供了丰富的空间特征。在该模块中，依据内部信息对空间特征进行捕获，同时在空间域和频带域对各特征进行量化。

在此基础上将卷积运算应用于三维块中，以自上而下、从左到右的顺序获取空间光谱斑块和三维卷积核的积分。显然随着参数的增加，复杂性会逐渐增大，会导致更多的训练时间和过拟合问题。使用卷积核尺寸较小的简化结构，侧重于提取紧邻于中心像素的空间与波段间特征。

2 实验结果与分析

本文中网络使用2D、3D卷积块以扩展空间信息特征和光谱信息，其中3D卷积融合邻近频带信息，2D卷积则获取丰富的空间卷积特征，有效提高了模型的效率同时克服过拟合的问题。

以植物园数据集、IP公开数据集与PU公开数据集为实验样本，对设计的2D-3D卷积相结合的深度网络效果进行验证。

2.1 数据描述

使用植物园数据集与对所提出的基于3DCNN的高光谱图像分类方法进行实验。

2.1.1 植物园数据集

植物园数据集由无人机于180 m飞行高度采集，空间分辨率为0.075 m，覆盖光谱范围400～1 000 nm，光谱分辨率为(3.5±0.5) nm，采集波段数175个。

选择红外范围内780～800 nm波段、与近红外范围内859～874 nm的波段，将两个范围波段数据分别均分为三组再两两组合，形成三组待处理数据。接着依次求得每一像元植被指数数据。

数据集依据实地调查的植被种类经纬度坐标和图像选取法，使用ENVI完成对图像的标注。标注的植被种类和标注具体情况如表2所示。

表2 物种类别与标记个数

2.1.2 IP数据集

IP数据集由机载可视红外成像光谱仪在印第安纳州西北部上空拍摄。其截取在空间域上145 像素×145像素大小进行标注；在光谱域上则由 224 个光谱反射率波段组成，其波长范围为 0.4～2.5 μm。其中，可用的地面真相为 16 个类，实验中剔除20个吸水带，选用剩下200个波段数据作为研究对象。

2.1.3 PU数据集

PU数据集是由德国的机载反射光学光谱成像仪(ROSIS-03)在意大利的帕维亚城拍摄成像，它在空间域上由 610 像素×340 像素组成；去掉吸水带后，光谱域上由 103 个光谱波段构成，其波长范围为 0.43～0.86 μm。其中，地面真相为9个类，实验中使用的数据集光谱波段总数为 103 条。

2.2 实验设置

实验环境为：Intel(R)Core(TM)i5-7500 CPU，8 G 安装内存，主频为3.40 GHz 处理器，显卡为 NVIdIA GTX 2080Ti，CUDA 版本 10.0，深度学习平台采用python3.6的TensorFlow1.14.0框架。

为了更好地衡量分类准确度，采用总体精度(overall accuracy,OA)、平均精度(average accuracy,AA)与Kappa系数(Kappa accuracy，KA)作为定量化评价标准。其中总体精度OA表示被正确分类的类别像元数与总的类别个数的比值，平均精度 AA 表示各类别的平均准确率，Kappa 系数 KA 表示分类与完全随机的分类产生错误减少的比例。

2.3 消融实验

为了验证本文方法各部分的有效性，以IP数据集为例，对植被指数融合模块、网络各层的合理性进行分析。随机抽取其中10%作为训练样本，其余作为测试集合。

实验结果如表3所示，当网络仅采用2DCNN或3DCNN的时候，OA分别仅为93.94%与96.30%，当采用两者结合的网络OA达到了97.13%，说明3D-2D结合对空谱信息的更充分利用起到了促进作用。当融合了植被指数后，采用2DCNN和3DCNN的分类效果均有不同程度的提升，OA分别达到了96.12%和96.97%，这是因为植被指数表征的指定波段间的差异提供了更丰富的信息，说明了植被指数部分的有效性。当三者同时采用，效果最好，OA达到98.11%。

表3 通过IP数据集进行消融实验分析

2.4 小样本测试

在小样本训练集下的分类性能是现阶段高光谱分类方法问题中重点关注的问题。为了评估本文方法在小样本问题中的表现，在多个训练集中随机抽取一定比例的样本作为训练集，其余样本作为测试集来进行小样本测试。

对于植物园数据集，随机选取1%、3%、5%、7%、10%作为训练样本；对于IP数据集，随机选取1%、3%、5%、7%、10%作为训练样本；对于PU数据集，随机选取0.5%、1%、2%、3%、5%作为训练样本。

实验结果如表4～表6所示。可以看出本文方法具有良好的小样本分类性能。在植物园数据集中，当训练样本为3%时OA达到90.08%，当训练样本为时OA达到。在两个公开数据集中，在PU数据集中表现更佳，以1%的训练样本OA即可达到94.94%，5%的训练样本即可达到99.08%，这是由于PU数据的类别样本相对均衡。在IP数据集中，10%的训练样本OA可以达到98.06%。

表4 植物园数据集在小样本情况下的分类结果

表5 IP数据集在小样本情况下的分类结果

表6 PU数据集在小样本情况下的分类结果

2.5 与其他模型的比较

为了验证本文方法的有效性，将与以下3种经典的3DCNN高光谱图像方法作为对比：Li[11]提出的基于3DCNN的高光谱分类方法，He[12]提出的多尺度的三维卷积高光谱分类方法，基于光谱空间残差网络的3D深度学习框架分类方法(spectral-spatial residual network，SSRN)[14]。实验在IP数据集与PU数据集上进行，采用总体精度OA、平均精度 AA与Kappa系数 KA作为定量化评价标准。

表7为定量分析各分类模型针对IP数据集的分类结果和处理时间的结果，选取10%样本进行训练，其余样本作为测试集。

表7 针对IP数据集的分类结果和处理时间

对比分类结果，直接将未加处理的数据块作为网络的输入的3DCNN[11]表现最差，总体精度OA仅为85.05%，利用多尺度的Multi-scale 3DCNN[11]次之总体精度OA提升至91.55%，在原始高光谱基础上加入了上下文联系的SSRN[14]较好，数据特征融合植被指数并采用3D-2D结合网络的本文方法取得的效果最好，在总体精度OA、平均精度AA和Kappa系数KA上均取得了最优的结果。说明了本文方法分类性能的有效性。

对比处理时间，SSRN[14]分类效果最接近且小于本文方法的情况下，训练与测试所用的处理时间却分别达到了590.66 s与7.88 s，远远大于了本文方法的21.12 s和2.18 s。这是由于SSRN[14]以原始3D立方体直接作为网络输入数据，并且采用了更深的网络，所以处理时间较长。而一方面，本文方法只使用了一层2D和三层3D卷积层，模型更简单，因而计算量更小，减少了处理时间。另一方面，本文方法通过融合植被指数特征的方式，在保障分类效果的同时可以对光谱数据进行波段选择，筛出对分类贡献较小的冗余波段信息，减小了作为网络输入数据块的尺寸，因为训练时间与测试时间得以进一步减少。

第二个实验在PU数据集上进行，选取5%样本进行训练，在其余样本作为测试集。表8所示为相应定量分析的结果。同样地，在4种分类方法中，3DCNN[11]与Multi-scale 3DCNN[12]的分类效果表现较差，SSRN[14]分类效果与本文方法接近，但处理训练时间与测试时间均远远大于本文方法。在PU数据集上，本文方法OA、AA、KA在4种分类方法中均达到了最高，且处理时间较分类效果与本文方法接近的SSRN[14]更短。