APP下载

高光谱图像分类方法综述

2020-03-30张建伟陈允杰

南京信息工程大学学报 2020年1期
关键词:空间信息邻域滤波

张建伟 陈允杰

1 南京信息工程大学 数学与统计学院,南京,210044

0 引言

高光谱图像(Hyperspectral Image,HSI)是由搭载高光谱成像仪的航空航天飞行器捕捉到的三维立体图像,图像中的每个像素均含有上百个不同波段的反射信息,这使其适合于许多实际应用如军事目标检测、矿物勘探和农业生产等[1-4].高光谱图像分类已越来越成为其中的一个研究热点.

高光谱图像分类的目标是依据样本特征为图像中的每个像元赋予类别标签[5-6].不同地物具有不同的光谱曲线,因此有许多利用光谱信息的方法被提出来用于高光谱图像分类,代表性方法有支持向量机(Support Vector Machine,SVM)[7]、稀疏表示分类(Sparse Representation Classification,SRC)[8]等.此类逐像素的分类方法有计算简单、便于拓展等特点,然而此类方法仅利用到了光谱维度的信息,并未考虑样本的空间关联性,即地物分布的空间连续性,这会导致两个主要问题:1)在较小的样本下难以对如此高维的数据学习出一个高精度的分类器,这即是著名的休斯现象[9-10];2) 高维的光谱特征往往会导致分类模型中需估计参量的增加,这会造成过拟合以至于模型的泛化性能难以提升.另外,同一类地物受光照强弱、阴影等因素的影响,其光谱特征也不尽相同,因而不包含空间信息的逐像素分类方法难以取得令人满意的分类结果.

如文献[11]所指出,HSI不应当仅仅被看作一系列像素的集合,而应当被看作有纹理结构的图像.它指的是样本间的空间关联性,可以看作是对光谱信息的一个补充,这也为增强和改进逐像素分类器的分类性能提供了方向.在过去的十年中,学者们提出了许多融合空间光谱信息的空谱联合分类方法[12-17],实验结果显示在融合空间信息后,分类精度及分类结果的鲁棒性均有很大提高,因此空谱联合分类方法已越来越成为高光谱图像分类的主流方法.

本文将对空间光谱联合分类的方法进行着重介绍和总结,并为HSI分类研究的方向提出一些指引.主要安排如下:

1)首先探讨HSI中相邻像素的空间依赖关系.空间依赖关系可以被简单分为像素特征间的空间依赖关系和像素类别间的空间依赖关系,并以此为基础进行模型的分类划分.

2)通过不同的邻域划分方法和不同的加权邻域方法将现有方法分为基于固定邻域的方法和基于自适应邻域的方法两类.

3)基于空谱融合阶段的不同将现有方法分为基于预处理的分类方法、一体化分类方法和基于后处理的分类方法三类.这三类方法可以很广泛地涵盖到现有的大多数方法,在这一部分本文还将对前述各类算法进行总结归纳,以期找出其中的联系.

4)最后对现有的几大类分类方法分别进行归纳,探讨一些其中具有代表性的方法的原理,对其进行总结,最后通过实验来对其进行比较.

1 基于空间依赖关系的HSI分类

1.1 邻域间的空间依赖关系

在自然影像中,常用的一个假设为地物分布是连续的,换句话说其地物分布应当服从某种特殊的结构.这种空间依赖关系可将模型分为以下两类:

1)相邻像素的特征相关性:相邻像素在光谱特征上有较大概率是相似的.

2)相邻像素的类别相关性:这些相似像素的类别标签应当是相同的.

现有的空谱联合分类方法通常会利用上述假设中的一种或两种以融合空谱信息.为提取相邻像素信息,通常需要定义邻域,邻域即指的是为目标像素贡献空间特征所用的像素组成的区域.而依据这个区域的选择策略的不同,本文将HSI分类方法分为基于固定邻域的方法和基于自适应邻域的方法两类.

1.2 固定和自适应邻域的方法

1)基于固定邻域的方法.在此类方法中,对每一像素而言,与它相邻接的像素构成的邻域是固定的,一般取其方形邻域.现有的许多方法[18-28]都采用这种模式.一些预提取特征方法采用的邻域如小波和Gabor特征,经典的基于方形窗口的组合核方法[29-32].文献[33-34]采用了基于方形窗口的联合稀疏表示方法,文献[35]提出了一种基于多元逻辑回归的一般化的组合核方法,文献[36]提出了基于方形窗口的迭代式的图核方法.另一类具有代表性的固定邻域方法是基于一系列形态学滤波的形态学分析方法[37-38],它将通过一系列方形的滤波模板得到的形态学特征看作空间特征,进而进行HSI分类.除此之外,也有许多方法利用相邻像素的类别相关性来提取空间信息,代表性方法有基于马尔可夫随机场的方法,如文献[39-45]等.

2)基于自适应邻域的方法.在这类方法中,所用到的空间邻域或空间邻域内不同像素的权重是依据图像纹理自适应选取的,这类策略下的大多数方法都会定义一个限定因子来调整邻域内样本的重要性或重新划分自适应邻域.前者的代表性方法有文献[46-49].文献[50-52]采取边缘检测算子调整邻域内样本的权重来进行保边性的分类.与文献[50]类似,卷积神经网络[53-54]也可以被用来为邻域中的每个像素自动化地学习出一个较好权重.文献[55-57]通过将空间局部像素上的差分转化为拉普拉斯矩阵进而对其优化来达到邻域自适应的效果.后者的代表性方法有基于超像素或目标分割的方法[58-66],它认为分割得到区域是整个图像的一个同质区域,因而将其看作一个整体进行HSI分类.文献[67-68]利用一系列的区域融合与分割算子来自适应地调整像素间的空间相关性.文献[69-70]通过衡量目标像素与其方形邻域内像素的相似性,设置相应的阈值来筛选出同质区域,进而通过联合表示分类等方法进行HSI分类.

此外,还有一些方法利用相邻样本间类别相关性来获取自适应邻域,如文献[71-74]首先采用区域分割来得到目标邻域,再利用投票策略来确定区域标签.文献[75-76]利用地物分布的马尔可夫性以及像素标签变化情况构建同质区域.

通常情况下,一种方法仅会利用一类依赖关系来进行HSI分类,因为这样做简单易行且便于实现,现有的大多数方法均属于这一类别.当然也有一些方法会同时用到特征依赖和类别依赖两种关系.如文献[77-79]利用马尔可夫随机场和条件随机场来刻画像素间的联系.文献[80]通过已知样本来推测图像的纹理信息,进而借助此信息来优化类别平滑的正则项.文献[81-82]将传统的点对类别关系改进为基于邻域像素的点对类别关系.

2 空谱信息不同融合阶段的HSI分类方法

在介绍完空间依赖关系后,就需要考虑在什么阶段来融合空谱信息.本文将现有的方法分为基于预处理的分类方法、一体化分类方法和基于后处理的分类方法三类.每类方法的光谱融合阶段不同,如图1所示,这三个阶段贯穿着整个的分类过程.

2.1 基于预处理的分类方法

基于预处理的分类是通过提取空间特征的方法来刻画空间信息的.在得到空间特征后再与光谱特征进行融合,最后采用不同的分类器进行分类.其分类过程通常包含两个阶段:1) 空谱特征提取阶段;2) 基于提取到的特征通过不同的分类器如SVM等进行分类的阶段.其中前一阶段是决定分类方法性能表现的关键[83].

代表性的方法如基于形态学轮廓的空间特征提取方法,它采用一系列不同尺度的开闭运算的算子来提取图像的纹理信息[13-15].文献[19]采用空间平移不变的小波变换提取空谱信息,然后采用线性规划的SRC进行序列化.文献[20-22]还利用基于小波的软收缩去噪策略来提取小波特征.文献[23-28]利用高维的高斯包络谐波来提取Gabor特征.文献[18,84]利用修正的共生矩阵来得到空间特征.文献[85-86]采用经验模式分解和奇异谱分析来提取空间特征.还有一些空谱联合分类方法在核空间进行HSI分类,它通常是以组合核的形式来进行空谱信息的融合,这其中就包含基于固定邻域的方法[16]和基于自适应邻域的方法[59,87].

2.2 一体化的分类方法

此类方法同时用到空间和光谱信息来形成一个一体化的分类器,也就是说,它的空间特征提取和分类不会显式地分开.如文献[37]利用邻域内的纹理信息来改变传统逐像素的SVM方法的分类目标和约束条件.文献[33,35]通过训练样本来创造一个简单可用的字典,然后通过它来表示目标像素及其邻域内像素来添加平滑性约束,进而有效地利用了邻域内的空谱信息.文献[66-67]采用序列二进制分叉树在利用区域合并和修剪来对高光谱图像进行区域分割的同时达到分类目的.文献[52-53]利用基于CNN的策略,其中特征提取层和分类层使用同一个网络来进行特征提取与分类,而这两层网络的训练是一体化进行的.

2.3 基于后处理的分类方法

在此类方法中,通常会采用一个仅利用光谱信息的逐像素分类器来对HSI进行预分类,然后在依据像素间的空间依赖关系来对预分类结果进行正则化处理,主流的后处理方法有基于加权投票的方法、基于马尔可夫随机场的方法、基于图正则化的方法和随机漫步方法等.

文献[39]首先采用多逻辑回归来做分类器对HSI进行预分类,然后利用一个刻画先验概率的马尔可夫正则化项进行后处理,通过对原先得到的后验概率进行正则化约束即得到新的分类结果图.文献[57]通过引入全变差正则项自适应地调整空间邻域中像素的权重来进行后处理.基于图正则化的方法如文献[42-43].基于投票的方法[72],采用SVM得到样本类别标签,然后再在局部邻域对标签进行投票来确定最终的样本标签.文献[48]基于随机漫步法来进行后分类,亦取得了较好的分类效果.文献[50]利用SVM来得到样本属于某个类别的概率,然后采用双边滤波的方法来进行HSI分类.文献[58]利用核协同表示来得到点对先验概率,然后采用基于自适应权重图的回归正则化来得到后验概率.

3 对上述空间光谱分类方法的总结分析

在基于预处理的分类方法中,原本的包含光谱特征的观测空间被转化为空间光谱特征联合构成的特征空间.若假设特征空间的维度并未发生变化,从概率的角度来说,越多的特征被利用就代表着空间刻画越准确.它从而影响两方面的内容,首先越多的特征被利用就意味着有希望学到更好的模型从而提升分类精度,其次特征之间的交叉信息更有利于减少错误决策.

在一体化的分类方法中,模型建立和类别划分被统一成了一个整体,它的优化目标及其约束条件的求解是一个统一的过程,这种特点使得其分类过程较为简便,但可调节参数较少使得其进一步优化较为困难.

在基于后处理的分类方法中,首先采用一个逐像素分类器进行HSI分类,然后再加入空间信息作为正则化约束来对此分类结果进行进一步优化.在贝叶斯理论中,这种正则化可以被看作是对空间依赖关系的某种先验信息进行建模,这样更有利于取得更好的分类结果.

4 现有典型的分类策略总结

4.1 基于结构滤波的方法

基于结构滤波的HSI分类方法是高光谱图像处理领域最早被深入研究的方法之一.通常情况下,这种方法采取结构滤波来得到空间纹理特征,即给定一幅高光谱图像,可以通过空间结构滤波的形式来直接获取它的空间特征.一类最简单同时也是使用最广泛的提取空间信息的方法是利用方形邻域内的样本均值或者方差来代表目标像素处的空间特征[16].这种策略最早是在组合核或多核学习领域被提出并得到广泛使用的.这里的空间特征是被预提取的,然后再被用来构建空间光谱核.然而方形邻域的均值滤波显然并非是一个最佳的滤波模板,如文献[50]提出了基于双边滤波的方法来去除噪声同时保持细节.

现在的一个趋势即是使用自适应的结构滤波来提取空间特征,如文献[88]提出的自适应多维度维纳滤波,文献[57]提出的基于自适应邻域的策略,文献[62]提出的基于超像素的区域分割策略等.

4.2 基于形态学轮廓分析方法

基于形态学滤波的形态学轮廓分析方法可以看作是一种特殊的结构滤波方法,它的滤波算子是一系列的形态学开闭操作,通常首先采取主成分分析[89]等方法进行降维,然后再在前几个主成分上采用一系列不同的滤波模板进行形态学开和闭操作,最后比较大小模板下的滤波结果来得到基于形态学分析的空间特征.文献[38]表明与均值滤波特征相比,形态学特征能更好地反映图像的纹理结构特征.

4.3 基于稀疏表示的分类方法

稀疏表示模型[33,90]的主要思想是假设现有的训练样本可以构成一个完备训练字典并且任意一个测试样本均可以被字典中的元素线性表出,然而将如此高维特征的样本完全表出是不合理的,那么稀疏表示方法注意到一个训练样本往往只属于某一类地物,即它只需当被训练样本中的同一类样本线性表示,即可得到一个稀疏性的约束.即使用尽量少的训练样本来表示某一测试样本,同时使得表示误差尽可能小.在求解目标函数后,稀疏表示方法取表示误差的最小的训练样本类别来作为此测试样本的类别.

4.4 基于分割的HSI分类方法

一些HSI分类方法利用图像分割作为一个后处理的步骤,即在空间光谱分类之后,如文献[9]通过提取和分类同质目标来进行HSI分类,文献[72]在SVM分类结果的基础上采用形态学的分水算法[91]来得到一个更加平滑的分类结果.不同的区域分割算法可以得到不同的HSI分类方法.与基于光谱特征的分类策略相比,这些策略可以极大地提高分类方法的分类精度.

4.5 基于深度学习的HSI分类方法

众所周知,神经网络和深度学习的算法通过模拟人脑的结构在图像分类、自然语言处理等领域取得了非凡的成果.与传统的浅层分类模型相比,深度学习模型可以看作是一个包含多层结构的分类模型[92].基于深度学习的HSI分类方法可以被大致分为三个主要阶段[93]:1) 数据输入阶段;2)深度神经网络构建阶段;3) 分类阶段.卷积神经网络(Convolutional Neural Network,CNN)[94]是现今机器学习领域的一个热点方向,并且其在高光谱图像处理领域取得了非凡的成就.在传统的分类方法中,特征提取往往需要依赖由某种先验知识而设定的参数,而基于CNN的深度学习方法的模型参数可以通过自动化的训练过程来得到,这就意味着其具备自动提取数据特征的能力.文献[95]采取一个非监督的方法来构造基于堆叠自编码网络(Stacked Autoencoder,SAE)的深度学习框架来提取HSI数据的高阶特征.文献[96]采用随机主成分分析(R-PCA)来一体化地提取空间和光谱特征.文献[97]采用一系列层叠的受限布尔兹曼机(Restricted Boltzmann Machine,RBM)来构建深度置信网络,进而进行HSI分类.文献[98]提出基于差异化区域的CNN(Diverse Region based CNN,DRCNN)方法,它在进行样本增强的同时融入了空间信息,从而达到了有效的保边效果.可以看出,这些网络均是由一系列的卷积和池化层组成,在经过每一个卷积层后,都有一个更深度的空间特征被提取,最后被用于HSI分类.

5 实验结果与分析

本节将设计实验来对仅采用光谱信息的分类方法和空谱联合的分类方法进行比较,从而说明空间信息的重要性.为了估计和比较不同分类空谱联合分类算法的优劣,本文分别在如下两个知名的数据集上进行实验:

1)印第帕因(Indian Pines):该数据由机载可见光/红外成像光谱仪(Airborne Visible Infrared Imaging Spectrometer,AVIRIS)在美国西北印第安获取的Indian Pines测试集.整个图像是一幅包含16种地物的145×145像素的图像,覆盖光谱波长从0.2到2.4 μm的220个光谱波段.去除掉20个水汽吸收波段后,剩余的光谱波段为200个.为了验证本文方法在小样本上的分类性能,每类随机采取3%的样本作为训练样本,其余97%作为测试样本进行实验(详见表1)

2)帕维亚大学(University of Pavia):该数据是由反射光学系统成像光谱仪(Reflective Optics System Imaging Spectrometer,ROSIS)在意大利市区获取的Univirsity of Pavia数据集.整个图像是一幅包含9种地物的610×340像素的图像,覆盖光谱波长从0.43到0.86 μm的115个光谱波段,在去除12个噪声波段后,剩余的光谱波段为103个.本文每类随机选取20个样本作为训练集,其余作为测试集.

表1 不同数据集的训练与测试样本个数

本文中采取以下几类具有代表性算法进行对比:

1)仅利用光谱信息的SVM算法[7].

2)组合核支持向量机分类方法(SVM based Composite Kernel,SVMCK)[16]:该方法采用方形窗口内的光谱均值或方差作为空间光谱特征,在提取空间信息的同时平滑了噪声.

3)基于形态学滤波的形态学分析方法(Extended Morphological Attribute Profile,EMAP)[13]:该方法采用形态学分析的提取形态学轮廓来进行空间信息刻画,取得了较好的分类效果.

4)基于超像素的空间特征提取方法(Superpixel-based Composite Kernel,SPCK)[59]:该方法能够根据图像的纹理特征自适应地选择同质区域,作为一种基于自适应邻域方法的代表,它有效地保存了地物的边缘纹理.

5)基于多逻辑回归的空间自适应全变差方法(Sparse Multinomial Logistic Regression-Spatially adaptive Total Variation,SMLR-SpTV)[39]:该方法在贝叶斯框架下,利用满足TV一阶邻域系统的MRF正则项进行空间信息刻画,并将该先验约束于稀疏逻辑回归分类器求得的概率空间上,分类效果较好.

6)联合稀疏表示方法(Joint SRC,JSRC)[62]:此方法对目标像素的邻域内像素进行联合表示,有效地提取了空间信息.

7)基于差异化区域的卷积神经网络(Diverse Region-based CNN,DRCNN)方法[98]:该方法采用以目标像素邻域内的不同的图像块作为CNN的输入,对输入数据进行了有效的增强,从而取得较好的分类效果.

性能衡量指标使用总体准确率(Overall Accuracy,OA)、平均准确率(Average Accuracy,AA)和Kappa系数.实验结果均为10次随机实验结果的平均值.若无特别说明,本文方法的默认分类器均采用SVM,以便进行比较.

表2和表3分别是不同分类方法在印第帕因数据集和帕维亚大学数据集上的分类精度.从表中可以看出仅仅包含光谱特征的SVM方法分类精度较低,而空谱联合的分类方法均可以取得较好的分类结果.与基于方形邻域的SVMCK相比,基于超像素的组合核分类方法在两个数据集均能取得较高的分类精度.基于形态学滤波的EMAP方法可以取得比基于窗口均值或方差的SVMCK方法更好的分类效果,这也从侧面说明形态学分析提取的空间信息具有更强的判别特征.基于贝叶斯框架的全变差正则化方法亦取得了较高的分类精度,此方法利用满足TV一阶邻域系统的MRF正则项来刻画空间信息,可以有效提取纹理信息,在边缘处分类效果较好,是比较有代表性的基于后处理的一类MRF方法.SPCK方法采用超像素作为自适应邻域,是一类典型的基于自适应邻域的预处理分类方法,它通过超像素来对目标像素处的空间信息的提取过程进行约束,取得了较高的分类精度.JSRC是一类典型的基于方形邻域的一体式分类方法,它通过协同表示目标像素与其方形邻域内的像素来对目标像素的分类过程施加空间约束,可以看出此方法亦取得了较高的分类精度.DRCNN作为一种典型的基于CNN的深度学习方法,通过输入差异化的图像块来融入空间信息,它在两个数据集上的分类精度亦证明了此方法的有效性.

图2和图3分别是不同分类方法在印第帕因数据集和帕维亚大学数据集上的分类结果,可以看出,在不包含空间特征的情况下,SVM方法的结果图中出现了非常多的噪点,HSI中地物连续分布的特点无法保持.在加入空间信息后,这个情况改善了许多.采用方形窗口来提取空间信息的SVMCK方法也达到了这一效果,但在类边缘处因为方形窗口容易包含两类信息,因此类边缘部分分叉较多.同时,JSRC亦通过方形窗口来约束空间信息,也存在此问题,SMLR-SpATV方法通过TV正则项以求达到较平滑的分类结果,因此也存在难以保持类边缘的问题.基于自适应邻域的SPCK方法和基于形态学滤波的EMAP方法均能较好地保持类边缘信息,取得了较好的分类结果.DRCNN方法基于差异化区域来提取类边缘信息,亦达到了较好的边缘保持效果.

表2 不同分类算法在Indian Pines数据集上的分类准确率

表3 不同分类算法在University of Pavia数据集上的分类准确率

6 总结与展望

本文通过定义空间依赖关系来定义两种基于空间邻域的自适应滤波,然后依据空谱信息融合的不同阶段来定义基于预处理的分类方法、基于一体化分类方法和基于后处理的分类方法,基本能涵盖现有的大多数分类方法.紧接着对现有的几大类HSI进行分类总结,阐明其主要思想.最后通过实验来说明加入空间信息的重要性以及比较展示不同类别分类方法的分类结果.在今后高光谱图像分类研究的发展方面,基于深度学习的空谱联合分类方法因其具有自动化提取数据特征、较高的分类精度和快速的分类效率等特点而受到众多学者的青睐,但其网络结构的设定、调整大量参数所需的训练时间及它所面临的过拟合现象仍是现今要解决的主要问题.尽管如此,深度学习的方法依然越来越成为当前研究的主流.此外,基于超像素的HSI分类、基于多核学习的HSI分类和基于多源数据辅助的分类也越来越成为当前研究的热点方向.

猜你喜欢

空间信息邻域滤波
结合多层特征及空间信息蒸馏的医学影像分割
稀疏图平方图的染色数上界
基于邻域竞赛的多目标优化算法
《地理空间信息》协办单位
关于-型邻域空间
RTS平滑滤波在事后姿态确定中的应用
基于线性正则变换的 LMS 自适应滤波
基于时序扩展的邻域保持嵌入算法及其在故障检测中的应用
基于随机加权估计的Sage自适应滤波及其在导航中的应用
关于地理空间信息标准体系