APP下载

基于K均值聚类的高光谱遥感影像分类研究

2016-12-26

地理空间信息 2016年3期
关键词:欧氏相似性度量

赵 洁

(1.武汉大学 遥感信息工程学院,湖北 武汉 430079)

基于K均值聚类的高光谱遥感影像分类研究

赵 洁1

(1.武汉大学 遥感信息工程学院,湖北 武汉 430079)

讨论了信息熵和均匀光谱间隔(USS)两种无监督高光谱影像波段选择方法,分析比较了基于K均值聚类的欧氏距离、相关系数以及光谱角3种相似性度量。实验表明,利用USS对高光谱影像降维,采用将欧氏距离作为相似性度量的K均值聚类方法进行影像分类,所得到的分类结果精度较高,计算时间较短。

高光谱;无监督波段选择;K均值聚类;相似性度量

高光谱影像分析是当前遥感领域研究的热点,有巨大的潜在价值,多应用于公共安全、军事侦察、土地使用状况调查等领域。高光谱影像通常含有200 多 个在光谱段上非常窄且连续的波段,这些波段包括可见光、近红外、中红外、热红外等,每个像素都可以获得一条连续的光谱曲线[1];相比其他遥感影像包含了更多的光谱信息以及空间信息。高光谱影像具有较高的光谱分辨率,更容易对地物进行分辨,可应用于精细土地覆盖与土地利用制图,与此同时,较高的光谱分辨率伴随着巨大的数据量,造成的数据冗余也为高光谱图像处理带来困难,高维数据也很容易导致Hughes现象[2,3]的产生。因此波段选择是高光谱影像分类前必不可少的步骤。波段选择总体上分为无监督波段选择与监督波段选择两类[4],无监督波段选择无需先验知识,可以自动完成[5]。在影像分类方法中,K均值聚类是一种简单有效的非监督分类方法,分类结果较好,被广泛应用到图像分割、模式识别、机器学习等多个领域。本文利用K均值聚类进行高光谱影像分类,并对3种不同的相似性度量进行对比分析。

1 高光谱影像分类原理

高光谱数据本身具有数据量大、维度高、混合像元等特点,影像分类处理过程包括数据降维(波段选择)、数据去噪以及影像分类。

1.1 无监督波段选择

从对象信息可用性的角度来看,波段选择可以分为监督波段选择与无监督波段选择。监督波段选择需要已知的先验知识对数据进行训练,可以明确地选择包含重要对象信息的波段,相比无监督波段选择,监督波段选择能得到更好的检测或分类。而无监督波段选择不需要任何的对象信息,可以实现快速、自动的波段选择。当先验知识未知时,可以利用无监督的方法进行波段选择,无监督波段选择较少甚至不需要进行图像预处理。无监督波段选择有多种方法,如信息熵、USS、光谱相关系数、一阶光谱微分、二阶光谱微分、主成分分析排序等。本文主要讨论信息熵和USS两种波段选择方法。

1)信息熵的概念由数学家Claude Shannon在1948 年提出,解决了对信息的量化度量问题。该方法需要对每个波段分别估计信息熵[6,7],信息熵定义为:

式中,H是信息熵;p是一个高光谱波段反射率的概率密度函数;m是不同的反射率的数量。概率可以根据反射率的直方图计算得到。通常H越大,则数据所含的信息越多;反之,所含信息越少[8]。

2)USS也是一种有效的波段选择方法。由于高光谱影像所含的光谱信息较多,相邻波段之间有较大的相关性,需要对数据进行筛选从而获得含有较高独特信息量的部分波段,降低各个波段之间的相关性,提高数据分析的效率。USS方法通过控制步长选择出间隔均匀、相关性低、信息量大的少量波段,从而达到降维的目的。

1.2K均值聚类算法

K均值聚类可以将数据自动划分为K组[9,10],通过选择初始聚类中心,再反复迭代确定最终分组。整体流程为:①每一个元素按照一定的选择标准被划分到最近的聚类中心;②计算每个聚类的平均值;③每个聚类中心将会被新的平均值代替,作为新的聚类中心;④重复步骤②~③。

从理论上讲,当聚类中心不再发生变化,以上迭代将停止,所有的元素都被分到对应的类别中。在实际计算过程中,需要选择一个极小的阈值来结束K均值聚类计算,即当新的聚类中心与前一个聚类中心的“距离”小于这个阈值,迭代终止。“距离”则是一种选择标准,即相似性度量。然而在实际操作中,K均值聚类的结果容易被信号中的噪声影响,聚类结果精度将降低。此外,K均值聚类的结果还与聚类初始中心有关,因此在本文中,将采取相同的初始聚类中心进行实验。

1.3 相似性度量

相似性度量是一种便于量化的评价标准,K均值聚类可以使用多种不同的相似性度量来判断新聚类中心的位置,例如曼哈顿距离(L1 norm)、欧氏距离(L2 norm)、相关系数、光谱角(spectral angle mapper)。本文选择欧氏距离、相关系数以及光谱角这3种不同的相似性度量进行比较分析。

1)欧氏距离是一种最常见的距离度量。在二维和三维空间中,欧氏距离是一个可以用尺子测量的两个点之间的“普通”距离,并可以由此推广到n维空间。通常来说,对于一个n维空间,点p(p1,p2,…,pi,…,pn)与点q(q1,q2,…,qi,…,qn)之间的距离为:

欧氏距离可以看作两个点之间的相似程度,距离越近,相似度越高;反之,相似度越低。因此通过比较欧氏距离的大小,选择出欧氏距离最小时某一点所属空间,并将其分配到这一空间,从而完成聚类。

2)相关系数是反映两个变量之间关系密切程度的统计指标。相关系数通常被用来描述一个矢量X(x1,x2,…,xi,…,xn)与另一个矢量Y(y1,y2,…,yi,…,yn)之间的关系:

相关系数越大,说明矢量X与矢量Y的相似程度越高;反之,则相似程度越低。在K均值聚类的计算中,需要将像素矢量X与k个聚类中心的矢量Y1,Y2,Y3,…,Yk进行相关系数计算,分别得到k个相关系数。当与矢量Yp(p=1,…,k)的相关系数最大时,该像素矢量X则被分类到聚类p中。

3)光谱角是像素矢量和平均类矢量之间的夹角。通过光谱角分类器,可以直接将影像某个像素的光谱与一个已知的光谱或者端元进行比较,有效区分出每个像素的光谱曲线,已知光谱通常是在实验室或在现场用光谱仪测量所得[11]。这种方法将两个(未知和已知)光谱作为载体,计算它们之间的光谱角,通常作为确定矿物的首选方法,且在同类区域中可获得较好的结果。将各个像素的光谱视为一个矢量并将其投影到n维空间中,其中空间的维度等于波段数。光谱角θ为:

式中,vi为像素矢量;mi为第i类的平均矢量。光谱角θ越小,说明该光谱与已知光谱越相似;反之,则说明该光谱与已知光谱相似性越低。因此可以通过选择最小的光谱角来确定影像像素分类。光谱角分类器对照明因素不敏感[12]。

2 实验与分析

高光谱数据包含大量的光谱信息,光谱波段数量通常在200以上,并包括高噪声的混合像素,因此首先进行影像波段的选择实验。本文分别选取信息熵、USS两种方法进行波段选择实验,目的是寻找有效的波段选择方法;再采用欧氏距离、相关系数以及光谱角3种不同相似性度量,进行基于 K均值聚类的影像分类实验,分析不同的相似性度量对影像分类精度的影响。实验流程如图1所示。

2.1 实验数据

图1 实验流程

本文所用实验数据为覆盖美国加利福尼亚州萨利纳斯的AVIRIS数据,影像大小为512×217,分辨率为3.7 m。AVIRIS数据有224个波段,去除20个水吸收波段([108-112],[154-167],224)后,剩余204个波段可用。此影像地物类型包括蔬菜、裸露的土壤和葡萄园的土地等16类地物,如表1所示,地面真实地物分类如图2所示。

表1 萨利纳斯场景地面真实分类及其样本数

图2 地面真实地物分类

2.2 波段选择实验

高光谱影像有大量的光谱信息,同时也含有大量的噪声,因此,在本文的实验中,为了得到更好的影像分类结果,首先进行人工去噪,删除明显含有大量噪声的波段,部分噪声波段如图3所示。人工筛选后,剩余177个可用波段。在此基础上,选择了两种不同的方法进行波段选择,然后利用最大似然分类(监督分类)对所选出的波段进行分类,实验结果如表2所示。

图3 高噪声波段

表2 不同波段选择方法的分类结果

根据上述实验分析,得到以下结论:

1)从表2可以看出,USS的总体精度与Kappa系数均高于信息熵的结果。USS波段选择方法较信息熵能够更好地选择出具有独特信息的波段且进行影像分类的计算时间较短,分类精度较高。

2)分类所用的波段数将对计算结果产生较大的影响。对于信息熵,用的波段越多,分类精度越高。但是当波段数大于30后,分类精度相对稳定,不会随着波段数的增加而有较多提高。

3)去除坏波段(高噪声)可以略微提高分类精度,并且减少较多的计算时间。

2.3 K均值聚类实验

在波段选择实验的基础上,利用USS方法选取35 个波段,对其进行K均值聚类影像分类实验。分别选择欧氏距离、相关系数以及光谱角作为相似性度量进行K均值聚类,得到的影像分类结果如图4所示,影像分类精度如表3所示。

图4 影像分类结果

表3 3个不同的相似性度量的精度

根据表3和图4的分类结果,可以得到以下结论:

1) 根据分类结果的精度,K均值聚类为非监督分类,整体精度弱于监督分类,其中欧氏距离的效果比相关系数和光谱角好,光谱角的分类精度是这3种方法中最低的。

2)比较3种方法的计算时间,欧氏距离所需要的计算时间最少,可以最快地得到分类结果,光谱角耗时最多。

3)根据图4可以看出这3种方法对于不同地物的分类精度有所不同。欧氏距离、相关系数以及光谱角均可将第1类、第4类与第9类地物较为完整地分类;而对于第3类、第8类、第15类以及第16类地物,3 种方法均不能进行有效分类;对于第10类与第12类地物,欧氏距离作为相似性度量的分类结果明显较好;对于第11类地物,相关系数作为相似性度量的分类结果较好;对于第6类地物,光谱角作为相似性度量的分类结果较好。由此可知,基于K均值聚类的分类方法进行影像分类时,3种不同的相似性度量对不同地物的分类效果具有一定的选择性。

4)3种不同的相似性度量中,采用欧氏距离作为相似性度量进行影像分类最有效、精度最高;利用光谱角的分类效果差且耗时最长。针对各个种类的地物,选择不同的相似性度量所得到的分类结果不同。

3 结 语

本文在讨论两种无监督高光谱影像波段选择方法的基础上,分析比较了基于K均值聚类的3种相似性度量。实验表明,本文所采用的两种无监督波段选择方法中,USS能够较好地选择出具有独特信息的波段,对高光谱影像进行有效降维,且方法简单、计算简便;利用3种不同的相似性度量进行K均值聚类影像分类实验表明,将欧氏距离作为相似性度量,能够取得相对较好的分类精度,且性能优于其他的方法。

[1] 刘雪松,葛亮,王斌,等.基于最大信息量的高光谱遥感图像无监督波段选择方法[J].红外与毫米波学报,2012,31(2):166-170

[2] Hughes G P. On the Mean Accuracy of Statistical Pattern Recognizers[J].IEEE Transactions on Information Theory, 1968,14(1):55-63

[3] 杨诸胜,郭雷,罗欣,等.一种基于主成分分析的高光谱图像波段选择算法[J].微电子学与计算机,2007,23(12):71-74

[4] Lee J H,Kim Y S,Lee D,et al. Robust CCD and IR Image Registration Usinggradient-based Statistical Information[J]. IEEE Signal Processing Letters,2010,17(4):347-350

[5] He Y,Qian D. Fast Band Selection for Hyperspectral Imagery[C]. IEEE 17th International Conference on Parallel and Distributed Systems (ICPADS),Tainan,2011

[6] Bajcsy P,Groves P.Methodology for Hyperspectral Band Selection[J]. Photogrammetric Engineering and Remote Sensing,2004,70(7):793-802

[7] Russ J C. The Image Processiong Handbook[M].New York: CRC Press,2011

[8] Bajwa S,Bajcsy P,Groves P,et al. Hyperspectral Image Data Mining for Band Selection in Agricultural Applications[J]. Transactions-american Society of Agricultural Engineers,2004, 47(3): 895-908

[9] Macqueen J B. Some Methods for Classification and Analysis of Multivariate Observations[J].In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability,1967,1(14): 281-297

[10] Wagstaff K,Cardie C,Rogers S,et al. Constrained K-means Clustering with Background Knowledge[J].Proceedings of the ICML,2001(1):577-584

[11] Sohn Y,Rebello N S.Supervised and Unsupervised Spectral Angle Classifiers[J]. Photogrammetric Engineering and Remote Sensing,2002,68(12):1 271-1 282

[12] Lv Z,Yu X,Zhang Z,et al.Automatic Remote Sensing Image Classification Method Based on Spectral Angle and Spectral Distance[C]. IEEE International Geoscience and Remote Sensing Symposium (IGARSS), Melbourne,2013

P237

B

1672-4623(2016)03-0026-04

10.3969/j.issn.1672-4623.2016.03.009

赵洁,硕士,研究方向为摄影测量与遥感。

2015-12-15。

猜你喜欢

欧氏相似性度量
一类上三角算子矩阵的相似性与酉相似性
鲍文慧《度量空间之一》
本刊2022年第62卷第2期勘误表
模糊度量空间的强嵌入
浅析当代中西方绘画的相似性
迷向表示分为6个不可约直和的旗流形上不变爱因斯坦度量
低渗透黏土中氯离子弥散作用离心模拟相似性
地质异常的奇异性度量与隐伏源致矿异常识别
欧氏看涨期权定价问题的一种有效七点差分GMRES方法
基于多维欧氏空间相似度的激光点云分割方法