APP下载

采用分段主成分和PPI的高光谱影像分类

2020-04-01梁远玲简季

遥感信息 2020年1期
关键词:降维子集波段

梁远玲,简季

(成都理工大学 地球科学学院,成都 610059)

0 引言

高光谱遥感波段多、光谱分辨率高,能够提供丰富的地物波普信息,区分地物的细微差异,较多光谱遥感更适宜地物的精细分类研究[1-2]。目前高光谱遥感技术已应用于地质勘探、精准农业、环境监控、目标识别等多个领域,其中一项广泛的应用是利用高光谱影像实现地物分类[3-4]。然而高光谱影像的高维度,波段之间相关性高、数据冗余,混合像元等问题决定了传统的多光谱分类方法往往不适用于高光谱影像[5]。高光谱图像降维、端元提取及分类方法的选择都是高光谱分类研究的关键环节,现国内外已对这些问题有了深入研究。

降维即从众多波段中提取出地物光谱差异明显的特征波段,去除无用的噪声波段,可减少数据运算量,降低后续分类器的构建难度,最大化利用高光谱数据精细光谱分辨率的优势[6]。降维方法可分为监督、半监督和无监督3种类型[7]。线性判别分析(linear discriminant analysis,LDA)是一种典型的有监督降维方法,但LDA最多降将维数降到K-1,当训练样本数小于样本维数时,LDA效果较差。无监督的降维方法如主成分变换(principal component analysis,PCA)对简单的线性分布数据处理十分有效,PCA是通过某种算子,将高维度的数据变换到低维度的空间里,且对降低的维数没有限制,对于本文的小样本分类也是适用的[8-10]。PCA变换适用于相关性较强的波段,且易忽略某些局部重要的波段[11]。有研究表明用SPCA处理高光谱影像,分段后的波段在局部子块的相关性大大提高,更有利于进行主成分变换,同时可有效避免全局变换忽略某些局部重要波段的情况[12-13]。刘瑶等[14]在大豆品种识别研究中将整个高光谱波段分解为3个子分段,分别在每个子分段上做PCA,得出在第二分段进行PCA变换来无损识别大豆品种是可行的,且识别精度优于全波段PCA变换。对降维的结果进行端元提取,较为成熟的端元提取方法是基于最小噪声分离(minimum noise fraction,MNF)的结果进行PPI处理[15]。黄晨等[16]对比了基于MNF和SPCA 2种变换做PPI端元提取效果,发现在地物破碎区域使用SPCA较MNF降维方法更有效果,能找出信号较弱的端元数量,从而能够发现MNF降维不能提取到的端元。这一研究充分印证了SPCA降维与PPI端元提取二者结合运用于高光谱影像分类识别的可行性。以研究区的典型地物端元建立波普库进行分类,各种分类算法的机制不同,对地物的识别精度各异,MDC和BE简单有效,在监督分类中应用广泛。

有研究用MDC方法做土地覆盖分类,得到的分类结果精度高,改变距离规则可形成加权最小距离和自适应最小距离的分类方法,与假设检验结合提高基于像素的分类精度,融入基于对象的原理分类精度优于基于像元的方法[17-20]。周利鹏等[21]基于PPI提取端元之后,采用BE从高光谱影像成功识别树种。用hamming距离作为差异测度可形成多门限的二进制编码方法,更加精确地描述地物的光谱特征,实现地物的精细分类[22]。此外针对空间纹理特征,借助BE对图像的纹理特征进行二进制编码,可实现对遥感场景分类并识别图像的纹理特征[23]。BE与支持向量机(support vector machine,SVM)分类方法结合,形成基于最优支持向量机和改进的二进制编码蚁群优化算法,应用于遥感图像分类能够在效率和分类精度之间保持良好的平衡,总体分类结果的精度可适用于实际需求[24]。针对高光谱影像多波段和混合像元的问题,本文先基于SPCA降维和PPI法提取端元,再用MDC和BE 2种分类方法实验,并对2种分类结果的优劣势进行了分析。

1 研究方法

1.1 数据

研究区地处福建省泉州市德化县葛镇以东和杨梅乡以北的交界处位置,中心地理坐标为118°16′41.8″E、25°50′49.91″N,面积约为1.9 km2,属于亚热带季风气候区,年平均气温18 ℃,无霜期255天,年降雨量大约为1 200 mm。葛坑是德化重要的矿区之一,蕴藏着丰富的矿藏资源,境内的湖头村是德化的煤炭基地和水泥原料基地;杨梅乡有丰富的煤、铁、锰、大理石等矿产资源待开发。区内西南部为采矿区和农田,地形平坦,以及部分居民区也聚集此,区域内其余多为植被丛林覆盖的浅丘,平均海拔约为300 m。境内自然景观以亚热带常绿阔叶林为主,土壤类型多为南方地区典型的红壤。

本研究分类的数据为CASI高光谱影像,共72个波段,覆盖的波谱范围为可见光(367~760 nm)到近红外(760~1 045 nm),空间分辨率1 m,波谱分辨率为9.5 nm。研究区地物主要有植被、道路、不同建造材料的房屋、农田、湖泊及阴影。大气校正是把像元的辐射亮度值转换为反射率值,分类之前先进行大气校正以获得地物真实表观反射率,提高分类的准确性。该传感器数据产品中包含了一些辅助数据,可作为FLAASH大气校正工具的输入参数,大气校正后高光谱影像如图1所示。

图1 大气校正结果

1.2 分段主成分分析

PCA是一种全局变换,它适用于波段相关性很强数据,若对CASI高光谱影像的72个波段做PCA处理,全局大范围波段的平均相关性就会减弱,某些局部比较重要的波段可能在波段选择中被漏掉,主成分变换的效果也会越差。

相关性矩阵图(图2(a))是由72×72个像元构成的灰度图,(i,j)位置像元的DN值代表i波段关于j波段的相关性。相关性矩阵图中3波段、33波段附近存在明显的十字丝,以十字丝为分段依据,将72个波段其分为3个波段子空间,分段信息如表1所示:1~3波段为第一波段子集,4~33波段为第二波段子集,34~72波段为第三波段子集。每个波段子集的平均相关性(图2(b))较全波段的平均相关性高很多,高度相关的波段会有信息冗余,PCA对相关性强的波段变换效果较好,故在3个子空间分别做PCA变换。

图2 相关性矩阵信息

表1 分段信息

1.3 PPI端元提取

PPI的获取端元主要是应用凸面几何学思想,在波段数为N的高光谱数据,可以看成是N维的特征向量,构成一个N维特征空间,形成N+1个顶点的凸面体。所有的像元呈闪点分布于此空间,端元分布凸面体的顶点处,而混合像元位于凸面体的内部,是顶点纯净像元的线性组合[25]。PPI算法的示意图如图3所示,在特征空间内将所有像元向量投影到随机单位向量上,投影在单位向量两端的像元为纯净像元(端元),将投影在端点位置像元记录下来,次数越多越纯净。

图3 PPI端元提取示意图[25]

1.4 MDC和BE

MDC用训练样本数据计算出每一类的均值向量和标准差向量,以均值向量作为该类在特征空间中的中心位置,计算图像中每个像元xi到各类中心的距离D,到哪一类中心的距离最小,该像元就归入到哪一类[26]。距离准则常采用欧式距离(式(1)),也可用马氏距离、计程距离、折线距离等。

(1)

式中:N为波段数;xi为像元在第i个波段的像元值;Mij为第j类在第i个波段的均值。

BE分类是基于光谱形状特征来描述地物的反射光谱并建立二进制编码特征,通过光谱匹配识别来对地物分类。其算法为:低于波谱平均值的编码为0,高于波谱平均值的编码为1(式(2))[27]。N个谱段的多光谱则形成N个比特位的二进制编码。

(2)

式中:y(i,j,n)为波段图像的灰度;m(i,j)为均值图像的灰度;n和n′为波段序号,n=1,…,N-1,n′=n+1,…,N;i,j为多光谱图像中像元的行列号。

2 结果

2.1 分段主成分结果

在3个波段子集分别进行主成分变换得到累计贡献率(表2),它反映了变换后特征信息量大小。根据信息量在第一波段子集中选取前两个波段,第二个波段子集中选取前五个波段,第三个波段子集中选取第一个波段,这8个波段子集(图4)基本涵盖了原始波段的所有信息。对8张单波段的影像栅格处理进行波段合成得到1张8个波段的彩色影像,原始的72个波段影像降维后信息集中到了8个波段,达到了特征提取和去噪的目的。

表2 各波段子集主成分累计贡献率

图4 各波段子集部分影像

2.2 PPI结果

PPI的结果为灰度图(图5(a)),DN值大于0均为纯净像元,且值越大,纯度越高。对SPCA降维去噪后的影像做PPI处理,以PPI结果为基础选取感兴趣区域,获得了2 896个纯净像元。在N维可视化空间提取端元的波谱曲线制作为光谱库文件(图(b)),作为分类的训练样本。

图5 PPI结果及端元波谱曲线

2.3 分类结果

2种方法的分类结果如图6所示,从视觉效果看来,MDC方法对道路和居民地分类效果更好,道路信息几乎完全提取出来。而BE对植被分类效果好,不受植被阴影的干扰,也不会存在植被稀疏有林地与耕地混淆的情况,且能分出水体,很好地将湖泊与周围植被区分开。总体而言,道路和居民地更适合最小距离的分类方法,而植被、耕地和水体则更适合二进制编码方法分类。

图6 分类结果

3 讨论

在高光谱影像上选择感兴趣区域,每种地物类型随机选择50个样本点,用正确分类点与总的样本点的比值作为分类精度评价指标。对2种方法的分类结果建立混淆矩阵进行精度评估,对结果进行分析列出主要错分类型(表3)。结果显示,MDC分类的总体精度为69.71%,植被的分类精度为82.35%,主要是由于部分植被稀疏区域被错分为耕地,从而耕地分类精度也会受损;道路的分类精度达98.08%,可以看到几乎所有道路都被提取出来;居民地的精度为25.43%,有一部分房屋屋顶可能为水泥或混凝土,故易错分为道路。BE分类的总体精度为70.88%,植被和耕地精度均较高,分别为94.12%、98.08%;但道路的精度下降到63.46%,只提取到部分主干道路;居民地建筑物的精度很不可观,有一部分错分为道路,有一部分受房屋和植被阴影的影响,误分为水体;水体的分类精度高达98.11%,能看到图中的湖泊分割效果与实际情况有高度的一致性。

表3 不同地物类型分类结果精度评价

MDC能够很好地分出道路,但是对于植被和耕地易混淆,主要是由于一些耕地和一些植被稀疏的有林地混在一起,植被稀疏的地方一部分划分为了植被,一部分划分到了耕地。MDC最大的缺点是不能分出水体,将湖泊区域全部划分到了植被。

BE能很好将湖泊划分为水体,但也存在一些问题,如对阴影和水的分类错误,水体混杂了一部分植被和道路阴影。BE对植被的辨识敏感,使有林地不会误分为耕地,植被阴影和植被不会分为不同类。但是其对道路的划分不那么理想,当然有的道路可能本来是泥路,造成其与耕地划分为一类。

4 结束语

本文以CASI高光谱影像作为数据源,采用分段主成分变换进行特征提取,以相关性矩阵为依据,划分出3个相关性更大的波段子集分别进行主成分变换。在每个波段子集选择出信息量较大的波段,第一波段子集选用前2个波段,第二波段子集选用前5个波段,第三波段子集选用第1个波段,对8张单波段影像的波段合成处理,从而避免了全波段做主成分变换时可能忽略重要局部信息的情况,很好地实现了对高光谱影像的降维去噪,运用分段主成分变换做特征提取是可取的。

对波段合成后的影像采用PPI做端元提取,将提取的端元作为训练样本,采用最小距离法和二进制编码2种方法进行监督分类。2种方法的整体分类精度均在70%左右,但是单一地物的分类精度却有很大的差异,这主要是2种分类算法的机制原理有所不同。2种方法各有所长,道路和居民地采用最小距离的分类方法精度更高,而植被、耕地和水体采用二进制编码的分类方法精度更高。二者均存在不足,特别是居民区错分为道路的情况。猜想主要是由于居民区可能存在大量的水泥屋顶的房屋,与道路的光谱特征相似,造成了居民区建筑物错误划分为道路,此外房屋的阴影也是造成居民地错误分类的一个重要原因。

目前我们只有研究区的原始高光谱影像,完全依靠图像数据本身对影像进行分类。许多研究已经证明了高质量的分类结果是通过将数据与不同的特征融合在一起来获得而不是只使用一种数据类型,如借助机载雷达数据建立数字表面模型来区分有高度差的植被和耕地、道路和水泥建筑。在未来的研究中,我们将专注于减少对其他物体的错误分类,如阴影和水、建筑物和道路、耕地和植被,同时可尝试借助一些辅助数据来实现更高精度的分类,减少易混淆地物的错误分类,期望实现不同种类的地物完全分开。

猜你喜欢

降维子集波段
混动成为降维打击的实力 东风风神皓极
最佳波段组合的典型地物信息提取
拓扑空间中紧致子集的性质研究
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
关于奇数阶二元子集的分离序列
降维打击
完全二部图K6,n(6≤n≤38)的点可区别E-全染色
基于PLL的Ku波段频率源设计与测试
小型化Ka波段65W脉冲功放模块
L波段kw级固态功放测试技术