APP下载

结合随机森林的高分一号分类最优组合研究

2017-03-02政,方耀

地理空间信息 2017年2期
关键词:波段分类器重要性

杜 政,方 耀

(1.河海大学 地球科学与工程学院,江苏 南京 211100)

结合随机森林的高分一号分类最优组合研究

杜 政1,方 耀1

(1.河海大学 地球科学与工程学院,江苏 南京 211100)

选取高分一号(GF-1)PMS多光谱影像,提取该数据的指数、共生矩阵纹理等特征与原始多光谱影像叠加,对叠加后影像进行随机森林分类并提取各波段重要性系数。根据重要性系数进行最优波段组合初选择,在此基础上利用最佳指数法(OIF)选取土地覆盖分类最优波段组合,利用随机森林分类器对该组合进行土地覆盖分类,与传统的OIF最优波段选取结果进行分类精度对比。结果表明,提出的方法能够有效提取最优波段组合,最优波段组合为B2-B5-CON,与传统方法相比,在随机森林分类中总精度要高出20.49%。

高分一号;最佳指数;随机森林;稳定系数;重要性系数

目前,最佳波段选择方法是解决多光谱遥感影像分类的有效手段之一,它通过选出有效表征地物类别的部分光谱通道(波段),可以达到数据压缩和提高处理效率的目的,从而为土地利用/覆盖信息的提取提供色彩丰富的备用影像。最佳波段选择的方法可分为定性和定量二种,相比需要专业遥感知识、缺乏科学性和准确性的定性分析,定量计算方法更为科学、直观和快速,服务于现代遥感应用的需求。国内许多学者对TM、HJ 1A/B、Hyperion、CBERS-CCD及资源三号数据最佳波段选择进行了探索研究[1-5],但相关研究均基于原始的多光谱波段进行最优波段组合提取,纹理特征和指数特征信息并未被涉及。

多分类器分类方法能综合不同分类方法生成最终结果,理论上已证明比单一的分类器具有更好的效果,并已广泛应用于各类实际问题[6]。而随机森林(RF)是一种新型多分类器集成的分类器,由众多分类树构成,每棵树单独完成分类运算后,最终输出的分类结果由各个分类树的分类结果投票决定。随机森林因其优越的性能在国内外诸多领域得到广泛的应用,而国内学者分类研究与应用则较少,随机森林分类方法对高分一号数据的土地利用/覆盖信息提取的性能和效果的研究也很少。

本文通过将纹理、指数等特征叠加到多光谱波段中,通过随机森林分类进行波段的初选择,利用OIF指数对初选择的波段组合进行最优波段选取,选择OIF值最大的波段组合作为最优波段组合,利用随机森林分类器对最优波段组合进行土地覆盖分类,并与传统的OIF波段选取方法的分类结果进行对比,分析评价OIF指数结合随机森林分类器进行最优波段选取的效果。

1 研究区和数据

本次实验选用高分一号数据于2013年8月获得的一块区域,研究区位于湖北省沙市市、江陵县及公安县的交汇处,研究区地物丰富,耕地主要分布在西南、西北方向,中间为城市居住区,还有部分河流及养殖区存在(见图1)。

图1 研究区

高分一号(GF-1)是我国高分辨率对地观测卫星系统重大专项(简称“高分专项”)的第一颗卫星。特点是增加了高分辨率多光谱相机,该相机的性能在国内投入运行的对地观测卫星中最强。其重复周期只有4 d,PMS相机可以获取包括8 m多光谱和2 m全色图像。首先对数据进行辐射定标、大气校正、研究区裁剪等预处理,以消除大气和光照等因素对地物反射的影响。

2 方法介绍

分为林地、水体、耕地、未利用土地、不透水面5 类(见图2)。纹理特征在图像检索和图像分类中广泛应用。而灰度共生矩阵纹理被公认为是具有较高效率的纹理特征提取方法,且具有较强的适应能力和鲁棒性[7]。众多研究表明,灰度共生矩阵纹理在遥感影像分类、城市植被信息提取中都起到积极的促进作用。实验中将灰度共生矩阵8个纹理量(Mean、Variance、Homogeneity、Contrast、Dissimilarity、Entropy、Second moment、Correlation)加入到最优波段组合的运算中。

植被指数(NDVI)作为用来表征地表植被覆盖和生长状况的度量参数,已经在影像分类、生态、农业等领域有了广泛的应用。研究表明,归一化水体指数(NDWI)可以提高遥感影像分类中水体的提取精度。因此选择NDVI、NDWI参与到最优波段信息组合的运算中。

图2 流程图

2.1 最佳指数

波段选择一般遵循信息总量大、相关性弱、目标地物类型在所选的波段组合内与其他地物有很好的分离性的原则。最佳指数(OIF)模型是美国科学家查维茨提出的最佳波段选择数学模型,其计算的数学公式如下[8]:

式中,Si表示第i波段的标准差;Rij表示第i波段和第j波段的相关系数。因此,OIF方法能有效地将标准差和相关系数统一起来,为进一步的图像质量判断提供依据。由公式(1)可知,图像数据的标准差越大,所包含的信息量也越大,而波段间的相关性信息越小,表明波段的独立性越高,信息的冗余度越小。但OIF值是从整体上考虑信息量与独立性之间的关系,只对信息量及相关系数进行加和统计。有时候一些信息量低、相关性高的波段也被归并到最佳波段中,所以,有必要在进行OIF计算之前进行波段的初选择,保证提取的最佳波段组合中的波段是信息量大、独立性好的波段。

2.2 稳定性系数

在初选择之后的波段中进行OIF值计算,得到的最大OIF值的波段组合是最大的波段组合。文献[3]提出用稳定系数作为波段初选择的标准,计算公式如下:

式中,Ei代表第i波段的特征值;Si代表第i波段的标准差,即可以用标准差来衡量一个数据集的离散程度,标准差越大,说明各个数据偏离均值的程度越大,均值对所有数据的代表程度就越小。反之,标准差越小,其对数据集的代表程度就越好。特征值大信息丰富,特征值小信息量少。所以α值越大,代表波段信息越丰富,数据越集中。

2.3 重要性系数

本文结合随机森林波段重要性来选择最优的OIF波段组合。随机森林是由多棵CART决策树组合构成的新型机器学习算法[9]。其原理为:首先采用bootstrap抽样技术从原始数据中抽取N个训练集,每个训练集大小约为原始数据集的2/3;再为每个训练集分别建立分类回归树,产生由N棵CART决策树组成的森林,在每棵树生长过程中,从全部M个特征变量汇总随机抽取m个(m≤M),在这m个属性中根据Gini系数最小原则选出最优属性进行内部节点分支;最后集合N棵决策树的预测结果,采用投票的方式决定新样本的类别;每次抽样约有1/3的数据未被抽中,利用这部分袋外数据进行内部误差估计,产生OOB误差。随机森林通过OOB误差计算特征变量重要性:首先根据袋外数据计算随机森林中每个决策树的袋外误差et;再随机改变袋外数据第j个特征变量Xj的值,并计算新的袋外误差ejt,最后变量Xj的重要性V(Xj)表示为[10-11]:

Xj变量的变化引起的袋外误差增加越大,精度减少的越多,说明该变量越重要。

随机森林在分类树增长过程中不断选择最佳属性进行分裂并对分类树进行剪枝处理,以降低运算量。此外,对用户输入的变量不十分敏感的特点,可将输入值的正平方根作为参数参与实际运算,以减小分裂运算与整个过程的计算复杂度,同时还降低分类树之间的协方差。因此,随机森林可以处理高维数据并且适用于大数据量的分类计算,尤其在高维数据中,更能体现出其速度快、精度高、稳定性好的优势[12]。

3 结果与分析

将高分一号PMS多光谱数据、灰度共生矩阵纹理数据以及指数数据进行依次叠加,生成一幅具有高空间分辨率、多波段信息的遥感数据(其中B1-B4为高分一号多光谱波段;B5-B12为纹理特征8个变量;B13为NDVI;B14为NDWI),统计各波段的基本信息并计算稳定系数及波段相关性(表1),然后用随机森林分类器对叠加的遥感影像分类统计各波段的重要性;最后选取按重要性排名前8的波段组成的影像参与到最优OIF的运算;选择OIF值最大的波段组合进行随机森林分类。

表1 各波段相关性

实验中通过随机森林分类波段重要性可知,B6、B7、B9、B10、B11、B12的随机森林分类重要性都小于3,对于这些波段予以排除,剩下的波段B1-B5、B8、B13-B14合成多波段遥感影像,参与到最后的最优信息组合的运算中,其中排名前十位的信息组合见表3。然后用稳定系数法选出稳定系数较大的4个波段分别为B1、B2、B5、B7,将此四波段看作一个整体,计算剩余波段与此整体的相关系数之和,最后选取总体相关性最低的4个波段B8、B10、B11、B12,并与上述整体构成多波段遥感影像,计算上述影像OIF值,排名前十的组合见表2。

表2 前十OIF值分布

由表2知,波段重要性方法提取的最优波段组合为B2-B5-B8,对应于Green、Mean、Contrast,其OIF值达到833.70,而稳定系数方法提取的最优波段组合为B1-B8-B11,对应于Blue、Contrast、Second moment,其OIF值达到1 255.32;对波段重要性方法得到最优波段组合B2-B5-B8及稳定系数方法得到的最优波段组合B1-B8-B11用同样的分类样本进行随机森林分类,分类结果见图3。

图3 分类结果

分类样本点分别为398、401、263、389、201个;验证样本点分别为231、225、128、168、141个。精度评价结果见表3、4。从表中可知,波段重要性方法提取的最优波段组合B2-B5-B8的总体分类精度、Kappa系数分别为90.48和87.97,要高于稳定系数方法得到的B1-B8-B11的分类精度,可知,最优的波段组合并不能单纯地用OIF数值大小来判断,同时,也说明本文提出的波段重要性的最优波段选取方法结合随机森林分类切实可行。

表3 B2-B5-B8精度评价

表4 B1-B8-B11精度评价

4 结 语

利用高分一号数据,提取NDVI、NDWI指数特征以及共生矩阵纹理特征,将新特征与原始的多光谱PMS数据叠加得到多波段、高空间分辨率影像,对该影像进行随机森林分类提取各波段的分类重要性系数,用该系数对合成影像进行最优波段选取之前的波段初选,最后用选择出的各波段参与最优波段选取的OIF值计算,得到最佳波段组合为B2-B5-B8,而稳定系数方法得到的最佳波段组合为B1-B8-B11,通过对二种组合进行随机森林分类,对比分类精度发现,本文提出的结合随机森林分类的最优波段选取方法总体的分类效果要优于稳定系数方法得到的最佳波段组合,说明本文提出的结合随机森林分类的最优波段选取方法切实可行,同时该方法对于降低数据维数和提高影像的处理速度具有一定的指导意义。

在随机森林分类中,树的数量是决定随机森林分类器分类效果的重要因素,如何有效地评估随机森林中分类树的数目对分类及最优波段组合选取的影响将是下一步研究的重点。

[1] 戴昌达,雷莉萍.TM图像的光谱信息特征与最佳波段组合[J].环境遥感,1989,4(4):282-292

[2] 汪继伟,刘刚,马海涛,等.环境减灾卫星在宏观检测中的最佳波段组合研究[J].中国科技信息,2011 (16):40-40

[3] 张磊,邵振峰,等.改进的OIF和SVM结合的高光谱遥感影像分类[J].测绘科学,2014(39):114-117

[4] 周旭,安裕伦,张斌,等.CBERS-CCD数据土地利用/覆盖信息提取最佳波段选择:以贵州喀斯特山区为例[J].遥感技术与应用,2009,24(6):743-748

[5] 赵芳,朱丰琪,冯仲科,等.运用资源三号卫星影像数据提取水体信息的方法研究[J].测绘通报,2014 (3):25-28

[6] GIACINTO G,FABIO R.An Approach to the Automatic Design of Multiple Classifier Systems[J].Pattern Recognition Letters,2001,22(1):25-33

[7] 刘丽,匡纲要.图像纹理特征提取方法综述[J].中国图像图形学报,2009,14(4):622-635

[8] 尹继豪,王义松.高光谱遥感影像中最佳谱段的快速选择方法[J].遥感信息,2010(3):3-6

[9] BREIMAN L.Random Forest[J].Machine Learning,2001(45):5-32

[10] ZHU Zhe,CURTIS E W,JOHN R,et al. Assessment of Spectral, Polarimetri, Temporal,and Spatial Dimensions for Urban and Peri-urban Land Cover Classification Using Landsat and SAR Data[J].Remote Sensing of Environment,2012(117):72-82

[11] BEIJMA S V,COMBER A,LAMB A.Random Forest Classification of Salt Marsh Vegetation Habitats Using Quadpolarimrtric Airborne SAR,Elevation and Optical RS Data[J]. Remote Sensing of Environment,2014(149):118-129

[12] VERIKAS A,GELZIN A,BACAUSKIENE M.Mining Data with Random Forests:A Survey and Results of New Tests[J].Pattern Recognition,2011,44(2):330-349

P237

B

1672-4623(2017)02-0015-04

10.3969/j.issn.1672-4623.2017.02.005

2016-03-15。

项目来源:国家自然科学基金资助项目(41201394)。

杜政,硕士研究生,研究方向为地理信息系统开发与遥感图像模式识别。

猜你喜欢

波段分类器重要性
“0”的重要性
论七分饱之重要性
幼儿教育中阅读的重要性
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
M87的多波段辐射过程及其能谱拟合
读《边疆的重要性》有感
日常维护对L 波段雷达的重要性
基于SPOT影像的最佳波段组合选取研究
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别