APP下载

不同分类方法对城区高分遥感影像分类结果的差异性分析

2020-05-12张丹璐吕京国白颖奇

北京建筑大学学报 2020年1期
关键词:决策树分类器精度

张丹璐, 吕京国, 成 喆, 白颖奇

(北京建筑大学 测绘与城市空间信息学院, 北京 100044)

随着遥感技术的不断进步,可以获取的遥感影像的时间分辨率、空间分辨率、光谱分辨率和辐射分辨率也越来越高. 在空间分辨率较高的遥感影像上,地物的光谱特征更加丰富,同类地物内的光谱差异增大,不同地物间的光谱差异减少,同物异谱及同谱异物现象更加普遍[1-3]. 因此,高空间分辨率遥感影像分类的要求也越来越高.

对于高空间分辨率的遥感影像的分类,传统的基于像素的分类方法通常会产生“椒盐现象”,所以一般采用的是面向对象的遥感影像分类方法. 使用面向对象的遥感影像分类方法进行分类时,除了要考虑影像分割方法、特征提取与特征选择,分类器的选择也很重要[4-5]. 针对高分遥感影像,不同分类器的分类结果差异较大. 许多学者也对高分遥感影像的分类方法做了一系列的研究. 赵丹平等[6]面向地理国情普查中的地表覆盖分类应用,以 3个典型区域(山区、平原、城区)的多源高分辨率遥感影像为实验数据,从分类效果、分类精度等方面对比分析支持向量机、决策树、随机森林3种分类方法的优劣. 刁彦华等[7]以高校地区高分影像分类为例,研究了基于SVM的高分遥感分类方法,实验结果表明了SVM方法的有效性. 顾海燕等[8]提出了基于随机森林的地理要素面向对象自动解译方法,通过与支持向量机分类的对比实验证明该方法可以自动进行特征优选及分类模型的构建.

本文针对城市地区高空间分辨率遥感影像,选取了两种不同数据源的高分城区遥感数据,先进行多尺度分割、特征提取和特征选择,再通过5种分类方法对遥感影像进行分类,并对比分析不同分类方法的分类结果及精度. 本文实验流程如图1所示. 研究结果为城区高分遥感影像的分类提供了一定的参考.

1 研究方法

1.1 特征选择方法

研究中利用BF+CFS进行特征选择,选出最优的特征子集,用于影像分类. BF+CFS特征选择方法是以最佳优先搜索(Bestfirst,BF)为寻优方法、以特征关联法(Correlation based Feature Selection,CFS)作为适应度函数进行最优特征子集的选择[9].

其中,最佳优先搜索是一种启发式搜索算法,它在广度优先搜索的基础之上,用启发估价函数对将要被遍历到的点进行估价,然后选择代价小的进行遍历,直到找到目标节点或者遍历完所有点.

特征关联法是一种基于相关性的特征子集评价方法,计算各子集中每个特征与类特征的关联度及特征之间的冗余度,关联度越大、冗余度越小,则评价值越高.

1.2 高分遥感影像分类方法

研究中使用以下5种分类方法.

K最近邻(K-Nearest Neighbor,KNN)分类算法,是用基于特征空间中最近的训练数据对待分类对象进行分类的方法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一[10-11].

贝叶斯(Bayes)分类器是一种简单的概率分类器,它基于贝叶斯定理,具有很强的独立性[12-13].

支持向量机(Support Vector Machine,SVM)是一种基于统计学习理论的机器学习算法[14-15]. 它通过解算最优化问题,在高维特征空间中寻找最优分类超平面,从而解决复杂数据的分类及回归问题.

决策树(Decision Tree,DT)是一类相对比较简单的分类技术,它的决策依赖于一个由问题和答案构成的树[16-17].

随机森林(Random Forest,RF)是一种基于分治法原理的集成学习策略,是若干决策树集成的分类器,相较于决策树其更加稳健,泛化性能更好[18-21].

2 实验过程与结果分析

2.1 实验数据

实验选取了两种不同数据源、不同分辨率的城区高空间分辨率遥感影像进行了实验.

数据一为城市地区WorldView- 2高空间分辨率多光谱遥感影像,影像包含红、绿、蓝、近红外四个波段. 影像成像时间为2013年9月21日,它的地面分辨率为1.8 m. 影像区域为北京市西城区.

数据二是城市地区资源三号高空间分辨率多光谱影像,影像包含红、绿、蓝、近红外四个波段. 影像成像时间为2015年7月24日,地面分辨率为5.8 m. 影像区域为宁夏回族自治区银川市.

由于篇幅限制,下面的实验过程只介绍数据一中WorldView- 2遥感影像数据的具体实验情况.

2.2 实验过程

2.2.1 影像分割

在实验中,使用eCognition软件、采用多尺度分割的分割方式对遥感影像进行分割. 由于分割尺度对分割结果影响最大,主要对分割尺度的选取进行多次实验并对比分割结果. 对于其他参数,根据实验筛选,将光谱因子的权重设置为0.9,形状因子的权重0.1,平滑度因子和紧致度因子权重分别为0.5,各波段权重都为1. 对于分割尺度,分别设置了不同的分割尺度进行反复实验,经过对比筛选,选取120作为后续实验的分割尺度.

2.2.2 样本选择

针对所选城市地区影像地物分布特点,将影像划分为5类地物,分别是建筑物、道路、水体、植被和裸地. 从中选取了各类地物的分类样本.

2.2.3 特征提取

实验中利用eCognition软件计算分割后的影像对象的光谱、形状、纹理等特征,根据知识经验提取了54个特征,包括光谱均值、亮度、标准差、周长、面积、形状指数、对比度、归一化植被指数(NDVI)等,见表1,构成初始特征空间. 这56个特征提供了对地物的广泛理解.

2.2.4 特征选择

经过BF+CFS特征选择之后,得到16个特征,作为最优特征子集,用于分类.

这16个特征分别为:GLCM相关(quick 8/11)、紧致度、GLCM熵、GLCM角二阶矩、蓝波段光谱均值、红波段光谱均值、近红波段光谱均值、蓝波段标准差、GLCM标准差(quick 8/11)、GLDV相异性、长度、最大化差异度量、GLCM标准差、密度、NDVI、NDWI.

2.2.5 分类器参数设置

K最近邻:经过多次实验,将k值设置为2.

贝叶斯:此分类器无参数设置.

支持向量机:经过多次实验,将惩罚系数C设置为2,核函数类型设置为线性的.

决策树:实验中采用的是CART算法,经过多次实验,将深度设置为0,最小样本数设置为3,交叉验证数设置为3,最大类别数设置为16.

随机森林:经过多次实验,将深度设置为0,最小样本数设置为3,最大类别数设置为16,森林中树的最大数设置为50,训练误差设置为0.01.

2.2.6 分类

分别使用K最近邻、贝叶斯、支持向量机、决策树、随机森林等5种分类器对影像进行分类,分类结果如图2所示,分类精度见表2,分类所用时长见表3.

2.3 实验分析

2.3.1 分类结果分析

从目视结果来看,5种方法都得到了较好的分类结果. 其中,随机森林的分类效果最好,决策树和贝叶斯分类结果次之,K最邻近和支持向量机的分类结果相对较差.

从精度评价结果来看,除了支持向量机之外的4种方法都取得了较好的分类精度,而支持向量机的分类精度则相对较差. 其中,随机森林的分类精度最高,达到了98%,而贝叶斯分类和决策树分类的精度次之,也都在90%以上;K最邻近和支持向量机的分类精度较差,都在90%以下.

表1 提取的特征表Tab.1 The table of extracted feature

表2 不同分类器的分类结果精度对比
Tab.2 Comparison of classification accuracy of different classifiers

类别KNNBayesSVMDTRF生产精度/%用户精度/%生产精度/%用户精度/%生产精度/%用户精度/%生产精度/%用户精度/%生产精度/%用户精度/%建筑物85.4585.4581.8110077.2777.9889.110096.3699.07道路87.1090.0010088.5787.1084.3890.3296.5510093.94水体80.0096.9710095.2472.5096.6797.590.710097.56植被93.4487.6998.3693.7593.4483.8296.7293.6598.36100裸地76.9258.8210010038.4631.2510059.110092.85总体精度/%86.2796.0879.6092.9498.04Kappa系数0.80800.94580.710.90340.9727

表3 不同分类器的分类所用时长对比Tab.3 Comparison of the length of time used for classification of different classifiers

从分类时间上来看,5种分类器的训练分类器时间和分类时间都相差不多,训练分类器时间都在30 s左右,而分类时间都在150 s左右. 其中,贝叶斯分类所用时间最短,而随机森林所用时间最长,最短时间和最长时间相差不超过5 s.

现针对每一种分类方法得到的分类结果进行具体分析,如下:

K最近邻:从上述分类结果图可以看出,KNN分类方法有部分建筑物被错分为水体,道路和建筑物也有一定的错分,植被的分类结果最好. 从分类精度表来看,KNN的分类精度相比于其他方法而言,精度不高.

贝叶斯分类:从图表可以看出贝叶斯分类的分类结果无论从目视效果方面还是分类精度、分类时间上来看,结果都相对较好. 就分类过程而言,此分类方法不需要调试参数,分类过程比较简单. 因此,这一方法分类不仅比较简单,分类精度和效果也较好,比较适合实际的遥感分类生产应用.

支持向量机:就结果而言,支持向量机的分类结果最差. 从分类结果图来看,各地物错分比较严重,尤其是较多建筑物被错分为水体、道路和裸地,导致建筑物在分类结果中占的比例小了很多,不符合城区遥感影像的地物分布特点. 此外,由于城市地区建筑物较多,且建筑物较高,因此高分遥感影像中建筑物形成的阴影较多,导致遥感影像中的建筑物的阴影容易被错分为水体、道路等地物. 所以此分类方法不太适用于城市地区的遥感影像分类.

决策树:从图表的结果来看,决策树分类中水体、裸地和建筑物也有部分错分,其中裸地的错分程度较高,而道路和植被的分类结果较好. 此方法和随机森林类似,要设置的参数较多,但相比随机森林而言,分类结果的各方面都不如随机森林.

随机森林:从结果来看,随机森林分类这一方法对高分遥感影像的分类结果最为准确. 不仅各类地物的分类结果都比较准确,错分、漏分少,而且分类精度高. 但这一分类器分类时需要设置的参数较多,选取合适的参数需要经过多次实验对比,相对而言分类过程工作量多一些,因此对于实际生产应用的适用性不高.

2.3.2 特征数对分类结果的影响

为了研究特征数量对不同分类器的分类结果的影响程度,研究中做了补充实验. 实验中选取了56个特征,按照特征的重要性进行排序,使用前6,11,16,21,26,31,36,41,46,51个特征分别进行分类,得到不同分类器的分类结果精度变化如图3所示.

随着特征数的增加,5种分类器的总体分类精度都呈现先升高后降低,最后趋于平衡的趋势,并且分类特征数越多,分类所用时间越长. 其中,特征数为16,即特征选择选出来的特征数时,各分类器的分类精度最高. 相对而言,随机森林和K最邻近对于特征数量变化而导致的分类精度的变化不明显,而支持向量机受分类特征数量变化的影响较大,说明这一分类方法对特征数要求较高.

2.3.3 数据源对分类结果的影响

针对不同数据源的高分遥感城市地区影像,其各自的多种分类器分类结果精度见表4.

表4 不同传感器遥感数据的分类精度对比Tab.4 Comparison of classification accuracy of remote sensing data of different sensors %

由实验结果可以发现,不同数据源的遥感影像对各分类器的分类结果的影响差别不大. 其原因可能在于以下两方面:一方面从空间分辨率来说,高分遥感影像的共性在于纯像元所占比例很大,降低了混合像元对分类结果的影响,多是一个像元对应一个单一类别(即像元纯度高);另外一方面从传感器的成像特点来说,分类器的分类过程与成像差异性的关系不大,都是光学影像的通用影像特征,与成像方式、轨道高度、回访周期、扫描宽度等无关,即对传感器之间的差异性不敏感,因而不同数据源的高分影像对实验结果的影响也不大.

3 讨论

3.1 遥感影像分类结果精度

高分遥感数据的整个分类过程的每一个步骤都影响着分类结果的精度,包括影像分割、样本选择、特征选择、分类器选择等,实验表明高分遥感影像的分类精度受分类特征和分类器的影响较大. 其中,光谱特征、形状特征和纹理特征都能较好地表达高分遥感数据的特点,可以用于区分城市地区典型地物的类型. 而不同分类器对分类结果的影响最大,所以在分类过程中分类器的选择至关重要.

3.2 不同分类器的性能

实验结果表明,K最邻近和支持向量机对于高分城区遥感数据的分类性能较差,可能是受样本选择和特征选择的影响,导致分类结果较差,也说明这两种分类器稳定性不高. 而在分类精度较高的3个分类器中,与贝叶斯、决策树相比,随机森林一方面不易于陷入过拟合,减少了特征冗余对于分类精度的干扰,另一方面,多棵树的投票机制,增加了分类的稳定性,分类鲁棒性较高,使得其分类精度也相对较高且较稳定. 此外,贝叶斯分类器算法过程较简单,但使用时相对随机森林而言更易受特征数影响、不够稳定,决策树的分类性能在结果上表现不如随机森林.

3.3 特征在分类中的重要性

高分遥感影像中,光谱特征、纹理特征、形状特征等都属于分类特征,可以作为分类的判断依据和标准进行分类. 但研究表明,并不是特征信息越多越好,过多的特征信息会造成“维数灾难”. 分类精度会随着特征维数的增加先增加后减小,而特征冗余度会随着特征维数增加而增加. 对于特征选择问题的研究,可以有效提高遥感分类精度和效率. 高分遥感图像分辨率高,所以特征信息较多,导致它的特征空间维数也高,冗余度也高,进行分类时运算时间长. 在相同训练样本和分类器的条件下,高分遥感影像的分类精度会随着特征维数的增大而呈现先增后减的趋势,分类器的泛化能力也会随之变弱. 此外,能够用于分类的特征很多,不仅有不同波段的光谱值,还可以进行形状指数、纹理特征、植被指数等派生特征的计算. 因此,在特征信息丰富的情况下,选择哪些特征就变得非常重要.

4 结论

本文通过K最近邻、贝叶斯、支持向量机、决策树、随机森林等5种不同分类器实现了对不同数据源的高分遥感城市地区影像的分类. 实验结果表明,贝叶斯、决策树和随机森林分类对城区高分影像的分类精度较高,而K最近邻和支持向量机在分类实验中表现相对较差. 其中,K最邻近和支持向量机易受样本选择和特征选择的影响,分类结果较差;决策树分类性能不如随机森林分类;随机森林分类方法的分类结果最准确,但参数的选择设置较复杂,对于实际生产应用的适用性不高;而贝叶斯分类操作简单、分类精度也较高,更适用于城区高分遥感数据的生产应用. 研究结果为城区高分遥感影像的分类提供了一定的参考,但对于具体分类任务,还需根据实际分析选择合适的分类器,充分发挥分类器的优势.

猜你喜欢

决策树分类器精度
基于不同快速星历的GAMIT解算精度分析
学贯中西(6):阐述ML分类器的工作流程
热连轧机组粗轧机精度控制
基于朴素Bayes组合的简易集成分类器①
基于动态分类器集成系统的卷烟感官质量预测方法
简述一种基于C4.5的随机决策树集成分类算法设计
一种自适应子融合集成多分类器方法
决策树学习的剪枝方法
以工匠精神凸显“中国精度”
决策树在施工项目管理中的应用