APP下载

基于随机森林方法的遥感影像分类方法

2021-10-12赵志国

北京测绘 2021年9期
关键词:反射率数据量决策树

赵志国

(上海元易勘测设计有限公司, 上海 201203)

0 引言

植被是构成地球生态循环的重要组成部分,可以有效监测地球的生态变化。如今伴随着卫星技术以及传感器的发展,多光谱遥感影像的应用越来越广泛。现在多光谱遥感影像经常用于植被分类,传统的人工目视解译法耗费时间,而且对于解译者来说需要有十分专业的知识,花费大量的人力才能够完成工作。深度学习被大量应用于各种不同的研究领域,原因是深度学习在计算机应用中显示出的极高效率,遥感领域也是如此,以前超大数据量的运算和处理,人工无法胜任,深度学习到来之后就变得不再那么遥不可及。遥感领域中对数据的发掘以及利用都可以通过深度学习来实现。

在遥感影像植被分类中,中低分辨率的多光谱影像能够用于较大尺度的植被群落级别的分类,我们通过使用Google Engine合成多个时段的中分辨率成像光谱仪(Moderate-resolution Imaging Spectroradiometer,MODIS)反射率数据构建新的伪高光谱数据,该数据具有时间特性,在一定程度上可以保留全年的相关信息,也可以降低云雾等信息造成的干扰。

1 研究区域与数据

1.1 研究区域

本研究所用的遥感影像数据为2016年1月1日至2016年12月31的MODIS数据,影像地区是上海、福建、陕西、辽宁。数据源选择的是2016年目标区域全年MODIS数据,共366 d的样本反射率数据。

1.2 训练集数据

训练集数据选取的是MODIS数据中的MOD09GA.006 Terra Surface Reflectance Daily Global 1 km和500 m影像集,其对大气气体以及气溶胶的低水平数据进行了校正,MOD09GA提供了1~7个波段,训练集所选取的是较为常见的红光、蓝光、绿光和近红外光4个波段。

1.3 验证集数据

验证集数据采用的是MODIS Land Cover(MCD12Q1)土地覆盖数据集,MCD12Q1产品数据中含有13套分类标准,选择其中LC_Type3叶面积指数(Leaf Area Index,LAI),此套标准中含有11个分类类型,足够500 m分辨率下进行分类研究[1]。

2 研究方法

2.1 数据预处理

在使用MODIS官网下载的影像过程中发现,找寻无云数据十分困难,而且有云数据在计算过程中有干扰作用,良好的无云数据会使试验效果更真实。为此,我们选择使用Google平台上的MODIS数据。Google Earth Engine平台上存储着公开可用的2000年至今的MODIS数据。由于每个遥感影像数据并不是所有部分都被大量云雾所遮盖,利用这个特点,找出不同影像上含云量稀少部分,进行裁剪,之后将所有裁剪下来的部分进行拼接,成为一幅“无云”的遥感影像。通过实验发现每8个数据就能很好地拼接一个无云数据。于是使用8 d合成算法选出 8 d内云雾、观测角度、太阳角度等干扰最小的反射率数据,根据所需数据量可合成相应数据[2]。

通过真实值数据中的分类点,进行随机选点来制作测试集、验证集和训练集,其中训练集随机选取了1万个点作为训练数据,验证集选取了总大小的20%的点,剩下的点作为测试集。在进行随机选点的过程中确保三个数据集中没有重合的部分,为了减少计算量,使用掩膜对矩阵进行处理,掩膜矩阵中的0和1分别代表是否选取该位置点。

本文为了验证时序影像对分类精度的影响,从Google Earth Engine下载了1个月、3个月、6个月、9个月以及12个月数据量的影像,利用matlab对影像数据进行处理并将影像矩阵进行堆叠,提取出对应时间长度的红绿蓝(Red Green Blue,RGB)三色波段数据单独作为一个输入数据,图1为预处理流程。

图1 预处理流程

2.2 决策树分类器——随机森林

1995年,贝尔实验室的Tin Kam Ho提出了随机决策森林。随机森林(Random Forest,RF)是以决策树为基础的一种高级算法。形似决策树一般,随机森林既可以用来回归也可以用来分类。随机构建一个森林,森林中由许多独立的决策树组成。实际上随机森林从本质上来说是属于机器学习中的一个重要分支,叫作集成学习。集成学习通过建立几个模型的组合来集中解决单一的预测问题。它的工作原理是通过生成多个分类器,各自独立学习特征并且做出预测[3]。

然后将这些预测合成为单一预测,所以比任何一个单分类的方法做出的预测都要准确。随机森林在分类中的精度要优于单棵决策树,随机森林较之于决策树引入了随机变量来控制每一棵树的生长。对于第i棵树引进的随机变量θi,它和前面的i-1随机变量θ1,θ2,…,θi-1是独立分布的[4]。

目前,随机森林方法相较于其他神经网络计算方法,其计算量要小很多且结果精度有一定保证,因此,常用于大面积农业遥感影像分类、森林火灾预警、森林资源调查等方面,对于地理国情监测和土地分类覆盖方面有着较为重要的作用。

2.3 实验设计

对MCD12Q1中的图表数据对应的遥感影像做好标记得到真实值数据,反射率数据预处理后将目标的区域作为训练的数据,然后将这其中的20%作为验证组,将数据输入训练方法中进行训练,得到结果后对真实值数据进行精度对比,之后再将数据作为初始数据代入之前的方法中进行训练。设定随机森林生成树木最大为500,挑选出其中精度最高的一组作为植被分类图,使用python将矩阵数据进行上色,得到可视化的植被分类图。

3 实验结果

3.1 影像时序结果对比

在完成随机森林模型建立后,将1个月、3个月、6个月、9个月以及12个月的数据依次带入模型中进行计算,得到的数据如表1所示。

表1 识别准确率表 单位:%

分析以上结果可以得出:影像时序丰度越大,得到的分类精度越高,但随着时序丰度的增加,准确率曲线对于其敏感度会下降,最终准确率会在一年准确率的范围内进行微小波动,不再大幅度提升。其原因在于,在一年时间内,由于选用验证数据标准为叶面积指数(Leaf Area Inde,LAI),针对植被变化会较为敏感,而且影像分辨率为500 m,对于小范围变化同样不敏感,所以当时序数据量达到12个月时该地区的目前状况下的特征提取已经比较完备,所以准确率会进行波动,不再增长。

3.2 地区分类结果对比

本次试验针对四个目标区域进行了对比,分类结果如表2所示。

表2 随机森林分类结果的横向对比

表2中左侧GT为MCD12Q1中真实值数据影像,之后依次为本地区1个月、3个月、6个月、9个月以及12个月的数据带入模型中进行计算得到的识别结果,图中的空白区域为水体。根据表2的分类结果,可以看到,随机森林分类方法精度效果受水体限制较大,在上海区域内拥有较多水体,在进行随机森林决策树训练的时候较多参数分配给了水体的识别,而且在图中可以发现分类精度较高的地区分类种类相较于低精度地区都较少,分类种类较少时随机森林的分类精度更高。

4 结束语

本文使用MOD09GA数据并且用其中LAI层植被反射率数据作为输入矩阵,运用GEE通过8 d合成算法对数据进行处理,得到云量最低反射角度最好的数据,通过RGB三波段辅助判断,先对植被边缘进行筛选。针对上海、辽宁、陕西、福建四个地区的MODIS影像数据,建立每个地区5个时间序列的训练集,通过随机森林机器学习方法,学习一年内目标区域的时序变化规律,从而获取更为精确的分类效果,根据区域特点对比研究该算法对于上述四个地区识别方法的优劣。实验结果显示:随机森林分类法在没有海部的地区识别效果能够达到90%以上,使用训练集数据量越大,识别率越高,数据量达到一年左右后,识别率只有微小波动。

随机森林分类法已经证明是同类分类法中效果最好的一种,其运算速度较为迅速而且分类精度也有一定的保障;在我们以往的工作过程中发现,随机森林分类方法的稳定性超过了神经元网络分类法,受工作时间及硬件的限制,本次试验并没有将现有数据进行神经元网络分类识别,在以后的试验中我们会增加分类识别的方法以获得更完善的结论。

去云处理将产生影像部分不连续,这在一定程度上会导致识别率下降,增加时序影像的数量一定程度上能够弥补这种不足,使随机森林分类法得到更高的准确率。比较遗憾的是本次试验只用了反射率数据作为输入数据,并没有比较EVI和NDVI的时间序列数据,理论上,通过增加时间序列数据的输入应该可以对训练数据的准确性进行二次修正,会进一步提升随机森林分类法的精度。

猜你喜欢

反射率数据量决策树
中红外波段超广角抗反射微纳结构的研究
商品条码印制质量检测参数
——缺陷度的算法研究
车灯反射腔真空镀铝反射率研究
基于大数据量的初至层析成像算法优化
高刷新率不容易显示器需求与接口标准带宽
简述一种基于C4.5的随机决策树集成分类算法设计
决策树学习的剪枝方法
分步催化制备纳米SiO2减反射膜的性质与结构研究
电力营销数据分析中的数据集成技术研究
决策树在施工项目管理中的应用