基于Landsat 8 OLI遥感影像的森林蓄积量估测模型研究

2021-04-14郑秋斌

湖南林业科技 2021年1期

钟健，郑秋斌

(广东省岭南综合勘察设计院，广东广州 510000)

森林蓄积量作为森林资源的一个重要因子，一直是林业调查工作中的重点内容。传统的人工方法调查蓄积量的工作量巨大，而且费用很高。如果可以利用遥感技术来估测森林蓄积量，工作量将会大大减少。伴随着遥感技术的研究与开发，通过使用遥感技术，结合部分地面样地数据进行建模，对森林蓄积量进行估测，已经成为当前我们的一个主要研究方向。当前，国内外很多专家在用遥感方法估测森林蓄积量方面已经做了大量的研究，主要包括使用光学遥感数据和微波遥感数据来估测森林蓄积量两个方向[1]。他们所应用的数据主要有：TM 影像数据、SPOT 数据、Landsat 数据、高分一号数据、高分二号数据等；建立的数学模型主要有：偏最小二乘模型、逐步回归模型、多元线性回归模型与机器学习模型等。但由于遥感方法误差很大，所以通过遥感技术估测森林蓄积量还没有在实际的调查中使用。如何构建最实用的数学模型，提高估测精度，将其运用到实际生产调查中，是我们现在所需要研究的主要问题。

在国外，通过构建回归方程来计算森林蓄积量已经取得部分成果[2]。Gemmel[3]利用TM数据，研究了许多因子与蓄积量的关系，发现郁闭度对蓄积量的影响程度最大，其次是TM4 波段和TM5 波段，这为其他学者对蓄积量开展研究提供了理论的基础。Fazakas等[4]使用TM 数据，通过KNN 法对瑞典一部分森林估测了蓄积量，结果表明，将多个像元结合起来估测精度要高于单个像元的精度。在1990年之后，德国等一些欧洲国家估算蓄积量的方法已经比其他国家要领先很多，通过GIS对遥感数据进行处理，获得每一年森林各种资源的变化量，找出遥感数据和地面数据的回归关系，进一步建立蓄积量与一些因子的回归方程，从而估测森林蓄积量[5]。近些年，随着机器学习的兴起，许多学者开始利用机器学习的方法对森林蓄积量进行预测[6-7]，从研究现状来看，国外基于TM、ETM和SPOT5等遥感卫星的蓄积量反演研究较多[8-9]，方法也比较成熟，而国内的研究相对较少[10]。所以，本次试验选择Landsat 8 OLI遥感影像作为数据源，构建多元线性回归模型(MLR)、误差反向传播神经网络(BP-ANN)、K最近邻模型(KNN)和随机森林模型(RF)，对森林蓄积量进行估测，旨在对以后大尺度森林资源的监测起到一定的借鉴作用。

1 材料与方法

1.1 研究区概况

湘潭县位于南岳衡山的北部，湘江下游西岸，长衡丘陵盆地北段，处于长江中游平原与江南丘陵的交错地带，西靠雪峰古陆北东缘，东滨湘江，涟、涓两水自西南向东北贯穿其境；地貌轮廓为西北、西南、东南三面高，中部和东北部低。地理位置在112°25′—113°03′E、27°20′—28°05′N之间。湘潭县属亚热带季风湿润气候，暑热期长，严寒期短，热量充足，雨水集中。

1.2 数据来源

1.2.1 地面数据的获取及处理试验中采用的地面数据来自2014年湖南省森林资源二类调查。运用标准差分析法对样本进行筛选，剔除离群值较大的样本点，筛选后留下126个样地作为试验样本，每个样地大小为625 m2。样地位置分布如图1所示。

图1 试验样地分布图

1.2.2 Landsat 8 OLI影像预处理 Landsat 8遥感卫星于2013年2月在美国发射，包括9个波段。由于本次研究内容为森林蓄积量估测，所以没有考虑Band 1(海岸波段)，Band 8(全色波段)和Band 9(卷云波段)。遥感数据的预处理过程通过ENVI 5.3软件实现，包括辐射定标、大气校正、正射校正、几何校正以及地形校正[11-12]。运用ARCGIS软件将样地的位置坐标导入到遥感影像中，并提取样地所在像元的DN值作为样地的遥感因子。

1.3 研究方法

1.3.1 光谱因子及纹理因子的提取本研究的建模因子包含遥感因子和地形因子，其中遥感因子包含Landsat 8 OLI影像的6个单波段、植被指数以及6个单波段的纹理共生矩阵；地形因子包含海拔、坡度和坡向。

纹理特征：纹理特征是影像中具有一定规律性的相似元素或者图形结构，通常理解为影响灰度在空间上的重复和变化或影响中反复出现的局部模式和他们的排列规则。同一幅图像中根据不同的纹理提取出的特征值也会不同。本试验中植被指数与纹理特征作为遥感因子被使用[13]。

纹理特征的提取包括均值、方差、协同性、对比度、相异性、信息熵、二阶矩和相关性8个指标。

1.3.2 联合Pearson相关系数和主成分分析的变量选择样本的简单相关系数一般用r表示，它阐述的是两个变量间的线性相关强弱程度。r的取值范围在-1至+1之间，如果r﹥0，则表示两个变量是正相关关系，也就是说一个变量的值增大，另一个变量的值也随之增大；如果r<0，则说明两个变量是负相关关系，就是随着一个变量值的增大另一个变量值会变小。由于所提取的各因子间存在较为严重的多重相关性，如果全部带入模型中，将会严重影响模型的稳定性，并且无法保证模型精度。主成分分析法是分析多个变量间相关性的多元统计方法，可以利用几个主要因子来概括众多因子间的关系，使得出的主要成分尽可能多地反应原始变量的信息[14]。因此，为了保障所构建模型的稳定性及精度，对所有与蓄积量显著相关的因子进行主成分分析，这样既能保证参与建模的变量与蓄积量之间显著相关，又能控制自变量间的多重共线性。

1.3.3 森林蓄积量估测模型的构建经过变量筛选后，随机抽取总样本的三分之二用于建模，剩下三分之一用于模型的精度验证，构建了MLR、BP-ANN、RF、KNN 4种蓄积量估测模型。KNN是根据K个邻阶的加权平均值来预测样本，主要难题是怎样确定K值[15]；BP-ANN的基本原理是通过调整输入节点与隐层节点、隐层节点与输出节点之间的联接强度以及阈值，使误差沿梯度方向下降，通过多次训练，找到预测误差最小时的权值和阈值[16]；RF是基于决策树的一种集成算法，Breiman[17]在2001年对RF进行了较为详细的分析，指出在构建RF时要重点考虑决策树的数量和节点。

1.3.4 模型精度评价模型的精度验证通过决定系数(R2)、均方根误差(RMSE)和相对均方根误差(RRMSE)3个指标对模型进行评价[18]，3个评价指标的计算公式如下所示：

2 结果与分析

2.1 主成分分析

计算每个变量与蓄积量的相关性并筛选出与蓄积量显著相关的变量，如表1所示。基于表1，对与筛选出来的遥感变量进行主成分分析，结果如表2所示。前4个主成分的累积贡献率达到88.935%，所以提取前4个主成分作为建模自变量。

2.2 蓄积量模型构建

试验中BP-ANN模型的迭代次数为1 000次，学习率为0.1，收敛目标为0.000 1；RF模型的ntree为500；KNN模型的K值从2开始循环至30，当K值为6时，模型的精度最好。因此，本次试验的K值为6，距离为欧式距离。

为了更直观地比较四种模型的估测精度，按照上述公式计算四种模型的决定系数(R2)、均方根误差(RMSE)、相对均方根误差(RRMSE)，并汇总于表3。四种模型中，机器学习模型的估测结果均高于传统线性模型10%以上，并且RF模型得到的最佳的估测结果为RMSE为57.5 m3·hm-2，RRMSE达到24.2%。

表1 与蓄积量显著相关的遥感变量汇总情况Tab.1 Summarytableofremotesensingvariablessig-nificantlyrelatedtostockvolume遥感变量相关性遥感变量相关性ND570.56RVI350.56ND350.56ND560.55RVI250.54W0.54TVI0.54RVI450.54msavi0.54SAVI0.50.54SAVI0.350.54SAVI0.250.54SAVI0.10.54NDVI0.54PC2_P0.53KT30.53ARVI0.52DVI340.50EVI0.50b2_B1_LAND0.50ND5630.49DVI370.49b4_B1_LAND0.48b1_B1_LAND0.48PC2_A0.48b7_B1_LAND0.48DVI270.47b3_B1_LAND0.47DVI470.47DVI240.47

表2 成分累积贡献率Tab.2 Cumulativecontributionrate主成分初始特征值特征根方差贡献率/%累积方差贡献率/%110.70348.65048.65025.02822.85371.50332.55711.62483.12741.2785.80788.93550.9594.35993.29360.5542.52095.81470.3401.54797.36180.2281.03898.399

表3 模型汇总Tab.3 Modelsummary模型R2RMSE/(m3·hm-2)RRMSE/%RF0.6757.524.2KNN0.6563.726.8BP-ANN0.6467.528.4MLR0.4990.638.1

3 结论与讨论

3.1 结论

本研究以湖南省湘潭县为研究区，以Landsat 8 OLI影像为数据源，结合地面调查的126个样点，联合主成分分析法和Pearson相关系数对自变量进行降维，并构建了BP-ANN、RF、KNN三种机器学习模型和一种多元线性模型对地面样本进行估测，并根据最佳估测模型反演出整个研究区的蓄积量分布图，得到以下结论：

(1)Landsat 8 OLI提取的植被指数与纹理特征与蓄积量存在显著相关性，但各遥感变量之间也存在较强的自相关，通过Pearson相关系数可以选择出与蓄积量显著相关的遥感变量，对这些遥感变量进行主成分分析后可以去除变量间的自相关。

(2)本研究建立的四种蓄积量估测模型中机器学习回归模型的估测结果远优于传统线性模型。因此，在估测森林蓄积量方面，机器学习方法相比于线性回归模型具有更广阔的应用前景，并且RF模型取得了最好的估测结果，其R2为0.67，RMSE为57.5 m3·hm-2，RRMSE为24.2%。

3.2 讨论

Landsat 8 OLI和机器学习方法在森林蓄积量估测中表现出了巨大的应用潜力，通过提取其影像特征并结合机器学习回归模型可以对森林蓄积量进行较好的估测。与同类研究相比，本次试验对比了多种蓄积量估测模型并从中选择结果最好的模型对整个研究区的蓄积量进行了反演，采用留一交叉验证法对模型进行验证，使试验结果更具说服力。但本研究的样本只是研究区的优势树种杉木。因此，本次研究结果可能在针叶林的蓄积量估测研究方面具有一定参考价值，但是否适用于阔叶林或针阔混交林的蓄积量估测仍需进一步验证。