基于偏最小二乘回归模型的高山松蓄积量遥感估测

2015-09-10李圣娇舒清态徐云栋等

江苏农业科学 2015年8期

李圣娇+舒清态+徐云栋等

摘要：以Landsat 8影像为遥感数据源，以遥感因子、GIS因子、林分因子、郁闭度等为自变量，在前期野外样地调查的基础上，采用偏最小二乘法（PLS），建立香格里拉县高山松蓄积量遥感估测模型。试验结果表明，郁闭度对香格里拉县高山松蓄积量估测的影响极其显著，第5、6波段对其影响较为显著；运用偏最小二乘法建立的样地蓄积量估测模型，调整决定系数R2为0 777 5，均方根误差RMSE为36 90 m3/hm2，总预报偏差的相对误差RE为23 18%，模型精度为73 08%。以像元为单位提取高山松林所对应的自变量因子，利用估测模型得到研究区高山松林总蓄积量为 1 372 406万m3。

关键词：高山松；蓄积量遥感估测；偏最小二乘法；香格里拉

中图分类号： S127 文献标志码： A

文章编号：1002-1302（2015）08-0182-04

森林是地球上最大的生态系统，森林蓄积则是表征森林数量最重要的指标之一 [1]。传统的森林蓄积量调查方法费时费力，且仅适用于小范围的研究。随着遥感技术的不断发展，基于遥感技术的森林蓄积量估测已成为国内外学者研究的热点，利用遥感影像数据结合少量的地面样地实测数据，建立以遥感因子、GIS因子、林分立地条件为自变量因子的蓄积量估测模型已成为一种趋势 [2-7]。张友静等将K-T变换得到的绿度、湿度、郁闭度作为自变量，构造出具有物理意义的森林蓄积量遥感估测模型，精度高达90% [2]。琚存勇等利用TM影像和129个实测样地进行了蓄积量估测模型的研究，结果表明泛化改进的BP神经网络比普通BP神经网络具有更高的预报精度 [4]。近年来得以发展的偏最小二乘回归（PLS）方法也逐渐被应用于蓄积量估测领域的研究中 [5-7]，而运用PLS对高海拔地区的高山松进行遥感蓄积量估测尚未见报道。高山松林一般分布于云杉林、冷杉林下限，海拔2 800～3 500 m 之间，林分外貌整齐，成片分布，以同龄单层林常见。高山松适应性广，更新能力强，是山地寒温带向山地亚热带过渡的喜光、耐旱、耐瘠薄的先锋树种。本研究采用Landsat 8影像作为遥感数据源，结合云南省香格里拉县2006年森林资源二类调查数据，采用偏最小二乘法建立森林蓄积量估测模型，研究结果可为低纬度、高海拔地区遥感地学的研究提供依据。

1 研究区概况

香格里拉县（99°20′～100°19′E，26°52′～28°52′N）位于云南省西北部、迪庆州东北部，地处云南亚热带常绿阔叶林植被区向青藏高原高寒植被区过渡地带，森林覆盖率为7499%，植被分布南北差异明显，在环县境的东、南、西3面山体垂直分布完整而典型。在垂直分布上，海拔4 500～4 700 m为雪线带，有高山草甸、灌丛植被生长；海拔3 000～4 500 m为亚高山、高山寒温性针叶林类型；海拔3 000 m以下为暖温性针叶林，其间有多种温凉性针叶树种、落叶树种与其组成各种复杂的森林类型；金沙江边则出现干暖河谷气候下形成的多种灌丛类型。香格里拉县主要的优势树种有云南松（Pinus yunnanensis）林、高山松林、云冷杉林、高山栎（Quercus semicarpifolia）林，占全县森林面积的90 8% [8]。

2 研究内容与方法

2 1 数据获取与预处理

本研究所采用的遥感数据为2014年3—4月的Landsat 8数据，7波段共3景，航带号分别为131-41、132-40、132-41，空间分辨率为30 m（图1）。采用ENVI 5 0软件对其进行预处理，包括大气校正、裁剪、拼接等。

本研究还参考了以下数据。2006年森林资源二类调查小班数据，已校正的香格里拉县SPOT5影像，精度为30 m的DEM数据，研究区行政边界矢量图。2014年香格里拉县高山松蓄积量30 m×30 m样地实测数据，包括每个样地的GPS坐标（X，Y）、高山松30 m×30 m样地蓄积量、郁闭度、平均树高、平均胸径等样地因子。

2 2 研究方法

偏最小二乘法是一种新型的多元统计分析方法，集多元线性回归分析、典型相关分析、主成分分析的功能和优点于一体，将建模的数据分析与非模型的数据认知方法有机结合起来，使模型的精度、稳健性、实用性得到提高，已广泛应用于各领域的研究中 [9-11]。

设有q个因变量（Y1，Y2，…，Yq）和p个自变量（X1，X2，…，Xp），观测了n个样本点，由此构成自变量与因变量的数据表Xn×p和Yn×q。偏最小二乘回归分别在X、Y中提取出成分t1、u1（t1、u1分别是X1，X2，…，Xp和Y1，Y2，…，Yq的线性组合），提取时需满足2个条件：t1、u1应尽可能多地携带其各自数据表中的变异信息；t1与u1的相关程度达到最大。在第1个成分t1与u1被提取后，偏最小二乘回归分别实施X、Y对t1的回归。若回归方程达到满意的精确度则算法终止；否则将利用X、Y分别被t1解释后的残余信息进行第2轮成分提取，如此往复，直到获得满意的精确度为止。若最终对X提取了m个成分t1，…，tm，偏最小二乘回归将实行Yk对t1，…，tm的回归，并表达为Yk关于原变量X1，X2，…，Xp的回归方程（k=1，2，…，q）。

本研究采用标准差分析法剔除样本中离群值较大的数据，在R环境下建立偏最小二乘法模型，建模样地共79块，按3 ∶ 1原则，用60个样本进行模型训练，用19个样本进行精度检验。具体步骤为：从预处理后的影像中提取遥感因子和GIS因子；对提取的因子数据进行标准化处理；在R环境下建立偏最小二乘法模型；模型训练及模型精度检验。

2 3 高山松空间分布信息及自变量因子的提取

2 3 1 高山松信息的提取研究区高山松林中的天然林、人工林均基本以纯林出现。在ENVI 5 0软件下采用基于面向对象分类技术，并结合2006年香格里拉县森林资源二类调查小班数据，实现对高山松空间分布信息的提取（图2）。

2 3 2 样地设置样地设置需满足以下条件：样地森林类型为纯林，在一定范围内连续分布，且存在蓄积；遥感图像上样地的灰度值应均匀；样地应尽量均匀分布，覆盖整个研究区 [6]。样地分布见图3。2 3 3 自变量因子的提取关于利用3S技术估测森林蓄积量，国内外学者已作了大量研究 [12-17]，本研究在前人研究的基础上选择用于构建蓄积量估测模型的备选变量，包括遥感因子变量、GIS因子变量（表1）。

森林郁闭度通常需要野外实地测量，且仅能获得部分点的数据，不利于研究大范围或区域内郁闭度的空间分布及变化 [18]。遥感技术的估测为区域范围内郁闭度的反演提供了新思路。本研究利用偏最小二乘法对整个香格里拉县高山松林的郁闭度以像元为单位进行估测及精度检验，结果如下：

Y郁闭度=-0 001 3×Dem-0 005 8×B1-0 004 5×B2-0 002 4×B3 + 0 001 1×B4+0 001 5×B5-0 001 5×B6-

最终得到估测模型的相对误差为15 53%，郁闭度估测模型精度为81 75%。

3 结果与分析

3 1 偏最小二乘法模型的构建

考虑到遥感因子和GIS因子之间的量纲不同，先将所有样本数据进行中心标准化，统一量纲 [19]。从60个建模数据中提取相关遥感因子、GIS因子，利用R中的偏最小二乘函数包建立蓄积量估测模型，交叉验证结果（部分）见表2。

利用validationplot函数得到偏最小二乘法模型在不同主成分数下对应的RMSEP（由留一交叉验证法算出的均方预测误差根）（图4）。

根据成分数m=12得到回归系数并建立最终模型（图5）。

Y=4 503 087 49×郁闭度+0 001 008 62×Dem-0 117 316 89×B1+0 102 318 44×B2+0 086 654 83×B3-0 120 362 77×B4-0 039 761 78×B5+0 080 526 72×B6-0 028 521 09×B7-0 169 714 86×DVI+0 203 602 85×[JP3]RVI-0 001 910 10×NDVI+0 018 564 42×X1+ 0 084 544 23×X2+0 009 048 14×slope+0 000 625 18×aspect。

利用jack test函数进行回归系数的显著性检验（表3）。郁闭度对所取样地高山松林蓄积量的影响极其显著，第5、6波段的灰度值对其影响较为显著。

3 2 香格里拉县高山松林蓄积量估测

本研究中实测样地大小为30 m×30 m，与Landsat 8影像上1个像元的大小一致；因此，对香格里拉县高山松林总蓄积量进行估测时，应以像元为单位读取每个像元对应的线性组合。利用ERDAS的Model maker模块将数据带入已建立的模型中，得到香格里拉县高山松林总蓄积量为1 372 406万m3。

3 3 模型精度检验

将未参与建模的19个样地数据代入上述模型中，还原归一化的预测值，进行模型精度检验和适应性评价，采用调整决定系数（R2）、均方根误差（RMSE）、总预报偏差的相对误差（RE）作为评价指标，结果见表4。

4 结论与讨论

由于偏最小二乘模型对自变量的选择要求较低，无需最优，且较多自变量因子有利于对主成分进行累计解释能力分析；因此，本研究引入所有变量参与森林蓄积量估测模型的建立，提高了模型的拟合效果，最终模型R2为0 777 5，拟合精度为73 08%，可用于进行区域尺度高山松蓄积量的遥感估测。根据偏最小二乘模型估算得到2014年香格里拉县高山松林蓄积量为1 372 406万m3。研究中存在的不足之处仍有待改进。通过增加自变量因子的数量来估测蓄积量，虽效果令人满意，但无法真正解决问题。删除部分影响不显著因子后，模型精度急剧下降，表明影响不显著因子对蓄积量的估测也起到了重要作用。郁闭度是样地实测的结果，由此建立的模型较为可靠，而对香格里拉县高山松总蓄积量进行预测时，研究区像元对应的郁闭度数值仅能通过反演得到。本研究利

用偏最小二乘法进行估测以减小误差，虽然估测精度为8175%，但误差传递问题可能导致香格里拉县高山松林总蓄积量的预测精度受到一定影响。

参考文献：

[1] 程武学，杨存建，周介铭，等森林蓄积量遥感定量估测研究综述[J] 安徽农业科学，2009，37（16）：7746-7750

[2]张友静，方有清，陈钦峦南方山地森林蓄积量遥感估算研究[J] 国土资源遥感，1993（2）：39-47

[3]冯仲科，杨伯钢，罗旭，等应用LIDAR技术预测林分蓄积量[J] 北京林业大学学报，2007，29（增刊2）：45-51

[4]琚存勇，蔡体久用泛化改进的BP神经网络估测森林蓄积量[J] 林业科学，2006，42（12）：59-62

[5]杜晓明，蔡体久，琚存勇采用偏最小二乘回归方法估测森林郁闭度[J] 应用生态学报，2008，19（2）：273-277

[6]洪奕丰，林辉，严恩萍，等基于偏最小二乘法的平南县森林蓄积量估测模型研究[J] 中南林业科技大学学报，2011，31（7）：80-85

[7]刘琼阁，彭道黎，涂云燕基于偏最小二乘回归的森林蓄积量遥感估测[J] 中南林业科技大学学报，2014，34（2）：81-84，132

[8]岳彩荣香格里拉县森林生物量遥感估测研究[D] 北京：北京林业大学，2012

[9]陈楚，关泽群，张鹏林，等利用RS和GIS的森林蓄积量偏最小二乘估测研究[J] 湖北林业科技，2004（4）：25-28 [HJ1 83mm]

[10] 罗批，郭继昌，李锵，等基于偏最小二乘回归建模的探讨[J] 天津大学学报：自然科学与工程技术版，2002，35（6）：783-786

[11]王惠文偏最小二乘回归方法及其应用[M] 北京：国防工业出版社，1999

[12]李崇贵，赵宪文，李春干，等森林蓄积量遥感估测理论与实现[M] 北京：科学出版社，2006：15-26

[13]张凝，冯仲科，冯跃文，等旺业甸实验林场针叶林蓄积量估测模型的研究[J] 中南林业科技大学学报，2013，33（11）：83-87，108

[14]张彦林基于3S技术的山东省森林蓄积量定量估测研究[D] 北京：北京林业大学，2008

[15]黄伟平，谭三清，张贵，等估测森林蓄积量的遥感因子选择研究[J] 中南林业科技大学学报，2010，30（4）：112-115

[16]Tomppo E，Nilsson M，Rosengren M，et al Sin ultaneous use of Landsat-TM and IRS-1 CWIFS data in estimating large area tree stem volume and aboveground biomass[J] Remote Sensing of Environment，2002，82（1）：156-171

[17]Mkel H，Pekkarinen A Estimation of forest stand volumes by Landsat TM imagery and stand-level field-inventory data[J] Forest Ecology and Management，2004，196（2/3）：245-255

[18]李崇贵，蔡体久森林郁闭度对蓄积量估测的影响规律[J] 东北林业大学学报，2006，34（1）：15-17

[19]吴喜之复杂数据统计方法——基于R的应用[M] 北京：中国人民大学出版社，2012