APP下载

基于多模型对比的土壤盐分制图及不确定性研究∗

2022-12-07王瑾杰丁建丽张子鹏

关键词:盐渍化盐分波段

王瑾杰,丁建丽†,张子鹏,张 喆

(1. 新疆大学地理与遥感科学学院,新疆乌鲁木齐 830017;2. 新疆绿洲生态重点实验室,新疆乌鲁木齐 830017;3. 智慧城市与环境建模普通高校重点实验室,新疆乌鲁木齐 830017)

0 引言

土壤盐渍化是过量的可溶性盐在土壤中富集的过程,通常在土壤表层最为明显.随着全球变化不断加剧,土壤盐渍化已成为全球关注的问题,目前全球超过7%的土地受到土壤盐渍化的威胁[1].此外,土壤属性的空间分布是影响农业生产力、土地管理和生态安全的重要因素[2].原生土壤盐渍化和农业灌溉引起的次生盐渍化问题是影响绿洲农业发展的主要因素,也是影响西北地区生态环境稳定的因素之一[3].因此,土壤盐渍化的动态监测是精准农业和土地复垦精准决策的重要定量参考信息.

大量的野外采样和实验室分析使研究成本较高,为了有效降低成本、提高效率、解决数据匮乏等难题,数字土壤制图已经被广泛应用[4].数字土壤制图是基于Scorpan-框架,利用土壤变量与一种或多个土壤形成因子[5](气候、生物、地形、母质、时间)的协方差,在已有数据的位置构建预测模型,并将其扩展到整个区域的制图方法.

大量研究结果表明,土壤盐分与土壤电导率(Electrical Conductivity, EC)具有明确的数理统计关系,而土壤EC又与不同的光谱波段和指数密切相关.利用光谱波段参数可以从卫星影像中提取的特点,协同卫星遥感可以在短时间内重复提供大尺度和高空间分辨的光谱信息优势,共同为区域土壤盐渍化的动态监测提供丰富的数据源.目前较新的卫星传感器Sentinel-2是欧洲哥白尼计划的一部分,于2015年6月23日成功发射,并正式投入使用[6].研究选取Sentinel-2卫星数据,因为该卫星携带了一种创新的宽幅(宽度290 km)和高空间分辨率(部分波段的空间分辨率达到10 m)的多光谱成像仪,是具有五天重访周期的双轨卫星,可为光谱数据的时空分辨率提供保障.

近年来,国内外学者对土壤EC的估测与反演开展了大量研究.Peng等[7]在新疆南部的区域研究发现,与偏最小二乘算法相比,Cubist模型结合Landsat-8数据被证明是最适合土壤盐度制图的估算策略.Yu等[8]在吉林半干旱地区的研究结果表明,利用Landsat-8数据进行土壤盐分建模可以解释73.5%的空间变异.然而,基于多种回归算法结合Sentinel-2光谱数据的土壤EC反演研究还相对较少.此外,鲜有研究探索土壤EC在数字土壤制图中的不确定性.因此,本研究利用四种回归算法结合Sentinel-2光谱数据、气候和地形变量,模拟干旱区尾闾湖周边地区土壤EC的空间分布,揭示算法模拟过程中的不确定性,分析该地区影响土壤EC空间分布的主要环境因子.

1 研究方法

1.1 研究区

艾比湖湿地保护区位于新疆维吾尔自治区西北部,研究区总面积约为4 393 km2.该地区属于典型的中温带干旱大陆性气候,受西风环流以及蒙古高压和西伯利亚冷空气的影响,艾比湖流域具有冬冷夏热(年均温8 ℃)、降水量少(年均降水量小于150 mm)、蒸发量大(年均蒸发量大于1 200 mm)等特点.该地区以盐生植被为主,覆盖度小于10%;主要的土壤类型为灰漠土、灰棕漠土和风沙土[9];土壤母质属于第四纪松散冲积物,含有石膏、石灰、氯化钠等盐类.由于水分收支不平衡,土壤中盐分受淋洗作用的影响较小,在土壤毛细管的作用下,干涸河床和湖体周边土壤中的盐分不断向地表聚集,造成严重的盐渍化现象(图1)[10].近年来,由于人口数量的增加和土地资源的不合理利用,导致人地矛盾不断加剧,土地质量不断下降[11].同时,不合理的耕作灌排方式进一步加剧了次生盐渍化现象和土壤盐分空间变异的复杂性,制约了该地农业和生态环境的可持续发展.

图 1 研究区采样点分布图

1.2 数据来源

1.2.1 土壤样本

田间土壤调查于2018年8月5日到8月15日,根据研究区的典型景观特征(图2),建立了110个20 m×20 m的样方,依据五点采样法采集土壤样本,将样品放入密封的防水袋中并贴上标签运回实验室,使用手持GPS记录每个样点的经纬度.在实验前,对土壤样本进行室内风干两周,粗略去除植被等其它残余物后,进行研磨和过筛(<1.5 mm).为了便于同行交流和国际通用研究比较,以及土壤EC的测定成本相对于土壤盐分含量测定成本更低等原因,本研究选择土壤电导率(EC)来表征该地区的土壤盐分含量.以1︰5土水比例提取土壤溶液的上清液,用MP515-01 precision conductivity meter仪器在室内进行EC测定,协调使用仪器配套的2401-1M电导电极测定,每次测定前需用校准溶液进行校准,确保测定结果接近真实值.

图 2 研究区采样点景观图

1.2.2 地表参数变量

考虑地形要素对土壤盐渍化的影响,利用SAGA GIS v8.2.0软件平台从30 m地形数据中提取了14种地形属性(表1).地形数据来源于中国科学院资源环境科学与数据中心(https://www.resdc.cn/).将得到的地形属性重采样到20 m,便于匹配Sentinel-2的空间分辨率并提供更详细的信息.

表 1 地表参数变量及其缩写

气象因素是数字土壤制图Scorpan-框架中的主要环境因子,其中温度和降水的变化会直接影响土壤水分供给和大气水分需求,从而间接影响土壤盐分的运移.因此,选择2000―2018年的多年平均气温(Mean Annual Temperature, MAT)和平均降水量(Mean Annual Precipitation, MAP)作为影响土壤盐分变化的主要气候因子.MAT和MAP的空间分辨率是1 000 m,利用最邻近采样法将其重采样到20 m.这两种数据均从中国科学院资源环境科学与数据中心下载.

从Sentinels Scientific Data Hub(http://scihub.copernicus.eu)下载三景无云的Sentinel-2影像(Level-1C产品),使用Sentinel应用平台(SNAP)Sen2Cor模块(V.4.0.2)对图像进行大气校正,并选取11个盐度指标组合模拟预测(表1).在Sentinel-2的光谱波段中,B1(443 nm)应用于成像浅水并跟踪灰尘和烟雾等细微颗粒,不能与其它多波段一起使用.Sentinel-2具有两个NIR波段,B8具有比B8a宽的光谱带宽,应用于10 m分辨率的输出.然而,在20 m的空间分辨率中,建议使用B8a作为替代.B9(945 nm)和B10(1 375 nm)分别用于大气校正和高空云的探测,因此我们从中省略这两个波段.最终选择了9个Sentinel-2的光谱波段:B2(490 nm)、B3(560 nm)、B4(665 nm)、B5(705 nm)、B6(740 nm)、B7(783 nm)、B8a(865 nm)、B11(1 610 nm)和B12(2 190 nm).将大气校正后的图像重采样到20 m.此外,使用ENVI软件中集成的最大似然法,结合监督分类法对湖水进行掩膜.

1.3 模型介绍与精度评价

1.3.1 随机森林模型

随机森林(RF)算法[12]以决策树学习为基础,该模型无需剪枝即可生成多个树,使用ut-of-bag(OOB)数据计算均方误差,利用未被选择的样本对每棵树进行预测.最后将所有树的输出结果平均得到最终的预测结果.

基于Matlab 2018b软件,利用Windowsprecomplied-RF mexstandalone-v0.0实现RF模型.RF建模时有三个参数需要用户自定义,即决策树数目(ntree),每棵树的变量数目(mtry)和终端节点的最小数目(nodesize).其中:mtry使用默认值(即变量数目开根号再取整);nodesize的默认值为5;由于ntree(500)的默认值已被证明不足以产生稳定的预测结果[13],因此,将ntree设置为1 000.变量的相对重要性(RI)是根据变量置换时预测准确度的平均降低程度来估计的[14].

1.3.2 人工神经网络

人工神经网络(ANN)能够模拟一组输入和输出变量之间的任何线性或非线性关系[15−16].研究结合实际情况,利用ANN中的BP神经网络进行模拟预测,并对其参数进行多次调整,最终确定网络拓扑结构为29-5-1.其中ANN的训练函数选用Levenberg-Marquardt方法,将训练精度和学习率设置为10−3,其余参数选用默认值.使用网格搜索确定隐含层神经元的数量以及使用早期停止程序确定训练迭代次数,可有效避免过拟合.

1.3.3 极限学习机

极限学习机(ELM)与传统需要迭代调整网络参数的方法相比,ELM随机生成隐含层节点参数的速率高[17],因此,该方法具有高效和快速学习的优点,并且受到广泛关注.本研究选用Sigmod函数作为连接层的激活函数,按区域特点,将隐含层的节点个数设置为10.

1.3.4 多元自适应样条回归

多元自适应样条回归(MARS)是由Friedman提出的数据挖掘技术[18],该算法通过样条函数来模拟复杂的非线性关系,综合了样条回归、累加回归、递归自分回归等诸多优点,建模过程分为前向逐步和后向剪枝选择基函数和筛选因子,具有很强的自适应性.本研究采用Adaptive regression spline toolbox(version 1.13.0)在Matlab 2018b中完成多元自适应样条回归模型的建模.模型中基函数的最大数量(Max Funcs)设置为30,节点的交叉验证次数(Cross Number)设置为3,输入变量之间相互作用的最大程度(Max Interactions)设置为10,人工老化因子(Fast Beta)设置为1.

1.3.5 模型验证

对RF模型进行10折交叉验证,该算法利用Crossvalind.m脚本实现.为了应对模型可能出现的性能变化和确保模型预测结果的稳定性,对每个模型迭代运算100次.利用均方根误差(Root Mean Square Error,RMSE)、Lin的一致性相关系数(Lin’s Concordance Correlation Coefficient, LCCC)和决定系数(R2, Coefficient of Determination)评估模型的预测性能.利用每个模型迭代100次得到的标准差来评估各模型预测EC时的不确定性,并在Matlab 2018b(The MathWorks, Natick, MA, USA)中生成土壤EC预测的不确定图.近些年,许多研究均采用预测不确定图来衡量模型预测时的误差.

2 结果与讨论

2.1 统计分析与指数提取

艾比湖地区夏季的土壤盐度范围在0.174∼65.992 dS·m−1,平均盐度为15.456 dS·m−1,属于重度盐渍土(表2).考虑到Sentinel-2数据具有三个额外的红边波段,本研究使用三个红边波段(B5、B6、B7)代替B4来计算新红边波段的各种可能组合,以产生用于估计EC的潜在土壤盐度指数和提高植被指数在该地区的适用性.分别比较土壤EC与植被指数和盐分指数的关系(图3).研究发现除CRSI和NLI外,其它的植被指数均与土壤EC呈显著的负相关关系,P <0.01;在盐分指数中除S5以外,其它的盐分指数与土壤EC均呈正相关关系,P <0.01.当使用红边波段替代B4时,发现相关性有所增加.研究发现,引入红边波段增强了指数对土壤盐分的敏感程度,这可能与红边区域潜在的光谱信息和更高的信噪比有关.在所有指数中,基于B5构建的S3指数效果最佳,相关性达到了0.55.而对于CRSI、NLI和S5,引入红边波段的改进效果并不明显,因此对上述三个指数进行剔除.利用其余15个指数的最优波段组合进行后续的EC建模和数字土壤制图.

表 2 艾比湖地区土壤盐度的统计分析/dS·m−1

图 3 EC与不同土壤盐分指数(红边指数和衍生红边指数)之间的关系

在46个参数中,28个参数与EC具有显著相关性,P <0.01(表3).MAP与EC之间的相关性在0.05显著性水平上是显著的,而其余17个参数与EC没有显著相关性.有26个参数与EC呈正相关关系,其中B11的相关性最强,为0.68.有17个参数与EC呈负相关关系,GDVI最强,为-0.38.有3个参数与EC没有相关性,分别为TCA、LSF和RSP,可能与计算中该像元处存在空值有关.在17个环境协变量中,只有MAT、SR、AS和CNBL与EC具有显著相关关系(P <0.01),MAP与EC之间的相关性在0.05显著性水平上显著.该结果在一定程度上说明,气候因素(MAP、MAT和SR)是盐碱荒地土壤盐分运移变化的重要驱动力因素.而地形因素普遍与土壤EC之间没有任何明显的关系,这是因为研究区地势相对较为平坦,地形因素无法有效显示该地区土壤盐分的空间分布.在Sentinel-2因子中,所有波段均与土壤EC显著相关(P <0.01).其中:B11的相关性最强,达到0.68;B12次之,r=0.56.红边波段的效果要优于可见光波段,其中B6的效果最好,r=0.53.盐分指数均与土壤EC呈正相关关系,而在植被指数中除SAVI外,其它均与土壤EC呈负相关关系.

表 3 研究区环境因子与EC(dS·m−1)数据的关系

2.2 模型精度验证

表4为10折交叉验证的RF、ANN、ELM和MARS模型的预测性能.精度验证的结果表明:MARS模型的R2均值为0.549,LCCC均值为0.698,RMSE均值为11.406,其R2均值在四个模型中最低.ELM的预测准确度略优于ANN模型,其中ELM模型100次运算的R2和LCCC均值都高于ANN,同时RMSE降低了0.313.RF模型具有最优的预测精度,R2均值为0.662,LCCC均值为0.771,且R2和LCCC的标准差也相对较低.因此,在本研究区的EC模拟结果对比中,RF模型模拟的整体结果表现最优.

表 4 基于不同建模策略的土壤EC(dS·m−1)反演模型的统计分析

Nawar等[19]在Egypt El-Tina平原对EC与土壤反射光谱进行建模,发现MARS是一种比PLSR更适合估算和绘制土壤盐分的技术,特别是在高盐度地区.但在本研究中,MARS的建模效果与其它三种机器学习算法(RF、ANN、ELM)相比,已经表现出明显的不足,这从另一方面证明了机器学习方法在本研究区对EC预测的潜力.Khosravi等[20]在对土壤锌和铅含量的预测中,发现相比ANN模型,ELM不仅提供了更好的预测性能,还具有更短的运算时间和更低的模型复杂度.在中国东部的一项研究中,Deng等[21]对29 927个土壤有机碳数据进行RF建模,结果表明RF模型解释了76%的农田表层土壤有机碳的变化.Chen等[22]利用中国最全面的土壤数据集和17个环境协变量开发的RF模型解释了中国土壤71%的pH变化.上述研究均表明RF模型在EC模拟中具有显著的优势.

2.3 土壤盐分制图及不确定性分析

模型的预测效果也可以从预测值与实测值的密度图分布中观察到.图4为四种模型100次预测得到的土壤EC模拟结果.研究发现,四种模型均会对0∼15 dS·m−1的EC产生一定程度的低估,其中:ELM的效果最差,MARS次之,而RF和ANN的效果相对较好.在15∼40 dS·m−1的EC区间,所有模型均存在高估EC的现象,相比之下,ANN的高估现象最弱,ELM的最严重.MARS模型的特征空间分布呈现近似对称的弧度,RF则更为陡峭,并在22 dS·m−1附近存在一个峰谷.在40∼60 dS·m−1的EC区间,RF仅在40∼43 dS·m−1的EC区间存在一些高估,在高EC区域没有明显的低估.ANN和ELM分别存在严重的低估和高估现象.MARS的低估程度在RF和ANN之间,基本不存在高估现象.

图 4 实测土壤EC与模型模拟结果密度图

由于每次所得到结果不同,本研究基于前人研究成果,均使用100次迭代的土壤EC均值来反映研究区的盐渍化情况.图5显示基于20 m空间分辨率的各模型的土壤EC均值图,经过统计分析得出,各模型的土壤EC均值分别为12.248 dS·m−1(RF)、12.216 dS·m−1(ANN)、11.806 dS·m−1(ELM)和11.898 dS·m−1(MARS).此外,本研究得到的土壤EC图显示出许多盐分变化的细节特征,这主要归因于Sentinel-2光谱数据的高时空分辨率.从预测的盐度空间分布来看,四种模型没有明显的差异.受地形因素的影响,土壤盐渍化程度最低的区域主要位于研究区的北部;干湖床周围的盐渍化程度次之;严重的盐渍化区域主要位于艾比湖西南部、奎屯河东北部和阿克苏河东南部.

图6为各模型100次迭代得到的标准差结果,以此衡量各模型预测土壤EC含量的差异.经过统计各模型的SD均值分别为1.139 dS·m−1(RF)、6.546 dS·m−1(ANN)、3.108 5 dS·m−1(ELM)和4.478 dS·m−1(MARS).其中:RF模型显示出的不确定性水平最低,表明RF模型在预测土壤EC方面表现稳定;其余三个模型均在高盐渍化区域显示出较大的不确定性,SD的最大值分别达到了76.466 dS·m−1(ANN)、42.239 dS·m−1(ELM)和55.289 dS·m−1(MARS).参考前人研究成果[23−24],图6中的预测不确定性可能来自于室外采样误差、实验分析误差、机器建模误差和统计学误差,而且ANN、ELM和MARS三种模型对于研究区不确定性的研究和分析已经超出了本研究的范围.

图 5 四种模型模拟的土壤EC空间分布图

图 6 四种模型对土壤EC空间分布预测的不确定性

2.4 模型重要性分析

通过100次迭代来评估RF模型中每个环境协变量的相对重要性(RI),再经过平均和标准化来展示变量重要性的结果(图7).我们发现预测土壤EC含量最重要的影响因素是Sentinel-2光谱数据,其变量重要性达到44%,并且每个预测因子均与EC具有良好的相关性.其中:Band 11(SWIR1)的贡献率最高,达到15%;其次分别是Band 6(Red Edge2)为6.73%、Band 5(Veg Red1)为6.50%.Taghadosi等[25]利用基于RBF核函数的SVM模型揭示了Sentinel-2光谱数据以高精度生成土壤EC图的潜力,而我们的研究也证明了Sentinel-2光谱数据是区域尺度内监测土壤盐分的关键因子,对干旱区地表盐分检测工作具有重要的经济价值.

图 7 随机森林模型中各类环境因子的变量重要性

除了Sentinel-2光谱数据十分重要以外,盐分光谱指数、气候和地形协变量以及植被光谱指数均能有效解释土壤EC预测时各类变化的来源,其重要值分别为31%、20%和5%.地形要素决定了EC的空间格局,但由于该区域地势较为平坦,大多地形因子的贡献度相对较低,只有坡向的重要性相对较好(4.68%).这是因为坡向会影响太阳辐射、温度、雨量、风速和土壤质地等因素,间接地影响土壤盐分的分布.虽然植被光谱指数作为一种间接的盐分指标,可以通过衡量作物生长和植物胁迫的不利影响来评估土壤中盐的存在.作为国家后备土地资源的西部,绿洲内外植被分布有空间差异,但植被覆盖度的差异会掩盖土壤信息,导致土壤EC的误差,因此,植被指数(生物因子)等变量被作为挖掘空间土壤盐度信息的环境协同因子[26−27].同时,在干旱区植被相对较少,如本研究中除在西南地区存在一部分农田以外,其余区域的植被覆盖极其稀少.因此,建议对低植被覆盖区域考虑植被光谱指数,但优先考虑盐分光谱指数.此外,融雪水是中高纬度地带和山区的一项重要径流补给源,新疆“三山夹两盆”的特殊地理条件,形成了水资源时空分布的特殊规律[28−29].艾比湖地区地处荒漠区,降雨稀少,水资源主要以冰川融雪径流为主,与气温要素相比,降水对于土壤盐分空间预测的贡献度相对较低.

3 结论

本研究利用四种机器学习算法模拟了土壤EC的空间分布.研究结果表明:RF模型最为准确和稳定,解释了土壤EC 66%的空间变化,并且平均标准差仅为1.139 dS·m−1.在RF模型中,Sentinel-2光谱数据为模型贡献了44%的相对重要性,显示出土壤盐渍化遥感反演中的优势.同时,气候和地形因素的加入也在一定程度上提升了模型预测的稳定性和科学性.此外,在绘制区域土壤EC图时,建议在低植被覆盖区优先考虑盐分光谱指数的影响.

猜你喜欢

盐渍化盐分波段
蔬菜大棚土壤盐渍化成因及防治措施
土地质量地球化学调查成果在判定土壤盐渍化、沙化中的应用
甘肃苏干湖湿地土壤盐渍化、地下水位埋深及其对生态环境的影响
玛纳斯河流域土壤盐渍化时空动态变化
M87的多波段辐射过程及其能谱拟合
长期膜下滴灌棉田根系层盐分累积效应模拟
摄影欣赏
日常维护对L 波段雷达的重要性
基于SPOT影像的最佳波段组合选取研究
L波段雷达磁控管的使用与维护