APP下载

基于随机森林的极化SAR土壤水分反演及应用

2022-05-27行敏锋林清梅

文山学院学报 2022年2期
关键词:旱情特征参数特征选择

行敏锋 ,林清梅,陈 林

(1.电子科技大学 资源与环境学院,四川 成都 611731;2.电子科技大学 长三角研究院(湖州),浙江 湖州 313001;3.文山学院 人工智能学院,云南 文山 663099)

土壤水分是陆地表面和大气层之间的水、能量和碳交换的关键环节[1]。地表和根区间的土壤水分控制着降水在地面径流、蒸发和入渗之间的分配,控制着植被的蒸腾作用和对二氧化碳的吸收。因此,土壤湿度被认为是一个重要的气候变量,对人们了解水文过程对气候变化的影响至关重要[2]。对于草原来说,土壤水分是草原植被生长的基本条件,对植被状况监测、草原生物量预测、干旱监测和水资源管理等很多方面都有重要的指示意义[3-4]。因此,及时、准确地监测草原土壤水分的时间和空间动态变化对草原管理具有重要的科学意义和应用价值。

传统人工监测草原土壤水分的方法,不仅费时费力,且无法进行大范围的监测[5-6]。遥感技术的出现,为及时、准确、大范围地反演土壤水分提供了技术手段。与光学遥感相比,合成孔径雷达(Synthetic aperture radar(SAR))作为一种主动微波遥感技术,具有全天候、全天时、高空间分辨率等特点[7],具有穿透地表植被的能力[8]。土壤介电常数与土壤含水量成正比,SAR后向散射系数与土壤水分之间具有很高的相关性[9]。因此,利用SAR可以估算土壤水分含量。基于SAR反演土壤水分的方法主要有Oh方法[10],Dubois方法[11],和IEM方法[12]等,但这些方法主要应用于裸土区域或植被覆盖稀疏的区域。在草原上,由于SAR后向散射系数对植被覆盖[13-14]和地表粗糙度[15]也很敏感,这使得利用SAR数据估算土壤水分更为复杂[16]。利用上述方法反演草原土壤水分,将会低估土壤水分或高估表面粗糙度[17]。

机器学习方法不受地面参数的限制,能够避免复杂的物理关系,高效地解决非线性问题,在土壤水分反演方面得到了广泛应用[18]。随机森林方法是机器学习算法的一种,可用于分类和回归。就预测精度而言,随机森林是最有效的机器学习算法之一[19]。因此,本文基于随机森林方法,实现草原土壤水分反演,并建立一个草原土壤水分反演应用示范系统,进行草原旱情监测与报告。

1 方法

1.1 数据

本文选用了2景RADARSAT-2 SAR数据进行土壤水分反演,其拍摄时间分别为2013年8月4日和8月7日,极化方式为全极化(HH/HV/VH/VV)。SAR数据的预处理过程主要有:辐射定标、极化矩阵生成、极化滤波、极化分解、地形校正与投影变换。为了验证反演算法的精度和有效性,在RADARSAT-2卫星过境的时候,同步进行地面土壤水分数据的测量。

1.2 特征提取

根据RADARSAT-2 SAR数据提取用来估算土壤水分的特征。本文中,提取的特征主要包括:(1)四种极化方式(HH/HV/VH/VV)的后向散射系数;(2)相干矩阵 T3(T11、T22和T33);(3)Cloude 分解的极化特征参数(Cdbl、Cvol和Csurf);(4)Freeman-Durden 分解的极化特征参数(Fdbl、Fvol和Fsurf);(5)H-A-Alpha分解的极化特征参数(熵E、各向异性A和散射角Alpha);(6)Pauli分解的极化特征参数(Pr、Pg和Pb);(7)Touzi分解的极化特征参数(Tpsi、Ttau、Talpha和Tphi);(8)Van Zyl分解的极化特征参数(Vdbl、Vvol和Vsurf);(9)Yamaguchi分 解 的 极 化特征参数(Ydbl、Yvol、Ysurf和Yhlx)。

1.3 随机森林方法

随机森林是一种精细监督分类方法,其基于“装袋”和特征随机选择的组合构建具有受控方差的决策树集合[20]。目前,随机森林已经广泛应用于各个研究领域[21-22]。

如果经过良好训练,随机森林可以处理数千个特征的向量,并生成具有高分类精度的分类器。因此,本研究利用随机森林方法进行土壤水分反演。

1.4 特征选择方法

特征选择是随机森林方法中非常重要的步骤,选择的特征不同,最后得到的反演效果也不相同。为了比较不同的特征选择结果,本文利用三种方法进行特征选择。

(1)相关系数:利用相关系数(R)判断两个变量之间的是否存在线性关系,其取值范围为-1到1。R的绝对值越接近1,说明两个变量之间的线性关系越强。相反,R的绝对值越接近0,说明两个变量之间的线性关系越弱。

(2)递归特征消除:使用基础模型进行多轮训练,在每一轮训练之后,去除一些不重要的特征,然后基于新的特征进行下一轮的训练,直到剩余的特征数量达到所需的数量。

(3)随机森林因子重要性:根据每个特征在随机森林中每棵树上的贡献,比较特征之间的贡献大小。

1.5 系统构建

为了构建草原土壤水分反演应用示范系统,我们建立了基于浏览器,服务器的Web应用系统。该系统主要包括用户管理、土壤水分反演、自动化旱情监测和报告等功能。用户管理主要对用户进行手机号码验证,以及用户的权限、个人信息等管理与维护。土壤水分反演采用模块化实现,主要包括重要因子排序、基于随机森林的土壤水分反演、土壤水分制图、旱情监测报告等。旱情监测和报告是基于估算的土壤水分结果,根据中国水利部2008年颁布的旱情等级标准(SL 424-2008)[23]进行报告。

2 结果与讨论

2.1 特征选择结果

从原始RADARSAT-2 SAR数据中共获取了30个特征变量。为了提高利用随机森林方法反演土壤水分的性能,提高土壤水分反演的精度,我们利用三种特征选择方法(相关系数、递归特征消除、随机森林因子重要性)来减小特征的冗余性。

(1)相关系数:计算了不同特征参数与测量的土壤水分支架的R,并根据单个参数与土壤水分之间的R的绝对值进行排列(如图1所示)。从图1中可以看出,这些参数与土壤水分的R的绝对值小于0.3。

图1 RADARSAT-2 SAR参数与土壤水分之间的相关系数

(2)递归特征消除:获得的特征参数的重要性排序如表1所示。

表1 特征参数的重要性排序

(3)随机森林因子重要性:使用随机森林训练模型后,可以得到每个变量在模型构建过程中的重要性得分。特征的重要性得分越高,则对预测结果的影响越大。特征重要性排序如图2所示。

图2 基于随机森林的因子重要性排序

2.2 模型训练

不同方法选择的特征重要性排序是不同的。为了比较特征选择方法在模型中的性能,将三种方法选择的特征分别应用于随机森林算法。根据因子排序,首先使用重要性排序最高的特征构建模型,然后使用前两个特征构建模型,以此类推,逐渐增加特征数,直到所有特征都被使用。基于随机森林方法的三种特征选择的在验证集上估算结果如图3所示。横坐标表示使用的特征数量,纵坐标表示土壤水分测量值与估计值之间的相关系数。从图3中可以看到,拟合精度先快速增加,然后趋于平稳。

图3 不同特征个数时随机森林估算土壤水分精度

2.3 土壤水分反演

根据模型训练结果,基于随机森林方法,分别结合三种因子选择方法进行土壤水分反演,验证集上估算精度最高时的结果如图4(训练集)和图5(验证集)所示。

图4 土壤水分实测值与估算值之间的散点图(训练集)

图5 土壤水分实测值与估算值之间的散点图(验证集)

从图4中可以看出,利用随机森林方法,结合三种特征选择在训练集上均取得了令人满意的效果。其中,基于随机森林因子重要性获得的土壤水分反演的精度最高(R2=0.897,RMSE=2.97 vol.%),且使用的特征个数最少(14个)。基于相关系数获得的土壤水分反演的精度最低(R2=0.861,RMSE=3.11 vol.%),且使用的特征个数最多(30个)。基于递归特征消除获得的土壤水分反演的精度居中(R2=0.863,RMSE=3.26 vol.%),使用了24个特征个数。考虑验证集的结果(图5),基于递归特征消除和基于随机森林因子重要性的土壤水分反演精度相差不大,基于相关系数的土壤水分反演精度最低。

2.4 土壤水分制图与旱情报告

根据2.3的分析结果,我们利用随机森林方法,结合随机森林因子重要性排序进行土壤水分反演,对若尔盖草原实验区的土壤水分进行制图,获得该区域土壤水分的空间分布(图6)。

图6 若尔盖草原的土壤水分分布图(2013年8月7日)

获得土壤水分的空间分布后,根据旱情等级标准(SL 424-2008)进行旱情监测报告,将旱情分为未发生干旱、轻度干旱、中度干旱、严重干旱和特大干旱五类。对于8月7日的若尔盖草原来说,旱情监测报告如图7所示。因此,我们构建的草原土壤水分反演应用示范系统,能够基于SAR数据进行自动化土壤水分反演,自动进行草原旱情监测与报告,可为农业部门在大面积草原的旱情监测、风险评估和草原管理方面提供技术支持和数据支撑。

图7 旱情监测报告

3 总结

本文评估了基于RADARSAT-2 SAR数据,利用随机森林反演草原土壤水分的潜力,比较了不同特征选择方法进行草原土壤水分反演的优劣。根据土壤水分反演结果,可以得出如下结论。

(1)SAR数据的极化分解参数和后向散射系数可以应用于草原土壤水分反演。

(2)利用随机森林方法时,随机森林因子重要性排序的方法是有效的,仅需要少量的特征即可实现较好的土壤水分反演效果。

(3)建立了一套草原土壤水分反演应用示范系统,可以利用SAR数据,自动化完成土壤水分反演,自动进行草原旱情监测与报告。

猜你喜欢

旱情特征参数特征选择
基于视频图像序列的船用雷达目标检测和目标特征参数提取
基于智能优化算法选择特征的网络入侵检测
说话人识别特征参数MFCC的提取与分析
故障诊断中的数据建模与特征选择
民用飞机预测与健康管理技术与系统特征参数研究
reliefF算法在数据发布隐私保护中的应用研究
一种多特征融合的中文微博评价对象提取方法
远水