APP下载

一种基于GA改进的土壤湿度反演方法

2020-06-19常江丁雷

现代电子技术 2020年12期
关键词:相关性分析数据处理

常江 丁雷

摘  要: 通过神经网络和机器学习算法,对SMAP土壤湿度数据进行降尺度反演,提高空间分辨率。采用GA改进的贝叶斯神经网络算法和随机森林算法,建立“天宫二号”8,9,10通道光谱反射率与土壤湿度数据之间的模型,进行降尺度反演。结果表明,SMAP土壤湿度数据的空间分辨率由3 km提高至100 m,采用GA改进的贝叶斯神经网络反演算法时,R2为0.788,RMSE为 0.142 m3·m-3 ;采用GA改进的随机森林算法进行反演时,R2为0.825, RMSE为 0.125 m3·m-3。对SMAP土壤湿度数据进行降尺度反演时,GA改进的随机森林方法模型精度更高,训练效果更好,算法复杂度更低, 可以实现较为准确的大范围土壤湿度降尺度反演。

关键词: SMAP土壤湿度; 降尺度反演; 算法改进; 数据处理; 模型建立; 相关性分析

中图分类号: TN206?34                            文献标识码: A                       文章编号: 1004?373X(2020)12?0009?05

Abstract: The downscaling inversion of the SMAP soil moisture data is performed by means of the neural network and machine learning algorithms to improve the spatial resolution. A model between the spectral reflectance of the 8th, 9th and 10th channels of Tiangong?2 and soil moisture data is established by means of the GA?modified Bayesian neural network algorithm and random forest algorithm to carry out the downscaling inversion. The results show that the spatial resolution of SMAP soil moisture data is increased from 3 km to 100 m; when adopting Bayesian neural network inversion algorithm modified with GA, R2 is 0.788 and RMSE is 0.142 m3·m-3; when using random forest algorithm improved with GA for the inversion, R2 is 0.825 and RMSE is 0.125 m3·m-3. The result of comparison indicates, when the downscaling inversion of the SMAP soil moisture data is conducted, that the random forest method model improved with GA has higher precision, better training effect and lower algorithm complexity, and can realize the more accurate downscaling inversion of wide?scale soil moisture.

Keywords: SMAP soil moisture; downscaling inversion; algorithm improvement; data processing; model building; correlation analysis

0  引  言

土壤湿度,也称为土壤含水量,是用来表示一定深度的土壤干湿程度的物理量。目前,针对土壤湿度的测量方法主要有传统方法和遥感方法两种,测量土壤含水量的传统方法是使用重量法或者探针法来确定各个深度层面下的土壤湿度指数,虽然这种方法采集的土壤湿度精度较高,但是只适合用于小范围的测量和采样,并且需要花费大量的人力物力[1?2]。采用遥感方法可以便捷地获取大范围区域的土壤水分含量数据,但是获取土壤湿度数据的空间分辨率普遍比较低。传统的观测方法不能获取大范围的土壤湿度数据,遥感观测方法又不能获得高分辨率的土壤湿度数据。针对以上现状,一种减少开销又便捷高效的方法则是对SMAP被动微波土壤湿度数据等较高精度的卫星观测数据进行降尺度反演,继承其大范围观测土壤湿度的优点并提高数据的空间分辨率[3]。

本研究采用GA遗传算法改进的贝叶斯神经网络算法和随机森林算法建立预处理后的“天宫二号”宽波段成像仪可见光近红外光谱数据与SMAP微波土壤湿度之间的关系模型,从而对SMAP土壤湿度进行降尺度反演。探讨各个通道下的光谱反射率与土壤湿度之间的相关性,并使用相关性较强的几个通道替换原有光学影像数据源,从而对反演模型进行迭代,最后分析算法的复杂度。

1  数据选取及预处理

1.1  “天宫二号”宽波段成像仪影像

本文使用的影像数据源是美国科罗拉多州奎斯塔城市(33°4′48"N,105°34′98"W)在2016年9月24日的影像数据。数据从载人航天空间应用数据推广服务平台获取,申请了宽波段成像仪可见光近红外谱段的二级影像产品,影像空间分辨率是100 m,视场角为42°,刈幅300 km,采用大幅宽虚拟相机高精度传感器校正模型进行宽波段数据无控制点几何校正处理,定位精度在8个像元内[4]。

1.2  SMAP土壤湿度数据

本研究中土壤湿度数据选择的是NASA SMAP/Sentinel?1 L2土壤湿度数据产品,空间分辨率3 km,数据的格式是HDF5。该二级产品是由SMAP?L波段辐射计获取的亮度温度和Sentinl?1A,Sentinl?1B雷达获取的反向散射系数重采样后生成的土壤水分数据。选用与“天宫二号”相同采集时间(2016年9月24日)的数据,从中提取经度、纬度、土壤湿度三个参数并与所选“天宫二号”影像进行经纬度匹配。为了方便程序的读写,提取后的土壤湿度用Excel格式存储[5]。

1.3  QUAC大气校正

从空间数据中心获取的“天宫二号”宽波段成像仪二级数据已经做过几何校正和辐射定标处理,将DN值转化成了辐亮度值,因此只需要进行大气校正即可。选用ENVI快速大气QUAC校正工具对“天宫二号”宽波段成像仪可见光近红外数据进行大气校正,该工具的特点是:可以自动地从数据中获得各个地物的波谱信息,采用先验知识来进行较高精度的多光谱和高光谱数据大气校正。由于空间中心提供的“天宫二号”影像头文件中缺少各通道中心波长的信息,所以需要手动编写影像的头文件。大气校正前后光谱信息如图1所示[6]。

1.4  影像套合

本研究采用基于光谱指数的云和阴影检测算法对图像进行去云处理,以此可以得到“天宫二号”的无云影像,随后进行影像值的提取,采用ArcGIS软件中的多值提取到点工具对图像和湿度数据进行套合,设定为地理坐标系WGS84[7]。因为通道8,9,10与土壤湿度具有更强的相关性,因此挑取此3个波段下云掩膜后的“天宫二号”数据与对应区域的SMAP土壤湿度数据进行套合后,最终套合的结果如图2所示,并把经纬度、土壤湿度以及该处各通道光谱反射率数据提取至Excel。

2  研究算法

2.1  贝叶斯神经网络

在传统的贝叶斯统计方法中,先验以及后验方法通常考虑观测值的概率密度函数,而该概率密度函数往往是不同权重的重要参考依据,这一点是贝叶斯神经网络模型与传统神经网络模型的重要区别。然而,由于初始的先验分布设置不同,最终得到的参数估计结果也会有较大的差异,因此这也增加了贝叶斯神经网络模型的估计难度。针对这个问题,可以通过贝叶斯转化一个后验分布来设定观测样本的概率密度函数的先验分布,继而通过样本观测值获得整体的分布状况[8]。本文选用的样本先验分布为高斯分布:

2.2  随机森林算法

随机森林算法是基于抽样模型的一种机器学习算法,随机森林方法主要根据如下核心实现:

1) 选择原始训练集以及测试集(一般情况下训练集与测试集的维度N已知)。在此基础上,需要确定随机森林模型的拓扑結构,也就是森林树木数量,树木深度以及每个节点需要用到的特征数,一般而言,还需要根据样本结构设定决策终止条件。

2) 从上述原始训练集中随机抽取一定的样本作为待测试样本,也就是所谓的根节点样本并开始进行训练。

3) 如果计算到某一节点时满足终止条件,设置当前节点为叶子节点。如果是分类问题,则输出当前节点样本集合中数量最多的那一类。也可通过频率代替概率的方式以概率模型输出。如果是回归模型问题,则采用平均值数据,然后依次训练其他节点。比较特殊的情况是,如果终止条件始终无法被满足,则可采用阈值的方法进行设定。

4) 重复上述过程得到所有的叶子节点。

5) 重复上述过程训练所有的决策树[9]。

2.3  GA遗传算法改进原理

在神经网络和机器学习的训练中,需要对模型的超参数进行设置,参数设置得过大或者过小都可能影响到拟合曲线的收敛速度和拟合效果。因此,本研究采用GA(Genetic Algorithm)遗传算法对神经网络和机器学习进行改进,将遗传算法和学习算法进行融合,自适应地判断超参数最优解,进一步优化和提升学习模型的精度[10]。GA改进神经网络和机器学习算法的主要步骤为:

1) 随机初始化种群,分配N个神经网络和机器学习超参数进入该群体。

2) 采用适应性函数f(x)对种群中每个个体进行适应度的评估。

3) 采用轮盘赌法,去掉劣质个体的同时保留优质个体,优质个体保留数量为(1-P)N,其中P表示个体之间交叉的概率,个体i被保留的概率为:

4) 对选取PN个父代个体进行配对交叉处理,产生子代并加入轮盘赌法后的新种群中。

5) 选取QN个子代个体进行变异处理,Q为种群中个体变异产生偏差的概率,判断新生成的种群是否满足要求,不满足要求则返回步骤2),满足要求则输出该种群。

6) 最后,从输出的新种群中挑选适应度最大的个体作为神经网络机器学习超参数的最优解。

2.4  预测模型建立

在训练的过程中按照85∶15设定训练集和测试集样本的比例,基于Matlab 2018A神经网络工具箱和GUI页面对贝叶斯神经网络模型进行设计。设置学习速率为0.01,最大迭代次数为500。

GA遗传算法的参数设定参考改进贝叶斯神经网络时使用的数值:种群规模数为30,遗传算法终止进化迭代次数为150次,交叉概率0.90,变异概率0.05。

因为通道8,9,10与土壤湿度之间的相关性更高,因此选取此3个通道作为反演模型的输入数据,SMAP土壤湿度数据作为输出数据,以此建立反演模型。经测试确定改进的神经网络结构为3?5?1,随机森林的决策树个数设置为20。

3  结果与分析

3.1  通道反射率与土壤湿度相关性分析

“天宫二号”宽波段成像仪各通道下的光谱反射率与土壤湿度数据之间存在不同的相关性,因此选取较强相关性的反射率数据可以提高反演的精度。各通道与土壤湿度之间的相关系数如表1所示。

计算相关系数后发现:在可见光近红外谱段内,土壤湿度和对应的光谱反射率之间存在反比例的关系,即随着土壤含水量的增加,光谱反射率会处于一个下降的趋势。通过比较发现,“天宫二号”宽波段成像仪可见光近红外的8,9,10波段与土壤湿度之间有更强的相关性。基于以上分析,本研究对相关性高的通道进行组合,进一步探讨反演模型的精度。

3.2  精度评价

通过GA改进的贝叶斯神经网络和随机森林算法对SMAP土壤湿度数据进行降尺度反演,反演模型的精度如表2所示。

使用神经网络和机器学习方法在每次学习之后得出的结果会有小范围的波动,所以在每个节点下都训练了至少5次,以防止模型精度的偶然性。结果表明:在进行“天宫二号”数据土壤湿度反演时,GA改进的贝叶斯神经网络反演模型精度R?squre为0.788,均方根误差为0.142 m3·m-3。使用GA改进的贝叶斯神经网络算法得到的预测值和真实值比较结果如图3所示。

GA改进的随机森林反演模型R?squre为0.825 3,均方根误差达到了0.125 m3·m-3,可知模型反演的精度要优于GA改进的贝叶斯神经网络算法。使用GA随机森林算法得到的预测值和真实值比较结果如图4所示。

通过比较可以发现,GA改进的随机森林反演模型较GA改进的贝叶斯神经网络反演模型可决系数更高,均方根误差更低,可以实现高精度大范围的土壤湿度反演。

研究表明,针对大尺度范围内的土壤湿度高精度的应用需求,比起传统的土壤重量和探针测量法,选用GA改进的随机森林算法建立光谱反射率与土壤湿度之间联系,从而进行降尺度反演的方法,可以大大减少人力资源和财产的投入,在较短时间内获得高空间分辨率的土壤湿度数据的同时满足了监测气候和环境的变化、农作物旱涝灾害预警等实际应用的需求,加快推动了我国农林业大范围地理信息预测和气候监测的发展。

3.3  算法复杂度

算法的评价主要分为时间复杂度和空间复杂度。时间复杂度为算法运行的时间成本开销,而空间复杂度则表示算法运行时需要占用的内存开销。

基于上述分析,本文利用Matlab Tic和Toc函数计算时间尺度。本文样本规模为光谱反射率和土壤湿度的集合,因为数据源较大,所有量级均采用标准尺度计算,将本文算法中重要参数的设置值标准化至10。利用Tic函数记录程序运行时间,并利用Matlab拟合工具箱对数据进行拟合,得到两种改进算法的时间复杂程度如图5所示。

通过观察图5中两种算法的时间复杂度函数可以发现,改进后的神经网络模型大致呈现出指数增加的时间复杂度;而对于改进后随机森林模型的时间复杂度而言,虽然该模型的耗时比贝叶斯神经网络模型要长,但是随着样本个数的增加,模型耗时的增速逐渐减慢,因此可以認为该模型在大样本估计时有着较好的运算效率。

4  结  论

本文对“天宫二号”影像进行了大气校正、云掩膜等预处理步骤。通过分析光谱反射率与土壤湿度之间的相关性得出:“天宫二号”宽波段成像仪可见光近红外的8,9,10波段与土壤湿度之间有更强的相关性。分别选用GA改进的贝叶斯神经网络和GA改进的随机森林算法,基于这3个波段下的“天宫二号”可见光近红外影像对SMAP土壤湿度数据进行降尺度反演,均取得了不错的结果。SMAP土壤湿度数据的空间分辨率由3 km提高至100 m。采用GA改进的贝叶斯神经网络反演算法时,模型精度达到0.788,均方根误差RMSE为 0.142 m3·m-3 ;采用GA改进的随机森林算法进行反演时,模型精度达到了0.825,均方根误差RMSE为 0.125 m3·m-3。比较发现,在对SMAP土壤湿度数据进行降尺度反演时,GA改进的随机森林方法模型精度更高,训练效果更好。在处理大数据样本时,GA改进的随机森林算法时间复杂度低于GA改进的贝叶斯神经网络算法。

研究表明,针对大尺度范围内的土壤湿度高精度的应用需求,比起传统的土壤重量和探针测量法,选用GA改进的随机森林算法建立光谱反射率与土壤湿度之间联系,从而进行降尺度反演的方法,可以大大减少人力资源和财产的投入,在较短时间内获得高空间分辨率的土壤湿度数据的同时满足了监测气候和环境的变化、农作物旱涝灾害预警等实际应用的需求,加快推动了我国农林业大范围地理信息预测和气候监测的发展。

参考文献

[1] SENEVIRATNE S I, CORTI T, DAVIN E L, et al. Investigating soil moisture?climate interactions in a changing climate: a review [J]. Earth?science reviews, 2010, 99(3/4): 125?161.

[2] 刘虹利,王红瑞,吴泉源,等.基于MODIS数据的济南市农田区土壤含水量模型[J].中国农村水利水电,2012(8):12?15.

[3] BROWN M E, ESCOBAR V, MORAN S, et al. NASA's soil moisture active passive (SMAP) mission and opportunities for applications users [J]. Bulletin of the American meteorological society, 2013, 94(8): 1125?1128.

[4] ZHENG S J, GE M Y, HAN D W, et al. Test of pulsar navigation with POLAR on TG?2 space station [J]. Scientia sinica physica, mechanica & astronomica, 2017, 47(9): 120?128.

[5] ENTEKHABI D, NJOKU E G, O"NEILL P E, et al. The soil moisture active passive (SMAP) mission [J]. Proceedings of the IEEE, 2010, 98(5): 704?716.

[6] VERMOTE E F, EL SALEOUS N Z, JUSTICE C O. Atmospheric correction of MODIS data in the visible to middle infrared: first results [J]. Remote sensing of environment, 2002, 83(1/2): 97?111.

[7] ZHAI H, ZHANG H Y, ZHANG L P, et al. Cloud/shadow detection based on spectral indices for multi/hyperspectral optical remote sensing imagery [J]. ISPRS journal of photogrammetry and remote sensing, 2018, 144: 235?253.

[8] HERN?NDEZ?LOBATO J M, ADAMS R. Probabilistic back propagation for scalable learning of Bayesian neural networks [J]. Harvard intelligent probabilistic system, 2015(12): 1861?1869.

[9] MUTANGA O, ADAM E, CHO M A. High density biomass estimation for wetland vegetation using WorldView?2 imagery and random forest regression algorithm [J]. International journal of applied earth observation and geo?information, 2012, 18: 399?406.

[10] YU W, LI B Z, JIA H Y, et al. Application of multi?objective genetic algorithm to optimize energy efficiency and thermal comfort in building design [J]. Energy and buildings, 2015, 88: 135?143.

猜你喜欢

相关性分析数据处理
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
滨州市城区苔藓植物主要重金属含量的调查与分析
上市公司财务指标与股票价格的相关性实证分析
淘宝星店成长中的粉丝力量
中国城市化与经济发展水平关系研究
MATLAB在化学工程与工艺实验数据处理中的应用
Matlab在密立根油滴实验数据处理中的应用
基于POS AV610与PPP的车辆导航数据处理
依托陆态网的GNSS远程数据处理软件开发