APP下载

基于粒子群优化机器学习模型的水面蒸发量估算模型研究

2022-03-24

水利技术监督 2022年3期
关键词:中位数江西省粒子

杨 环

(江西省赣西土木工程勘测设计院,江西 宜春 336000)

水面蒸发量是反映全球水循环变化趋势的重要指标之一,其值的准确估算可方便对大气蒸散数据的获取,对解决区域水资源问题有着重要的意义[1- 2]。目前,常以蒸发皿蒸发量(Epan)表征区域水面蒸发量的数值[3- 4]。由于实际观测条件的限制,对于Epan数据的准确测量无法满足区域时间和空间上的要求,因此,对水面蒸发实测值全国仍有很多区域未覆盖到[5]。因此,通过气象数据估算区域Epan数值成为了各部门研究的热点,例如PenPan模型[6]、Stephens and Stewart(SS)模型[7]等。这些模型在不同气候区表现出的精度有所差异,因此,找寻适用于不同区域的Epan准确估算模型对研究区域水资源平衡具有十分重要的意义。

随着计算机技术的不断发展,机器学习模型已被逐渐应用于Epan数值预测中[8]。Kim等[7]采用多层感知器-神经网络(MLP-NN)、广义回归神经网络(GRNN)和支持向量机-神经网络(SVM-NN)对不同区域日Epan进行了模拟,指出SVM-NN模型精度高于MLP-NN和GRNN模型;龙亚星等[9]基于前馈人工神经网络构建了陕北、关中和陕南Epan估算模型,指出该模型在不同区域的精度有所差异。

虽然机器学习模型在Epan数值预测中已取得了一定的进展,但传统的机器学习模型往往存在局部极值的问题,导致模型在不同区域的精度存在差异[10]。为进一步提高机器学习模型的精度,本文基于BP神经网络、极限学习机(ELM)、随机森林(RF)、支持向量机(SVM)4种传统机器学习模型,采用粒子群算法(PSO)进行优化,得出4种优化模型,以江西省为研究区域,构建适用于江西省Epan预测的最优模型。

1 研究区域与数据来源

江西省(N24°29′14″~30°04′41″,E113°34′36″~118°28′58″)地处华东地区,属亚热带季风气候。省内降水较多,多年平均降水量达到了1630mm,温度适中,年平均气温11.6~20℃[11],全省冬暖夏热,对该省Epan的研究对长江流域的发展有着十分重要的作用[12]。本文选择江西省景德镇、南昌、井冈山等15个气象站点1980—2020年的逐日气象数据和实测Epan数值,气象数据来自国家气象中心网站,数据质量控制良好,研究区域概括及站点分布如图1所示。

图1 研究区域概况图

2 研究方法

2.1 粒子群算法

Eberhart和Kennedy于1995年首先提出粒子群算法(PSO)[13]。该算法基于群鸟喂养的原则,将整个鸟群视为粒子群,每只鸟定位一个粒子。每个粒子均有运行速度,这个速度决定了粒子在多维搜索空间中运动的方向和距离,这个速度受粒子惯性的影响[14]。在每次迭代过程中,粒子群算法通过个体极值Pbest和全局极值Gbest更新其速度和位置,在满足预定的准则后,跳出迭代,得到最优解,具体步骤可见文献[15]。

2.2 极限学习机模型

极限学习机模型(ELM)有助于克服传统神经网络收敛速度慢的缺点,在回归检验和模型预测领域得到了广泛的应用[16]。该模型可分为三个部分:输入层、隐含层和输出层。首先,变量通过输入层输入,然后通过输出层输入,权值为βjk。输出变量矩阵采用隐层权值ωij计算。

2.3 支持向量机模型

支持向量机模型(SVM)最早由Vapnik在1999年提出[17]。该模型被认为是目前小样本统计估计和预测学习的最佳理论。该模型用结构经验最小化取代了传统的经验最小化,克服了神经网络的许多缺点。SVM函数可以表示为:

(1)

式中,κ(xi,xj)—由输入向量xi和xj转换而来的高维特征向量;yi—输入向量的坐标;αi—输入向量的权值;b—偏差。

2.4 BP神经网络模型

BP神经网络模型(BP)是一种具有误差反向传播功能的多层前馈神经网络模型,该模型包括信号正传播和误差的反向传播2部分。BP模型由输入层、隐含层和输出层3部分组成,原始信号经由隐含层,由输入层向输出层传播,若输出结果不满足误差要求,则错误信号由隐含层返回输入层,基于梯度下降法调整模型权重及阈值,直至输出结果满足误差要求为止。具体模型步骤可见文献[18],模型基本原理如图2所示。

图2 BP神经网络结构图

2.5 随机森林模型

RF模型由Breiman[19]在2001年提出。该模型在模型训练过程中引入了随机属性选择。该模型基于随机性和差异性提取数据,大大提高了决策的准确性。RF模型步骤可见文献[19]。

2.6 模型训练与验证

由于温度数据是气象数据中最易获得的数据,因此,本文采用Tmax和Tmin作为输入数据训练模型,采用1980—2010年的数据训练模型,2011—2020年的数据预测模型,模型精度指标选择均方根误差(RMSE)、决定系数(R2)、平均绝对误差(MAE)和效率系数(Ens)4个指标评价不同模型精度,公式如下:

(2)

(3)

(4)

(5)

引入GPI指数,整合4个指标的综合评价结果,公式为:

(6)

式中,αj—常数,计算MAE和RMSE时取1,Ens和R2取-1;gj—不同指标的中位数;yij—不同指标的计算值。

3 结果与分析

3.1 不同站点Epan日值精度对比

图3为不同模型对Epan日值的模拟精度对比。由图中可以看出,经PSO算法优化后的模型精度要高于传统的4种机器学习模型。其中,PSO-RF模型的精度最高,PSO-ELM模型精度次之,2种模型Ens、R2、RMSE、MAE的中位数分别为0.900和0.849、0.935和0.895、0.232mm/d和0.319mm/d、0.604mm/d和0.809mm/d。未经优化的传统模型中,ELM模型精度最高,其Ens、R2、RMSE、MAE的中位数分别为0.820、0.827、0.569mm/d、1.031mm/d。BP模型在所有模型中的精度最低,模型在整个江西省的误差较高,同时与实测值的一致性较低。从GPI箱线图中可以看出,PSO-RF模型的GPI最高,其次为PSO-ELM、PSO-SVM、PSO-BP模型,4种模型的GPI中位数分别为1.243、0.949、0.640、0.480,BP模型精度最低,GPI中位数仅为-0.220,建议使用PSO-RF模型估算江西省Epan日值。

图3 不同模型Epan日值精度对比

3.2 不同站点Epan月值精度对比

图4为不同模型对Epan月值的模拟精度对比。由图中可以看出,在模拟Epan月值时经PSO算法优化的模型精度普遍较高,PSO-RF模型精度最高,其Ens、R2、RMSE、MAE的中位数分别为0.935、0.967、0.077mm/d、0.063mm/d,未经优化的传统模型中,ELM模型精度最高,其Ens、R2、RMSE、MAE的中位数分别为0.827、0.913、0.304mm/d和0.303mm/d,BP模型精度较低,Ens、R2、RMSE、MAE的中位数分别为0.560、0.830、0.413mm/d和0.629mm/d。从GPI箱线图中可以看出,PSO-RF模型的GPI最高,达到了2.655,未经PSO算法优化的模型GPI较低,ELM、RF、SVM、BP模型的GPI分别仅为0.085、-0.639、-0.906、-1.621,因此,PSO-RF模型估算江西省Epan月值精度最高。

图4 不同模型Epan月值精度对比

3.3 不同时段不同模型Epan相对误差对比

图5为不同模型在不同时段Epan估算的相对误差对比。由图中可以看出,在不同时期不同模型的Epan相对误差存在差异。在冬季,不同模型的相对误差较低,PSO-RF模型的相对误差最低,仅为10.8%,BP模型相对误差最高,随着气温的升高,在夏季不同模型的相对误差均高于其他季节。从主要作物生长期的3—10月和全年来看,PSO-RF模型的相对误差在4.1%~4.4%。在不同时期,均表现为PSO-RF模型的相对误差最低,推荐该模型作为江西省Epan的估算模型。

图5 不同时段不同模型Epan相对误差分布

3.4 PSO-RF模型可移植性分析

为进一步证明PSO-RF模型的精度,本文对该模型在江西省的可移植性进行了分析,结果见表1。由表中可以看出,对不同训练组合和预测组合下,该模型均表现出了较高的精度,Ens和R2均在0.92以上,RMSE和MAE均在0.127mm/d以下,精度较高。见表1。

表1 PSO-RF模型可移植性分析结果

4 结语

(1)对不同模型对Epan日值的精度进行对比分析,发现经PSO算法优化的模型精度普遍优于传统机器学习模型,其中以PSO-RF模型精度最高,BP模型精度最低;在对Epan月值进行模拟时发现了相同的结论。

(2)对不同时期不同模型Epan估算的相对误差进行分析,发现不同时期模型计算精度有所差异,其中冬季模型精度最高,PSO-RF模型在全年和作物生长期的相对误差为4.1%~4.4%,精度最高。

(3)对PSO-RF模型的可移植性进行了分析,指出在不同组合下,该模型仍能保持较高的计算精度,因此,PSO-RF模型可作为江西省水面蒸发的估算模型使用。

(4)本文基于PSO算法优化的机器学习模型对江西省水面蒸发进行了估算,指出了该算法可显著提高传统模型精度,遗传算法、贝叶斯理论均可用于优化机器学习模型,不同优化算法的精度差异可在后续进一步研究讨论。

猜你喜欢

中位数江西省粒子
模拟成真
碘-125粒子调控微小RNA-193b-5p抑制胃癌的增殖和侵袭
数据的数字特征教学设计
《江西省志•审计志》顺利通过验收
考了个大的
基于膜计算粒子群优化的FastSLAM算法改进
Conduit necrosis following esophagectomy:An up-to-date literature review
问:超对称是什么?
中位数教学设计