APP下载

基于LSTM和XGBoost算法的径流预测模型研究

2020-09-23史剑伟江时俊刘启兴

治淮 2020年8期
关键词:决策树径流水文

史剑伟 江时俊 刘启兴

(1.安庆市重点水利工程建设管理处 安庆 246000 2.黄河水利科学研究院 郑州 450000)

1 引言

由于黄河特殊的自然、气象等条件使得黄河的河性变得十分复杂,黄河也变得难以治理。黄河流域的降雨、径流变化等过程是一个十分复杂的动力学系统,难以用定量的方法来清晰地描绘出来。一般所用到的大气运动方程、水土流失方程、河流动力学方程和泥沙输移运动方程等一系列方程用在黄河上都存在很多的问题。同时,黄河也比较缺乏完整的气象、地形、水沙等实测资料,因此,利用目前已经拥有的比较少的实测资料来解决黄河复杂的问题,是迫切且关键的。

基于人工智能和大数据驱动的新一代水文模型已经成功运用到许多地区的洪水分析中,并都取得了较好的计算结果。针对降雨径流过程的高随机性和非静态特性,人们开发了大量的模型来研究这一复杂的现象。近年来,人工神经网络(ANN)等机器学习技术已被水文工作者广泛应用于降雨径流模拟和其他水文领域。然而,像LSTM网络这样的深度学习方法在水文序列、时间序列预测方面的研究还很少。胡彩虹等通过对汾河(黄河的第二大支流)流域的14个降雨监测水文站和1个流域水文站点监测的1971—2013年发生的洪水事件进行分析,采用ANN和LSTM网络模型,对其降雨径流过程进行了模拟。模型的数据来自同一时期的98个降雨径流事件,以86个降雨径流事件为训练集,其余的12个降雨径流事件为测试集。结果表明,采用的两个网络模型都适用于模拟降雨径流过程,且都优于基于概念和物理的模型。

本次研究以黄河流域的伊洛河流域为研究区域,进行基于XGBoost算法设计和构建的智能预测模型的研究分析,以流域2003年的洪水过程作为验证数据,并且与传统的水文模型HBV 进行效果比较分析。

2 区域概况

伊洛河流域位于黄河流域的中部。伊洛河由伊河、洛河两条河流构成,两条河流流向近乎平行。其中伊河发源于河南省奕川县,洛河发源于陕西省洛南县,二者在堰师市枣庄交汇。

沁河是黄河三花间的第二大支流,它发源于山西省长治市沁源县太岳山南麓的二郎神沟,流经山西、河南两省的16个县市,最后在武陟县南贾村汇入到黄河之中。

3 研究方法

3.1 集成学习算法

目前,集成学习是机器学习中最热门的研究领域之一,它的基本思路是结合很多个弱学习器,从而构成一个强大的能够准确预测的模型。集成学习并不仅仅是简单的多个分类器的叠加,而是通过训练这个聚合的模型,实现弱学习器的最优组合,它比使用单个模型预测出来的结果要精确的多。

极端梯度提升树(XGBoost)是一个集成学习算法,它是大规模并行集成决策树的工具,是目前最快最好的集成决策树算法,它是由多个相关联的决策树联合决策,即下一棵决策树输入样本会与前面决策树的训练和预测结果相关。模型训练开始时决策树个数是0,随着训练迭代加入决策树,即加入决策函数。作为集成学习方法的一种,XGBoost预测模型可以表示为:

目标函数可以表示为:

3.2 模型的验证指标

为了客观地反映径流预测智能模型在黄河流域径流过程预测中的准确度,通过水文模型中常用的纳什效率系数(Nash-Sutcliffe efficiency coefficient,简称NSE)以及水量误差(Relative Error,简称RE)来评判算法性能的优劣。

式中:Qobs是指观测值;Qsim是指模拟值;i表示第t时刻的某个值;表示观测值的总平均值。

NSE 取值范围为负无穷至1。NSE越接近1,表示模型拟合结果越好,模型的可信度越高;NSE越接近0,表示模拟得出的结果越接近观测值的平均值,即总体结果比较可信,但是模拟过程出现的误差比较大;NSE 远远小于0,则模型是完全不可信的。RE表示误差与观测值的相对大小。

4 结果与分析

选取径流过程较丰富的2003年的伊洛河、沁河洪水过程作为测试集,其余的数据作为训练集。

4.1 伊洛河流域黑石关站径流预测结果

XGBoost模型在第52次训练迭代后趋于稳定,损失函数值在0.09~0.10之间。将训练得到的模型应用到测试集,在2003年,伊洛河黑石关站最大流量发生在9月3日,流量为2030m3/s。8~11月期间,流量还出现多次超过1000m3/s的情况,包括10月5日和9月2日,流量分别为1330m3/s和1730 m3/s,峰值预测对比结果见表1。

4.2 沁河流域武陟站预测结果

XGBoost模型训练结果在第43次训练迭代后趋于稳定,损失函数值在0.95~0.96之间。将训练得到的模型应用到测试集,在2003年,沁河武陟站的最大流量出现在10月12日,为839m3/s。除此之外,8—11月还出现多次较大的洪峰流量,包括8月28日出现的504 m3/s和10月15日出现的451m3/s。峰值预测结果见表2。

表2 沁河武陟站峰值模拟结果对比表

从伊洛河和沁河2003年洪水过程模拟结果可以看出,在非汛期时,基于集成学习的极端梯度提升树(XGBoost)模型和传统水文模型HBV模型都可以比较好地模拟径流,特别是基流过程。两个流域径流预报结果基本反映洪水涨落过程,洪水的场次以及峰形符合较好,但传统的水文模型HBV模型对两个流域“尖瘦型”洪水的预报能力明显不足。从NSE值、RE值及峰值相对误差等结果综合比较可以看出,基于XGBoost 建立的智能模型相比于传统的水文模型HBV模型,可以更稳定、更准确地模拟洪水过程。

5 结论与展望

5.1 结论

本文对黄河径流智能预测模型的原理、使用方法进行了详细阐明。其中基于集成学习的极端梯度提升树(XGBoost)智能模型十分适合预测黄河径流的变化,将基于XGBoost模型设计和构建的智能预测模型应用于黄河伊洛河、沁河流域进行预报,并对预报结果进行了分析研究。

两个流域径流预测结果都基本反映了洪水涨落过程,洪水时间及峰形符合较好,但沁河流域径流预测结果稍优于面积较大的伊洛河流域。基于XGBoost模型的智能预测模型对两个流域洪水过程模拟相比传统水文模型HBV模型更加稳定和准确。

5.2 展望

黄河径流智能预测的内容十分复杂,如何利用具有捕捉要素时序特征的长短时记忆网络(LSTM)算法开展黄河径流预测有待进一步的深入研究。

洪水预报需要大量要素数据支撑,主要包括:水文数据、气象数据、卫星遥感数据、社会经济数据以及水利模型模拟演算数据等。数据具有多模态、多要素耦合、非线性、多时空尺度、高度复杂的特点,目前基于人工智能算法黄河径流预测模型的输入仍以气象强制条件为主,结合地形、土地利用等多类型多模态数据的人工智能算法的改进是未来研究方向之一■

猜你喜欢

决策树径流水文
格陵兰岛积雪区地表径流增加研究
基于SWAT模型的布尔哈通河流域径流模拟研究
基于决策树和神经网络的高血压病危险因素研究
继往开来 守正创新——河北省水文工程地质勘查院
继往开来 守正创新——河北省水文工程地质勘查院
雅鲁藏布江河川径流变化的季节性规律探索
水文
水文水资源管理
近40年来蒲河流域径流变化及影响因素分析
决策树和随机森林方法在管理决策中的应用