三峡水库中长期径流预测及不确定性分析研究

2022-03-23黄华平郦于杰靳高阳

中国农村水利水电 2022年3期

黄华平，郦于杰，王栋，靳高阳

（1.中水珠江规划勘测设计有限公司，广州 510610；2.浙江省水利水电勘测设计院，杭州 310002；3.长江水利委员会水文局，武汉 430010）

0 引言

中长期径流预报是指基于水文现象的变化规律，以已知信息作为输入条件，采用成因分析及数学建模等手段对预见期超过3 天的径流过程进行定量或定性的预测［1］。作为一种非工程措施，中长期径流预报在水旱灾害防治、水库调度运用、水资源优化管理及生态环境保护等方面均发挥了显著作用［2］。

目前，关于中长期径流预报已有较多研究，依据原理的不同，可划分为以下两类—基于水文循环过程驱动和基于相关因子数据驱动。前者一般是指将气象要素预测数据作为输入项，驱动水文模型来对径流过程进行预测。如刘甜等［3］以CFS降水数据为输入项，驱动SWAT 模型对丹江口水库入库流量进行了相关预测研究；Singh 等［4］采用ESP 方法获取未来气象数据，将其导入Topnet 模型，预测了新西兰南岛四个典型流域的径流过程。这一类方法具有较为坚实的理论基础，但预测过程中需要搜集大量数据来驱动模型运转，且降水预测的不确定性在水文模拟过程中将进一步放大，导致预测结果往往差强人意，故而该类方法相关应用较少。而基于相关因子数据驱动是指在分析前期径流或气候要素与未来径流过程相关性基础上，建立统计模型来实现径流中长期预测。该类研究在早期一般采用灰度理论、小波分析、方差分析等数理统计方法［5-7］。随着人工智能与数据挖掘技术的快速发展，大量机器学习算法被应用于中长期径流预测研究中，包括神经网络模型、随机森林算法、支持向量机及深度信念网络等［8-11］。但上述研究多数仅提供了径流的确定性预测结果，缺乏预测不确定性方面的考虑。

本文将LGB算法与HUP模型相耦合，应用于三峡水库逐月流量中长期预测中。研究首先采用相关系数检验及逐步回归法筛选出合理的预测因子；其次，以预测因子为输入项，驱动LGB 算法对逐月径流过程进行预测；最终，采用HUP 模型对预测结果的不确定性进行相应分析。

1 计算方法

1.1 轻量梯度提升树

轻量梯度提升树（Light Gradient Boosting Machine，LGB）是微软于2017年提出的一种以梯度提升决策树（Gradient Boosting Decision Tree，GBDT）算法为基础的轻量化串行增强算法［12］。这类算法的基本思想是将训练过程阶梯化，每一轮训练以拟合前一轮计算结果的残差值为目标，直到残差值足够小或迭代次数达到最大值为止。具体模型结构如式（1）所示，每轮仅训练一棵决策树来拟合前期决策树之和的残差，然后将新的决策树加入前期决策树中构成新模型。

与GBDT 算法相比，LGB 算法优势主要反映在以下4 个方面：

（1）采用直方图算法对输入数据进行离散化，减小噪声影响的同时降低运行所需内存，模型训练速度显著提升；

（2）采用梯度单侧采样法，保留大梯度样本和部分小梯度样本，减小训练数据且不改变样本分布，提高了模型计算效率；

（3）通过将互斥特征停留在不同直方图中构造特征束，对特征束进行排序，从而达到合并容忍范围内互斥特征的目的，大幅降低遍历的特征数量；

（4）采用了一种更为高效的按叶生长策略，在分裂前会遍历所有叶节点，选择具有最大增益的节点分裂，可降低分裂误差，得到更高的模拟精度。

1.2 水文不确定性处理器

Krzysztofwicz R［13］于1999年提出了贝叶斯预报系统（Bayesian Forecasting System，BFS），用于解决水文预报中的不确定性问题。该系统包含降水不确定性处理器（PUP）和水文不确定性处理器（HUP），分别用于处理降水输入产生的不确定性和除降水外其他所有不确定性。其中，HUP模块基本原理如下所述：

记H0为已知实测流量过程，Hn与Sn分别为不同预见期n对应的实际流量和预报流量。依据贝叶斯原理及实测流量过程，可推断出预报值Sn=sn条件下，实际流量Hn=hn的后验密度函数，如式（2）。

式中：h0为已知实测流量过程；g(hn|h0)为hn的先验分布，与h0相关；fn(sn|hn，h0)为sn关于hn的似然函数，反映了水文模型的预报能力。

假设每个目标点Tl(l=1,2,3,…,m×n)的面积均为Δm×Δn,如果目标点被覆盖,则目标点的联合感知概率为1,覆盖面积为Δm×Δn,否则为0,所以目标点Tl的覆盖面积可表示为Il×Δm×Δn;同样,整个区域T的总面积为AS=(m×n)(Δm×Δn)。节点部署后节点所覆盖的面积占部署区域总面积的比值称为节点覆盖率ψ[16],计算如下:

依据实测流量的后验密度函数φn(hn|sn，h0)，结合观测数据及任意时刻的预报流量，可以估计相应时刻实际值的条件分布函数，从而对预报结果的不确定性分析进行相应分析。

1.3 精度评价指标

3种预测精度指标（纳什效率系数、相关系数及平均绝对误差）及三种不确定性区间指标（覆盖率、相对带宽及平均偏移程度）被用于评价模型确定性预测结果及不确定性置信区间，计算公式下如下：

（1）纳什效率系数（NSE）。

（2）相关系数（CC）。

（3）平均绝对误差（MAPE）。

（4）覆盖率（CR）。

（5）相对带宽（RB）。

（6）平均偏移程度（RD）。

2 实例

本文搜集了三峡水库1965-2016年逐月流量数据，考虑到不同月份径流特性与影响成因存在差异，研究对12个月份分别建立LGB 预测模型，并将GBDT 算法作为对比参照来验证前者精度，在确定性预报基础上，采用HUP 模型对预测结果不确定性进行了相关分析。

2.1 预报因子筛选

将国家气象局提供的130 项气候系统指数（88 项大气环流指数、26项海温指数和16项其他指数（http：//cmdp.ncc-cma.net/Monitoring/cn_index_130.php）与前期径流过程作为预测因子，考虑其与当月径流过程间的遥相关性，将径流发生前12个月气候系统指数与前一个月径流量纳入预测因子初选范畴，采用相关系数显著性检验及逐步回归法对上述因子进行筛选，具体步骤如下：

（1）搜集各月径流过程对应的所有相关变量，计算各相关变量与当月径流过程间的相关系数；

（2）依据相关系数显著性检验表，设置置信度为0.05，筛选出相关系数显著的变量作为备选因子；

（3）采用逐步回归法对备选因子进行分析，依据不同因子的方差贡献率，筛选出10 个独立性强，相关系数高的备选因子作为最终预测因子。

其中，1月及8月选定的预测因子如表1所示。

表1 典型月份对应预测因子统计表Tab.1 Selected predictors for two typical months（January and August）

2.2 模型率定与验证

以1965-2001年为率定期，2002-2016年为验证期，将逐月预测因子导入模型中，对三峡水库逐月径流过程进行模拟预测。模拟过程中，为防止出现过拟合问题，研究采用留一交叉验证法对模型参数进行充分率定，并将实测系列与模拟系列间MAPE值最小作为率定目标，预测结果如图1、2及表2所示。

图1 三峡水库1965-2016年逐月流量过程对比Fig.1 The observed and simulated monthly runoff series from 1965 to 2016 for the Three Gorges Reservoir

表2 模型率定期及验证期精度评价Tab.2 Performance Indices for the calibration and validation periods

由表2 可知，率定期内，GBDT 和LGB 模型关于三峡水库逐月流量的模拟结果精度较为接近，其中MAPE值分别为16.1%和15.7%，CC值均为0.91，NSE值分别为0.84 和0.86；而验证期内，除CC值较为接近外，其他两种指标差异显著增大，其中MAPE值分别为25.8%和23.0%，NSE值分别为0.71 和0.75。整体来看，两种模型均具有较好的预测精度，与GBDT 模型相比，LGB 模型在率定期虽然与前者精度差异不大，但在验证期精度明显更高。

图1 提供了三峡水库实测流量与模拟流量过程对比，其结果表明：率定期内，丰水年的模拟值偏小，尤其对于1997 和1998年两场特大洪水而言，汛期模拟值与实测值间绝对偏差超过30%，而对于平水年和枯水年的模拟结果略偏大；验证期内，两种模型模拟结果整体大于实测系列，但偏差程度不大。图2提供两种模型模拟结果与实测系列间散点分布图，依据其特征可以得出同样的结论，率定期内，两种模型位于下半部分的散点均匀地分布在45°线两侧，而上半部分散点则略低于45°线，验证期下半部分散点分布特征与率定期类似，而上半部分散点则略高于45°线。对比两种模型结果可发现，图1 与图2 均表明：与GBDT模型相比，LGB模型对于三峡水库逐月流量过程的模拟性能更佳，特别是对汛期而言，其模拟结果与实测值的偏差程度更小，对应散点也更为接近45°线。

图2 三峡水库实测与模拟月流量散点图Fig.2 Scatter plots of observed and predicted monthly runoff for the Three Gorges Reservoir

2.3 不确定性分析

HUP 模型处理过程中，需先采用正态分位数变换将实测值与预测值分别转换至正态空间中，然后依据贝叶斯理论与线性似然假设来推求实际流量的后验概率密度函数，从而对预报结果进行不确定性分析。与上述预测过程类似，研究将1965-2001年作为率定期，2002-2016年作为验证期，来对HUP 模型后处理精度进行相应验证。

依据HUP模型确定的实际流量后验概率密度分布，可以提取逐月径流过程对应的50%分位数流量值（Q50值）。表3和图3 分别提供了Q50 值的精度指标及其与实测过程的对比。两者结果表明：与LGB 模型预报结果相比，Q50 值与实测系列间拟合程度更佳，各精度指标在率定期及验证期也显著优于LGB 模型结果。为进一步分析两者精度差异的年内变化特征，研究还计算了验证期内实测值与模拟值间的相对误差，如图4 所示。由图4，不难看出，两者在枯水期（1-4月及12月）相对误差普遍偏小，大体上处于-35%～35%之间，而在汛期，模拟值较实测值明显偏大，在部分年份的8-10月内，相对误差甚至达到了90%，而对比图4（a）与图4（b），不难看出与LGB 模型预测结果相比，Q50 值在大部分月份的预测精度呈现一定程度提高，特别是对汛期而言，改善效果更为显著。

图3 三峡水库1965-2016年逐月流量观测系列与Q50系列对比图Fig.3 The observed runoff and Q50 values series for the Three Gorges Reservoir

图4 验证期逐月流量模拟结果相对误差图Fig.4 The relative error of predicted results for the validation period

表3 HUP模型率定期及验证期精度评价（Q50预报值）Tab.3 Performance Indices for the calibration and validation periods（Q50 predictions）

除Q50 预测值外，研究还提取了预测结果的90%不确定性区间，其中验证期不确定性区间如图5 所示。为定量评估预测结果的不确定性，研究选取了覆盖率（CR），相对带宽（RB）和平均偏移（RD）幅度分别对率定期及验证期的不确定性区间进行相应分析，对应指标结果如表4 所示。由表4 及图5 结果，不难看出提取的90%不确定性区间覆盖了率定期与验证期绝大多数的实测点据，两者覆盖率分别达到0.86 和0.83，均较为接近0.9，说明提取的置信区间是较为可靠的。而相对带宽和平均偏移幅度结果表明，与率定期相比，验证期的相对带宽和平均偏移幅度更大，说明后者的预测精度要差于前者，且对应不确定性也更大。