再分析降水资料的适用性评估与偏差校正

2021-10-18王彧蓉周建中杨鑫方威

人民长江 2021年9期

王彧蓉周建中杨鑫方威

摘要：为弥补长江中下游地区台站观测资料的部分缺失，探究再分析数据集的适用性，从时间和空间上评估ERA5和CFSR再分析降水数据集精度，建立了包含相關系数、相对偏差、均方根误差和Kling Gupta系数多指标定量综合评价体系，提出了结合校正系数法与自回归模型的组合校正法（C-AR）;并将C-AR校正法与单一的校正系数法、AR模型以及校正系数法与最邻近抽样法组合的校正法（C-KNN）进行对比，探究C-AR组合校正法的校正效果。研究结果表明：① ERA5和CFSR与实测降水数据在年、季尺度上降水趋势变化和年内分配规律上较为一致，且与实测数据的相关性均较好;② ERA5和CFSR在实测降水量多的区域均存在正偏差，而在实测降水量少的区域存在负偏差;③ C-AR组合校正模型不仅可在量级上校正数据集，还可提升数据集与实测数据的相关性，可多方面综合改善数据集精度，提高数据集适用性，校正效果要优于校正系数法、AR模型和C-KNN组合校正法。

关键词：再分析降水资料;ERA5;CFSR;组合校正法;长江中下游地区

中图法分类号：P339

文献标志码：A

文章编号：1001-4179（2021）09-0093-08

DOI：10.16232/j.cnki.1001-4179.2021.09.015

0 引言

长江中下游地区是中国经济和科技文化最为发达的地区，雨季持续时间长，洪涝灾害发生较为频繁[1-2]。因此，高精度的降雨预报信息对长江中下游地区防洪减灾具有重要意义。然而，雨量站观测数据可能存在时间长度、观测方法不一致等问题[3]，使得实测降水数据质量较差，无法满足水文气象研究需求。因此，对地面、无线电探空、卫星、雷达等观测资料进行严格质量控制及同化处理的再分析数据集应运而生。

目前主流的再分析数据集有美国国家环境预报中心（National Centers for Environmental Prediction，NCEP）的FNL和CFSR数据集、欧洲中期天气预报中心（European Centre for Medium-Range Weather Forecasts，ECMWF）的ERA-interim和ERA5数据集以及日本气象厅（Japan Meteorological Agency，JMA）的J25和J55数据集等。然而，这些再分析数据集适用范围不尽相同[4]，且未经过校正和后处理的降雨预报产品系统误差较大，导致模型输入不确定性较大，影响了预报精度[5]。因此，有必要对再分析数据集进行评估校正后再应用于水文气象研究。Xu等[6]评估了CaPA、ERA-interim、ERA5等多种再分析资料在北部大平原的适用性，发现再分析资料在春秋两季的表现优于夏冬两季。李建等[7]评估了NCEP、ERA和JRA资料对中国夏季降水场的再现能力，结果表明3套资料均能较好地再现夏季降水量分布特征。王旭丹等[8]利用NCEP/NCAR对华北地区水汽含量和降水量分布特征进行了分析，结果表明华北地区水汽含量和降水量分布规律一致。

有代表性的校正再分析资料的方法主要有校正系数法[9-10]、线性校正法[11]、分位数映射法[12]、局部强度缩放法[13]等。分位数映射法是基于概率分布的校正方法，校正系数法、线性校正法和局部强度缩放法均通过某一固定系数或缩放因子从量级上校正再分析数据集。这些校正方法对于序列均值均有较好的校正效果，但对于再分析降水资料与实测降水序列的趋势拟合上的校正效果不甚理想。由于AR模型对时间序列预测及趋势拟合效果较好，本文将校正系数法与自回归模型相结合，提出了C-AR组合校正法。在对ERA5和CFSR再分析降水资料在长江中下游地区的适用性进行定性和定量评估后，采用C-AR组合校正法对ERA5和CFSR进行校正，并与其他校正方法对比，为今后ERA5和CFSR再分析数据集的校正和相关水文气象研究提供参考。

1 数据资料与方法

1.1 数据资料

实测降水数据使用的是中国气象局整理发布的中国地面气候资料逐日数据集，数据经过人工筛查，质量良好。为充分考虑丰平枯水年情况，实测数据选取了长江中下游地区160个站点1980～2013年34 a的长序列实测逐日降水数据，站点分布情况如图1所示。

再分析降水资料使用的是ERA5和CFSR再分析降水数据集。ERA5是ECMWF的第五代再分析资料，采用了4D-Var变分同化技术，比起ERA-interim有更高的时空分辨率。本文采用的ERA5降水数据集时间分辨率为每1 h一次的降水量，空间分辨率为0.25°×0.25°。CFSR是由NCEP提供的覆盖全球的高分辨率再分析资料，时间分辨率为每6 h一次的降水量，空间分辨率为1°×1°。

1.2 AR模型

自回归模型（Autoregressive Model）是一种时间序列模型，结构简单。假设实测降水序列为Xt=（X1，X2，…，Xn），其中n为降水序列的长度，则再分析数据集序列为X^t=（X^1，X^2，…，X^n）。实测降水序列与再分析数据集序列的差值为误差序列，记为et=（e1，e2，…，en）。考虑到误差序列存在相关性，因此可通过建立AR模型来预测误差值，将其叠加至再分析数据集降水量，从而得到数据集的校正结果。基于误差序列的AR模型数学表达式如下：

采用AIC准则来选取模型的阶数。AIC计算公式如下：

1.3 C-AR模型及其计算步骤

考虑到校正系数法主要对降水量量级进行修正，因此将校正系数法和AR模型相结合，构建C-AR模型，其计算步骤如下：

（1）收集并整理ERA5、CFSR和实测降水数据，计算其多年月均降水量。

（2）根据ERA5、CFSR与实测数据多年月均降水量的偏差计算各月校正系数，对ERA5和CFSR数据集进行初步修正，校正系数计算公式如下所示：

（3）計算校正系数修正后的数据集与实测降水数据的误差，将其作为初始数据序列，根据公式（1）构建新的自回归模型C-AR模型。

（4）利用步骤（3）中构建好的C-AR模型预测各时段误差值，从而得到数据集最终校正结果。

（5）利用选取的评估指标检验校正模型性能。

1.4 评估指标

为较全面地评估ERA5和CFSR数据集的精度，采用相关系数（R）、相对误差（BIAS）、均方根误差（RMSE）和Kling-Gupta系数（KGE）这4个指标评估数据集的优劣。

（1）相关系数（R）反映了数据集与实测数据的相关性强弱：

（2）相对误差（BIAS）反映了数据集的准确度：

（3）均方根误差（RMSE）反映了数据集和实测数据之间的偏离程度：

（4）Kling-Gupta系数充分考虑了数据集和实测数据的均值和偏差，是集合了相关系数、均值误差和标准差误差的综合性指标。

式中：Qfi和Qoi分别为模拟降水量和实测降水量;μf，σf和（μo，σo）分别代表模拟降水和实测降水的期望与标准差;KGE包含了3个组成部分：相关系数R、可反映数据集和实测数据相对离散程度的α指标以及反映数据集和实测数据均值偏差的β指标。

总的来说，本文首先基于长江中下游地区160个气象站点，分析评估了ERA5和CFSR在长江中下游地区不同时间尺度下与实测降水趋势变化的一致性及相关性;其次，探索了再分析数据集与实测降水偏差的空间分布规律;同时，为更全面地评估再分析数据集精度，建立了定量综合评估体系;最后，提出了C-AR组合校正法校正数据集以提高再分析数据集精度。研究框架如图2所示。

2 结果分析

2.1 时间精度评估

将ERA5数据集和CFSR数据集通过反距离插值法[14-15]插值到长江中下游地区的160个气象站点，以便和实测降水数据对比分析。计算出这3套数据的年、季和月均降水量，得到不同时间尺度下的时间序列，分析相应尺度下的变化趋势和年内降水分配规律，如图3所示。其中，图3（a）为逐年降水量趋势图，可以看到ERA5和CFSR的四季降水量都比实测降水量高，存在高估的现象，但总体的降水趋势是接近的。从图3（f）月均降水分布图可以看出，ERA5和CFSR年内分配变化规律与实测降水数据一致，存在明显的雨季和旱季，在4～9月降水量较大，1～3月和10～12月降水量较小。从图3也可以看出ERA5和CFSR数值都比实测降水数据大，且CFSR和实测降水数据偏差比ERA5大。综上所述，ERA5和CFSR均能较好地描述实测降水的变化趋势和年内分配规律，但均存在高估现象，CFSR比ERA5高估现象更为严重。因此，需采用合适的校正方法对ERA5和CFSR数据集进行校正，以提高数据集驱动的水文模拟精度。

图4给出了ERA5和CFSR与实测降水数据在不同时间尺度上的相关系数，且均通过了显著性检验（α<0.05）。ERA5和CFSR在年际变化、四季降水趋势变化和降水年内分配上和实测降水数据相关性较高，均在0.75以上。ERA5和实测降水数据在年际变化上的相关性略低于CFSR（0.84），为0.82。季降水趋势相关性分析中，ERA5和CFSR与实测降水数据在秋季和冬季时呈现较强的相关性，相关系数都在0.90以上，而春季和夏季相关性略差，相关系数约为0.80。ERA5和CFSR在年内降水分配规律上和实测降水数据的相关性十分显著，相关系数接近1.00，且ERA5相关性比CFSR高。综上所述，ERA5和CFSR在不同时间尺度上与实测降水数据相关性差异很小，均具有较强的相关性和良好的适用性。

2.2 空间精度评估

为分析降水偏差的空间分布情况，用ArcGIS中的反距离插值模块得到ERA5、CFSR与实测降水数据偏差百分比的空间分布图，如图5所示。从图5（a）可以看出长江中下游地区在纬度较高地区，多年平均实测降水量偏小;在纬度较低地区，多年平均实测降水量偏大。从图5（b）可以看出ERA5和实测降水数据的多年平均降水量偏差较大，甚至有部分区域降水偏差超过100%。ERA5的降水偏差百分比在大部分区域为正偏差（80.00%的站点），即高估了降水量;少部分区域为负偏差（20.00%的站点），即低估了降水量。相比之下，CFSR再分析降水资料和实测降水数据的多年平均降水量的偏差较小，降水偏差百分比在-25.34%～82.92%之间。CFSR的降水偏差百分比同样在大部分区域为正偏差（94.37%的站点），在少部分区域为负偏差（5.63%的站点）。并且CFSR和ERA5降水偏差分布较为一致：在实测降水量多的区域，呈现负偏差;在实测降水量少的区域，呈现正偏差，存在高估弱降水、低估强降水的现象。

2.3 校正方法对比

为论证C-AR模型的校正效果，选取校正系数法、AR模型以及校正系数法与最邻近抽样法组合校正的方法（C-KNN）对数据集进行校正并作对比分析。ERA5和CFSR各月的校正系数如表1所列。本文中最邻近抽样法（KNN）样本向量长度取经验值4，近邻数目K通过公式计算得到（K=int（m），其中m为样本数量）。ERA5和CFSR经各校正方法校正后的结果如表2和表3所列。

如表2～3所列，ERA5和CFSR经过4种校正方法校正后数据精度均得到较大改善，相对误差小于20%，在可接受范围内，提高了数据集在长江中下游地区的适用性，因而这4种校正方法均有较好的校正效果。从相关系数看，除C-KNN在对ERA5数据集校正时相关系数略低于未校正前外，各校正方法均在一定程度上提高了相关系数，且在0.97附近，表明校正后的数据集与实测数据误差显著减小;从相对误差看，ERA5和CFSR经过这4种校正方法校正后的相对误差均低于7%（许可误差20%），在可接受允许误差范围内，相较于未校正前的相对误差（大于20%）得到了较大的改善;从均方根误差看，ERA5和CFSR经过C-AR校正法校正后，均方根误差低于15，而ERA5和CFSR数据集经过其他3种校正方法校正后高于15，但经这4种校正方法校正后均方根误差均显著降低，说明校正后数据集与实测数据偏离程度均变小;从KGE系数看，ERA5和CFSR数据集经过C-AR校正法校正后KGE系数得到了显著提高，均达到了0.9，其他校正方法校正后KGE系数略低于经过C-AR校正法校正后的值，但经过这4种校正方法校正后KGE系数均得到了显著提高，表明校正后的数据集精度得到了综合性改善。

此外，C-AR组合校正法校正结果在4个指标上均优于校正系数校正法和AR模型校正法，从而得到C-AR组合校正法校正结果优于单一的校正系数法和AR模型。C-AR组合校正法，相较于C-KNN组合校正法，除对ERA5校正后的相对误差略高于C-KNN校正法外，其他指标都优于C-KNN法;且C-KNN校正法相较于单一的校正系数法，它以牺牲相关系数为代价改善相对误差、均方根误差和KGE其他3个指标，因此C-AR组合校正法比C-KNN组合校正法更具有优势。由上述分析可以得到，各校正方法对ERA5和CFSR数据集均有良好的校正效果，极大地改善了数据集精度，提高了数据集在长江中下游地区的适用性，应用价值较高，并且C-AR校正法相较于其他3种校正方法校正效果更优。

图6为ERA5和CFSR数据集各校正方法各年评估指标箱线图。从图中可知，数据集未校正时，对于这4个指标来说，ERA5的表现优于CFSR。具体来说，ERA5相关系数的均值、中位数和四分位数均高于CFSR，且四分位区间更小，即波动性更小;ERA5相对偏差和均方根误差的均值、中位数和四分位数均低于CFSR，表明ERA5數据集与实测数据的偏离程度小于CFSR，且ERA5的相对偏差和均方根误差波动性仅略大于CFSR;ERA5 KGE的均值、中位数和四分位数均高于CFSR，两者的KGE波动性相当。因此，相较于CFSR，ERA5在长江中下游地区有更好的适用性。

（1）从相关系数来看，各校正方法均能在一定程度上提高相关系数，校正后相关系数均达到0.95以上，且其中C-AR组合校正方法校正效果最优，其中位数均高于校正系数法、AR模型及C-KNN校正方法;ERA5数据集经过AR模型和校正系数法校正后，其相关系数中位数较接近，CFSR数据集经过校正系数法校正后的相关系数中位数高于AR模型校正后的，即单独从相关系数来看，校正系数法优于AR模型;ERA5和CFSR数据集经过C-KNN校正法校正后，其相关系数的中位数低于经过校正系数法校正后的中位数和均值，即校正系数法和KNN组合后并没有进一步改善相关系数。

（2）从相对偏差和均方根误差来看，各校正方法校正后相对偏差和均方根误差的均值和中位数均得到了降低，其中校正后相对偏差接近0，均方根误差在15附近，波动性也更小，但异常值略有增多，尤其是AR模型。对比来看，C-AR组合校正方法校正效果较好，其中位数均低于校正系数法、AR模型，相较于C-KNN组合校正法，除ERA5经过C-AR方法校正后与经过C-KNN法校正后相对偏差和均方根误差中位数较为接近外，CFSR经过C-AR法校正后相对偏差和均方根误差中位数均低于经过C-KNN方法校正后的;ERA5和CFSR经过AR模型校正后，其相对偏差及均方根误差的中位数低于经过校正系数法校正后的，但异常值较经过校正系数法校正后的多;ERA5和CFSR数据集经过C-KNN校正法校正后，其相对偏差和均方根误差的中位数均低于经过校正系数法校正后的中位数和均值，从对降雨量级的校正来说，C-KNN校正效果较好。

（3）从KGE来看，各校正方法校正后KGE的均值和中位数均显著提高，在0.9附近，且波动性更小，但除C-AR模型校正后异常值减少外，其他校正方法校正后异常值均增加。C-AR组合校正方法校正效果也最优，其中位数均高于校正系数法、AR模型及C-KNN校正法校正后的;ERA5和CFSR数据集经过AR模型校正后，其KGE中位数高于通过校正系数法校正后的;ERA5和CFSR数据集经过C-KNN校正法校正后，其KGE的中位数高于经过校正系数法校正后的KGE中位数和均值，但低于经过C-AR模型校正后的KGE中位数。总的来看，校正系数法和AR模型校正法在不同指标上表现各有千秋;C-KNN组合校正法相较于校正系数法，在相关系数上的校正效果更差，异常值更多，但在其他3个指标上均优于校正系数法;而C-AR组合校正法在4个指标上均优于校正系数法和AR模型，且C-AR组合校正法相较于其他3种方法，校正后的指标波动性更小，异常值也更少，具有明显的优势。

图7～8分别为ERA5、CFSR经过C-AR校正法校正后的结果与实测雨量数据逐月过程对比图，以进一步分析C-AR校正法的校正效果。从图中可以看出，未校正前ERA5和CFSR数据集降雨量明显高于实测降雨数据，而经过C-AR校正法校正后的数据和实测数据量级十分接近，且趋势变化也较为一致，这是由于C-AR校正法结合了校正系数法对量级校正和AR模型对趋势拟合的优势，从而综合改善了数据集精度。

综上所述，C-AR校正法对ERA5和CFSR数据集均有较好的校正效果，可提高数据集在长江中下游的适用性，且校正后指标值波动性更小，异常值更少，精度更为稳定。并且，从校正后的各指标值及过程图看，C-AR模型可从多方面改善数据集精度，具有较高的应用价值。

3 结论

本文从时间和空间上对ERA5和CFSR在长江中下游地区的适用性进行了对比评估，建立了包含相关系数、相对偏差、均方根误差和KGE多指标的定量综合评价体系评估再分析数据集精度，提出了C-AR组合校正法以提高数据集精度。结果表明：ERA5和CFSR与实测数据的降水趋势较为一致，且相关性良好;空间分布特征上，ERA5比CFSR的表现略差，但从定量综合评估指标看，ERA5表现优于CFSR;将C-AR组合校正法与校正系数法、AR模型以及C-KNN组合校正法进行对比得到C-AR组合校正法校正结果在4个指标上均有较好的性能表现，优于单一的校正系数法、AR模型和C-KNN组合校正法，说明C-AR组合校正法可从多方面改善数据集精度，从而提高数据集在长江中下游地区的适用性。同时，C-AR组合校正法原理简单，易于实现，也适用于其他流域，具有广阔的应用前景。目前，本文仅将C-AR组合校正法应用于面雨量的校正，未从空间尺度上逐网格逐站点进行校正，今后可在这方面进行研究，以增强该方法的实用价值。

参考文献：

[1] 宁磊.长江中下游防洪形势变化历程分析[J].长江科学院院报，2018，35（6）：18-22.

[2] 姜彤，施雅风.全球变暖、长江水灾与可能损失[J].地球科学进展，2003，18（2）：277-284.

[3] 成晓裕，王艳华，李国春，等.三套再分析降水资料在中国区域的对比评估[J].气候变化研究进展，2013，9（4）：258-265.

[4] FRANCHITO S H，RAO V B，VASQUES A C，et al.Validation of TRMM precipitation radar monthly rainfall estimates over Brazil[J].Journal of Geophysical Research Atmospheres，2009，114：D02105.

[5] 馬秋梅.多源卫星降水产品在长江流域径流模拟中的适用性研究[D].武汉：武汉大学，2019.

[6] XU X，FREY S K，BOLUWADE A，et al.Evaluation of variability among different precipitation products in the Northern Great Plains[J].Journal of Hydrology：Regional Studies，2019，24：100608.

[7] 李建，宇如聪，陈昊明，等.对三套再分析资料中国大陆地区夏季降水量的评估分析[J].气象，2010，36（12）：1-9.

[8] 王旭丹，王立亚.华北地区水汽含量及降水量分布特征分析[J].水电能源科学，2010，28（9）：11-13.

[9] 何奇芳，曾小凡，赵娜，等.ERA-interim再分析数据集在长江上游的适用性[J].人民长江，2018，49（12）：30-33.

[10] 高瑞，穆振侠，彭亮，等.CFSR、ERA-Interim再分析降水数据在高寒山区径流模拟中的适用性[J].水电能源科学，2017，35（9）：8-12.

[11] 张若愚.PREC/L再分析降水数据在石羊河流域的适用性及其应用研究[D].武汉：华中科技大学，2019.

[12] 雷华锦，马佳培，李弘毅，等.基于分位数映射法的黑河上游气候模式降水误差订正[J].高原气象，2020，39（2）：56-69.

[13] 田霖，孟凡洁，刘铁，等.干旱典型山区CFSR降水数据的偏差校正方法研究：以新疆开孔河流域为例[J].干旱气象，2017，35（2）：313-320.

[14] 程美玲，高飞，王永桂，等.基于水汽输送与IDW法耦合的降雨插值方法研究[J].人民长江，2017，48（8）：23-27.

[15] 陈雅婷，刘奥博.中国流域降水数据的空间插值方法评估[J].人民长江，2019，50（4）：100-105.

（编辑：谢玲娴）