APP下载

基于集成学习XGBoost模型的降水客观预报方法*

2022-10-14王证帅吕巧谊陈德花

海峡科学 2022年8期
关键词:降水机器资料

王证帅 吕巧谊,2 张 伟,2 郑 辉,2 陈德花,2

(1.厦门市海峡气象开放重点实验室,福建 厦门 361012;2.厦门市气象台,福建 厦门 361012)

1 研究背景

数值天气预报是当前气象预报最重要的手段之一,它主要以物理模拟来实现对环境大气趋势的预测,但数值天气模式也存在一定的不准确性和一些系统性的偏差,从而导致天气预测不够准确。造成偏差的主要原因有经验化的参数化方案的误差、模式动力系统的不准确性、初始场的误差等。为了减少数值模式带来的误差,苏志重等开展了多模式降水融合预报研究,融合产品能够接近最优确定性预报,但仍存在一定偏差[1]。近年来,人工智能技术越来越多地应用于天气预报领域。基于数据驱动的机器学习算法,是从大量数据中通过融合多维数据作为特征输入进行建模,以此来训练预测模型,与传统统计学方法具有较大差异,其使用的是算法模型,牺牲了可解释性,提高预测的准确率。

国内外一些领先的气象业务科研机构,如欧洲中期天气数值预报中心、中国气象科学研究院等,均已开展AI技术在气象领域的应用,包括观测数据质量控制、灾害性天气监测和识别、短时临近预报、资料同化等[2-10]。越来越多的气象科研工作者开展了一系列基于数值预报的客观应用方法。例如,谭江红等利用湖北省气象站地面观测温度与欧洲中心再分析资料,建立了LightGBM模型,较数值预报模式产品提升明显[11]。任萍等初步研发了一套基于机器学习方法XGBoost且考虑地形特征影响的数值预报多模式集成技术,有效降低模式的系统性误差[12]。孙全德等基于三种机器学习算法(LASSO回归、随机森林和深度学习),对数值天气预报模式ECMWF预测的华北地区近地面10 m风速进行订正[13]。马景奕等提出了一种基于长短期记忆神经网络的气象要素预测方法,进一步提升了气象预测的准确性[14]。蒋薇等通过对比不同机器学习方法对江苏省夏季降水开展预测试验,发现深度神经网络较传统统计方法和其他机器学习方法有一定优势[15]。

在气象大数据的时代背景下,机器学习技术通过足够多的数据驱动,获取足够多的观测模型的准确性。为进一步在实际的预报业务中挖掘数值模式预报产品信息,提升降水预报的准确性。本文提出一种基于集成学习XGBoost模型的降水客观预报方法(以下简称为客观预报方法),通过决策专家系统对气象要素特征进行提取和预处理,使用机器学习的方法对历史数据进行训练,从而实现对本地区的降水进行客观预报。

2 数据选取

2.1 数据资料

本文选取2019年1月1日—2020年12月31日08时和20时(北京时)的ECMWF全球模式的细网格产品(以下简称为ECMWF模式资料)和地面实况降水观测资料,形成机器学习训练样本。其中,模式资料包含风、降水、气温等产品,预报时效为0~72小时,时间间隔为6小时,空间分辨率为0.125°×0.125°;地面实况降水观测资料,选取福建省70个国家级自动站(见图1)相应时段的逐6小时累积降水资料,作为降水实况真实值。同时,在2021年6月1日—2021年10月31日08时和20时(北京时)的实际预报业务中,采用福建省70个国家级自动站的实况资料,检验本文客观预报方法的预报效果。

图1 福建省70个国家级自动站点分布

2.2 预报因子

选取使用ECMWF模式资料输出的大尺度降水(LSP)和对流性降水(CRAIN)、不同的天气形势、不同的温度,500hPa位势高度场、地面2m最高气温等,共选择7个气象要素场(见表1),并将其作为机器学习算法的输入,构建基于机器学习的客观预报模型。

表1 ECMWF高分辨率数值预报因子列表

3 客观预报方法

3.1 预报方法框架

本文提出了一种基于集成学习XGBoost模型的客观预报方法,综合考虑本地预报决策专家系统知识库和集成学习XGBoost模型相结合,实现了基于ECMWF模式资料的客观预报方法,实现了对福建省内70个国家级自动站点0~72小时降水预报。首先基于本地预报决策专家系统知识库,对ECMWF模式资料输出的各种要素特征进行数据预处理和特征选择,获得相关要素特征数据集,再以选择的特征集进行机器学习建模,最后获取福建地区70个站点的0~72小时预报结果。基于集成学习XGBoost模型的降水客观预报方法整体架构设计见图2。

图2 基于集成学习XGBoost模型的降水客观预报方法架构示意图

客观预报方法主要包含两个部分:一是决策专家系统,二是集成学习XGBoost模型。决策专家系统主要用来对ECMWF模式资料的输出进行选择和预处理,提升资料的可用性和可靠性,经过决策专家系统处理后的数据与地面雨量观测值共同组成训练数据集;集成学习XGBoost算法模型是利用训练数据集,通过不断训练获得的,在后续的预测过程中可以直接调用。

3.1.1 决策专家系统

本方法涉及到的预处理,主要分为降水落区订正和降水强度订正,其目的是对现有的模式输出进行初步订正,从而进一步提高用于机器学习模型训练的数据集准确性。

降水落区订正是基于ECMWF模式资料历史资料、雷达历史回波、地面雨量观测经验,对降水落区进行调整,主要引入500hPa位势高度和500hPa的引导气流方向。将500hPa风向作为引导因子,对降水格点落区进行计算和调整,即增加500hPa风向来向,扩大进入模型的区域。

降水强度订正是基于本地化气候学经验,使用EC自带的大尺度降水(LSP)和对流性降水(CRAIN),分别选定阈值,进行消空,降低午后强对流的空报率,根据不同的天气形势、不同的温度,选定不同的阈值。

3.1.2 集成学习模型

基于集成学习XGBoost的降水预报模型(见图3)主要借鉴卷积和梯度提升决策树的算法思想。该模型主要包含两个部分:一是依托卷积进行空间特征提取,将格点数据通过卷积计算,获得不同站点的关于降水预报的特征行向量;二是将卷积后得到的特征行向量,输入梯度提升决策树(XGBoost)模型,最后获得对应时次的降水预报结果。

图3 基于集成学习XGBoost的降水预报模型示意图

3.2 预报方法描述

如图4所示,客观预报方法主要分为两个过程,一是训练过程,二是预测过程。训练过程是获取机器学习算法模型的过程,将ECMWF模式资料历史数据进行决策专家系统订正后,再与地面雨量观测值一一对应,获得训练机器学习算法模型的数据集;将专家订正后的ECMWF模式资料数据集作为模型输入,地面雨量观测值作为目标值,对预报方法模型进行训练,最终获得较优的机器学习算法模型。预测过程是获取对应时次降水预报值的过程,将当前时次ECMWF模式资料的数据进行决策专家系统订正后,输入到机器学习算法模型中,最终获得对应时次的降水预报值。

(a)训练过程示意图 (b)预测过程示意图图4 基于集成学习XGBoost模型的降水客观预报方法流程

训练过程中,采用格网搜索法(Grid Search)进行参数调优,为了评估模型的性能,对雨量使用平均绝对误差作为损失函数,用来评估机器学习模型在训练过程中的预报准确性。其详细过程如下:

①决策专家系统选取特征值(见表1),并进行数据预处理。本文选取了2019—2020年每日08时和20时(北京时)的预报资料,共计1462个模式预报数据。针对各种模式输出资料,选取目标站点所在的格点,并取该格点相邻的格点数据(共9个格点数据);根据500hPa的引导气流方向,增加拓展区域格点;对数值预报格点中的空值和异常值进行处理。之后对各要素值进行归一化处理,提升训练运算速度。

②构造数据集,选用2019—2020年福建省70个国家级自动站相应时段的6小时累积降水资料,作为降水实况,与ECMWF模式资料的输出一一对应,构造数据集,并按照8∶2比例划分成训练数据集和测试数据集。

目前市场环境下,专业培训机构往往停留在理论和早期项目案例层面,真正对于EPC工程总承包实操层面的培训机制非常缺失,还需要施工企业有专业化部门和力量来建设人才队伍、培养并发展人才,而且企业自身要加强经验总结。

③集成学习模型训练。将训练数据集投入降水预报模型进行训练,采用Adam优化器,其中学习率为10-3,每个训练周期的迭代次数为10000,获得降水客观预报模型。

④集成学习模型迭代验证。降水预测过程是选取对应时次的模式资料,进行数据预处理(同训练过程),获得预测输入数据;将预测输入数据集输入到降水客观预报模型中,获得对应时次的降水预报值。最后,使用对应时次的地面雨量观测值,评估预测模型的准确性。

4 检验与评估

本文开展检验评估时,将客观预报方法预报的站点降水量、ECMWF模式预报的降水量,分别与相应观测站的实况雨量进行对比检验。其中,ECMWF模式预报的降水量是通过经纬度选取最近的格点数据,插值到对应的站点上。评估检验方法,采用传统二分类检验方法。

检验评估分别对08时、20时(北京时)起报的24小时预报时效进行逐6小时降水预报检验,48小时和72小时预报时效进行逐24小时降水预报检验。对于24小时预报,大雨以25mm为标准;对于6小时预报,以10mm为标准。

4.1 晴雨预报准确率

晴雨预报准确率计算公式为:

(1)

式(1)中,NA为有降水预报正确站(次)数,NB为空报站(次)数、NC为漏报站(次)数,ND为无降水预报正确的站(次)数。EH的值取值范围为0%~100%,越接近100%,代表预报效果越好。

4.2 大雨以上降水预报TS评分

TS评分的计算公式为:

(2)

式(2)中,NA为有降水预报正确站(次)数,NB为空报站(次)数、NC为漏报站(次)数。同样,TS的取值范围为0%~100%,越接近100%,代表预报效果越好。

2021年6—11月,客观预报方法的晴雨预报准确率对比分析的检验评估见图5。客观预报方法和ECMWF模式资料预报站点的晴雨准确率结果显示,客观预报方法的预报结果明显优于ECMWF模式资料预报结果。

图5 晴雨预报准确率对比分析

2021年6—11月,客观预报方法的大雨以上预报TS评分对比分析见图6。各预报时次中,预报站点的大雨以上TS评分检验情况在24h之内的客观预报方法效果提升幅度明显,其他时次客观预报方法的预报结果相较于ECMWF模式资料预报的结果,也有大幅提升。

图6 大雨以上预报TS评分对比分析

5 结论

基于集成学习XGBoost模型的降水客观预报方法与本地预报决策专家系统相结合,利用集成学习XGBoost模型,深度挖掘数值模式ECMWF模式资料的降水产品信息,将多种气象要素特征应用在降水预报上。结果表明,该方法有效提升了ECMWF模式资料的预报结果,提升降水的预报准确率,在业务应用中取得了良好效果。

该方法在使用过程中也存在一些问题。例如,预测的准确率还有上升空间,数值模式资料及气象要素特征的选择,机器学习模型及算法的选择、参数的调整等,还需要大量实践分析。建议今后进一步挖掘数值模式预报产品信息,提升客观预报方法的准确性。

猜你喜欢

降水机器资料
GRACE下的青海省水储量时空变化与降水相关性
机器狗
机器狗
土石坝坝体失稳破坏降水阈值的确定方法
DSC1型称重式降水传感器观测数据对比分析
Party Time
PAIRS & TWOS
JUST A THOUGHT
降水对新郑市大气污染的湿沉降特征
未来机器城