APP下载

基于XGBoost和LSTM的台风强度预测模型分析

2022-06-22峻,高珊,2

无线互联科技 2022年6期
关键词:强台风台风误差

刘 峻,高 珊,2

(1.广西大学计算机与电子信息学院,广西 南宁 530004;2.广西壮族自治区气象服务中心,广西 南宁530022)

0 引言

台风是在温带洋面上生成和发展的热带天气系统,引发的次生灾害具有极大的破坏性。准确估算台风强度是台风预报和灾害预警中极为关键的问题,可以为防灾部门提供有效的信息支持,大大减少生命和财产的损失。

目前,世界上对台风强度预测仍处于探索研究阶段,随着机器学习在各行业的应用逐渐深入,气象领域的研究人员开始尝试将机器学习算法应用于天气预报领域。自从Knaff等人于2002年开发了第一版 “统计台风强度预报方案” (STIPS)以来,研究人员相继提出了基于人工神经网络、径向基函数网络(RBFN)、多层感知器(MLP)、统计多元线性和普通线性回归等模型的方案对台风强度进行预测。Jin等[1]认为台风强度的变化受包括海洋热量、垂直风切变和下垫面变化等许多因素的影响,极端梯度提升算法XGBoost算法可以挖掘、处理多个维度因素,进行多因素预测,因而基于XGBoost模型和风云卫星影像估算南海热带气旋强度。而Yuan等[2]考虑到影响台风强度的变化因素多呈非线性特征,且往往具有时间相关性,因此采用LSTM模型将台风强度预报作为时间序列问题进行研究。这些方法在机器学习应用到台风强度预测方面进行了有益尝试,取得了较好的结果,但仍存在预测误差率不够高、特征提取复杂等问题。

考虑到XGBoost具有较高的预测精度、良好的拟合和泛化能力等优点,LSTM擅长处理时间序列问题,以及XGBoost树模型和LSTM神经网络模型的方法原理不同,两者进行方法组合,产生的结果相关性较低,有利于提高预测的准确性。因此本文基于XGBoost和LSTM对台风强度进行组合建模和预测,将其预测结果与单机器学习模型XGBoost和LSTM进行对比,以研究这些机器学习方法在台风预报与监测中的应用。

1 台风强度预测模型

极度梯度提升算法(eXtreme Gradient Boosting,XGBoost)[1]是一种Boosting集成学习方法,通过不断形成新的决策树来拟合上一步预测的残差,逐步缩减真实值与预测值之间残差,以达到准确分类的效果,十分适合作为台风强度预测的分类模型。

而长短期记忆神经网络(Long Short Term Memory,LSTM)[2]是一种时间循环神经网络,是为了解决一般的循环神经网络RNN存在的长期依赖问题而专门设计出来的,适于对与时间相关的台风强度影响因素进行建模。

本文将XGBoost和LSTM模型组合在一起,进行台风强度预测实验。预测模型使用当前时间和提前不同时间的台风强度、位置和移动速度等数据来共同预测下一个时间点的台风强度。该过程可以获得提前6,12,24小时等预报时间的台风强度数据。

组合模型预测流程为:首先对台风原始数据集进行预处理,提取出气候、环境、历史数据等特征;然后将这些特征输入LSTM模型中进行训练,得到LSTM模型的初步预测值;再次,将LSTM模型的初步预测值作为一个新的特征,与原始数据集经过预处理得到的其他气候、环境、历史数据特征一起构成一个新的数据集,将其输入XGBoost模型中进行训练和预测,得到最终的预测值。

本文构建的XGBoost+LSTM预测模型的输入数据集,不但包含了对台风原始数据集进行预处理而提取出的气候、环境、历史数据等特征参数,还包括了经过LSTM模型处理得到的初步预测值作为另一维度特征参数。两种特征参数一起作为XGBoost台风强度预测模型的输入,参加台风强度的预测过程。这一方式主要是利用XGBoost模型和LSTM模型结构上的差异,充分发挥两个模型各自的优势,降低模型过拟合的风险,提高台风强度的预测精度。预测模型流程如图1所示。

图1 XGBoost+LSTM台风强度预测模型流程

2 实验分析

本文XGBoost台风强度预测模型使用的数据来自广西壮族自治区气象局及中央气象台台风网(http://typhoon.nmc.cn/web.html)。台风强度根据中国气象局发布的《关于实施<热带气旋等级>国家标准(GB/T 19201—2006)的通知》[3](气发〔2006〕154号)中的标准进行划分,热带气旋底层中心附近最大平均风速达到10.8~17.1 m/s(风力6~7级)为热带低压,达到17.2~24.4 m/s(风力8~9级)为热带风暴,达到24.5~32.6 m/s(风力10~11级)为强热带风暴,达到32.7~41.4 m/s(风力12~13级)为台风,达到41.5~50.9 m/s(风力14~15级)为强台风,达到或大于51.0 m/s(风力16级或以上)为超强台风。

为了验证台风强度预测模型性能,本文使用平均绝对误差MAE指标对模型进行评估。由于台风强度一般认为由底层中心附近最大平均风速决定,因此本文主要对台风不同阶段的风速进行验证对比。本文将基于XGBoost和LSTM组合的台风强度预测模型的结果误差与单独基于LSTM和XGBoost的台风强度预测模型的结果误差进行了对比分析,并选取提前6小时和提前24小时的预测误差,如图2—3所示。

在提前6小时预报中,组合模型对于所有台风强度级别的预测的平均绝对误差(MAE)均小于单一模型的平均绝对误差,尤其在强台风以下的级别预报中,组合模型的MAE误差值一直保持在5以下,LSTM模型和XGBoost模型的MAE误差值则一直随着台风强度级别的增强而不断上升。

在提前24小时的预报中,组合模型明显更适合热带低气压、台风和强台风等级的预报,而LSTM模型对热带风暴、强热带风暴和超强台风等级的预报误差更低一些。

由图2—3可以看出,在预报提前时间小于24小时的预报中,LSTM模型更适合预报提前时间量偏长的超强台风级别的预测,而XGBboost+LSTM组合模型更适合预报提前时间量偏短的台风级别预测,且适用性更广。因此,在进行台风强度预报时,可以根据不同时间阶段和不同台风强度等级,采用不同模型进行预测,这样更能发挥各自模型算法的优势。

图2 单一模型和组合模型提前6小时预报不同强度台风的误差

图3 单一模型和组合模型提前24小时预报不同台风强度的误差

3 结语

本文对比分析了基于XGBoost和LSTM的台风强度预测模型,经过多轮迭代训练,优化相应超参数,构建相应深度神经网络对台风强度进行了分析和预测。实验结果表明,在不同时间阶段和不同台风强度等级的预测中,模型的正确选择有利于降低预测的误差。总体而言,与XGBoost和LSTM单机器学习模型相比,由于XGBoost和LSTM组合模型不仅考虑了影响台风强度的因素的时间序列特征,同时又兼顾了这些因素的非线性特征。因此,组合模型的预测误差相对更小,稳定性也更强,更适用于台风强度预测。今后,笔者将进一步扩大样本数量,优化模型的预测效果,以期将该台风强度预测模型真正应用于实际。

猜你喜欢

强台风台风误差
台风过韩
角接触球轴承接触角误差控制
Beidou, le système de navigation par satellite compatible et interopérable
台风来了
淮委防御超强台风“利奇马”
压力容器制造误差探究
台风爱捣乱
超强台风
强台风灾害链情景下多部门应急联动建模与仿真文献综述