APP下载

深度学习模型TAGAN 在强对流回波临近预报中的应用

2022-08-01胡家晖卢楚翰姜有山何婧

大气科学 2022年4期
关键词:损失卷积雷达

胡家晖 卢楚翰 姜有山 何婧

1 南京信息工程大学气象灾害教育部重点实验室/气候与环境变化国际合作联合实验室/气象灾害预报预警与评估协同创新中心,南京 210044

2 南京市气象局, 南京 210009

1 引言

对流降水的临近预报长期以来一直是天气领域的一个重要研究课题。目前,制作0~3 小时内临近天气预报和发布灾害性天气警报的主要依据是天气雷达观测资料以及结合快速同化的数值模型,雷达回波的外推法是临近预报的主要手段(俞小鼎等, 2012; 王国荣等, 2019)。 传统的雷达回波外推法主要是质心跟踪法、交叉相关法以及变分回波跟踪算法(陈明轩等, 2007; 韩雷等, 2007; 吴剑坤等,2019),一些计算机视觉技术,如基于光流的方法也可以用于预测雷达回波图(韩雷等, 2008; 曹春燕等, 2015)。但传统的方法对长时间的预测效果不佳,且不能很好地推演出回波的生消情况。

近年来,深度学习模型在处理视频预测任务上有较多应用(Oprea et al., 2020),基于雷达的临近预报本质是一个时空序列预测任务,同样也可看成一个视频预测任务,以过去序列雷达回波图作为输入,预测未来的雷达回波图,因而通过深度学习的技术来解决临近预报问题是一个很好的思路。Shi et al.(2015)使用ConvLSTM模型(Convolutional Long-Short Term Memory)在降水临近预报中获得显著效果,该模型的时空相关性更优于FC-LSTM(Graves, 2013),且模型相对于传统的基于光流的模型有一定的优势。在后续的改进中,Shi et al.(2017)考虑了雷达回波旋转特性,通过动态改变隐状态间的连接结构提出TrajGRU(Trajectory Gated Recurrent Unit),并为深度学习模型在临近预报的应用提供了极具参考意义的基准对比试验。韩丰等(2019)使用ST-LSTM 单元组成的循环神经网络进行雷达临近预报试验,其预报结果比交叉相关法在各项指标上要表现的更好,但雷达强回波中心预报效果不太理想。施恩等(2018)使用动态卷积神经网络模型在雷达回波外推任务中进行了尝试,相对于传统的外推方法有一定提升。郭瀚阳等(2019)的试验表明深度学习模型较之传统外推法在准确率上有明显的提升。近年来,模型结构构建与改进的尝试逐步得以开展,通常雷达回波外推模型采用多层编码—解码结构,而模型的改进一般分两种。一种是对编解码结构进行修改扩充,如在编码解码端连接处加入注意力模块,或如Star-BridgeNet(Cao et al., 2019)在解码端改造每个输出时间步之间的连接方式。另外,也有对基本的循环神经网(RNN)模块改造如针对回波的平稳和非平稳随机过程建模的MIM(Wang et al., 2019)。

需指出的是,当前大部分深度学习模型结构主要基于RNN 和卷积神经网(CNN),受限于卷积核的大小,普通的卷积层只能提取到有限范围且固定的信息,对于范围较大的系统性回波刻画能力往往受到限制。对于RNN模型,预测的效果往往随时间变差,一方面由于大气的混沌和高度非线性难以预测,另一方面RNN 的预测依赖于上一时间步的输出,误差将会增加和累积。生成式对抗网络(GAN)是另一个在计算机视觉任务中常用的模型,它通过生成器和判别器的博弈学习数据真实的分布。而Woo et al.(2018)提出利用嵌入式的注意力模块,可以提高神经网络的不同尺度特征提取能力,关注重要的特征抑制不重要的特征。另一方面,尽管光流法对系统生消以及时效有其局限性,但其对已知时刻的回波系统的位置变化以及运行特征有较强的刻画能力,因此能否在深度模型编码阶段(预报因子构建)融入光流法刻画信息,从而提升模型的预报性能?为此,针对上述两个问题本文尝试使用双流注意力生成对抗网(Two-stream Attention GAN,TAGAN),通过加入计算机视觉任务中常用的注意力模块并且融入带有运动信息的光流场,使用过去1 h 的雷达回波拼图数据预测未来1 h 的回波演变,将此模型与Woo and Wong(2017)提出的Rover 变分光流法(Real-time Optical flow by Variational methods for Echoes of Radar)和基于3D 卷积原理的3D U-Net(简称3DUnet )模型进行对比检验,给出了测试集上的对比检验结果和回波过程个例可视化结果,并分析了导致预测效果差异的原因。

2 资料与方法

2.1 雷达资料选取及数据预处理

本文使用的数据集是深圳市气象局与香港天文台根据近年的雷达数据共同建立的“标准雷达数据集2018”(https://tianchi.aliyun.com/competition/entrance/231662/information [2021-01-05])。该 数据集由32 万组连续雷达回波图像组成。在本次实验中取前1 h 间隔6 min 共10 帧的回波图(反射率因子),预测后1 h 共10 帧回波图,挑选出了具有明显回波过程(即样本中至少一个时次含有10 dBZ以上的数据占比20%以上)的样本(共2.2 万组序列样本),将缺测值用相邻四个不为缺测的格点数值取平均后填充,分别在数据集的训练组和测试组上用长度为20、步长为10 的滑窗进行切割获得输入部分不相交的序列样本,在训练组上切割出本次试验的训练集和验证集,在测试组上切出测试集。其中训练集和验证集一共2 万组序列样本比例为8:2,测试集一共2000 组序列样本。为滤除回波噪声,对训练和测试数据进行中值滤波(即将每一个像素点的值设置为窗口内所有像素点的中值),滤波会对图像有一定的模糊化。之后进行归一化处理。整套所用数据中,10~20 dBZ、20~30 dBZ、30~40 dBZ和大于40 dBZ的格点频率分别为28%、37%、29%、5.7%。

2.2 模型

2.2.1 TAGAN模型

在搭建TAGAN模型的过程中基本预测模型采用3 层编码—解码结构的RNN,RNN 基本单元使用Ballas et al.(2015)提出的ConvGRU(Convolutional Gated Recurrent Unit),ConvGRU 的公式如下:

其中,*表示卷积操作, ◦表示哈达玛积操作。Zt为GRU 单元的更新门,Rt为GRU 单元的重置门,σ为激活函数,为上一时刻的隐状态、经重置门的数据、输入数据Xt计算而成的。而最终输出的Ht为经过更新门更新的隐状态。ConvGRU 是基于门控的循环单元,将其进行堆叠可以扩大顶层的感受野捕捉到更大范围的回波从而更好的学习到雷达回波演变特征。具体编码解码结构共有三层(如图1),每一层都由RNN(ConvGRU 单元)、注意力模块和卷积层组成,卷积层一方面用来对数据进行上、下采样,从而让模型训练的显存控制在可以接受的范围内,另一方面可以提取到回波数据的低维到高维的信息。其中编码端和解码端ConvGRU 单元的卷积核数量分别为64、192、192。输入数据在编码端经过多层信息提取,被压缩成隐状态输入到解码端,经过解码端解码成预测的雷达回波数据,编码解码结构对称,在编码解码连接端每一层的解码器接受对应层编码器输出的隐状态数据。

图1 TAGAN模型生成器模型图Fig. 1 TAGAN model generator model diagram

如图2 所示模型训练框架基于生成对抗网络(Goodfellow et al., 2014),包括生成器(Generator)和判别器(Discriminator)两部分,训练过程中生成器与鉴别器交替训练,最终达到平衡时生成器可以生成接近真实的数据。模型内部的卷积层均由2D 卷积层、批量归一化层、LeaklyReLU(负斜率设置为0.2)激活函数组成。GAN 的原理如公式(5)所示:

图2 TAGAN模型结构图Fig. 2 TAGAN model structure diagram

其中,生成器的目的是生成更为真实的雷达回波序列从而骗过判别器,判别器的目的是尽可能地区分出来自生成器和来自真实的雷达回波序列。c表示输入雷达回波序列,D(x|c)表示鉴别器对真实数据输出的概率,D(G(x|c))表示鉴别器对生成器预测数据输出的概率。

雷达回波的预测由生成器(编解码结构)完成,以往的大多数模型试验中输入部分只有雷达回波数据,而TAGAN 在回波数据进入模型时加入了其对应时刻的光流图,因此模型接受的数据不仅是过去时刻的回波图。其目的一方面在于融入了预测因子(前序回波图)的额外光流信息,另一方面光流图又起到了约束的作用,使模型做预测的时候能在更小的范围里进行选择。回波序列图和光流图分别经过对应的卷积层(第一层)进行特征融合,之后数据流经过卷积层下采样通过注意力模块进入ConvGRU 单元,在训练的过程中尝试了在卷积层中加入若干残差块(He et al., 2016),提高卷积层提取信息的能力。判别器使用若干卷积层组成,后使用sigmoid 函数激活,数值范围在0~1 之间。

此外,生成器的前两层采用CBAM(Convlutional Block Attention Module)注意力模块(图3),该模块是Woo et al.(2018)提出的轻量级注意力模块,它可以自由地嵌入到卷积网络中从而提高网络的特征提取能力,对重要特征起突显作用。例如,在不同种类猫图像分类的任务中,对于分类结果影响最大的部分就是图像中猫形态的特征而非背景,注意力模块可以赋予图中猫部分高权重和背景低权重。CBAM 包含通道注意力和空间注意力两个部分,通道和空间注意力模块采用全局平均池化和最大池化来计算注意的权重系数,将两者顺序组合成CBAM 后嵌入TAGAN 中,在数据流入CBAM模块时可以学到相对整个过程中需要更加注意的区域。

图3 CBAM模块结构图,包含通道注意力模块(左部)和空间注意力模型(右部)Fig. 3 CBAM module structure diagram, including the channel attention module (left part) and the spatial attention model (right part)

最后,在模型的最后一层采用self-attention 自注意力模块(Zhang et al., 2019),该模块的结构图如图4 所示。该模块与CBAM模块的作用类似,其也是强调在原始特征中何处需要加强注意从而更好的提高网络特征提取与变换的能力,模块中原特征图经过三个1×1 的卷积后分别得到三个特征图,通过前两个特征图计算出attention 权重系数在与第三个特征图作矩阵乘法运算得到注意力特征图,最后将注意力特征图与原特征图相加得到最终输出的特征图,自注意力模块可以学到任意位置的依赖关系。由于自注意力的计算开销比较大,所以放在编码和预测模块的底层(最后一层)。

图4 Self-attention模块结构图, ⊗表示矩阵乘法运算Fig. 4 Self-attention module structure diagram ( ⊗: matrix multiplication operation)

基于上述的模型,完整的回波数据进入模型到预测的过程如下:10 帧回波数据和对应光流场依次经过第一层卷积层融合后进入CBAM 注意力模块接着进入ConvGRU 单元,继而以相同方式进入第二层和第三层,但第三层的注意力模块为Selfattention模块。其中第一个时间步的ConvGRU 单元隐状态初始化为0,数据在编码端最终被压缩成3 个张量(最后一个时间步3 层ConvGRU 输出的隐状态),这三个张量包含着从低维到高维10 帧回波图像以及对应光流场演变的信息,以此作为初始化的隐状态进入解码端对应的ConvGRU 中,在解码端的计算首先从第三层开始,第三层ConvGRU的输入初始化为0,隐状态来自对应层的编码端ConvGRU,数据流方向与编码端相反,卷积层使用转置卷积进行上采样将尺寸较小的特征图重构为预测的回波图像,在后续预测的时间步中计算依据上一时刻输出的隐状态,这种方式可以预测变长序列。最终解码端将会输出10 帧预测的回波图像,接着预测的回波数据和真实回波数据分别拼接输入回波数据交替进入判别器进行训练,判别器反向传播的梯度也会进入生成器(编码解码结构)帮助生成器更好的预测,理想的判别器输出概率应为0.5,即生成器生成的回波数据达到了以假乱真的效果,使得判别器不能以较大的概率判定其是真是假,生成器和判别器达到纳什平衡。

2.2.2 损失函数

在雷达回波预测的任务中,常用的损失函数有平均平方误差(MSE)和平均绝对误差(MAE),但该两个损失函数容易造成预测图像的模糊化,为了更好的生成图像和更精确的预测还引入了图像梯度差损失函数(GDL)和结构相似性损失函数(SSIM)。

SSIM 是计算两张图片的相似度的函数,其定义如下:

其中,l(x,y)为亮度相似度,c(x,y)为对比相似度,s(x,y)为结构相似度。μx和μy分别是x和y的平均值,而σx和σy则是x和y的方差,σxy是x和y的协方差。C1、C2、C3是维持数值计算稳定的常数。训练过程中使用的SSIM 损失函数(Zhao et al.,2017)如下:

训练过程中的图像梯度差损失函数如下所示:

其中,i和j为坐标,在训练过程中α取1。

对抗损失函数如下:

其中Lbce为二分类交叉熵损失函数,D为鉴别器。

最后本次试验中使用的损失函数如下:

关于对抗损失函数Ladv的参数设置,训练步骤请详细参考Mathieu et al.(2016)和Isola et al.(2017),Lp是带权重的MSE 和MAE,越高的回波值赋予越高的权重。

2.2.3 对比模型

U-Net 是图像分割领域常用的模型,其多尺度融合的结构常用于高分辨率图像分割任务。作为本次试验的对比模型我们采用了图5 基于三维卷积的3DUNet模型(Çiçek et al., 2016),在开源模型的基础上对网络深度,卷积核及步长进行修改以适用于本次试验数据。较之于2D 卷积3DUnet模型的卷积操作全部采用3D 卷积,在提取时序信息的功能上更为强大。另一个对比模型是传统的基于光流的Rover模型。

图5 3DUnet模型概念示意图Fig. 5 Conceptual schematic diagram of the 3DUnet model

3 试验

3.1 试验方案

TAGAN模型训练使用Adam 优化器,初始学习率根据绘制不同学习率下的损失函数下降速率图,选择合适的学习率,学习率衰减采用每2 个轮次减0.7。在训练过程中采用l2 正则约束,训练策略采用早停策略,当验证集损失函数值连续1 个epoch 不下降后停止训练,在试验过程中批量大小分别选择2 进行训练,效果在卷积层不使用批量归一化层时较好。在训练过程中尝试了DCGAN(Radford et al., 2015),WGAN-GP(Gulrajani et al., 2017)等不同GAN 的损失函数和训练方式,发现对抗损失的权重系数对训练结果至关重要,单独只使用对抗损失函数训练时非常容易导致训练失败,需要模型训练初期以MSE 与MAE 损失函数为主导损失函数,然后再将对抗损失函数作为主导损失函数进行训练。作为基线对比模型3DUnet 只使用带权重的平均平方误差和平均绝对误差作为损失函数,验证集结果最优的TAGAN 迭代了10 万次,3DUNet 迭代了6 万次。

3.2 检验方法与结果

测试集上的检验指标采用气象中常用的命中率(POD)、虚警率(FAR)也称误报率以及临界成功指数(CSI),以及HSS(Heidke Skill Score)技巧评分(Hogan et al., 2010)。各检验指标的计算公式如下:

其中,TP 表示观测回波大于阈值且预测回波大于阈值,FN 表示观测回波大于阈值且预测回波小于阈值,FP 表示观测回波小于阈值且预测回波大于阈值,TN 表示观测回波小于阈值且预测回波也小于阈值。相应的混淆矩阵如表1 所示。根据不同阈值下的混淆矩阵,按上述公式计算检验指标。为了更全面的对比模型预测的效果还计算了MSE、MAE 以及空间相关系数。

表1 混淆矩阵Table 1 Confusion matrix

表2 的检验结果显示,本文所设计的TAGAN模型在10~40 dBZ阈值下的临界成功指数、命中率和HSS 评分基本高于传统光流法,而对于虚警率FAR 这一指数两种深度学习模型均低于传统光流法。特别地,TAGAN模型在未来30 min 和60 min的预测评分上明显优于3DUnet模型。另外,由表3显示,深度学习模型尤其TAGAN模型在测试集上的6~60 min 整体平均的平方误差和绝对误差数值也明显低于光流法,同时空间相关系数TAGAN模型也为最高,这表明TAGAN模型性能在本文的三种方法中最优。需指出的是,在40 dBZ阈值下三种模型的预测效果均很差,这可能与训练样本中强回波数据稀少有关,尽管在数据预处理时已经对数据集样本进行过筛选,但受限于整个数据集里的强回波样本稀少(5.7%),导致模型对强回波预测的能力欠佳。

表2 测试集检验对比Table 2 Test set comparison

表3 测试集检验对比Table 3 Test set comparison

为进一步显示三种不同方法对于强降水过程的预测性能,图6 分别给出了30 dBZ阈值样本子集的三种模型FAR 和HSS 测试集平均得分在6~60 min的时间变化。可以清晰的看出,30 dBZ阈值下三种方法的平均FAR 及其离散度均随时间逐渐增加,平均FAR 由低至高依次为TAGAN、3DUnet 和光流法。三种方法的平均HSS 随时间则逐渐降低,同时离散度随时间而增加,TAGAN 平均HSS 评分最高,而3DUnet 在前30 min 优于光流法,但30 min后性能差于光流法。总体看,TAGAN模型的强降水过程预测性能依然明显好于其他两种方法。

图6 30 dBZ 阈值下三种模型FAR 和HSS 测试集平均得分随时间变化(折线),阴影上下界代表测试集所有样本得分的上下四分位数Fig. 6 Average scores of the False Alarm Rate and Heidke Skill Score test sets of the three models under 30 dBZ threshold change over time (broken line): the upper and lower bounds of the shade represent the upper and lower quartiles, respectively, of the scores of all samples in the test set

为了更加直观和定量化的展示不同模型之间的差异,选取四组个例并对它们6~60 min 预测的效果作详细分析。图7 首先给出了这四组个例在最后一帧(60 min)的三种不同方法与真实场的回波分布情况,总体上三种方法能较好地预测这四个个例未来一小时的回波系统位置以及强度。从清晰度看,光流法的清晰度最高,但图像有扭曲现象,其次为3DUnet,TAGAN 相对模糊。两种深度方法的清晰度均弱于光流法,主要是由于深度学习模型预测过程中使用了平均平方误差(MSE)和平均绝对误差(MAE),这两个损失函数容易造成预测图像的模糊化,且图像模糊情况随着时间增加,它们更趋向一个“平均”的结果。但是,如果仔细对比这些个例的强回波区(如大于30 dBZ区域)的位置以及强度,会发现TAGAN 的预测情况较光流法和3DUnet 更接近真实的回波分布,即光流法和3DUnet 对于强回波的区域的预测存在部分偏移以及局部地区系统把握不准所致,导致FAR 偏高。而TAGAN模型的图像更为平滑,回波形状与真实形状相符合,FAR 更低。为更细致地刻画三种方法对强回波的预测效果,图8 进一步给出了四组个例对预测的10 个时次逐次计算的FAR 和HSS 得分。可以看到,TAGAN 在6~60 min时段预报的虚警率明显低于光流法和3DUnet,与此同时TAGAN的HSS 评分也明显高于其余两种方法。并且,随着时间的推移,其他两种方法相对TAGAN 的性能差距进一步拉大。相对而言,光流法和3DUnet 对这四个个例的6~60 min 预测评分接近。

图7 四组预测个例最后一帧对比。(a–d)分别为四组回波过程,每一列分别为真实过程、Rover、TAGAN、3DUnet 在四组预测个例中的最后一帧Fig. 7 Comparison of the last frame of the four sets of prediction cases, where (a–d) are the four sets of echo processes, and each column is the last frame of the real process, Rover, TAGAN, and 3DUnet in the four sets of process predictions

图8 四组预测个例三种模型(红色:3DUnet,绿色:Rover,蓝色:TAGAN)6~60 min 30 dBZ 阈值的FAR(实线)和HSS(虚线)技巧评分Fig. 8 Four groups of prediction cases and three models (red: 3DUnet; green: Rover; and blue: TAGAN) under 6–60 min of 30 dBZ threshold FAR(solid line) and HSS (dashed line) skill scores

此外,为进一步对比三种方法个例中强回波区随时间的演变,分别计算了四个个例大于30 dBZ强回波主体(图9 红框区域)质心在6~60 min 的变化(图10),可以清晰地看出TAGAN模型对强回波主体随时间变化的预测与真实情况更为接近。以个例4 为例(图10d),TAGAN模型预测的强回波区移动以西南—东北向为主,与真实情况相接近,而光流法则是以西南—东北偏南为主,3DUnet 的偏移更大,以偏北移动为主。从这四个个例强回波质心的相对移速和60 min 的质心位置看,TAGAN模型仍然优于其它两种方法。

图9 四组预测个例第一帧回波图真实值,其中红框为计算质心的范围(覆盖未来9 帧回波主体范围),蓝线轮廓为回波值大于30 dBZ 的回波主体Fig. 9 True value of the first frame of the four groups of prediction cases: the red box represents the range of the calculated centroid covering the range of the echo subject of the next nine frames), while the blue line outline is the echo subject with an echo value greater than 30 dBZ

图10 四组预测个例10 个时次回波值大于30 dBZ 回波主体的质心移动轨迹。其中,红色:真实回波;棕色:3DUnet;灰色:Rover;绿色:TAGANFig. 10 Four groups of prediction cases during the 10 times the echo value is greater than 30 dBZ. Center of mass movement trajectory of the echo subject: real echo (red); 3DUnet (brown); Rover (gray); TAGAN (green)

其中雷达质心的计算方式如下:

式中,m(i,j)为横纵坐标为(i,j)的网格上回波反射率大于30 dBZ的值。

因此,综合以上四个个例的结果分析表明,TAGAN模型在三种方法中性能最优,尽管光流法和3DUnet 的图像清晰度高于TAGAN,但更容易出现扭曲和偏差现象,导致误报率明显上升以及预报准确率的下降。另外,在TAGAN模型的训练和预测过程中发现,对于TAGAN 在训练过程中如果提高对抗损失函数的权重,生成的图像也会相对更加“锐化”,但却会出现图像清晰后回波位置准确度明显降低的现象,从而导致检验评分下降的情况,因此超参数的设置对最终预测图像的效果至关重要。3DUnet 的预测性能相对较差可能与其模型参数量小有关,虽然3D 卷积在处理时空序列数据时比2D 卷积有强大的优势,Unet 多尺度融合的结构也常用来生成高分辨率的图像,但参数量小可能会导致模型的泛化能力大大下降,在预测复杂多变的任务时效果会欠佳。

4 结论与讨论

雷达回波外推为短时临近预报提供了重要的指导,本文使用TAGAN模型进行临近预报试验和多模型对比检验。该模型在传统的多层编码解码结构的基础上将两种注意力模块组合嵌入结构中,在输入的雷达回波数据中融合对应时刻的光流数据,并在训练时结合对抗生成损失函数、权重的MSE 和MAE 等多种损失联合训练模型,以此提升模型的预测能力。研究结果表明, TAGAN 在多种检验指标的评分上优于基于卷积神经网络的3DUnet模型和传统Rover 光流法模型。总体上,虽然光流法的预测图像清晰度高于TAGAN 和3DUnet 深度学习

模型,但在各项评分指标上深度学习模型尤其是TAGAN 优于光流法。相较而言,3DUnet 和光流法在未来一小时的预报场上会更多出现回波图像扭曲和偏差现象,对强回波系统执行的移动描述能力有待提高。另外,TAGAN 的超参数设置对预测效果作用明显,随着损失函数中对抗损失函数权重的提高,图形清晰度随之提高,但清晰度到达一定程度后其整体评分反而会出现下降的情况。

需指出的是,试验过程中我们尝试了不同损失函数的组合。发现如只用MSE 和MAE 损失函数,清晰度明显较光流法预测差,主要原因是在使用MSE 损失函数的时候假设数据是高斯分布的,但在梯度反传的时候,损失函数计算的是拼接在一起的序列预测值与真实序列值,于是对空间上出现的不连续回波区和时间上的旋转和耗散拟合不够,导致训练的结果是在总体上的距离与真实分布相近,因此预测的结果就会出现直观上的一个“平均”现象。另一方面,但是如果只使用对抗损失或者以对抗损失为主导的损失函数,则容易出现模式崩塌现象。例如,预测的数据本应局限在有雷达回波的位置,但却覆盖了整个空间并出现明显的不连续以及不合理回波区。这主要是由于GAN 训练过程中,目标映射可能不在生成器的可表示泛函空间之中,导致了收敛困难。因此,有必要同时结合MAE、MSE 和对抗损失进行模型构建。

需指出的是,近年来机器学习在气象领域应用广泛,而利用深度学习方法进行雷达回波外推及短时预测作为当前的一个研究热点仍存在三个亟待解决的问题:(1)雷达回波或降水数据集历史积累不够,样本量需要进一步扩大。传统的解决办法包括但不限于:针对数据集过采样、欠采样、使用带权重的损失函数以分割数据集训练不同的模型训练然后集成。但试验中发现效果提升不明显,反映在模型预测中强回波过程的强度和落区不能很好地表现出来,一些强回波过程诸如台风,因训练集中样本较小导致预测效果很差。此外,机器学习严重依赖数据集的质量和特征工程,数据集的质量直接决定了预测效果的下限,如何从气象的角度出发构建清洗数据集并提高数据质量,针对包括雷达回波外推在内的气象预测任务做出更对应的特征工程亟待解决。(2)预测图像模糊,这是当前雷达回波外推深度学习乃至视频预测领域的难题,当图像的尺寸较小时效果尚佳,但当做高分辨率预测时模糊的问题尤其凸显,本次试验也对改善此问题做了一定的尝试。除了引入改善图像的损失函数外,另一解决办法就是将高分辨率图像分割成尺寸较小的不同块训练,在预测时再拼接回去,但这样会造成整体图像不连续拼接痕迹明显。(3)预测效果随时间变差,PredRNN++(Wang et al., 2018)的设计结构以及其使用的CausalLSTM 单元对此问题有一定的改善。综上,深度学习方法对降水临近预报业务的提升具有一定的科学意义和较好的应用,但仍有待进一步探索和研究。

致谢感谢深圳市气象局与香港天文台根据近年的雷达数据共同建立的“标准雷达数据集2018”。感谢审稿专家和编辑对本文的改进提出的宝贵意见。

猜你喜欢

损失卷积雷达
基于3D-Winograd的快速卷积算法设计及FPGA实现
胖胖损失了多少元
卷积神经网络的分析与设计
DLD-100C型雷达测试方法和应用
从滤波器理解卷积
玉米抽穗前倒伏怎么办?怎么减少损失?
雷达
基于傅里叶域卷积表示的目标跟踪算法
基于空时二维随机辐射场的弹载雷达前视成像
菜烧好了应该尽量马上吃