基于多源数据的地面降水质量控制方法研究

2022-10-18殷笑茹焦圣明喜度程婷李玉涛

气象科学 2022年4期

殷笑茹焦圣明喜度程婷李玉涛

(1 江苏省气象信息中心，南京 210008;2 中国气象局交通气象重点开放实验室，南京 210008;3 江苏省气象台，南京 210008)

引言

自动站是我国观测地面降水量的直接工具，截至2020年，全国已布设7万多个地面自动站，形成了空间分布广，时间分辨率高的地面降水观测网络[1-2]。无论是精细化预报、灾害预警监测还是决策服务都需要高质量的降水数据做支撑[3]，但由于自动站观测方法或观测环境恶劣等因素均可以造成雨量测量的误差，特别是区域自动站大多处于无人看守的野外，数据采集传输受到电力、通信条件的限制，所以降水数据质量无法完全得到保障[4-7]。

我国投入业务应用的气象资料业务系统(MDOS)采用三级质量控制流程[8-9]，利用界限值检查、气候极值检查、内部一致性检查、时间一致性检查和空间一致性检查等[10]方法对自动站测量的降水量进行质量控制。这些检查方法建立在某一空间范围内要素分布均一的假设下，对于降水则有很大的局限性，尤其是夏季强对流天气较频繁的情况。2017年5至9月MDOS提出小时降水量疑误信息为3 880条，经过人工审核判断正确的有2 920条，命中率仅为24.7%。大量数据被标注为可疑，对于业务应用是个极大困扰。因此，研究地面降水质量控制方法，以期提供更快速更准确的降水数据供气象、水利、农业等部门使用是十分必要的。

随着各类观测资料和产品数量和种类不断增加，引入多种资料对降水进行综合判断是提升降水质量控制方法准确性的有效途径。丛芳等[11]通过分析雷达估测降水与地面实测降水的相似离度对降水进行质量控制，但该方法只适用于雷达资料连续完整的理想情况。张志强等[12]通过分析雷达估测降水与自动站雨量的标准差制定阈值进行检测。井高飞等[13]在空间一致性检查的基础上利用双偏振雷达资料对自动雨量计开展质量控制。徐全倩等[14]分析国家级多源降水融合产品对区域站雨量的系统偏差进行检查。上述方法引入雷达资料主要是通过Z-I关系式得到估测降水量来进行自动站雨量质量控制，但Z-I关系随着时间和空间、降水类型、季节、地域的变化而变化，应用受到限制。

本文首先分析了地面小时降水量与自动站其他观测要素的关联关系，然后研究了基于神经网络的雷达定量估测降水，最后提出从自动站关联要素和雷达估测降水两个角度对地面降水进行综合质量控制，建立针对地面小时降水的多源质量控制方法。

1 资料

选取江苏省70个国家级自动站2017—2019年5—8月小时降水量大于0 mm的降水天气作为研究对象。自动站观测数据包括逐时降水量、气温、露点温度、气压、相对湿度、风速、地面温度和能见度；多普勒天气雷达数据采用南京、徐州、盐城、淮安、连云港、宿迁、泰州、南通和常州9部雷达站的基数据，时间分辨率为6 min。

为保证雷达数据质量，需对雷达基数据的反射率因子进行预处理：(1)检查最低两个PPI的反射率值是否大于50%，若是则判定存在超折射剔除最低层。(2)检测每个值周边相邻8个点是否为有效值，若只有一个则判定孤立点予以剔除。(3)逐个检查反射率大于50 dBZ的点，其相邻8个点是否大于50 dBZ，若没有则用相邻8点的平均值代替。

2 地面降水多源质量控制方法

2.1 基于自动站关联要素的质量控制方法

降水天气发生时通常伴随着气温、相对湿度、能见度等的要素的变化，为研究小时降水量与自动站观测的其他要素之间关联关系，对小时降水量与12个观测要素(气温、露点温度、气压、相对湿度、风速、地面温度、能见度、1 h变温、1 h变压、1 h相对湿度变化，1 h风速变化和1 h能见度变化)进行灰色关联度分析。灰色关联分析通过分析序列曲线之间几何形状的相似性来确定他们之间的关联程度。灰色关联度就是序列曲线之间关联程度的度量，表征着各因素之间变化量级和变化趋势的相似程度。灰色关联度越高各因素之间的关系越亲密反之亦然[15-17]。本文将小时降水量作为参考序列，其他观测要素作为比较序列，通过计算序列曲线之间的灰色关联度来确定关联关系。

实验采用CuNi2Si材料,其具体化学成分如表1所示。本文实验采用两种热处理工艺，一种是含有预冷变形处理的热处理工艺，具体热处理工艺为：850℃固溶处理+预冷变形处理+时效处理400℃保温2h，室温空冷，该材料加工的试样称为预冷变形试样，简称PCW(Pre-cold worked)试样；另一种是不含预冷变形的热处理工艺，具体热处理工艺为： 850℃固溶处理+时效处理400℃保温2h，室温空冷，该材料加工的试样称为非预冷变形试样，简称Un-PCW试样。

(1)

(2)

表1是与小时降水相关观测要素的灰色关联度值，1 h相对湿度变化值、1 h变温，相对湿度的灰色关联度排在前三，排在第四和第五的小时能见度变化值和能见度关联度与第三的相对湿度相比差距较小。孙景群[18]和李学彬等[19]都从理论上分析了能见度与相对湿度的相关性，发现能见度和相对湿度变化趋势呈现非常好的负相关，并用相对湿度来计算能见度。研究表明相对湿度变化可以很好的表征能见度变化趋势。同时，截止2021年江苏省有降水观测的1 809个区域站中，全部有气温观测任务，有相对湿度观测任务站点个数为1 473，而有能见度观测任务的站点个数为356，气压观测任务的站点数为213，选用能见度或气压作为关联要素不利于算法适用范围拓展。因此选择1 h相对湿度变化值、1 h变温，相对湿度作为小时降水的关联要素。

表1 灰色关联分析结果

按照小时降水量等级分为小雨(0～2.0 mm·h-1)、中雨(2.1～5.0 mm·h-1)、大雨(5.1～10.0 mm·h-1)、暴雨(10.1～20.0 mm·h-1)和大暴雨(>20.1 mm·h-1)[20]分别计算关联要素的均值和标准差，结果见表2。按照公式(3)分别带入3个关联要素不同等级降水下的平均值和标准差得到上下界阈值。对不同降水等级下小时相对湿度变化值、小时变温、相对湿度数据进行统计，得到不同中的累积概率分布，结果如图1。可以看到当为3时，3个关联要素累积概率均大于99%，且当继续增大分布曲线仍趋于水平，因此本文取3。

图1 不同降水等级下的累积概率分布：(a)小雨；(b)中雨；(c)大雨；(d)暴雨；(e)大暴雨

表2 关联要素均值和标准差

Vmax/min=mean±n×std，

(3)

基于关联要素的质量控制流程是首先根据小时降水量匹配到相应降水等级；然后分别判断小时相对湿度变化值、小时变温，相对湿度是否在[Vmin,Vmax]内，若在范围内权重值记为1，否则记为0；最后对每种检验结果进行综合评分给出该方法的最终检验结果，评分公式如下：

Score=40×Subl+20×Su+40×Stbl，

(4)

式中：Subl是小时相对湿度变化值检验权重；Su是相对湿度检验权重；Stbl是小时变温检验权重。设权重系数总和为100，按照关联度从大到小原则可计Subl系数为50，Subl系数为30，Su系数为20，但考虑到当湿敏电容长期处于高温高湿环境条件下，湿度传感器存在环境湿度下降后测量值反应滞后的固有缺陷，因此本文减少了Subl系数并提高了Stbl的系数。权重的系数可根据地区气候特征进行调整。当Score大于60则判定为数据正确，否则数据判定为错误。

2.2 基于雷达的质量控制方法

2.2.1 自动站降水与雷达反射率的时空匹配

研究表明获取最佳定量估测降水的雷达反射率因子的高度为1.2 km[21]，而雷达回波探测效果最好的距离是230 km以内，以此为标准确定自动站对应雷达站点。当自动站在多部雷达覆盖范围内，选择距离在35～230 km范围内最小的雷达站作为匹配雷达站。考虑江苏地区的特点，距雷达站35～50 km取1.5°仰角、50～230 km取0.5°仰角的反射率组成复合反射率[22]。在空间上，以自动站所在格点为中心，选取其上方对应的9个格点的复合反射率平均值与自动站降水匹配[23]。在时间上，采用多普勒天气雷达该整点前1 h内的10次观测值作为输入，当小时内雷达资料观测值缺测数小于5时用非缺测值的平均值替代，大于5时剔除该样本时次。

2.2.2 SFLA-BP算法

BP神经网络是目前应用最广泛的神经网络之一，通过误差的反向传播来调整连接权值，最终使误差达到最小[24]。标准BP神经网络采用梯度下降法，具有收敛速度慢、易陷入局部最小值等缺陷[25]。蛙跳算法(Shuffled Frog Leading Algorithm，SFLA)是2003年由Eusuff, et al[26]为解决组合优化问题提出的一种进化算法，利用SFLA优化BP神经网络的权值和阈值来解决标准BP神经网络存在过度依赖初始参数、易陷入局部最优值、收敛速度慢的缺陷[27-29]。

SFLA将BP神经网络的权值和阈值作为空间的一个解Xi。首先依照适应度函数(本文为均方差)对每个Xi求适应f(Xi)度并按照适应度从大到小对排序，并将Xi进行群体划分。然后根据当前各个子群体中的最优解Xib和全局最优解Xg按照公式(5)更新最差解Xiw。

(5)

2.2.3 SFLA-BP估测降水结果分析

经过2.2.1处理后共得到5 168个有效样本，选取4 136条作为训练样本，1 032条作为测试样本。为考察模型效果，用目前气象业务普遍应用的降水估测算法Z-I关系式(Z=300I0.4)以及标准BP神经网络进行比较分析。模型评价指标有均方根误差RMSE、平均绝对误差MAE、中位绝对误差MedianAE即绝对误差的中位数和偏差BIAS，计算公式如下：

(6)

(7)

(8)

(9)

图2给出了SFLA-BP模型和BP模型训练结果，SFLA在全局迭代150次时得到函数最优解即适应度函数最小值(图2a)，SFLA-BP经过12次学习后达到均方误差0.005的目标(图2b)，而BP模型由于过早收敛，经过设置最大学习次数20 000次后没有达到学习目标(图2c)。图3是三种模型估测对测试集的估测小时降水量与实况曲线。三种模型均能成功的估测出降水量趋势，Z-I关系(图3a)得到的降水量比实际降水量明显偏小，BP模型(图3b)相比于Z-I关系估测效果提升而SFLA-BP模型(图3c)整体估测降水与实况曲线最贴近。表3给出了三种估测降水模型的评价指标。对比RMSE、MAE和MedianAE，SFLA-BP均低于Z-I和BP，RMSE分别降低了37.8%和20.0%，MAE分别降低了74.8%和62.5%，MedianAE分别降低了31.0%和24.28%。BIAS方面，Z-I关系降水估测偏低明显，SFLA-BP更接近1，估测效果最好。

图3 三种模型测试集估测降水与小时降水实况对比：(a)Z-I关系;(b)BP;(c)SFLA-BP

表3 三种估测降水模型评价指标

图2 神经网络模型训练结果：(a)SFLA得到最优解的收敛曲线(×10-3);(b)SFLA-BP训练损失函数曲线;(c)BP训练损失函数曲线

根据不同降水量级进一步分析三种模型雷达降水估测效果，图4给出了三种模型对不同小时降水量等级的评价指标。从图4a—c可以看到，Z-I关系对小雨估测效果最好。在大于2.0 mm·h-1的降水估测方面BP和SFLA-BP相比于Z-I关系，RMSE、MAE、MedianAE都明显降低。SFLA-BP和BP对于中雨的估测效果近似，SFLA-BP对于暴雨和大暴雨的估测误差明显小于BP。从图4d的BIAS看到Z-I关系由于对整体降水估测普遍偏低所以在小雨估测效果最好。总体来说，SFLA-BP模型相对于BP模型有了明显改进，偏差更接近于0。SFLA-BP随着雨强的增大估测降水从高估转为低估，在强降水估测上低估程度明显小于其他两个模型。总体上SFLA良好的全局搜索能力模型能够不断调整BP神经网络的权值和阈值，从而提高了估测降水拟合精度，相比于目前气象业务中Z-I关系法估测降水效果有了明显提升。

图4 不同降水等级下Z-I关系、BP、SFLA-BP估测降水模型的评价指标：(a)RMSE；(b)MAE；(c)MedianAE；(d)BIAS

表4给出不同小时降水等级SFLA-BP估测降水的均值和标准差。按照公式(3)计算估测降水的上下界阈值，根据测试当降水等级在暴雨和大暴雨时n设置为5，小雨时设置为2，其他设置为3。当自动站降水在[Vmin,Vmax]范围内则判定为正确，否则记为错误。

表4 不同降水等级SFLA-BP估测降水均值和标准差

2.3 多源质量控制方法流程

为进一步提高地面降水质量控制准确率，对基于自动站关联要素的质量控制方法和基于天气雷达的质量控制方法得到的质控结果进行综合判断。如果两种方法得出结果均正确则该数据判为正确，质控码为0；如果其中有一个方法结果为错误则判定可疑，质控码为1；如果两种方法结果都为错误则判定错误，质控码为2。地面降水多源质量控制方法具体流程如图5所示。

图5 地面降水多源质量控制流程

3 质量控制结果分析

使用本文提出的多源质量控制方法对2019年5—6月江苏省70个国家级自动站小时降水量进行质量控制，与MDOS和人工判定结果进行对比，结果如表5。多源质量控制方法判定的可疑数据量比MDOS下降67.16%，给出确定性结论一定程度上提升了质量控制效率，同时其判定为正确数据完全包含在人工审核的正确项，人工判定的错误数据均被提出，质量控制准确率比MDOS提升了1.45%。分析MDOS疑误信息发现，误判主要集中在孤立虚假降水和局地强对流天气条件下真实降水被误判。58356站在2019年6月12日03时(世界时，下同)观测的小时降水量为14.2 mm，经过人工判定是虚假的孤立降水。MDOS没有对该数据提出疑误(图6a)。使用地面降水多源质量控制方法后给出结果为错误，该时刻自动站小时变温、1 h相对湿度变率和相对湿度都不在暴雨等级阈值范围内，SCORE得分为0(图6b)；同时SFLA-BP估测降水(图6c)该时次为0 mm，图6d验证了估测降水的正确性。58047站在2019年6月09日08时观测的小时降水量为21.5 mm，MDOS系统判定为可疑(图7a)。使用地面降水多源质量控制方法后给出结果为正确，该时刻自动站小时变温和相对湿度在大暴雨等级阈值范围内，SCORE得分为60(图7b)；同时SFLA-BP估测降水(图7c)该时次为24.5 mm，配合图7d证明估测降水是正确的。经过人工核实后该降水确为正确。通过上述个例分析，本方法对孤立虚假降水和局地强对流天气条件下真实降水比现有业务系统降水质量控制方法的准确性高。

图6 2019年6月12日03时虚假孤立降水：(a)MDOS质量控制结果;(b)气温和相对湿度时序；(c)SFLA-BP估测降水和自动站降水时序;(d)0.5°仰角反射率与自动站叠加显示

图7 2019年6月12日03时真实强降水:(a)MDOS质量控制结果;(b)气温和相对湿度时序;(c)SFLA-BP估测降水和自动站降水时序;(d)0.5°仰角反射率与自动站叠加显示

表5 2019年5—6月江苏省国家级自动站小时降水量质量控制结果

4 结论

本文在分析地面小时降水量与自动站其他观测要素的关联关系和基于神经网络的雷达估测降水的基础上，提出从自动站关联要素和雷达估测降水两个角度对地面降水进行综合质量控制。使用2019年5—6月江苏省国家级自动站小时降水量对多源质量控制方法进行验证。主要结论如下：

(1)根据灰色关联分析，选择灰色关联度排名前三的1 h相对湿度变化值、1 h变温和相对湿度作为小时降水的关联要素。对每种检验结果进行综合评分给出该方法的最终检验结果。当Score大于60则判定为数据正确，否则数据判定为错误。

(2)基于SFLA-BP的雷达估测降水结果与Z-I关系法和BP神经网络相比，RMSE分别降低了37.8%和20.0%，MAE分别降低了74.8%和62.5%，MedianAE分别降低了31.0%和24.28%，BIAS更接近1。SFLA-BP明显提高了雷达定量估测降水精度，从而提升了雷达数据对地面降水质量控制的有效性。

(3)多源质量控制方法判定的可疑数据量比MDOS下降67.16%，同时其判定为正确数据完全包含在人工审核的正确项，人工判定的错误数据均被提出，质量控制准确率比MDOS提升了1.45%。

(4)多源质量控制方法对孤立虚假降水和局地强对流天气条件下真实强降水的准确性高。

多源降水质量控制方法出现的误判集中在0.1～4 mm·h-1降水区间内，主要原因是在弱降水天气下1 h变温和1 h相对湿度变化率波动不大，同时SFLA-BP对小雨等级的估测效果低于Z-I关系。后续将研究雷达弱降水估测方法并引入自动站状态数据，以便提高对地面小时弱降水的质量控制准确率。