APP下载

基于EOF的高时空分辨率自动站温度观测资料质量控制

2022-08-04邵宇行秦正坤李昕

大气科学学报 2022年4期
关键词:站点观测错误

邵宇行,秦正坤,李昕

① 中国科学院 大气物理研究所 国际气候与环境科学中心,北京 100029; ② 中国科学院大学,北京 100049; ③ 南京信息工程大学 大气科学学院/资料同化研究与应用联合中心,江苏 南京 210044; ④ 中国气象局 交通气象重点开放实验室/南京气象科技创新研究院,江苏 南京 210008

气象观测资料是进行天气预报、气候预测、重大天气灾害预警预报以及各类气象服务和气象研究的基础,也是推动大气科学发展的原动力。气象观测资料质量的好坏决定了各类预报及预测的准确性以及各类气象服务的水平,良好的资料质量是进行天气和气候变化研究的前提和保障(王可丽等,2001)。

近年来数值天气预报水平得到显著提高,但是数值模式对于地面天气变量的模拟能力仍然存在一定的不足(Zheng et al.,2009;马旭林等,2017),丰富的地面观测信息有助于更好地认识地面天气变化的动力和热力机制,进而改进模式对地面信息模拟能力,所以地面观测技术的发展对于提高大气边界层乃至高层数值预报水平都有重要价值(徐枝芳等,2007;张利红等,2009)。随着观测技术的发展,目前我国已经建立了巨大且密集的地面气象观测网络,全国已建成约70 000个自动气象观测站,自动气象观测站能够定时、定点的观测和记录地面气象信息,并且能够在复杂的地形下进行无人观测(张慧,2012)。

2020年4月起中国气象观测正式实现了全面地面观测自动化,但是随着自动化气象观测事业的发展同时也带来了些许问题。徐浩然(2019)指出随着观测自动化的实现,原有的业务模式发生改变,但是地面观测技术的不稳定导致地面观测资料更容易出现质量问题,这也是目前自动站观测资料利用率较低的原因之一。我国自动气象站观测站的高空间分辨率特征也使得其质量问题更为复杂,自动观测站资料的质量控制工作也更为困难。因此在我国全面实现观测自动化的现状下如何通过质量控制来保证观测资料的质量,提高自动站观测资料的利用效率具有重要意义。

Lorenc and Hammon(1988)指出观测资料的质量控制是资料应用的关键步骤。对于常规观测资料的质量控制研究也得到了众多学者的重视。Gandin将气象观测资料可能误差归类为随机误差、系统性误差、过失误差等(Gandin,1988)。熊安元(2003)介绍了北欧国家实时和非实时气象资料质量控制流程,同时指出了我国在观测资料质量控制方面还存在许多差距。陈兴旺(2011)综合考虑了自动站质量控制过程中的各种误差,应用多元线性回归分析建立自动站与人工站的误差分析,可以有效减少自动站的误差。闵锦忠等(2018)采用传统质量控制方法及综合决策算法分别对国家站和区域站资料进行系统的质量控制有效地改善实时资料质量。傅娜等(2014)运用Barnes插值法对上海自动站逐时气温资料进行空间一致性检查,分析了此方法的区域适用性。除基于气候极值范围检查、内部一致性检查、时间一致性检查、空间一致性检查等传统质量控制方法研究。此外一些学者也提出了一些新的质量控制方法。李良富等(2006)提出了一种基于人工智能的黑板模型气象资料质量控制方法,但仅用于地面航空气象业务。叶小岭等(2016)提出一种基于自回归与反距离加权的空间质量控制方法——AI方法能够在时间维度和空间维度对气象资料进行质量控制且稳定性高,适用性强,但仅适用于单站温度资料质量控制。黄颖(2012)基于混沌理论、GIS技术及雷达测量动态数据处理等方法对不同时间尺度下的观测序列提出了质量控制方法,但其对阈值依赖性极强。

虽然有很多研究关注了地面观测资料的质量控制问题,但是大部分研究都专注于单站观测资料的正确性判别。为了充分利用气象变量空间连续性特征进行质量控制,叶小岭等(2019)提出了一种基于空间相关性和B样条曲面拟合的地面气温观测资料质量控制算法,能更有效地标记出气温观测数据中的可疑值。Qin et al.(2010)对全国3 197个站点的8 d逐3 h的站点观测地面温度和对应的再分析资料进行了分析,提出首先利用EOF(Empirical Orthogonal Function)分析方法提取观测资料和再分析资料中可能存在较大差异的温度日变化等周期性变化部分,再根据观测资料和背景场资料两者剩余模态重构结果的差值进行质量控制,结果表明可以很好地消除天气变化对质量控制的影响,避免因为大尺度天气系统异常所导致的温度异常资料被质量控制方法错误剔除。赵虹等(2015a)进一步检验了应用EOF质量控制方法后的地面观测资料的同化影响,证明了质量控制后的地面观测资料能够明显提高降水的短期预报效果。赵虹等(2015b)还提出了递归正交经验质量控制方法(Rec-EOF QC),并应用于地面2 m比湿资料中,得到了满意的效果。

虽然Qin et al.(2010)提出的基于EOF分析的质量控制方法能够很好应用于全国3 197个站点的情况,但目前全国已经有了近70 000个地面自动观测站,空间分辨率提高了近20倍,高密度的自动站观测资料能够分辨更多的小尺度天气异常,基于EOF的质量控制方法能否适用于目前如此高分辨率的自动站观测资料,这就需要进一步的研究。本文将利用前人提出的基于EOF分析方法的质量控制方法,针对目前自动站观测资料的高时间和高空间分辨率特征,对该方法进行适应性的调整,并利用我国中东部的自动站观测资料进行实际质量控制试验,检验改进后的质量控制方法对高分辨率观测资料的适用性,从而为我国全面观测自动化背景下的自动站观测资料的业务质量控制研究提供一定的参考。

1 资料及数据预处理

本文利用江苏省气象局提供的2019年12月1—7日,共168个时次的逐小时地面自动观测站温度资料作为研究对象,所有观测资料的时间都为北京时(如无特别说明,以下所有时间均为北京时)。高水平分辨率是自动站观测资料的主要特点,图1给出了自动站站点的空间分布特征,这里选择的研究区域为113°~123°E、29°~39°N,在选择区域中共有近7 000个站点,其中站点主要分布在江苏、山东和安徽。

图1 研究区域的地面自动观测站点(灰色点)水平空间分布Fig.1 Spatial distribution of ground automatic observation sites (gray points) in the study area

由于观测资料中存在大量缺测资料,为了保证研究结果的普遍性,需要对缺测时刻进行时间插值,但是由于某些站缺测时刻过多导致时间插值后存在极端异常值,因此首先对观测资料进行筛选,筛选的条件如下:1)前五个时次无缺测,2)后五个时刻无缺测,3)168个时次至少有1/10资料无缺测。最终在研究区域选择了4 983个观测站,将地面温度观测资料记为:

(1)

其中:代表观测站;代表观测时次;代表温度观测变量。

引入ECWMF(European Centre for Medium-Range Weather Forecasts)的ERA5(ECMWF Reanalysis V5)再分析资料作为质量控制的背景场。背景场资料空间分辨率为0.25°×0.25°,时间分辨率为1 h。为保证背景场和地面观测资料的空间分辨率一致,采用多项式插值法将格点数据插值为站点数据,将插值后的背景场资料记为:

(2)

前人研究表明,地形高度对地面温度有非常重要的影响(徐枝芳等,2007)。而从图1中可以看出自动观测站点具有高水平分辨率特点,背景场的分辨率无法很好地分辨观测站点的地形高度。因此首先根据背景场资料高度和观测站点高度,以干空气温度的垂直递减率为标准,对背景场温度进行高度订正,具体订正公式表述如下:

=1,2,…,168。

(3)

其中:代表观测站;代表观测时次;表示地形高度(单位:m)。

2 常规质量控制

根据中国气象局发布的《地面气象观测资料质量控制》一书规定,地面温度的气候学界限范围是-80~50 ℃,因此将观测资料中超过此界限的温度数值定义为错误资料。另外当地面温度的逐小时变温超过10 ℃时,定义该观测资料为错误资料。

为了避免错误的极端观测资料对常规质量控制的影响,我们首先利用双权重标准差的方法对单站资料进行常规质量控制。对于任意一个站点,其双权重平均值和双权重标准偏差可以按照如下公式计算:

(4)

(5)

(6)

图2 前100个站点双权重均值与温度值偏差(红色实线为三倍标准差,单位:℃)Fig.2 Deviation between the double-weight mean of the first 100 stations and the temperature value (the solid red line is three standard deviations;unit:℃)

图3 M6278站(118.27°E,34.02°N)常规质量控制确定的错误资料(红点)Fig.3 Error data of station M6278 (34.02°N,118.27°E) detected by routine quality control (red dot)

经过常规质量控制后,共有2 247个站点未有资料剔除,有2 531个站点仅有1次资料被剔除,200个站点有2次资料被剔除,有5个站点有2次以上资料被剔除(图4)。总体而言,自动站观测资料表现出很好的资料质量。为了便于后续EOF分析方法的应用,对于常规质量控制确定为错误的资料将再次进行时间上的三次样条插值,将插值后的观测值作为后续的质量控制的初始资料。

图4 常规检测方法剔除资料量的空间分布(灰色表示没有错误资料;绿色表示有一个时次错误资料;蓝色表示有两个时次错误资料;红色表示有大于两个时次错误资料)Fig.4 Spatial distribution of data quantity removed by the conventional detection method.Gray indicates that there are no incorrect data;green indicates that there is a time error datum;blue indicates that there are two error data;and red indicates that there are more than two error data

3 EOF质量控制方法

常用的质量控制方法是通过分析观测资料和背景场的差值,将其差值大于某个阈值的观测资料认定为错误资料并剔除。但这种质量控制方法应用的前提条件是两种资料的差值满足随机分布,并且差值应该集中在差值的平均值附近。大部分情况下,两种资料之间不存在系统偏差,或者系统偏差较小,所以差值的平均值往往是0值。但是由于背景场对真实天气模拟不准确,背景场和观测资料的偏差包含了很多背景场的模拟误差,当背景场对某种具有周期性变化特征的天气系统的模拟存在位相偏差时,背景场和观测资料的差值就会具有明显的周期性特征。Zou and Qin(2010)研究表明再分析资料对地面温度的日变化模拟就存在位相偏差,导致了观测和再分析地面温度的差值存在周期性特征,不能满足随机分布的假定条件。所以在对差值进行标准差检验前,首先需要保证差值尽可能满足随机分布特征。为了满足随机分布这个前提条件,Qin et al.(2010)提出利用EOF分析方法,从观测资料和背景场资料中分别提取出具有时间和空间周期性的天气系统信息,保证进入差值检验的观测资料和背景场资料中不包含周期性的天气信息,进而使得两者的差值尽可能满足随机分布的要求。

EOF分析方法是气象研究中经常用于提取有规律的天气系统信息的重要方法,该方法可以将3维变量分解为多个2维空间模态和对应1维时间系数的乘积之和:

(7)

根据模态重要性的不同,可以将3维分析资料分解为两个部分,即前个重要模态重构部分和剩余模态重构结果,那么观测资料和背景场就可以表示为:

(8)

(9)

很多研究证明EOF方法能够提取分析资料中的大尺度天气信号,Qin et al.(2010)的研究利用这一性质提取全国地面温度站点资料的大尺度空间特征。但是需要指出的是这里的大尺度天气系统是相对观测资料的空间覆盖区域而言的大尺度天气系统。当观测资料空间分辨率增加,观测资料能够分辨更多小尺度的温度变化特征,如果这些变化的空间尺度远小于EOF分析区域的空间范围,就容易导致EOF分析方法无法提取这些小尺度温度变化特征。图5给出了分别利用EOF前3、4、5、6、7、8个模态提取后剩余部分的温度空间分布,可以看到虽然经过了多个模态提取,安徽中东部一直存在一个明显的低值区域,最低温度可以达到-3 ℃以下。图6给出的此区域的观测温度空间分布,可以看出此区域存在一个小尺度的低温系统,由于自动站空间分辨率的增加,使得自动站能够观测更多的小尺度温度变化特征,但是这些温度变化特征对于整个中国地区而言,属于小尺度变化信息,所以针对整个中国地区进行EOF分析,很难提取这些小尺度温度变化信息,这就容易导致质量控制中整个低温区观测资料被剔除的现象。但是从实际观测资料可以看出,该区域有近30个站点同时表现出低温现象,根据观测误差的随机性可以知道以上站点同时出现错误观测的概率极低,这也证明利用全国站点资料进行EOF分析方法不能适用于目前高空间分辨率的自动站观测资料。

图5 2019年12月2日11时(第36时次)利用前3(a)、4(b)、5(c)、6(d)、7(e)、8(f)个模态观测余差空间分布(红色框为显著低值区)Fig.5 Spatial distribution of residual part built by removing the first (a) 3,(b) 4,(c) 5,(d) 6,(e) 7 and (f) 8 modes at 11:00 BST on December 2,2019.The red box is the significantly low value area

图6 2019年12月2日11时(第36时次)自动站观测温度(单位:℃)空间分布Fig.6 Spatial distribution of observed temperature (unit:℃) at 11:00 BST on December 2,2019

由于EOF能分辨的空间尺度与其分析的空间范围成正比,所以缩小EOF分析区域是保证EOF方法能够提取更多小尺度天气系统信息最直接的方法。通过缩小单次检验区域的对比试验发现,当区域的空间范围为4°×4°时,就可以很好的提取所有小尺度空间变化信息。图7给出了不同模态下观测余差空间分布,可以看出,基本没有强的异常中心,余差的温度变化在±1.5 ℃范围内,远低于图5中的最高可达3 ℃的温度异常,这就表明利用小区域进行EOF分析,可以很好地识别观测资料中的小尺度温度异常信息。

图7 2019年12月2日11时(第36时次)局部区域前3(a)、4(b)、5(c)、6(d)、7(e)、8(f)个模态观测余差(单位:℃)分布Fig.7 Spatial distribution of residual temperature (unit:℃) built by removing the first (a) 3,(b) 4,(c) 5,(d) 6,(e) 7 and (f) 8 modes at 11:00 BST on December 2,2019 in the small domain

因此本文将所研究区域113°~123°E、29°~39°N划分成16个4°×4°的子区域(以113°~117°N、29°~33°N为第一个子区域,然后逐次向左或者向上移动2°构成新的子区域),并对每个子区域分别进行滚动的质量控制试验。

比较图7中不同模态的分析结果可以发现,利用EOF对小区域观测资料进行温度变化信息提取后,在观测余差空间分布图中,当EOF模态增加到前6个模态时,余差的正负极值覆盖区域达到了最小,当模态继续增加时,极值覆盖范围出现了增加的现象,所以小区域的质量控制中,我们选择前6个模态进行EOF提取,从而原始数据可以写成以下形式:

(10)

(11)

每个子区域EOF质量控制,主要步骤如下:

图8为提取前后观测资料的概率分布,其中黑色实线为最接近的正态曲线,可以看到观测资料有很强的系统偏差,平均温度为3.82 ℃,大部分资料集中在平均值附近(图8a),但是在进行EOF提取之后观测余差分布集中在-3~3 ℃,频数分布型接近高斯分布(图8b),因此证明了观测资料在进行EOF提取之后剩余资料能够更好的满足随机分布特征。背景场资料也可以得到相似的结果(图略)。

图8 2019年12月1—7日EOF提取前(a)后(b)自动站温度观测资料概率分布(×104;黑色实线为最接近的正态分布函数曲线)Fig.8 Frequency distribution of (a) observed temperature and (b) temperature after EOF extraction from December 1 to 7,2019 (×104;the black solid line is the closest normal distribution curve)

利用EOF分析方法提取规律性温度变化信息后,观测资料和背景场的余差都能够更好地满足随机分布特征,根据随机分布的特性可以知道,两个满足随机分布的序列的差值也应满足随机分布,所以两者的差值可以作为质量控制的基础数据。虽然观测资料在提取后能够更好地满足随机分布,但是背景场是由模式模拟系统和同化系统共同生成的,会存在模式模拟和同化过程中的系统性偏差,所以应对观测和背景场余差的差值特征做进一步的分析。

图9 观测余差与背景场余差差值的标准差随地形高度变化曲线Fig.9 Standard deviation of the difference between observed residual and background field residual varying with the terrain height

当16个子区域资料经过质量控制后可以得到每个子区域每个时次的离群点分布情况。对于某些子区域之间存在重叠的情况,重叠区域中某站点只要在某一子区域被判定为错误资料则将该资料最终判定为错误资料。

4 质量控制结果

利用2019年12月1—7日自动站观测资料,我们对整个研究区域进行实际质量控制试验,新质量控制方法各时次识别的错误资料个数如图10所示,平均剔除资料为每日48个,剔除率约为0.96%,大部分时次错误资料量都稳定在50个左右,仅在第136时次和第146时次错误资料个数异常偏多。由于错误观测的发生概率通常认为是满足随机性的,所以质量控制方法识别的错误资料量的时间稳定性也可以很好地证明质量控制方法的有效性。

图10 2019年12月1—7日空间检测方法剔除资料量的时间变化曲线Fig.10 Hourly data count of error data detected by the new quality control method from December 1 to 7,2019

为了进一步检验质量控制方法的正确性,我们利用单个时刻的检测结果进行进一步分析。根据剔除资料量的曲线特征,我们选取两个时刻检验质量控制方法的正确性,分别是第82(12月4日09时)和146(12月7日01时)时次。其中第82时次(12月4日09时)剔除资料量接近平均剔除量,而第146时次则是明显高于平均值。

图11给出了第82时次离群点分布情况,此时次共剔除78个站点,剔除站点主要分布在山东中部至江苏北部、安徽南部及西南部。错误资料的空间分布也表现出了很好的随机性特征,并未出现明显的错误资料空间聚集的现象,这就可以证明质量控制方法能够很好地避免因为温度小尺度急剧变化对质量控制结果的影响。为了明确剔除资料的正确性,我们给出了其中3个剔除资料站点及其周边站点的温度量值及海拔高度空间分布(图12)。I6653(116.54°E,31.17°N)、I6474(116.83°E,31.05°N)、I5565(117.15°E,31.22°N)3个站点在第82时次判定为错误资料,根据这三个站点第82时次的温度及其周围站点温度分布显示,此三个站点在第82时次相较余于周围站点温度为异常低值,而且从地形高度来看,这三个站点的地形高度并没有明显不同于周边站点,每个站点周围都分布了多个同样高度的观测站点,也可以排除地形高度增加导致地面温度急剧下降的情况,所以可以认定新质量控制方法判定的错误资料是合理的。第146时次是错误资料最多的时次,图13给出了错误资料的空间分布。错误资料的分布覆盖了整个研究区域,其中山东北部、安徽和江苏的南部分布最为密集。同样随机选择小区域(图13中蓝色框)对检测结果的正确性进行验证。首先给出了该区域的温度分布(图14),站点观测资料温度分布由西北及东北向中心递减,低值中心位于区域北部,ERA5再分析资料温度分布由西南及东北向中心递减,低值中心位于区域西北部,根据观测资料显示此区域温度范围为0~2.2 ℃,而且绝大部分站点都是位于60 m高度左右,因此并不存在地形高度导致的温度急剧变化现象。由图15可以看出,第146时次大多数剔除站点温度数值相较于周围站点温度数值表现为异常值并且不符合此区域温度范围,因此也可以认定检测结果是合理的,利用传统的OMB质量控制方法此区域内异常温度数值未能检测出来(图略),这可能是由于传统的OMB方法不能根据天气变化调整阈值,当温度量值较小的时候,错误观测资料和背景场的差值明显大于周边站点,但是依然小于设定阈值。新的质量控制方法可以有效提取主要温度的变化特征,从而可以获得更为普适的检测阈值。但是阈值依然是影响新质量控制方法的重要因素之一。如图15的右上部分,出现在120.5°E、32.7°N附近的两个高温站点,站点温度分别为3.8和4.2 ℃,这两个站点没有剔除,这可能和阈值设定有关,在今后的研究中还需要根据实际情况进一步调整阈值。

图11 2019年12月4日09时(第82时次)错误资料点(红色点)分布情况Fig.11 Spatial distribution of error data points (red points) at 09:00 BST on December 4,2019 (82nd time)

图12 16653、16474、15565及其周围站点2019年12月4日09时(第82时次)温度(图中数值为气温,单位:℃;阴影区域为高度,单位:m)Fig.12 Spatial distribution of observed temperature for 16653,16474,15565 and surrounding stations at 09:00 BST December 4,2019 (82nd time) (the figure shows the air temperature,unit:℃;the shaded area is height;unit:m)

图13 2019年12月7日01时(第146时次)观测站点分布(红色为离群站点,灰色为保留站点,蓝色矩形为检验区域)Fig.13 Spatial distribution of stations at 01:00 BST on December 7,2019 (146th time;red represents outlier stations,gray is the reserved site,and the blue line width is the inspection area)

图14 2019年12月7日01时(第146时次)观测温度(a)和ERA5再分析资料温度(b)分布(阴影单位:℃)Fig.14 Spatial distribution of (a) observed temperature,and (b) ERA5 reanalysis data temperature at 01:00 BST on December 7,2019 (unit:℃)

图15 2019年12月7日01时(第146时次)局部温度数值(红色为剔除站点温度数值,阴影区域为高度,单位:m)Fig.15 Spatial distribution of observed temperature value (red represents the stations that are excluded;the shaded area is height;unit:m) at 01:00 BST on December 7,2019 (146th time)

最后给出了2019年12月1—7日自动站观测资料经过EOF质量控制后的错误资料量的空间分布特征(图16),共有2 229个站点资料质量较高,168个时次中未有错误资料出现,这些站点主要分布在观测站点密集的江苏、山东和安徽省内,这3个省以外的站点基本都出现了错误资料情况,其中2 652个站点有10次以下的错误资料,81个站点出现了10~20次错误资料,8个站点有20~30次剔除,有13个站点有大于30次剔除,大于30个时次的剔除站点主要分布在江苏省东部和河南省中部。

图16 2019年12月1—7日累积剔除资料量的空间分布(灰色表示没有剔除;蓝色表示有1~10次剔除;绿色表示10~20次剔除;黄色表示20~30次剔除;红色表示大于30次剔除)Fig.16 Spatial distribution of data count for error data from December 1 to 7,2019.Gray means no culling;blue indicates that there are 1—10 culls;green means 10—20 culls;yellow represents 20—30 culls;and red indicates more than 30 culls

5 结论与讨论

气象观测资料是进行天气预报及气象研究的基础,其质量问题是学者一直关注的问题,目前我国已经实现了全面观测自动化,因此提高观测资料的质量及其利用率尤为重要。本文利用江苏省气象局提供的2019年12月1日00时至7日23时,共168个时次的地面自动站温度观测资料及ECWMF的ERA5 2m温度再分析资料作为背景场信息,使用常规控制方法及基于EOF的质量控制方法对我国中东部地区2019年12月1日00时—7日23时168个时次4 983个站点进行了质量控制试验。

研究结果表明,针对高密度的观测资料,利用基于EOF的质量控制方法可以很好地提取有结构的观测系统信息并保证剩余信息能够更好地满足随机分布,利用随机概率分布特点可以很好地剔除异常观测资料,并且可以避免实际天气变化的影响。168个时次中共有2 754个站点有被剔除过,剔除站点分布均匀,剔除时次较多的站点分布在山东的中部,苏皖南部交界及江苏东部近海等地区。平均每个时次剔除站点数约为50个,每时次平均剔除率约为1%。

由于资料长度的限制,本文没有在时间上进行滚动检测检验,在后续的研究中将利用更长时间的观测资料进行滚动检测试验。另外本文所提质量控制方法在小尺度信息较多情况下依然容易受到阈值的设定影响,导致在对部分站点的质量控制出现剔除不够的现象,后续研究中还需要根据实际应用区域进行进一步研究。

猜你喜欢

站点观测错误
在错误中成长
基于Web站点的SQL注入分析与防范
2017~2018年冬季西北地区某站点流感流行特征分析
天文动手做——观测活动(21) 软件模拟观测星空
2018年18个值得观测的营销趋势
首届欧洲自行车共享站点协商会召开
怕被人认出
可观测宇宙
高分辨率对地观测系统
不犯同样错误