APP下载

基于偏最小二乘回归方法的东亚区域多模式温度集成预报试验

2020-12-28王莹张晓鹏刘文军

安徽农业科学 2020年23期

王莹 张晓鹏 刘文军

摘要 利用德国气象局(German Bureau of Meteorology,GBM)全球中期数值天气预报产品、日本气象厅(Japan Meteorological Agency,JMA)全球中期数值天气预报产品和中国国家气象中心T639数值预报产品3个子模式,采用偏最小二乘回归(partiaI least square regression,PLS)方法、超级集成(multi-model superensemble,SUP)方法和消除偏差集成平均(bias-removed ensemble mean,BREM)方法对比试验,建立2012—2013年冬季东亚区域(15°~70°N、90°~145°E)的地面气温多模式集成预报模型,并进行2014年冬季24~72 h预报时效的地面温度的多模式集成预报研究。为进一步验证集成方法的性能是否具备稳定性,以2014年2月1—9日发生的寒潮天气过程为个例进行检验分析。结果表明,多模式集成预报模型能够综合子模式优点,预报效果明显好于3个子模式,且PLS方法优于SUP、BREM集成方法。

关键词 多模式集成预报;温度预报;偏最小二乘回归方法;超级集成方法;消除偏差集成平均方法

中图分类号 P 457文献标识码 A

文章编号 0517-6611(2020)23-0247-04

doi:10.3969/j.issn.0517-6611.2020.23.065

Multimodel Consensus Forecast Test of Temperature Based on Partial Least Square Regression Method in East Asia

WANG Ying1,ZHANG Xiao-peng2,LIU Wen-jun2

(1.Emergency Warning Information Release Center of Haidian District,Beijing 100080;2.Beijing Haidian District Meteorological Bureau, Beijing 100080)

Abstract Based on the consensu forecasting data of German Bureau of Meteorology(GBM),Japan Meteorological Administration(JMA) and the T639 numerical prediction products of China Meteorological Administration(CMA),using the method and comparing which was partial least square regression (PLS) with multi-model superconsensu(SUP) and bias-removed ensemble mean(BREM), the surface air temperature of 2012-2013 consensus forecast system was developed over 15°-70°N,90°-145°E. The multi-model integrated forecast of the ground temperature of the 24-72 h forecast time in the winter of 2014 was studied.In order to further verify whether the performance of the integrated method was stable, the cold wave weather process that occurred on February 1-9, 2014 was taken as an example for verification and analysis.The results showed that the multi-mode integrated forecast model could integrate the advantages of the sub-models, and the forecast effect was significantly better than the three sub-models, and the PLS method was better than the SUP and BREM integrated methods.

Key words Multimodel consensus forecast;Temperature forecast;PLS method;SUP method;BREM method

隨着我国气象事业的发展和业务预报准确率的提升,预报员逐渐发现各家产品的初始场都存在着单一性和不确定性,欧洲中心模式、日本模式、德国模式、T639模式等多家产品现已投入业务释用,但是对我国天气形势以及要素的预报分析存在着较大差异,预报员试图通过每日检验各家模式找距平来订正预报结果,显然,模式的多样性并没有给预报员带来可信度,反而增加了原有的工作量;既然各家产品各有优点,可以考虑提供一种相对更为稳定的客观预报模式——多模式集成预报。这个方法最初是由Krishnamurti[1]于1999年提出,对其进行了大量的试验检验,表明其预报效果远优于子模式和多模式集合平均[2]方法。杜振彩等[3]给出集成模式的2种收敛方法:一是给各模式相同的权重;二是基于模式贡献赋模式不同的权重,模拟贡献越好,赋的权重越高。赵声蓉[4]利用BP神经网络方法对2 m高温度进行了多模式集合,集合效果明显优于3个子模式。智协飞等[5-8]提出滑动训练期超级集合方法预报北半球地面气温,结果表明超级集合预报在短期预报中要优于最好的子模式的结果,随着预报时效的延长,预报准确率下降。

1983年由Wold等[9]提出了偏最小二乘回归(partiaI least sguare regression,PLS)方法。舒守娟等[10]将PLS方法应用到我国区域气温空间分布的建模中,分析表明,该方法能够准确地拟合我国实际气温的空间分布,具有一定的价值。近年来,PLS方法已应用于气象要素的预报中,其优越性已得到显现。PLS方法是一种新型的多元统计数据分析方法,在解决多重相关性问题上,可很好地达到目的(与岭回归法、主成分回归法一样),同时,PLS方法可以通过使用比自变量个数少很多的主成分来降低回归方程建模的维度。针对3个多重相关性相对严重的子模式降水数据,很多集成方法去掉多重相关变量的做法不可取,常会舍弃本应保留的系统信息,增大模型的解释误差,导致作出错误决策的风险不断加大,而PLS方法在回归建模中提取所有自变量的主成分,通过交叉有效性检验,合理地确定引入参加建模的主成分个数以保证PLS模型预报精度。结果表明,在不同预报时效下,PLS集成模型在晴雨预报、不同降水量级的空报率、小雨预报效果上比超级集成(multi-model superensemble,SUP)模型、消除偏差集成平均(bias-removed ensemble mean,BREM)模型和任意子模式均要优异,并通过个例验证,该集成方法给预报员作出确定性预报结果提供一定参考。

该研究对德国气象局(German Bureau of Meteorology,GBM)全球中期数值天气预报产品、日本气象厅(Japan Meteorological Agency,JMA)全球中期数值天气预报产品和中国国家气象中心T639数值预报产品3个子模式数值中心2014年冬季(12月—次年2月)东亚区域(15°~70°N,90°~145°E)的地面气温预报进行多模式集成预报试验,比较PLS方法与SUP、BREM这2种集成方法、3个子模式的预报效果,PLS集成方法较其他集成模型和任意子模式的优异性,并通过个例验证集成方法的性能是否具备稳定性。

1 资料与方法

1.1 数据选取 资料选自德国气象局(GBM)全球中期数值天气预报产品(分辨率为1.5°×1.5°)、日本气象厅(JMA)全球中期数值天气预报产品(分辨率为2.5°×2.5°)和中国国家气象中心T639数值预报产品(分辨率为0.562 5°×0.562 5°)3个子模式逐日20:00起报的地面气温预报资料。资料时间长度为2012—2014年冬季(12月—次年2月),并采用NCEP 再分析观测资料T62(Gaussian grid with 192×94 points)观测值进行多模式集成建模与检验预报效果。因此,可把资料分成2个阶段:训练集(2012—2013年冬季)和试报集(2014年冬季),其中,寒潮天气过程试验数据长度为2014年2月1—9日。因子模式和观测资料的水平分辨率不同,用双线性插值法将数据统一插值到2.5°×2.5°的网格点上。研究范围为东亚区域(15°~70°N、90°~145°E);预报时效为24~72 h,时效间隔为24 h。

1.2 分析方法

1.2.1 PLS基本算法[11-12]。第一步:对p个自变量X=(X1,X2,…,Xp)=

xn1…xnp和因变量Y=y1y2yn观测了n组数据,然后对原始数据进行标准化处理,记F0、E0为因变量Y和自变量X的标准化变量和矩阵。第二步:从X中提取综合变量t1=Xw1=w11x1+w12x2+…+w1pxp。第三步:实施E0在t1上的回归以及F0在t1上的回归,即:E0=t1p1+E1、F0=t1r1+F1,其中,E1、F1分别是E0和F0的残差矩阵。 第四步:以残差矩阵E1和F1代替E0和F0,采用提取t1同样的方法,进行综合变量t2的提取,如此循环往复,直到提取了h个综合变量t1、t2、…、th,并利用交叉有效性检验[6]确定h的值。最终得出PLS模型:

1.2.2 SUP方法[2,5-8]。对于在一个給定的格点上,SUP预报某一气象要素有如下方程:

式中,St为超级集成预报值,O为训练集实况值的平均,Fi,t为第i个子模式的t时刻的预报值,Fi为第i个模式在训练集的预报值平均,t为时间,N为参与超级集成的模式数,ai 为权重系数(Ni=1ai=1),Ei为各子模式误差的倒数。

1.2.3 BREM方法[13-14]。BREM方法的计算公式如下:

式中,St为消除偏差集成预报值,O为训练集实况值的平均,Fi为第i个模式预报值,Fi为第i个模式在训练集的预报值平均,N为参与集成的模式数。

1.3 预报模型的建立

1.3.1 PLS模型的建立。第一步:选取2012—2013年冬季东亚区域3个子模式的地面气温资料和NCEP数据作为建模样本,选取3个子模式的预报结果作为3个因子。第二步:先对样本进行标准化处理,再采用PLS方法提取样本的第一个成分,并求出交叉有效性检验Q21。第三步:如果Q21≥0.097 5,引进新的主成分对预报方程的能力有改善作用,则重复第二步运算;反之,求解主成分循环过程结束。第四步:确定提取主成分的个数后,求出各子模式的权重系数,确定预报方程。第五步:将2014年冬季数值预报产品代入预报方程中,得到试报结果,计算预报均方根误差和距平相关系数。

该方法聚集了回归建模、主成分分析以及两组变量间的典型相关分析于一体。利用模式和NCEP数据的标准化时间序列、逐格点求解子模式的权重,其中部分网格点(40°~45°N、115°~120°E区域内自南向北、自西向东9个格点,分辨率2.5°×2.5°)的权重在表1中给出,对集成结果进行最大程度地优化模拟。

1.3.2 SUP模型的建立。在SUP方法中,权重是预估未来天气的方法可靠性的重要影响因素。该方法分成3步:首先在训练集样本的标准化时间序列上求得权重系数;其次检验集成方法的拟合效果;最后验证模型的稳定性。其中部分网格点(同表1)的权重系数在表2中给出。在BREM模型中,由于子模式取相同权重系数(1/N),故BREM模型的建立不再赘述。

2 2014年冬季东亚区域地面气温集成预报

2.1 集成预报与子模式预报的总体分析

基于GBM、JMA、T639这3个子模式中心地面气温数据资料,预报时效为24~72 h(间隔24 h),训练集长度分别为166、166、163 d,试报集长度分别为86、85、86 d,以同期NCEP再分析资料作为观测值,进行多模式集成预报试验。

从2014年冬季东亚区域预报时效为24~72 h(间隔24 h)的 GBM、JMA、T639、BREM、SUP和PLS方法的地面气温预报的区域平均均方根误差(图1)可以看出,3个子模式预报结果中,JMA的预报结果较差,其预报的均方根误差远大于其余2个子模式的误差,而T639的预报结果相对较好。在试报集,SUP方法均方根误差略低于3个子模式的误差,BREM方法的误差低于SUP方法,PLS方法效果最好。随着预报时效的延长,3种集成方法的误差略变大,但幅度很小。

从2014年冬季东亚区域各子模式预报结果、集成预报结果与NCEP观测值的距平相关系数(图2)可以看出,对于24~72 h预报,多模式集成的结果均好于子模式的结果,且集成结果相对任何一个中心的模式都要稳定,其中PLS效果最优,BREM较好于SUP;对24 h预报时效的地面气温,子模式

2.2 集成预报的误差区域分布特征

为进一步分析多模式集成预报方法对地面气温地理分布的预报能力,对多模式集成的结果进行了均方根误差和距平相关系数的分析。选取

2014年2月1—9日寒潮天气过程,分析该过程的24 h预报误差。图3给出试报集为9 d的地面气温24 h平均均方根誤差的地理分布,BREM在东亚区域的误差大部分在0.35~5.58  ℃,其误差分布的大值区位于鄂霍次克海北部,误差最大值为11  ℃,区域平均均方根误差为2.72  ℃,与NCEP资料的距平相关系数为0.81;SUP在中国范围内的误差大部分在0.5~6.0  ℃,其误差分布的大值区位于俄罗斯东北部,误差大部分在5.0~10.0  ℃,区域平均均方根误差为3.62  ℃,与NCEP资料的距平相关系数为0.52;PLS在整个东亚区域的均方根误差范围明显缩小,误差分布大值区也位于鄂霍次克海北部,最大误差达11  ℃,其他区域误差在1~3  ℃,预报误差相对较小,东亚区域平均均方根误差为2.38  ℃,与NCEP资料的距平相关系数为0.81。BREM、PLS和SUP方法对不同区域的预报存在一些差异,但是预报效果均不理想的鄂霍次克海北部地区,预报效果并无明显改善,SUP方法在该区域预报效果相对较好,但是在整个东亚区域的预报效果误差大于BREM、PLS方法。可见PLS方法预报效果最优,能明显降低整个区域的误差。

由于误差大值中心(鄂霍次克海北部地区)的改进效果较差,将3个子模式的结果与图3进行比较,GBM、JMA模式误差大值区在俄罗斯东北部,T639模式误差大值区在鄂霍次克海北部地区,不存在数据问题,可见,存在误差具有合理性,分析资料样本较短可能是引起误差的一个方面,同时实况观测资料的直接使用,而没有进行一定的质量控制是引起误差的另一个重要方面,还需要针对不同区域的具体情况进一步分析提高预报效果的有效方法。

2.3 集成预报对寒潮天气过程预报能力分析

2014年冬季影响我国的冷空气势力不强,我国大部分地区的气温较常年同期偏高, 但是从2月2日起,一股冷空气的到来改变了这种天气格局,中央气象台1日晚间发布了2014年首个寒潮蓝色预警。图4所选9个格点范围包括中国的内蒙古自治区中东部、河北省北部、辽宁省西部以及北京市,由于冷空气势力较强,可以看出,2日地面气温降幅达9.60  ℃,3日地面气温继续下降,低至-14.84 ℃,虽然4日气温有所回升,但是这股较强冷空气将继续东移南下,伴随着大风天气,影响我国其他城市。

基于2012—2013年冬季东亚区域的24 h预报时效数据(166 d)为训练样本,选取部分网格点(同表1),得出2014年2月1—9日的地面气温集成预报平均值。如图4所示,PLS预报寒潮效果优于BREM和SUP方法,与NCEP观测数据的样本平均误差约为1.31 ℃,集成预报结果与NCEP数据的均方误差小于允许的误差范围(按气象评分规则,温度误差在±2 ℃之内为正确),试验达到了一定的预报精度。

3 结论与讨论

利用2012—2013年GBM、JMA和T639 3个子模式数值预报产品,采用PLS方法、SUP方法和BREM方法,建立了3个东亚区域的冬季地面气温多模式集成模型,并利用2014年冬季资料,对模型的短期预报性能进行了试验,所得结论如下:

(1)多模式集成子模式里,T639的预报效果最优,JMA的预报效果较差;在3个集成方法中,PLS方法误差最小,效果最优,BREM方法的均方根误差低于SUP方法,效果次之。随着预报时效的延长,3种集成方法的误差略有变大,但是集成结果比任何一个子模式都要稳定,集成后的距平相关系数平均达到0.9以上。

(2)对于24 h地面气温预报,3个集成方法对地面气温区域分布的预报能力存在差异,PLS和BREM方法对误差大值区(鄂霍次克海北部地区)的改进效果有待提高,但对于东亚大部分区域的预报结果有一定的改进,具有一定的参考价值。同时, PLS方法对预报结果的改进程度大于BREM和SUP方法。

(3)对于寒潮天气过程,3种集成方法对于东亚区域24 h 地面气温的预报在允许的误差范围内,PLS集成预报寒潮极端天气过程效果优于BREM和SUP集成方法,试验基本达到了预期的效果。

参考文献