APP下载

基于KNN回归算法的浙江省温度预报改进研究

2022-02-16李明华郝世峰陈训来赵春阳

气象与环境科学 2022年1期
关键词:个例最低温度准确率

李 超,李明华,周 凯,郝世峰,陈训来,赵春阳

(1.深圳市气象局,广东 深圳 518040;2.深圳市南方强天气研究重点实验室,广东 深圳 518040;3.深圳市国家气候观象台,广东 深圳 518040; 4.浙江省气象台,杭州 310056)

引 言

随着社会经济发展和人民生活水平的提高,人们对更加精细、准确的气象要素预报需求日益增加。近年来,数值模式分辨率提高、同化方案不断改进[1-3]和要素预报质量不断提高[4],为精细化气象预报提供了基础[5],但现阶段数值模式的要素预报还存在不小的误差[6-8],特别是丘陵和山地为主的地形复杂地区预报误差仍较大[9],还无法满足精准化预报需求。如何基于数值模式预报制作“定时、定点、定量”的高时空分辨率的要素预报,为社会公众提供更精准预报,是目前天气预报业务发展的重要研究内容之一[10]。

温度是影响人们生产生活最为重要的气象要素之一,同时也是舒适度指数、大气臭氧污染预报和农业气象条件等研究的基础[11-14],因而得到人们的广泛关注和研究。为了得到精细化格点温度预报,已有相关人员研究了基于复杂地形的空间插值方法并取得了较多成果[15-16]。基于观测站点的温度预报是精细化格点预报的基础[17]。如何得到准确率更高的站点温度预报仍是人们关注的重点和研究难点。目前,温度站点预报订正方案常见的有MOS方法和卡尔曼滤波等方法。MOS方法是使用数值模式要素预报通过回归方程等得到改进的要素产品[18];杨松等[19]根据不同物理量建立回归模型,去除了模式预报的随机误差。卡尔曼滤波法则是利用前一时刻的预报误差反馈到原来的预报方程,并及时修正预报方程系数,以提高下一时刻的预报精度。卡尔曼滤波法较为适合温度等连续变化的气象要素,已有人将卡尔曼滤波法应用于温度预报的滚动更新中[17]。在此基础上,美国环境预报中心(NCEP)提出了一种类卡尔曼滤波法的递减平均法,应用于北美集合预报系统中多种空间连续变化的气象要素[15]。

此外,也有人通过统计分析模式要素预报误差,使用观测资料对温度预报进行订正[20]。李超等[9]通过使用30 d滑动平均误差对温度预报进行订正后并使用多模式动态集成(OCF方案),减小了浙江中南部地区温度预报偏差。亦有研究将滑动平均误差用来延伸期温度预报订正,并取得较好改进效果[21]。王婧等[22]使用平均法、双权重平均法、滑动平均法和滑动双权重平均法对温度预报进行偏差订正,并对不同订正方案进行对比。有研究表明,不同类型天气过程的温度预报误差特征有着明显差别[23,24];OCF等订正方案使用滑动平均误差订正,无法反映不同天气过程中温度预报误差的差异。近年来,机器学习等智能算法快速发展并应用在气象研究中[25,26]。其中,K-近邻(KNN)算法是一种简单的机器学习算法,通过构建特征向量选取最接近的训练样本进行分类或回归。涂小萍等[27]将KNN分类方法应用于风场预报改进,燕东渭等[28]的研究将KNN应用于铜川降雹天气预报中。

浙江省原有精细化温度未考虑不同天气个例温度预报误差的差异性,在转折性天气过程预报误差相对较大。针对以上问题,本文根据温度变化特征构建特征量,使用KNN回归算法选择的相似天气过程进行误差订正,改进浙江省1-72 h温度预报,和传统算法进行误差统计对比,并选择冬季冷空气活动和夏季持续高温等典型天气类型,针对不同地形的杭州、丽水和舟山站进行误差对比分析。通过改进温度订正算法,以期对不同类型天气过程提高精细化温度预报精准度。

1 资料和方法

本文使用欧洲中期天气预报中心(ECMWF)的全球数值模式2016-2018年的1-72 h温度预报和浙江省72个国家基本站温度观测资料,72个国家基本站分布如图 1所示。ECMWF模式资料每日08时和20时更新,时间分辨率为3 h,空间分辨率为0.5°×0.5°,使用Coons曲面插值方法[29,30]模拟数据到观测资料对应的72个国家基本站上。

将需要订正个例前的365 d温度资料作为样本库,进行分析建模,然后将模型应用于温度预报订正,最后使用平均绝对误差RMAE评估改进后的温度预报误差,平均绝对误差定义为

(1)

图1 浙江省地形分布

2 温度预报订正方案

由2016-2018年ECMWF模式温度预报及对应的温度观测,分别计算了北京时20时起报(图2a)和08时起报(图2b)的误差随预报时效变化。20时和08时起报,ECMWF模式和实际观测中温度都存在明显的日变化特征,日最高温度均发生在14时附近,日最低温度发生在05时附近。从平均角度看,ECMWF温度预报较观测偏低。14时附近的日最高温度和05时附近的日最低温度的预报偏低最为明显,而20时和08时模式预报和观测较为接近。从气候平均角度看,温度日变化曲线中,20时的起始温度和日平均温度较为接近。温度日变化曲线表现为以20时温度或日平均温度为轴的准对称分布特点。同样的ECMWF模式08时起报的温度,也呈现了以08时起报温度或日平均温度为轴的准对称分布的特点(图2b),白天的升温幅度大于夜间的降温幅度,对称性较20时起报的(图2a)略偏弱。

图2 2016-2018年ECMWF模式20时(a)和08时(b)起报的1-72 h温度(红线)和对应的温度观测(黑线)平均

由上分析可见,温度变化表现出明显的以起报时刻的温度为轴的日变化特征。从逐日角度看,温度日变化曲线差异性很大,这种差异性由不同的起报温度或平均温度及不同天气过程中温度日变化的差异引起,因而可以将起报时刻的温度看作温度日变化曲线的“背景”进行处理。如果将ECMWF模式1-72 h的温度预报减去起报时刻的温度进行预处理,则可以得到温度的日变化曲线。

经过预处理得到温度的日变化曲线,可以通过KNN回归方案对温度预报进行误差订正。实现方案中使用不同温度日变化曲线之间的距离L作为指标,选择历史相似个例。温度日变化曲线之间的距离L定义为

(2)

式(2)中,TM和TN分别为两个不同温度日变化曲线中温度预报值或观测值,k为模式预报步长,n为分析时段1-72 h内总步数。距离L反映了不同温度变化曲线的接近程度,L愈小说明两条温度变化曲线特征愈接近,L愈大说明两条温度变化曲线特征差异愈大。

KNN回归方案中,20时和08时起报的预报分别独立进行误差分析和订正。在需要订正预报个例之前滑动365 d的历史数据作为样本库,样本库不包含订正个例本身,每次订正过程的样本库中有365个样本。在365个历史样本库中选取温度曲线距离L最小的第一四分位,约为91个样本作为相似个例。使用91个相似样本的平均预报误差对预报个例进行订正。最后对2017年和2018年订正后的预报结果分别进行误差分析,以检验上述方案的温度预报改进效果。

3 检验结果

3.1 预报误差统计

李超等[9]研究中使用OCF方案,改进了浙江省温度预报,特别是对浙西南地形复杂地区的温度预报误差明显减小,但该方案并没有考虑天气过程的差异性。在此研究基础上,将KNN回归方案应用于2017-2018年浙江省72个站点1-72 h温度预报,并将KNN方案和ECMWF模式及OCF方案的温度预报误差进行对比分析(图3)。图3(a)和图3(b)分别给出20时和08时起报的平均绝对误差对比。图中红线、橙线和绿线分别是ECMWF预报、OCF方案和KNN方案的温度预报平均绝对误差。不同方案中预报误差存在明显的日变化特征。其中,08时起报的预报误差(图3b)较20时的(图3a)略偏小。ECMWF模式1-72 h预报时效内日最大预报误差均发生在17时,20时起报的日最大预报误差分别为1.86 ℃、1.97 ℃和2.07 ℃;08时起报的日最大预报误差分别为1.82 ℃、1.94 ℃和2.02 ℃。经过滑动偏差订正后,OCF温度预报误差明显减小,1-72 h内预报平均误差均小于2.0 ℃,17时预报误差减小更为明显,日最大预报误差发生在14时附近,20时起报的日最大误差分别为1.41 ℃、1.61 ℃和1.81 ℃,08时起报的日最大预报误差分别为1.32 ℃、1.56 ℃和1.73 ℃。和OCF方案对比,KNN方案中预报误差明显减小。KNN预报误差也呈现明显日变化特征,日最大预报误差均出现在14时附近,20时起报的日最大误差分别为1.31 ℃、1.56 ℃和1.77 ℃,08时起报的日最大预报误差分别为1.23 ℃、1.48 ℃和1.68 ℃。

地形是影响温度预报误差的重要因素之一。对不同地形的温度预报误差空间分布表现出明显的不均匀性[9,15]。ECMWF模式温度预报误差相对较大,特别是对浙西南及沿海地区的预报误差相对较大(见李超等[9]中图2a),全省平均绝对误差为1.64 ℃。图4给出了经过OCF方案(图4a)和KNN方案(图4b)订正后温度预报的平均绝对误差分布,以及KNN方案和OCF方案温度预报平均绝对误差的差值分布(图4c)。OCF方案预报浙江省平均绝对误差为1.27 ℃,较ECMWF的明显减小;OCF方案对杭州湾和浙西南地区的预报误差有所减小,但和对浙北平原地区的预报误差相比仍明显偏大(图4a),这可能是和浙西南等复杂地形地区在不同天气过程中温度预报误差的差异性有关的。KNN方案的温度预报误差较OCF的进一步减小,KNN方案的预报全省平均绝对误差为1.21 ℃,较ECMWF和OCF的分别减小26.2%和5.2%。其中,杭州湾和浙西南地区的温度预报误差减小最为明显,误差减小幅度在0.1 ℃左右。由KNN方案和OCF方案温度预报绝对误差差值分布(图4c)可见,浙北沿海地区为正值,其他地区均为负值,说明除浙北沿海外,KNN方案较OCF方案表现更好。KNN方案中沿海地区的温度预报误差较OCF方案的略有增大,可能是由于沿海地区温度变化较为稳定,OCF方案适用性更高。

图4 2017-2018年OCF方案(a)、KNN方案(b)预报的1-72 h气温平均绝对误差及二者差值(c)分布

3.2 日高低温预报误差

在预报业务中,日最高最低温度是人们关注的重要对象。在实际预报工作中,通常将日最高温度和最低温度误差绝对值小于2 ℃的比例作为预报准确率。统计的2017年ECMWF模式、OCF方案及KNN方案中的1-72 h日最高温度和最低温度预报误差绝对值小于2 ℃的预报准确率见表 1。由表 1可见,ECMWF模式最高温度和最低温度预报准确率相对较低。OCF方案中的1-24 h、24-48 h和48-72 h最高温度预报准确率较ECMWF的分别提高14.2%、11.7%和9.5%,平均提高达到11.8%;三个时段最低温度预报准确率分别提高13.6%、13.1%和11.9%,平均提高幅度为12.9%。KNN方案中最高温度预报准确率提高明显,与OCF相比,分别提高3.0%、3.4%和2.6%,平均提高3.0%;最低温度预报准确率提高较少,三个预报时段分别提高1.4%、1.6%和1.0%,平均提高1.3%,和ECMWF对比最高温度和最低温度则分别提高14.8%和4.3%。

表1 2017年ECMWF模式、OCF方案及KNN方案中浙江省日最高和最低气温预报误差绝对值小于2 ℃的准确率

表 2为ECMWF模式、OCF方案,以及KNN方案中2018年日最高温度和最低温度预报准确率统计结果。由表 2可看出,2018年 ECMWF温度预报准确率较2017年的偏低。OCF 1-24 h、24-48 h和48-72 h最高温度预报准确率较ECMWF的分别提高15.7%、13.2%和11.3%,平均幅度达到13.4%;三个预报时段最低温度预报准确率较ECMWF的分别提高15.1%、13.7%和12.4%,平均幅度达到13.7%。在OCF方案基础上,KNN方案中最高温度预报准确率较OCF的进一步提高3.4%、2.6%和1.3%,平均幅度达到2.4%;最低温度预报准确率分别提高2.1%、2.1%和1.4%,平均幅度达到1.9%。2017年KNN方案日最高温度预报准确率较ECMWF和OCF预报分别提高15.4%和3.6%,最低温度分别提高14.2%和8.7%。2018年KNN方案日最高温度预报准确率较ECMWF和OCF预报分别提高15.8%和2.4%,最低温度分别提高15.6%和1.9%。2018年KNN方案中的日高低温预报准确率提高幅度和2017年的相近,这说明KNN方案的温度改进效果明显且较为稳定。

表2 2018年ECMWF模式、OCF方案及KNN方案中浙江省日最高和最低气温预报误差绝对值小于2 ℃的准确率

不同季节的天气过程特点差异很大,导致不同季节的温度日变化特征,以及预报误差存在较大差异。图5为ECMWF模式和OCF方案,以及KNN方案中1-72 h日最高温度预报(图5a)和日最低温度(图5b)误差绝对值小于2 ℃的预报准确率月际变化。ECMWF模式日最高温度预报准确率存在明显的季节变化特征,日最高温预报准确率夏季的较其他季节的偏低(图5a)。所有月份中KNN方案预报准确率较ECMWF模式和OCF方案的均有一定提高,春季2-4月和秋季10月KNN方案日最高温预报准确率较OCF的提高较为明显,可能和浙江省春秋季节降水和冷空气过程活动较为频繁有关。KNN方案是使用相似个例的平均误差订正,在天气过程频繁时较OCF方案更有优势。浙江6月受梅雨带影响,温度日变化幅度较小,OCF和KNN的最高温度预报准确率较为接近;7月出梅后,浙江转受副热带高压控制,温度日变化较梅汛期时段的明显增大,日最高温度预报误差随日较差明显增大。出梅前后,浙江的温度预报误差特点有明显不同。OCF方案使用30 d滑动平均误差进行订正,无法反映天气和环流特点的快速变化;KNN方案使用历史相似个例进行订正,更有优势,7月 KNN方案较OCF方案最高温度预报准确率提高更为明显。

ECMWF模式日最低温预报准确率不同季节变化差异较小(图5b),OCF方案和KNN方案中日最低温度预报准确率各月均有所提高,且提高幅度相对稳定,随季节变化不明显。由上分析可见,KNN方案在日最高温度预报改进中更加有优势。

图5 2017-2018年ECMWF模式(红色)、OCF方案(橙色)和KNN方案(绿色)1-72 h日最高(a)和最低(b)温度绝对误差小于2 ℃的预报准确率月际分布

3.3 个例分析

从统计角度看,KNN方案较OCF方案的温度预报有一定提高。选取杭州、丽水和舟山站作为代表站点,对比检验OCF方案和KNN方案对冷空气和持续高温等天气过程中不同地形条件下温度预报情况。2018年1月6-8日冷空气过程影响浙江,全省温度均有明显下降。图 6(a)-(c)分别给出了此次冷空气过程中杭州、丽水和舟山站的实况温度(黑线),以及ECMWF模式(红线)、OCF方案(橙线)和KNN方案(绿线)预报的温度变化。杭州、丽水和舟山日实况最低温度分别降低了5.5 ℃、7.2 ℃和8.4 ℃。模式ECMWF对杭州和丽水48-72 h降温幅度预报明显偏大,8日早上预报的最低温度比观测值偏低2.9 ℃和3.6 ℃,而对舟山降温幅度的预报值和观测值较为接近,误差仅为0.2 ℃。OCF方案订正后,8日早上对杭州和丽水的最低温度预报误差分别减小了1.7 ℃和1.6 ℃;而对舟山的预报误差增大了1.7 ℃。经过KNN方案订正,8日早上杭州和丽水的最低温度预报误差较OCF的分别减小0.5 ℃和0.6 ℃,舟山预报误差较OCF的减小1.3 ℃,但仍比ECMWF的预报误差略偏大。这次冷空气过程中,KNN方案中除改进最低温度预报外,温度预报曲线也较ECMWF和OCF的更接近实况观测。

图6 ECMWF模式(红线)、OCF方案(橙线)、KNN方案(绿线)2018年1月6日20时起报的杭州(a)、丽水(b)及舟山(c)的1-72 h温度和对应的实况温度(黑线)

梅汛期之后,浙江省转受副热带高压控制,以持续性晴热高温天气为主。为检验不同方案对夏季持续高温过程中温度预报效果,图 7(a)-(c)分别给出了2017年7月16-18日杭州、丽水和舟山的实况温度(黑线),以及ECMWF模式(红线)、OCF方案(橙线)和KNN方案(绿线)预报的温度。2017年7月19日浙江全省梅汛期结束,而17-18日杭州(图 7a)、丽水(图 7b)和舟山(图 7c)日最高温度已迅速升高,均超过36 ℃。ECMWF预报的杭州和丽水日最高最低温度均较观测实况明显偏低,预报的最高温度偏低尤为明显,偏差在3 ℃以上;预报的舟山日最高温度也明显偏低,日最低温度的预报则相对较好。在OCF方案中,对杭州、丽水和舟山3站的日最高温度预报相对ECMWF模式有所改进和提高,但仍较观测值偏低,特别是17-18日预报的最高温度和实况差距仍较为明显;对杭州和丽水的日最低温度预报也有一定改进,但不如对最高温度的预报改进明显。经过KNN方案订正后,3个站的温度预报曲线更接近实况观测曲线。KNN方案中,对杭州和丽水日最高最低温度的预报明显优于ECMWF和OCF方案的预报;对舟山的日最高温度预报也有一定改进,但对最低温度的预报较OCF方案的误差略偏大。此外,KNN方案中24-48 h和48-72 h日最高温度预报仍比实况观测偏低。

图7 ECMWF模式(红线)、OCF方案(橙线)、KNN方案(绿线)2017年7月16日20时起报的杭州(a)、丽水(b)及舟山(c)的1-72 h温度和对应的实况温度(黑线)

综上,OCF方案使用30 d滑动平均误差进行订正,无法反映天气系统快速变化对温度预报误差的影响,而KNN方案通过选取历史相似个例进行误差分析,在冬季冷空气活动和夏季高温天气等转折天气过程中预报效果优于ECMWF和OCF方案的预报效果。

4 结论和讨论

之前有较多研究表明,使用30 d滑动平均误差订正(OCF)方案可以有效减小温度预报误差[9,20,21]。统计结果显示,OCF方案的温度预报误差明显减小。由于OCF方案并未考虑不同天气个例温度预报误差的差异性,因而天气过程中温度预报误差仍较大。本文在前人研究基础上,基于KNN回归算法,使用历史相似个例误差统计对温度预报进行订正,改进浙江省1-72 h温度预报,并和传统OCF方案进行对比分析,以及选择冬季冷空气活动和夏季持续高温天气个例,检验ECMWF模式、OCF方案和KNN方案针对不同地形的杭州、丽水和舟山站的预报效果。主要结论如下:

(1)模式ECMWF温度预报和温度观测实况呈现以起报时刻温度为轴的明显日变化特征,将温度减去起报时刻温度得到温度日变化曲线。通过定义的不同温度日变化曲线间的距离作为个例的差异指标,选取历史相似个例,由相似个例的平均误差进行订正。

(2)KNN方案温度预报平均绝对误差较ECMWF和OCF方案的分别减小26.2%和5.2%;对日最高温度和最低温度预报误差小于2 ℃准确率较ECMWF预报的准确率分别提高15.3%和14.9%,日最高和最低温预报准确率较OCF的分别提高5.5%和3.2%。对2017年和2018年KNN预报检验结果表明,日最高最低温度预报准确率提高幅度较为一致,说明KNN方案改进效果明显且预报质量稳定。

(3)传统OCF方案使用滑动平均误差订正,并未考虑不同个例之间的差异。KNN使用相似个例的误差统计特征订正,考虑了天气变化个例之间特征的差异。春秋季节浙江省天气过程较为频繁,KNN方案较OCF方案的改进效果较为明显。在出梅前后,KNN方案较OCF方案可以更快适应天气特点的调整。和OCF方案对比,KNN方案在浙西南地形复杂地区和杭州湾地区的温度预报改进效果比较明显。KNN方案在冬季冷空气活动和夏季高温预报等天气个例中,较ECMWF和OCF方案的温度预报也有一定改进。

本文中使用KNN回归算法对温度预报进行订正,较为充分考虑天气个例之间的差异,在冷空气等“转折性”天气过程中预报效果较好,同时在地形复杂地区预报效果也较好,因而具有一定的应用价值。但上述方案中温度曲线之间距离的定义中并未考虑最高温度、最低温度和风场等要素,在相似个例选择上仍有不足,未来可以增加日平均温度和日平均温度变化等特征,提高选取相似个例的准确率,进一步减小预报误差。

猜你喜欢

个例最低温度准确率
案例研讨教学在高原山地气象培训中的应用及思考①
锦州地区各预报产品温度预报质量分析
锦州地区各预报产品温度预报质量分析
贵德县露天辣椒定植期冻害气象指标分析
四川省天气预报培训与竞赛历史个例分析及应用平台介绍
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
零下温度的液态水