APP下载

桂林市霾天气的潜势预报模型研究

2020-07-09龙凤翔张瑀琳李艳玉龚冬英

四川环境 2020年3期
关键词:潜势漏报阈值

龙凤翔, 张瑀琳, 李艳玉,龚冬英

(桂林市气象局,广西 桂林 541001)

霾是大量极细微的干尘粒等均匀地浮游在空中,使水平能见度小于10km的空气普遍混浊现象,使远处光亮物微带黄、红色,使黑暗物微带蓝色[1]。霾属于天气现象中的一种,随着经济快速发展、人类污染排放加剧,霾带来的危害逐渐加重,除影响人们身心健康外,还对交通、旅游、工业等行业产生直接影响,加强霾的监测,分析霾的特征,发布霾天气预报,可以为防御霾、减轻霾的危害发挥积极作用。

潜势预报作为霾预报常见方法,它是选取与预报对象有关的物理因子,运用概率统计的原理,在预报对象与预报因子之间建立某种统计关系,根据这种统计关系结果预报未来出现的可能性,它的预报对象以二分变量较为常见。目前常见预报方法有逐步回归法、指标叠加法、支持向量(SVM)方法、决策树法、Bayes分类法等。如毛程燕[2]等用逐步回归法建立浙江中西部大雾天气的潜势预报模型;梁维亮[3]统计了南宁地区雷暴天气和常用对流参数关系,将对流参数二值化后,采用逻辑回归(Logistic)法建立了雷暴天气预报概率的预报模型;陈豫英[4]用概率回归方法建立了宁夏春季2-5月沙尘和强沙尘两个等级的72h沙尘概率预报方程。张庆奎[5]运用指标叠加法建立了阜阳市大雾天气潜势预报模型,并取得了较好地预报效果。毛宇清[6]等用SVM分类和回归方法建立了南京地区霾日分类预报和有霾日14时能见度预报方程。谢永华[7]等针对霾预报模型少,准确率低缺点,提出将统计预报和数值预报相结合,用多元逐步与概率回归法混合的霾预报方法,这种混合的回归预报算法准确率得到了显著提高。以上各种潜势预报方法,都在实际应用中取得了良好的预报效果。

桂林地处广西东北部,是国际著名旅游胜地,近年来随着经济迅速发展和城市化推进,霾污染带来的大气环境问题对旅游业的发展产生了不利影响,为了降低霾的不利影响,发布较为准确的霾天气预报,本文采用基于Logistic和事件概率回归法、指标叠加法等三种统计方法建立桂林市霾的潜势预报模型,研究各模型的优劣,为桂林霾预警、预报和防治提供重要参考依据。

1 资料来源

预报建模使用的资料包括2012年1月~2015年12月桂林自动气象站逐时地面常规气象观测资料、桂林高空气象观测站逐日08时探空资料、桂林大气成分站逐时PM2.5小时观测数据。利用上述观测资料,建立20时起报的桂林市霾未来24小时潜势预报模型。

模型检验使用的资料有:桂林自动气象站2016年逐时地面常规观测资料、PM2.5观测资料,逐日08时欧洲中心(ECMWF)细网格(0.25°×0.25°)数值预报产品。

2 结果与讨论

2.1 预报因子的选择

霾天气是高浓度大气颗粒物和特殊气象条件共同作用的结果[8]。出现霾天气时常干燥无雨,风速小或静风,大气层结稳定,近地层伴有逆温,大气扩散能力减弱,污染物浓度增大[9-10]。因此霾的预报因子主要从污染物浓度、水汽、风速、大气层结、降水等几个方面选取,最终得到预报因子29个。

2.1.1 污染物浓度因子

PM2.5质量浓度水平与霾的生成密切相关,其质量浓度上升时会造成大气能见度恶化,是霾天气产生的重要因素之一[11~13],故选择PM2.5质量浓度作为污染物浓度因子。包括前日的PM2.5日均质量浓度(PM2.5Day)、20时PM2.5小时质量浓度(PM2.5Hour)以及PM2.5Day、PM2.5Hour过去24小时变化值(ΔPM2.5Day、ΔPM2.5Hour),通过它们能较好地反映出霾出现前期整个大气的污染状况。其中ΔPM2.5Day、ΔPM2.5Hour反映的是过去24小时内污染物浓度变化的趋势,当PM2.5浓度在过去24小时内有增加时,预示空气污染加重,对霾的生成有利。

2.1.2 水汽因子

包括当日20时地面相对湿度(U)、气温露点差(T-Td),霾出现时当日08时高空925hPa气温露点差(T-Td925)、850hPa气温露点差(T-Td850)以及925hPa 露点温度(Td925)、850hPa 露点温度(Td850)、925hPa相对湿度(U925)、850hPa相对湿度(U850)、700hPa相对湿度(U700),当中低层湿度太大时容易出现降水,不利于霾的形成和持续。

2.1.3 风速因子

风速影响着大气污染物扩散的快慢,尤其是中、低层风速大小直接影响着污染物的浓度,是霾形成的重要指标之一。在风速因子方面,选取当日08时高空925hPa风速(WS925)、850hPa风速(WS850)、700hPa风速(WS700)作为霾发生时近地层、中低层风状况。

2.1.4 层结条件

霾出现天气常为静稳天气,近地层常伴有逆温,当层结不稳定时,大气湍流加剧,污染物极易得到稀释和扩散。选取因子时考虑用当日的K指数(K)、S指数(S)、地面-1 000hPa温度差(T-T1 000)、地面-925hPa温度差(T-T925)、地面-850hPa温度差(T-T850)、925-850hPa温度差(T925-850)、850-700hPa温度差(T850-700)代表了地面、近地层、中层的大气层结状况。

2.1.5 降水因子

霾出现前期及期间天气干燥,常持续无雨天气或弱降水天气,当前期、当日降水较大时,则不利于霾生成。霾出现当日降水(R)、前日降水(R24)、前3日累计降水(R72)3个因子能较好反映霾前期、霾期间的降水状况。

2.1.6 其他因子

主要包括前日24小时变温(ΔT24)、24小时最高气温变化(ΔTmax)、24小时最低气温变化(ΔTmin)。24小时变温能反映出冷空气强弱,当负变温幅度越大时,代表冷空气越强,而冷空气过境则常代来大风、降水等天气,使得污染物得到扩散。

2.2 预报因子与霾天气的相关性研究

霾预报因子应选取与霾实况显著相关的因子,对于一些与霾相关不大的因子,应予以剔除,具体因子筛选时,通过两者相关系数大小进行取舍。

在计算相关系数时,将霾出现与否转为0,1二值变量,通过点二列相关求出两者相关系数。计算得知,PM2.5Day、PM2.5Hour、U、T-Td、R72、WS850与霾出现与否相关性较好,相关系数(r)均≥0.20,相关系数最大为PM2.5Hour。在所有初选因子中,ΔTmax、T-T925、T-Td850、T850-700、SI未通过相关性检查。表1为通过相关性检查的预报因子及与霾的相关系数,从相关系数来看,霾出现主要与前日PM2.5浓度、当日降水、前期降水及前期近地层水汽条件密切相关。这些预报因子从不同角度的反映了霾前期的污染程度、霾前期及霾出现时的水汽、层结、风速、降水等条件,均能不同程度的反映了霾天气潜势,选取它们建立霾潜势预报方程,可综合的判断出霾天气出现的可能性。

2.3 预报因子阈值及二值化

为获取上述各预报因子阈值,分别将霾日对应的预报因子累计频率进行计算,从频率较大范围(50%~90%)中的连续选取阈值。当预报因子值满足阈值条件时记为1,否则为0,将转换为二值变量的预报因子与霾出现与否的二值变量计算相关系数,选择相关系数最大对应的阈值作为最终确认阈值。各预报因子的最佳阈值、最佳阈值出现概率及二值化后与霾天气的相关系数见表1。

表1 预报因子最佳阈值、最佳阈值出现概率、二值化后及实际值与霾天气的相关系数Tab.1 The optimum threshold of forecasting factor,the optimal threshold occurrence probability,correlation coefficient between actual value and haze weather after-binarization

注:**相关系数在0.01置信水平下显著(双侧检验); *相关系数在0.05置信水平下显著(双侧检验)。

上述结果显示,预报因子经过二值转换后与霾天气均有显著的正相关,且多数因子二值化后与霾天气的相关系数要比实际相关系数有明显增加,仅U700、WS850因子与霾天气相关系数有所减小。综合来看,用最佳阈值对预报参数进行二值转换后的因子值比实际预报因子值使用更加合理,能更好地预测霾天气是否出现。

在所选预报因子中,有些因子对霾的消空有较好的指示意义,可以作为消空指标使用,如R、R72、T-Td、PM2.5Hour、T-T925。从表2可以看出,当R>5.0mm、R72>25mm、T-T925<1.0℃时霾出现的概率不足5%,T-Td <4℃、PM2.5Hour<20μg/m3时霾出现概率不足10%,因此可以将这些取值作为霾的消空阈值,即达到这些值时,当日霾不易出现。

表2 霾日各因子消空指标取值及出现天数、累计百分比Tab.2 The values and occurrence days of blanking index of factors in haze days and cumulative percentage of haze days

2.4 模型建立

模型建立使用的资料为2012~2015年霾日前一日20时地面气象观测资料、PM2.5资料及当日08时探空资料。

2.4.1 基于事件概率的多元线性回归法

事件概率回归方法基本的思路是把预报对象和预报因子看成随机事件并根据事件出现与否化成0,1的二值变量,把预报事件y与m个预报因子x1, x2, …,xm事件之间的关系看成是在m个因子已经出现的条件下事件出现与否的关系,是用逐步回归的方法求各预报因子在各种组合状态下预报对象出现的条件概率[14]。以X1,X2,...,Xm为因变量,P为自变量,建立线性回归方程:

(1)

式中P为Y=1出现的概率,b0,b1,b2,...,bm为回归系数,用最小二乘法求出。

根据以上方法得到霾概率多元线性回归方程为:

Y=0.176+0.174X1+0.125X2+0.102X3

+0.121X4+0.089X5+0.091X6+0.078X7+0.078X8

(2)

(2)式最后纳入方程的预报因子为PM2.5Hour(X1)、R(X2)、U(X3)、PM2.5Day(X4)、WS850(X5)、R72(X6)、WS925(X7)、ΔTmin(X8)。

采用复相关系数对式(2)进行检验,在显著性水平a=0.05时,临界值R0.05=0.195,相关系数临界值为F> F0.05,说明霾出现概率预报方法在统计意义上是显著的。

2.4.2 逻辑回归法

逻辑回归是在线性回归基础上套用一个逻辑函数。基本原理是用一组观测数据拟合Logistic模型,是研究二分类变量结果Y对一些影响因素(x1,x2,...,xm)之的依存的关系[14]。其中自变量xi称为危险因素或者暴露因素,可以是分类变量、等级变量或者是连续变量。

在m个自变量影响下,发生的概率记作:

P=P(Y=1︱x1,x2,…,xm) 0≤P≤1

(3)

它与自变量之间的Logistic回归模型为:

(4)

其中,β0为与自变量无关的常数项,β1,β2,...,βm为回归系数,表示自变量xi改变一个单位时,对Logistic(P)的贡献。

根据Logistic回归法原理,利用SPSS 18.0软件进行逻辑回归分析,得霾出天气潜势预报方程:

(5)

其中,P为霾出现的潜势预报因子a=2.447-0.813 X1+0.017 X2-0.669 X3-0.024 X4-1.027 X5-1.752 X6-0.399 X7-1.441 X8+0.017 X9-0.442 X10-0.213 X11-0.088 X12。其中,X1、X3、X5、X6、X7、X8、X9分别为PM2.5day、 PM2.5hour、T-Td、R、R72、U925、U850原始值转换后的二值变量,X2、X4、X10、X11、X12分别为PM2.5hour、U、U850、T-Td925、WS850原始值。

从SPSS 18.0计算结果来看,Cox Snell R方与Nagel Kerke R方值分别为0.311、0.501,两值拟合效果较好。从另一拟合效果来看,如预测变量分界值设为0.35,当预测没有霾出现时,预测无霾的准确率为87.4%;而当预测有霾时,预报有霾的准确率达73.6%,总的准确率为84.2%,说明方程总体较稳定。

2.4.3 指标叠加法

指标叠加法是用来预报灾害性天气的一种方法,该方法已在强对流天气预报中取得了不错的预报效果[15-16]。具体思路是选取一定数量的与霾天气相关性较好的预报因子,然后确定发生霾和未发生霾时的因子阈值,当预报因子超过阈值时,记1,若达不到阈值则记0,当有N个超过阈值时,记Y=N,只要分析Y大于等于霾出现时的临界值N0,就可以预报霾出现。

Y=X1+X2+X3+ …XN -1+XN

(6)

指标叠加法关键是在方程建立前,找到预报因子,方法如下:

从表1中,选取预报因子标准为二值后与霾相关系数大于0.3的因子,符合条件因子共9个,建立的潜势预报方程如下:

Y=X1+X2+X3+X4+X5+X6+X7+X8+X9

(7)

其中X1~X9分别表示PM2.5day、PM2.5hour、U、T-Td、,T-Td925、K、R、R24、R72。当9个因子均达到阈值时,Y取值为9,说明是霾出现的最高阈值,而Y为0时为霾天气潜势预报的最小值。

2.5 预报流程

利用程序读取前日地面气象资料、前日PM2.5资料、当日08时ECMWF细网格数值预报产品,首先做消空判断,当达到消空判断条件时退出计算模型,如未达到则将各预报因子进行二值化处理,后代入潜势预报模型进行计算,最后得出霾天气潜势预报产品,详细预报流程见下图。

2.6 预报检验

预报评分是检验预报质量的一个重要手段,它是按时段内发布的预报与天气实况评定报对次数、漏报次数及空报次数。根据2005年中国气象局颁布的《中短期天气预报检验办法》,对于灾害性天气落区预报,主要有TS评分、漏报率(PO)、空报率(FAR)3个指标,计算公式如下:

图 桂林霾天气潜势预报流程Fig. Haze Weather Potential Forecasting Process in Guilin

(8)

(9)

(10)

其中,NA为预报正确次数,NB为空报次数,NC为漏报次数。

2.6.1 回报检验

在经过对方程的显著性检验后,我们对 2012~2015年的霾天气实况进行回报,按霾潜势预报流程,先对消空因子进行条件判断,当达到消空条件时,则判断该日无霾,否则代入潜势预报方程。按此流程得到基于事件概率的多元回归模型、逻辑回归模型、指标叠加法三种潜势预报方程不同概率阈值的霾预报评分,见表3、表4、表5。

根据样本回报的质量评分表可以看出,预报概率不同取值时,预报评分完全不同。其中,基于事件概率的多元回归模型预测概率P=0.4时,空报率较高,达到47.3%,而在P=0.5时漏报率最高,高达59.2%,同时TS评分也较低。综合来看,取P=0.45时TS评分最高,因此选取0.45作为预报概率阈值,即:当预报概率大于0.45时,预报未来24h有霾出现,否则没有。而逻辑回归模型预测概率P从0.30~0.45分别取值的结果来看,差别并不像事件概率回归法那样明显,各概率值对应TS分均能超过50%,空报率、漏报率均在30%左右,其中在概率阈值取0.35时,TS得分最高,大于或者小于该阈值时TS得分稍有下降,因此选取0.35作为事件概率回归模型预报概率阈值。最后的指标叠加法预报概率阈值分别取4~6,其中阈值取5时TS评分最高,低于该值时空报率高,而高于该值时则是漏报率高, TS评分也低,在阈值为大于7时,漏报率高达73.3%,TS评分只有23.4%。

表3 基于事件概率的多元回归模型回报检验Tab.3 Multivariate Regression Model Return Test based on Event Probability

表4 逻辑回归模型回报检验Tab.4 Logistic Regression Model Return Test

表5 指数叠加法回报检验Tab.5 Exponential superposition Return Test

比较以上三种预测模型的回报检验效果来看,逻辑回归模型回报检验验效果最好,最稳定,TS评分最高达52.5%,漏报率和缺测率对比其他两种模型在TS评分最高时的漏报率、空报率都要低,而基于事件概率的多元回归模型回报检验效果次之,TS评分最高为50.1%。三种模型中指数叠加模型回报检验效果稍差,TS评分最高只有47.8%,对应空报率、漏报率也较高,预测概率阈值在不同的取值时,TS评分变化幅度大。

2.6.2 预报检验

为验证三种预报模式的实际预报效果,取2016年逐日20时地面观测资料、PM2.5资料、次日08时 ECMWF细网格数值预报产品预报未来24小时是否出现霾天气。预报过程同样先做消空判断,达到消空条件则预报无霾,否则代入潜势预报模型。预报试验时三种模型预报取值如下:事件概率法模型P=0.45时、逻辑回归法P=0.35、指数叠加法Y=5则认为有霾出现。通过与实况比较,得出三种模型预报评分(见表6)。由表可以看出,逻辑回归法同样在预报检验中效果最好,指数叠加法预报效果较差,其中逻辑回归法TS评分及准确率分别为50.2%、80.3%,为三种模型中最高,空报率在三种模型中也最低。事件概率法空报率最高,但其漏报率却是三种模型中最低,只有21.4%。而指数叠加法的预报效果则介于上述者之间。总体而言三种模型都比较稳定,尽管在预报中的准确性较回报检验有所下降,但三种霾天气的潜势预报模型仍在实际预报有较好地参考价值。

表6 三种模型试预报效果Tab.6 Prediction effect of three models (%)

2.6.3 误差分析

(1)三种潜势预报模型对预报的能起到参考作用,但没有对天气类型进行划分,没有结合霾天气模型概念,因此对霾预报的准确性有一定影响。

(2)用于预报所用的次日08时探空资料、日降水是用20时起报的12小时ECMWF细网格数值预报产品,其数值与建模时使用的实况探空资料有一定差异,这对模型的准确性有一定影响。此外数值预报产品,其产品质量一定程度也影响了预报准确性。

(3)对预报因子进行二分值转换时,一些因子的阈值界限不像PM2.5、降水等因子那样划分明显,它们出现霾和不出现霾的值范围重复多,部分因子划分阈值时所占比例低,影响了预报模式的准确性。

(4)资料时间序列短,参与建模的年数只有4年,做出的预报模型代表性还不是很好。

3 结 论

本文分析了霾天气潜势预报的几种方法,重点介绍了基于事件概率的逐步回归、逻辑回归、指数叠加等三种方法,并用这三种方法建立了潜势预报模型,通过回报和试预报检验结果来看,三种方法在实际预报中都有较好的参考作用,预报模型稳定。对比各自检验效果来看,逻辑回归法在回报检验和试预报检验中,无论是TS预报评分还是空报率、准确性都优于事件概率法和指数叠加法,但计算较复杂。指数叠加法预报回报检验和试预报检验效果差别小,稳定性更高,纳入预报的因子少,计算时只需将二值化后预报因子简单相加,运算过程简单,易操作。综合来看,三种方法TS预报评分都在50%左右,准确率均超过70%,在预报上都具有可行性、有效性。

但受限于所用资料时间序列短、资料不全、预报因子筛选欠准确、霾天气学成因分析缺乏,对雾霾区分方法手段缺乏,特别是霾维持时间短的现象及雾霾同存现象缺乏足够分析,导致在预报模型的空报率、漏报率较高,预报的实效性较短。

猜你喜欢

潜势漏报阈值
贺兰山沿山地区强对流潜势预报方法研究
临涣选煤厂浮选效果评价与尾煤再选潜势分析
氨对甲苯二次有机气溶胶生成潜势影响的实验研究
小波阈值去噪在深小孔钻削声发射信号处理中的应用
基于CS-TWR的动态阈值贪婪算法成像研究
基于自适应阈值和连通域的隧道裂缝提取
某市死因监测漏报的调查报告
“适者生存”?
各类气体报警器防误报漏报管理系统的应用
基于迟滞比较器的双阈值稳压供电控制电路