APP下载

基于支持向量机回归和小波变换的O3预报方法

2019-09-26苏筱倩安俊琳张玉欣

中国环境科学 2019年9期
关键词:层数分析仪线性

苏筱倩,安俊琳*,张玉欣

基于支持向量机回归和小波变换的O3预报方法

苏筱倩1,安俊琳1*,张玉欣2

(1.南京信息工程大学,气象灾害教育部重点实验室,气候与环境变化国际合作联合实验室,气象灾害预报预警与评估协同创新中心,江苏 南京 210044;2.青海省人工影响天气办公室,青海 西宁 810001)

使用南京工业区2016年6月1日~8月15日的臭氧(O3)、O3前体物及常规气象数据,结合多元线性回归(MLR)方法和小波变换(WT)改进支持向量机回归(SVR)对O3小时浓度的预报精度.结果表明,通过WT方法将一个高变异性的序列转化为多个低变异性的序列后再处理可提高预报精度,M-WT-SVR预报的决定系数(2)达到0.90,平均绝对误差(MAE)、平均绝对百分误差(MAPE)和均方根误差(RMSE)分别为3.86×10-9、28.26%和5.57×10-9,优于M-SVR和SVR.低层细节序列主要与NO、NO2和芳香烃有关,而更高层的近似序列受到气象条件、前体物和O3前期浓度共同影响.与经典的MLR方法相比,M-WT-SVR对O3小时浓度的预报有明显优势.

支持向量机回归;小波变换;多元线性回归;臭氧预报;臭氧小时浓度

近年来,随着工商业的发展与汽车保有量的增加,近地面大气中人为排放的氮氧化物(NO)[1-2]及挥发性有机物(VOCs)[3-4]日益上升,光化学烟雾[5]等复合型大气污染问题正严重影响着人体健康[6-7]和生态环境[8-9].研究大气污染物的预报方法,建立及时的大气污染物预警机制,对改善城市的空气质量,制定控制策略有重大的应用价值.O3浓度的预报涉及到非线性、强耦合和多变量等问题,基于污染变化机理和大量气象、污染物排放源数据运作的数值预报将是一项十分复杂的系统工程.而传统的统计预报方法如回归模型[10-11]大多以线性回归理论为基础,难以适用于非线性、强耦合系统.近年来,随着计算机技术的发展,人工智能与机器学习理论得到广泛地研究和应用.神经网络[12-13]、决策树[14]和支持向量机(SVM)等基于统计理论的机器学习方法,在处理非线性问题时表现出优异的性能.

SVM遵循结构风险最小化原则,与遵循经验风险最小化原则的传统机器学习方法不同,SVM避免了过拟合、局部最优或局部优化能力差、调参困难与收敛慢等问题[15-16],需要调节的参数更少.近年来,支持向量机回归(SVR)不仅用于预报太阳辐射[17]、云量[18]和能见度[19],还广泛应用在预报大气污染物浓度[20].有研究者比较了SVR与多层感知机(MLP)[21]、线性回归模型[22]、向量自回归模型(VARMA)和自回归积分滑动平均模型(ARIMA)[23]等常用的统计预报模型,发现SVR对污染物的预报效果更优.Xu等[24]基于SVM开发了太原、重庆与哈尔滨3个城市的空气质量预警系统,经比较,此系统的准确性和有效性均高于其现有的空气质量预警结果.与众多统计预报方法相比,SVR显示出更多的可行性和优越性.

小波变换(WT)是从序列中提取时间和频率信息的有用工具[25],已广泛地应用于信息类学科.近年来,WT理论在大气领域渐渐展现出强大的生命力[26-27].O3与前体物、气象条件存在复杂的非线性响应关系[28],其时间序列具有非平稳、高变异性的特征,难以准确地预报.利用WT理论将高变异性的时间序列转变成多个低变异性的子序列后进行预报具有明显优势.Farajzadeh等[29]将WT、自回归积分滑动平均模型(ARIMA)与最小二乘支持向量机(LSSVM)结合进行降水量预报,发现W-S- LSSVM模型的性能比经典模型提高了约7%~ 8%.Dunea等[30]结合WT和前馈神经网络(FANN)预报4种大气污染物,发现组合模型优于单一FANN.对于大多数模型来说,WT方法是提高预报精度的有效途径.

前人的研究显示出SVR在回归问题上的可行性,但对O3浓度预报的应用相对较少,且预报时多考虑气象因素.与此同时,包括WT在内的多方法组合预报在各领域正成为一种趋势.本研究在经典SVR方法的基础上,综合考虑气象条件和包括NO、NO2、VOCs、CO在内的4种前体物,利用WT方法对O3浓度序列进行预处理,并采用多元线性回归方法讨论子序列的影响因素,以期为O3公众预警预报提供一种改进方案与优化思路.

1 材料与方法

1.1 观测站点

观测站点位处江苏省南京市浦口区南京信息工程大学气象楼楼顶(32°12'N,118°42'E,海拔高度62m).站点东边500m处为主干道宁六路和高架快速路;站点东北5km处为包括石油化工、钢铁厂和化工厂等在内的工业区;其西南900m处为龙王山风景区.常规气象资料来源于距站点约1.5km的中国气象局综合观测实习基地.站点具体位置见图1.

图1 观测点的位置和附近环境

1.2 仪器及监测方法

采用美国赛默飞世尔科技公司生产的大气污染环境监测分析仪观测O3、NO、NO2和CO,包括49i紫外发光O3分析仪,42i化学发光NO-NO2-NO分析仪及48i红外吸收CO分析仪.NO-NO2-NO分析仪和CO分析仪的标定仪器为:动态气体标准仪(Thermo 146i)与零空气发生器(Thermo model 111),标准气体均采用中国国家级标准物质中心制作.O3分析仪标定仪器为:49i-PS O3标定仪和零空气发生器(Thermo model 111)仪器,采样的时间分辨率均为5min.为保证数据的有效性和可靠性,观测期间仪器每周进行一次校准.更详细的仪器参数见文献[31].

VOCs观测采用由德国AMA公司生产的GC5000自动在线气相色谱氢火焰离子监测系统(GC-FID)进行连续监测,检测器均为氢火焰离子化检测器(FID),采样频率为1h.仪器检测C2~C12共计56种VOCs,包括29种烷烃、10种烯烃、16种芳香烃和1种炔烃.为了保证观测数据的有效性和可靠性,观测期间采用DIM200校准模块和美国环保署认可的Linde Gas North Ameriea LLC标准气体进行5点校准,校准时相关系数均在0. 995以上.更详细的仪器参数可参见文献[32].

1.3 实验数据

研究时段为2016年6月1日~8月15日,期间有效数据为1436组,样本数达到了SVR建模所需的特征量[22,33].为提高模型的泛化能力,选取各月约30%的数据作为预报集(具体为6月7~14日、7月10~13日、7月19~22日和8月5~8日),剩余时段的数据为训练集.参与建模的气象变量包括气温()、相对湿度(RH)、累积降水量()、风速()、紫外B波段辐射(UVB)和日照时数(SH),均为小时平均值.表示预报的时刻.O3及其前体物以体积分数(×10-9)表示,本文简称浓度.观测的56种VOCs分成烷烃、烯烃、芳香烃和炔烃这4类进行讨论,具体物种可参见文献[34].

1.4 WT理论

WT的思想始于20世纪初[35],是一种时间和频率分析方法,可根据频率直接分解信号.WT包括小波分解和重构2个阶段.首先,原始时间序列可分解为一个近似序列和若干细节序列.然后,近似和细节序列被重构成原始序列.对于分解层数为的分解和重构:

式中:s是原始序列;an是近似序列,代表低频部分;dj是第j层的细节序列,代表高频部分.本质上,这是一个低频序列随n的增加不断分解为低频子序列和高频子序列的过程(图2).具体理论算法可参见文献[36-37].

本研究使用MATLAB WT工具箱实现WT,其中需要设置的主要参数为小波类型和分解层数. He等[38]指出Daubechies 5(Db5)小波适用于大气污染物的小波分解并表现出良好的性能,因此小波类型设置为Db5小波.而分解层数决定分解后线性部分和非线性部分的分离程度,若过大,会出现分解后线性程度最高的部分偏离真实值的线性特征较远的情况,容易产生误差的累积.本研究采用平滑测度Smooth确定分解层数.

式中:表示序列长度;表示分解层数;是原始序列;a是第层的近似序列.设置阈值,一般取0.005.当Smooth()£时,确定分解层数为.经计算, Smooth(5)=0.003,因此分解层数设置为5.

1.5 SVR模型

SVM是Vapnik[39]于1995年首次提出的机器学习方法,它遵循结构风险最小化原则,善于解决非线性、小样本和高维模式识别问题,主要思想是把低维空间中的通过非线性函数映射到高维的特征空间(),在高维空间中建立线性回归超平面,从而处理低维空间中的非线性问题.高维特征空间的线性函数可以表示为:

猜你喜欢

层数分析仪线性
填筑层数对土石坝应力变形的影响研究
Sievers分析仪(苏伊士)
浅探铺设土工格栅技术在软土路基加固处理中的运用
线性回归方程的求解与应用
一种用于深空探测的Chirp变换频谱分析仪设计与实现
MoS2薄膜电子性质随层数变化的理论研究
二阶线性微分方程的解法
非齐次线性微分方程的常数变易法
ℝN上带Hardy项的拟线性椭圆方程两个解的存在性
便捷式家庭安全环境监测分析仪