APP下载

基于PSO-BP神经网络预测广州市日均PM10浓度*

2017-01-09南方医科大学公共卫生学院生物统计学系510515尹安琪林愿仪林伟俊欧春泉

中国卫生统计 2016年5期
关键词:权值适应度广州市

南方医科大学公共卫生学院生物统计学系(510515) 尹安琪 林愿仪 林伟俊 欧春泉

基于PSO-BP神经网络预测广州市日均PM10浓度*

南方医科大学公共卫生学院生物统计学系(510515) 尹安琪 林愿仪 林伟俊 欧春泉△

目的应用多元线性回归模型和PSO-BP神经网络模型对广州市日均PM10浓度进行提前一天的预测,比较两种模型的预测效果,为环境管理决策提供依据。方法利用广州市2008年1月1日至2011年11月30日的PM10浓度和气象资料分别构建两种模型,并使用2011年12月1日至12月31日的数据检验两模型的预测效果。结果前一天的PM10、极大风速、最小相对湿度、日平均气温、能见度为预测第二天PM10浓度的5个主要影响因素,其中前一天的PM10浓度与预测的PM10浓度相关性最高(0.66)。PSO-BP神经网络模型的决定系数(R2)为0.80,相比于多元线性回归模型,其均方根误差(RMSE)降低6.20%,平均绝对误差(MAE)降低8.73%,平均绝对百分比误差(MAPE)降低13.33%,平均绝对偏差百分比(PMAD)降低8.67%。结论PSO-BP神经网络模型预测效果优于多元线性回归模型,能有效模拟、预测未来一日的PM10浓度,可为大气颗粒物浓度预测提供一定的方法学参考。

多元线性回归 PSO-BP神经网络 PM10气象因素 预测

世界卫生组织最新估计数据显示:每年有700万例的过早死亡与大气污染有关。大气中悬浮颗粒物(particulate matter,PM)浓度的升高可导致人体肺功能的降低以及心肺疾病发病和死亡风险的上升[1-3]。直径小于或等于10μm的颗粒物(PM10)是影响人群健康的主要颗粒污染物。及时、准确地预测PM10浓度,有利于大众采取积极的应对措施以降低对健康的影响。目前,国内许多学者开始研究城市大气污染物浓度预测模型。吴嘉荣[4]通过建立线性回归模型对福建泉州的PM10浓度进行了简单预测,但未进行预测效果评价。李祚泳等[5]率先将神经网络应用于大气污染预测的探索性研究,预测了SO2的浓度,并指出BP网络的预测精度优于模糊识别模型的预测精度。石灵芝等[6]基于BP人工神经网络对长沙市PM10每小时浓度进行预测,但预测时间较短(2008年1月5日至2008年1月9日,共五天),整体R2为0.62。国内现有文献普遍采用当天的气象数据预测当天的PM10浓度,而当天的气象数据作为预报指标本身也存在准确性的问题,势必影响PM10浓度的预测效果;其次,不同模型的预测效果尚有待比较,尤其是复杂的神经网络方法是否优于传统的多元线性模型有必要予以探讨。

广州市作为珠江三角洲重点经济发展城市,尚未深入开展有关颗粒物预测的研究。本研究基于广州市2008年1月1日至2011年11月30日PM10浓度和气象数据,建立传统的多元线性回归模型以及PSO-BP神经网络模型预测PM10浓度,并对两模型预测效果进行比较,可为环境管理决策提供依据,同时也可为其他地区的同类研究提供方法学上的借鉴。

资料与方法

1.资料来源

从广州市环境保护局官网获得2008-2011年广州市9个监测站点的日均PM10浓度数据。从中国气象科学数据共享服务网获得广州市2008年-2011年气象因素数据;从Weather Underground网站获得2008-2011年能见度数据。

2.方法原理

经过逐步回归方法筛选出与预测日期相对应的前一天气象因素等变量:PM10(PM10t-1)、极大风速(JDFSt-1)、最小相对湿度(M inRHt-1)、日平均气温(Tempt-1)、能见度(Seet-1)等5个主要预测变量来预测当日PM10(PM10t)浓度。利用2008年1月1日至2011年11月30日的PM10浓度和气象资料分别构建以下两种模型,并用2011年12月1日至12月31日的数据检验两模型的预测效果。

(1)多元线性回归模型

多元线性回归模型是探讨一个变量和多个变量之间关系的常用方法,主要以多个自变量的最优组合共同预测或估计因变量,其在环境大气污染研究中也常被使用。多元线性回归模型的主要形式如下:

其中,Y是因变量(预测变量),β0是常数,β1,β2,…,βp是自变量X1,X2……Xp的回归系数,ε是残差(观测值与预测值的差值)。回归系数β0,β1,β2,…,βp常用最小二乘法求得[7-8]。

(2)PSO-BP神经网络模型

BP神经网络属于多层感知器(multi-layer perceptions,MLP)的一种,能够解决预测中的线性不可分问题。多层感知器除了输入层和输出层外,还具有若干隐含层。上下层之间实现全连接,而每层单元之间无连接。大部分情况下多层感知器采用误差反向传播(back propagation)的算法进行权值调整,即当一学习样本提供给网络之后,神经元的激活值从输入层经中间层向输出层传播,在输出层的各个神经元获得网络的输入响应。随后,按照减小目标输出与实际误差的方向,从输出层经过中间层逐层修正各层的连接权值,最后回到输入层。

粒子群优化算法(PSO)是一种实现简单、全局搜索能力强且性能优越的启发式搜索技术。在PSO算法中,每个粒子都代表极值优化问题的一个潜在最优解,用位置、速度和适应度值三项指标表示该粒子的特征,适应度值由适应度函数计算得到,其值的好坏表示粒子的优劣。粒子在解空间中运动,通过跟踪个体极值Pbest和群体极值Gbest更新个体位置,个体极值Pbest是指个体所经历位置中计算得到的适应度值最优位置,群体极值是指种群中的所有粒子搜索到的适应度最优位置。粒子每更新一次位置,就计算一次适应度值,并且通过比较新粒子的适应度值和个体极值、群体极值的适应度值更新个体极值Pbest和群体极值Gbest。

PSO-BP神经网络模型可优化BP神经网络的权值和阈值,避免BP神经网络陷入局部极小值和增加其泛化性能,提高预测精度。PSO的适应度函数为神经网络的输出误差,公式为:

其中,ni为训练样本的个数,Oiq、Tiq分别为训练样本q在第i粒子的位置所确定的网络权值和阈值下的网络实际输出和期望输出[9]。

PSO-BP神经网络算法的具体步骤为:

①初始化BP神经网络和粒子群

根据样本数据设计BP网络的输入、输出和隐含层神经元数目、学习函数及训练函数;根据粒子群的规模,按照个体结构产生一定数目的粒子群,其中不同的个体代表神经网络的1组不同的权值。同时,初始化粒子的速度、位置、个体历史最优pi、全局最优pg、迭代误差精度和最大迭代次数等[10]。

②迭代与更新

更新粒子的速度和位置,并计算粒子的适应值。判断当前迭代次数是否大于最大迭代次数或当前最优适应值是否小于设定精度,若满足条件,则输出全局最优粒子位置及BP网络的权值和阈值。

③训练BP网络

根据输出的BP网络权值和阈值训练BP神经网络,并运用测试样本进行检验,PSO-BP神经网络完成。

(3)模型评价指标

采用以下指标评价模型的预测准确性:均方根误(RMSE),平均绝对误差(MAE),平均绝对百分比误差(即相对误差,MAPE),平均绝对偏差百分比(PMAD)和决定系数(R2)[11]。

(4)数据预处理

2008-2011年,日均PM10数据有17个缺失值(占PM10数据的1.16%),能见度数据有12个缺失值(0.82%),对缺失数据采用线性插值方法填补,得到R2相差0.05以内,为保证时间序列的连续性,本文对缺失值进行填补。为了解极端值对模型的影响,本文将极端值定义为±3SD,其中,本研究PM10数据有22个极大值,12个均出现在冬季。广州市属于亚热带海洋性季风气候,冬季来自北方大陆的冷风形成低温、干燥、少雨的气候,且冬季大气层结稳定,较易出现逆温,冬季气候和逆温层的出现会直接影响污染物的扩散,容易导致污染物浓度急剧上升。此外,冬季工业排放、汽车尾气排放等产生的大气颗粒物不能及时扩散,使PM10浓度大大增加,达到最大值。在剔除22个极端值后,模型R2仅降低0.01。为保留数据的原有特征,本文的最终分析并未剔除极端值。

(5)统计软件

利用SPSS 20.0软件构建多元线性回归模型,利用Matlab 2014a软件实现PSO-BP神经网络模型的构建。

结 果

1.日均PM10浓度的季节性特征

2008年到2011年广州市年均PM10浓度见图1。四年间PM10浓度一直维持在70μg/m3左右的较高水平,2009年的PM10浓度的最大值甚至达到284.70 μg/m3。PM10浓度呈现冬春季高,夏秋季低的季节特征。

图1 2008-2011年日均PM10浓度时序图

2.模型的构建

(1)多元线性回归模型

运用最小二乘法对多元线性回归模型的参数进行估计,结果见表1。

表1 多元线性回归模型参数估计值

表中可见各参数均有统计学意义,构建的PM10浓度预测的多元线性回归模型为:

(2)PSO-BP神经网络模型

根据所设定的参数,将相同的5个主要影响因素作为BP神经网络的输入层节点,对数据进行归一化处理,相应地,对训练后输出数据进行反归一化处理。通过训练,最终构建了PSO-BP预测模型,并对31天(2011年12月)的日均PM10浓度进行预测。

3.两个模型预测效果的评估和比较

两个模型对2011年12月日均PM10浓度的预测值与实际观测值的数据结果如表2所示。

表2 两种模型的预测结果比较

根据表2我们对两模型作图比较(图2)。

图2 两模型的预测值与观测值比较

两模型的预测效果的具体评价指标如表3所示,与多元线性回归模型相比,PSO-BP神经网络模型的RMSE、MAE、MAPE、PMAD均更小,决定系数更大。其中,PSO-BP神经网络模型的平均绝对百分比误差为16.9%,R2达到0.80,可认为此模型对广州市日均PM10的预测效果较好,拟合效果与实际数据的误差较小。由图2可以看出,PSO-BP神经网络对于波峰和波谷的拟合尤为精确。

表3 模型预测效果比较

讨 论

近些年来,国内大气颗粒物污染问题非常严峻,导致城市雾霾频繁出现。目前,国内对于大气质量预报范围过大不够精准,只将我国简单划分为京津冀、长三角、珠三角等区域,且大都仅限于用当天的气象数据预测当天的颗粒物浓度,预测效果欠佳。

广州市作为珠江三角洲重点经济发展城市,按照WHO日均PM10浓度标准计算,广州市2008年至2011年,PM10浓度超标率均大于60%,2009年日均PM10浓度最高甚至达到284.7μg/m3,超过WHO标准的四倍多。但目前广州尚未深入开展有关颗粒物预测的研究。

本研究提出了构建BP算法和PSO算法结合的模型对广州市日均PM10浓度进行提前一天的预测,发现PSO-BP神经网络模型较普通多元线性回归模型有更好的预测效果。多元线性回归模型只能解决线性可分问题,而BP神经网络模型能够解决预测中的线性不可分问题,但其学习效率低、收敛速度慢,易陷入局部极小值,在应用中网络结构的确定基本依赖经验,主要是采用递增或递减的试探方法来确定网络的隐节点,这些缺陷使得神经网络的训练样本和测试样本的输出具有不一致性和不可预测性,极大地限制了神经网络在实际预报中的应用[12]。本文将PSO优化算法与BP神经网络相结合,是在BP网络算法误差反向传播进行权值调整的基础上,引入PSO算法对权值进行修正。此混合算法有效结合了两者的优点,弥补了各自的不足。在基于PSO算法的BP网络的权值修正过程中,BP网络的权值作为PSO算法的粒子速度,根据适应度函数得到适应度值,根据适应度值找个体极值和群体极值,然后更新粒子速度和位置,输出BP网络的权值和阈值,从而达到训练神经网络的目的,此过程增加了模型的泛化性能,提高了预测精度。

本研究发现PM10浓度存在自相关,前一日的PM10浓度对预测当日的PM10浓度有较强的影响。前一日的气象因素对于PM10有滞后影响,风速越大,越利于PM10的稀释与扩散;湿度高,利于PM10凝结沉淀;温度高,大气对流作用强,利于PM10稀释扩散;PM10浓度越高,能见度越低。本研究利用了气象因素的滞后性和PM10浓度的自相关性,建立了适合广州市的PM10预测模型,对日均PM10浓度实现了提前一天的预测。不过,由于广州市监测站点有限,且均分布在广州市中心城区,本文基于9个监测站点的数据仅能预测广州市中心城区的日均PM10浓度。

[1]牟喆,彭丽,杨丹丹,等.上海市天气和污染对儿童哮喘就诊人次的影响.中国卫生统计,2014,31(5):827-829.

[2]Gilmour PS,Brown DM,Lindsay TG,et al.Adverse health effects of PM10particles:involvement of iron in generation of hydroxyl radical.Occup Environ Med,1996,53(12):817-822.

[3]Pope CR,Bates DV,Raizenne ME.Health effects of particulate air pollution:time for reassessment?Environ Health Perspect,1995,103(5):472-480.

[4]吴嘉荣.用线性回归法建立城市环境空气质量预报模式.引进与咨询,2005,12:29-30.

[5]曹兰.空气中PM_(10)浓度的BP神经网络预报研究.环境研究与监测,2010,02:29-32.

[6]石灵芝,邓启红,路蝉,等.基于BP人工神经网络的大气颗粒物PM lo质量浓度预测.中南大学学报,2012,43(5):1969-1974.

[7]Ul-Saufie AZ.Comparison Between Multiple Linear Regression And Feed forward Back propagation Neural Network Models For Predicting PM10Concentration Level Based On Gaseous And Meteorological Parameters.International Journal of Applied Science and Technology,2011,1(4):42-49.

[8]马雁军,杨洪斌,张云海.空气污染预测与地面气象要素应用.气象科技,2004,32(2):123-125.

[9]王爱萍,江丽.基于PSO的BP神经网络学习算法.计算机工程,2012,38(21):193-196.

[10]李慧民,李振雷,何荣军,等.基于粒子群算法和BP神经网络的冲击危险性评估.采矿与安全工程学报,2014,31(2):203-207.

[11]李骊,钱俊,杨军,等.三种模型对广东省伤寒副伤寒逐月发病数预测的比较.中国卫生统计,2014,31(2):197-201.

[12]吴建生,刘丽萍,金龙.粒子群-神经网络集成学习算法气象预报建模研究.热带气象学报,2008,24(6):679-686.

(责任编辑:刘 壮)

Prediction of Daily Averaged PM10Concentrations Based on PSO-BP Neural Networks in Guangzhou

Yin Anqi,Lin Yuanyi,Lin Weijun,et al.
(Department of Biostatistics,School of Public Health,Southern Medical University(510515),Guangzhou)

ObjectiveTo apply Multiple Linear Regression model(MLR)and PSO-BP neural networks model to forecasting daily averaged PM10concentrations,and compare the performance of these two prediction models.MethodsBased on data of PM10concentrations and meteorology in Guangzhou from January 1,2008 to November 30,2011,we constructed the MLR model and PSO-BP neural networks model,and data from December 1 to December 31 in 2011 were used to assess the predictive validity of the models.ResultsThe previous day′s PM10,extreme wind speed,minimum relative humidity,daily averaged temperature and visibility were the main factors in forecasting PM10,particularly,the previous day′s PM10was strongly correlated with the forecasting PM10(0.66).The determination coefficient(R2)of PSO-BPwas 0.80.Compared to MLR,PSOBP had a decrease of 6.20%in the root mean square error(RMSE),8.73%in the mean absolute error(MAE),13.33%in the mean absolute percenterror(MAPE);and 8.67%in the percent mean absolute deviation(PMAD).ConclusionThe results indicate that the PSO-BPNeural Networks is better than MLR in forecasting PM10.This research can provide some methodological references for forecasting ambient particulate matter.

MLRmodel;PSO-BP;PM10;Meteorology factor;Forecasting

*国家自然科学基金项目(81573249);广东省自然科学基金(2016A030313530)

△通信作者:欧春泉,E-mail:ouchunquan@hotmail.com

猜你喜欢

权值适应度广州市
改进的自适应复制、交叉和突变遗传算法
一种融合时间权值和用户行为序列的电影推荐模型
麓湖春天观景
广州市岭南耐火材料有限公司
CONTENTS
广州市一元文化有限公司
广州市中淲环保科技有限公司
一种基于改进适应度的多机器人协作策略
程序属性的检测与程序属性的分类
基于权值动量的RBM加速学习算法研究