APP下载

贝叶斯正则化BP神经网络在空气质量指数预测中的应用

2022-03-24张林静

关键词:芜湖市预测值空气质量

尤 游 张林静

(1.安徽机电职业技术学院 公共基础教学部,安徽 芜湖 241000;2.安徽警官职业学院 信息管理系,合肥 230031)

0 前 言

随着工业化、城镇化进程的逐渐加剧和经济的高速发展,空气质量问题越来越受到全社会的关注。大气污染对人们的健康和生活产生了严重的影响,而空气质量的好坏与城市的发展潜力紧密相关。因此,空气质量的日常预测和可视化对城市的环境管理和可持续发展有着重要的意义,良好的空气质量有利于提升城市综合竞争力[1-2]。

目前,空气质量的优劣主要通过空气质量指数(AQI)的大小来衡量。空气质量指数的监测结果不仅与PM2.5、PM10、CO、NO2、SO2、O3等6种污染物浓度有关,还与风速、温度、湿度等气象因素有关,需要综合考虑。由于这些因素之间存在较复杂的非线性映射关系,而神经网络具有较强的非线性映射能力,因此,近年来基于神经网络的空气质量指数预测得到了广泛的应用。

BP神经网络是最具代表性的神经网络。误差反向传播算法最为常见但也存在一定的缺陷,在训练过程中会出现收敛速度慢、训练时间过长、易陷入局部最优等情况,且易发生过拟合现象,削弱了网络模型的泛化能力[3-4]。针对该算法存在的缺陷,一般采用LM算法进行改进。LM算法既具备高斯-牛顿法的速度优势,又结合了梯度下降法的局部收敛性,但也存在内存占用较大等缺点[3-4]。贝叶斯正则化是在LM算法的基础上提出来的,通过修正网络训练性能函数,规范训练规模,从而降低网络发生过拟合的概率,提高神经网络的健壮性和泛化能力[4]。因此,本次研究基于贝叶斯正则化算法(BR算法)优化BP神经网络,构建BR-BP神经网络模型,通过预测准确率及误差指标对两种算法进行实证分析。

1 相关理论

1.1 BP神经网络

BP神经网络属于多层前馈神经网络,是目前应用最广泛的神经网络模型之一。BP神经网络的学习过程包括信号正向传播与误差反向传播等两个阶段。训练样本在正向传播过程中,从输入层经过隐含层传到输出层,得到实际输出信号;如果此时的输出结果达不到期望要求,则进入反向传播阶段,通过不断修正各神经元的权阈值来降低预测误差,反复循环,使得网络输出不断逼近期望输出[5]。BP神经网络包含输入层、隐含层和输出层等3层结构,如图1所示。

图1 BP神经网络结构

网络训练之前需要确定各连接层的节点数,输入层和输出层的节点数一般由训练样本决定,而隐含层的节点数在理论上一直未有定论,一般通过逐步试验来调试预测误差的大小,从而确定其最优值。调试的同时也会参考经验公式,如式(1)所示:

(1)

式中:γ为隐含层节点数;l、m分别表示输入层、输出层神经元节点数;t为1~10的任意常数。

1.2 贝叶斯正则化BP神经网络(BRBPNN)

网络的泛化能力是神经网络性能的重要评价指标。BP神经网络在训练过程中易出现局部最优而非全局最优、预测效果不及训练效果等情况,以及为达到预设条件可能会过度训练,即产生过拟合现象。LM算法的优势是训练速度快,但内存占用过大。本次研究在LM算法的基础上,提出利用BR算法改进训练性能函数,以规范网络规模,提高网络泛化能力。

神经网络常用均方误差(MSE)表示误差函数,即:

(2)

式中:n为训练样本数;YCi(j)为算法预测值;SJi(j)为样本实际值。

BR=p×fω+q×fD

(3)

式中:p、q为正则化参数,其大小将直接影响网络拟合效果。

若p≪q,则通过调节网络规模可以得到理想的训练误差,但可能会训练过度,导致出现过拟合现象;若p≫q,则连接权重可能会大幅降低,使得网络规模减小并简化,进而出现欠拟合现象,导致训练误差达不到预期效果。

为了得到最优的p和q,基于贝叶斯分析方法,认为网络权重和训练样本的先验分布均服从高斯分布[8]。基于后验函数最大化的原则,对BR性能函数进行求解,得出ω的最小值ω*,此时p*、q*为最优参数[9],即:

(4)

式中:φ表示有效权值个数,反映网络实际规模,φ=M-p*×trace-1(H*),M为测试样本数。

H*为训练性能函数BR求解出ω*时对应的Hession矩阵,H=p▽2fw+q▽2fD,该矩阵可通过高斯-牛顿法来逼近[8,10]。

2 资料和方法

2.1 研究区域概况

芜湖市是安徽省第二大城市,长期以来坚持新发展理念,聚力长三角一体化发展,在政治、经济、文化等方面占有重要的地位。芜湖市位于长三角西南部,地处长江下游,属亚热带湿润型季风气候,年平均气温15~16 ℃,日照时数2 000 h左右[11]。气候特点是光照充足,雨量充沛,四季分明。

2.2 空气质量等级划分标准

根据2012年发布的《环境空气质量指数(AQI)技术规定(试行)》(HJ 633—2012),按照AQI将空气质量划分为6个等级,依次为一级优、二级良、三级轻度污染、四级中度污染、五级重度污染和六级严重污染[11-12]。AQI数值越大说明空气质量等级越高,空气质量越差,大气污染越严重,对人们的健康危害越大[11]。空气质量等级划分如表1所示。

表1 空气质量等级划分

2.3 变量选取和数据来源

以芜湖市空气质量为研究对象,利用前一天的AQI、6种污染物浓度和当天的气象数据建立神经网络模型,及时预测当天的AQI。具体设置如下:神经网络的输入层为前一天的AQI,前一天的PM2.5、PM10、CO、NO2、SO2、O3等6种污染物浓度以及当天的气象数据(最低温度、最高温度、风级和湿度),输出层为当天的AQI预测值。神经网络模型的变量设置如图2所示。

图2 神经网络模型的变量设置

数据来源于空气质量在线监测分析平台(https:∥www.aqistudy.cn/)、安徽省生态环境厅官网(http:∥sthjt.ah.gov.cn/)和相关气象网站(http:∥tianqi.2345.com/),通过查询整理获得芜湖市2020年全年空气质量监测数据和同期气象数据。对照《环境空气质量指数(AQI)技术规定(试行)》(HJ 633—2012)评价标准,芜湖市2020年全年空气优良天数为322 d,优良率为88.0%,轻度污染天数为38 d,中度污染及以上天数为6 d。全年空气优良天数较2019年增加了62 d,优良率提高了16.2%,这与芜湖市近年来加大生态环境保护力度有关。

2.4 模型量化评价指标

设置预测准确率(SQL)、平均绝对百分比误差(MAPE)和MSE等3个指标。其中,根据中国气象局对空气质量预报评分的有关规定,认为当实际值和预测值的差值≤25时,此次预测评分为100分,因此,衡量AQI预测是否准确的临界值为数值25[13]。具体公式见式(5)—(7):

(5)

(6)

(7)

式中:K为AQI预测正确(|SJi(j)-YCi(j)|≤25)的天数。

3 Matlab仿真实验结果分析

利用Matlab 2016对神经网络进行构建,输入层为前一天的AQI,前一天的PM2.5、PM10、CO、NO2、SO2、O3等6种污染物浓度和当天的气象数据(最低温度、最高温度、风级和湿度),节点数为11;输出层为当天的AQI预测值,节点数为1。为了量化预测结果,在样本数据中随机抽取70%作为训练样本,剩下的30%作为测试样本。分别采用LM算法和BR算法对BP神经网络进行优化,并对仿真结果进行类比分析。

利用LM算法对BP神经网络进行训练,训练函数为trainlm函数。网络训练之前,利用mapminmax函数对数据归一化处理,隐含层的激活函数采用tansig函数,输出层的激活函数采用purelin线性函数,最小误差设为0.001,学习率为0.01,迭代次数为1 000。隐含层节点数根据经验公式确定为5—13,根据试错法原则确定隐含层最优节点数为8,建立11-8-1结构的LM-BP神经网络模型。训练结束后对测试样本进行预测,最后反归一化得到110个测试样本的AQI预测值,并将其与AQI实际值进行对比。同时,得到LM算法的SQL为73.64%、MAPE为28.43%、MSE为0.104 2。AQI实际值与LM算法预测值的对比见图3。可以看出,大部分预测效果较好,但个别预测误差较大,说明该算法有待改进。

图3 AQI实际值与LM算法预测值的对比

利用BR算法进行仿真实验,构建BR-BP神经网络模型,训练函数为trainbr函数。同理得到BR算法对应的AQI预测值,其测试样本预测值与实际值的对比见图4。进一步量化分析得到,BR算法的SQL为87.27%,比LM算法提高了13.63%;MAPE为19.66%,MSE为0.043 7,均优于LM算法。两种算法的预测误差曲线见图5。通过芜湖市空气质量预测仿真实验分析可知,相较于LM-BP神经网络,BR-BP神经网络对AQI的预测效果更好。两种模型的拟合效果量化指标对比见表2。

图4 实际值与BR算法预测值的对比

图5 LM算法和BR算法的预测误差曲线

表2 预测效果量化指标对比

4 结 语

AQI是衡量空气质量状况的重要指标,对AQI进行实时有效的预测能及时给政府以及相关部门提供大气环境质量的变化趋势[14],有利于提高环保部门对大气污染的风险信息研判和预警能力。本次研究收集芜湖市2020年全年空气质量数据和相关气象数据,建立BP神经网络模型,并进行仿真实验。考虑到BP神经网络易出现过拟合现象,分别采用LM算法和BR算法优化BP神经网络。仿真结果表明,BR算法的预测效果更优,BR-BP神经网络模型可以提高空气质量预报的准确率,对空气污染的监测、预警和防控治理具有一定的参考价值。

另外,影响空气质量的因素还有很多,不仅包括气象因素,还包括社会环境、人为因素以及地理环境等,如城市的经济发展水平、产业结构、城市绿化率、废弃排放量、城市所处的地形地貌等。若要考虑完整的影响指标,还需要在后期完成一系列更加细致有效的工作。

猜你喜欢

芜湖市预测值空气质量
乌海市雾对空气质量的影响
AI讲座:ML的分类方法
自体荧光内镜对消化道肿瘤诊断临床应用分析
芜湖市第一届青少年机器人竞赛开赛
季节模型在某医院月门诊量预测中的研究与应用
习作展示
胡亚楠、张国英作品选
太阳的故事