APP下载

基于LSTM 的空气质量预测方法*

2020-04-26李艳萍赵晓宇

科技与创新 2020年7期
关键词:时序空气质量神经网络

李艳萍,赵晓宇

(鄂尔多斯应用技术学院信息工程系,内蒙古 鄂尔多斯017000)

当今时代,随着人类社会经济的快速发展,环境问题逐渐引起人们的重视和关注。每到冬季,北方不少城市的空气污染比较严重。为了进一步了解空气变化趋势并了解空气质量的污染情况,需要及时、准确地对空气质量指数(AQI)进行预测。当预测即将出现重污染天气时,果断采取应对措施,如减少污染物排放。因此,科学、准确地预测空气质量变化,并且有效地对空气质量进行评估,对改善空气污染状况,促进城市环境建设工作以及引导人们生产生活方式具有重要的指导意义。作为空气质量的评价指标,AQI 是根据环境质量标准和各项污染物对人体健康、生态、环境的影响而将常规监测的几种空气污染物浓度合在一起的数值评估指标,所以AQI 可以很直观地反映空气受污染程度[1-3]。因此,建立精确度较高的模型来预测未来的空气质量指数,可以为空气污染的防治和空气质量的提高提供良好的理论指导。

目前空气质量模型的研究主要有机理模型和数据模型两类。机理模型需要根据复杂的物理化学过程和外部气象条件及污染源排放等来建立预测模型[3],而数据模型不需要复杂的机理推导,它只需历史的污染物数据,通过数据驱动的方法建立预测模型。现在的大数据时代可为基于数据的建模方法提供海量数据,搭建模型较为方便。通过查阅相关文献,非机理模型的数据驱动模型预测方法使用得最为广泛。在基于数据的机器学习算法中,神经网络模型在研究空气质量预测方面的预测效果较好[4-5]。人工智能(AI)中的机器学习(ML)是目前最流行的实现方法,而深度学习(DL)则是机器学习(ML)的一个分支,也是当下最流行的机器学习(ML)的一种[6]。随着深度学习理论的迅速发展,由于空气质量监测数据属于时序数据,通过查阅相关文献[7-9],LSTM 在时序预测方面得到了广泛的使用,并且都取得了很好的预测效果。因此,本文提出了一种基于LSTM 的时间序列模型来预测空气质量的AQI 指数的方法。

1 长短期记忆网络(LSTM)原理

循环神经网络(RNN)常用来处理序列数据,但是RNN对于长序列处理会出现“记忆丢失”的缺点,从而产生梯度消失和梯度爆炸的问题。LSTM 是在克服了RNN 这一缺点的基础上形成的一种RNN 变形结构,通过在LSTM 内部结构中引入门控机制,通过“门”(gate)来控制丢弃或者保留信息,使得时间序列上的记忆信息可控,从而实现遗忘或记忆的功能[10],一定程度上克服了这一问题。LSTM 的实质是上一时刻隐含层的状态参与到了这个时刻的计算过程中,因此LSTM 对于时间上有依赖的时序数据有着优秀的预测能力,可以用来建立AQI 指数预测模型。

2 软件平台简介

本文采用基于Keras 的深度学习框架,利用Python3.7编程语言来建立LSTM 的空气质量预测模型。Keras 是一个由Python 编写的开源人工神经网络库,是由纯Python 编写的基于theano/tensorflow 的深度学习框架,可以作为Tensorflow、Microsoft-CNTK 和Theano 的高阶应用程序接口,进行深度学习模型的设计、调试、评估、应用和可视化[11]。预测模型用Python 实现,非常易于调试和扩展,可读性较好。

3 LSTM 预测模型的建立

3.1 数据采集与预处理

本文数据是中国空气质量在线监测分析平台历史数据库中的历史数据,以鄂尔多斯市2014-01-01—2019-12-31 的空气污染物监测数据为基础,采样频率为一天一次,总共包含2 192 组数据,每日的数据包括PM2.5、PM10、SO2、CO、NO2、O3、AQI 指数7 个参数指标。

由于空气污染指数AQI 是评估空气质量的重要指标,因此,本文所建预测模型的输入量为PM2.5、PM10、SO2、CO、NO2、O3这6 个参数和当前时刻的AQI 指数,指标的单位均为μg/m3,输出量为AQI 指数。输入输出变量的变化趋势如图1 所示。由图1 可知,AQI 指数和PM2.5、PM10、SO2、CO、NO2这5 个指标变化趋势大致相同,但是和O3指标的变化趋势相反。因此,可以直观地找到影响空气质量好坏的因素,可供政府和环保相关部门制订相关政策时作为参考依据。

图1 输入输出变量趋势图

由于各类数据具有量纲和性质不同的特点,为避免因为输入输出数据量纲差别比较大而出现模型训练速度较慢、训练误差较大的情形,本文采用Min-MAX 方法对输入输出数据进行标准化处理,将数据特征缩小到[0,1]之间,经过归一化的数据在寻找最优解时速度最快。

3.2 预测模型建立

将2 192 组数据划分为1 972 组为训练集,220 组为测试集,建立基于Kears 框架的LSTM 空气质量预测模型。输入数据经过标准化处理之后送入LSTM 神经网络进行处理,经过多次迭代之后得到LSTM 神经网络AQI 预测模型。

在训练LSTM 模型时,由于Adam 算法可以动态调整每个输入参数的学习速率,因此优化器采用Adam 优化算法,采用均方误差mse 最小化为损失函数的优化目标,训练模型的迭代次数设为50,学习率设为0.01。最后模型经过LSTM神经网络充分训练后,最终得到的预测值(深灰色线)与真实值(浅灰色线)对比如图2 所示。

图2 AQI 指标预测图

LSTM 训练误差如图3 所示。由图3 可知,LSTM 对于时序数据具有优秀的拟合能力,可以较准确地预测AQI 指数。模型在训练时产生的均方根误差RMSE 为4.18,测试时产生的均方根误差RMSE 为3.45。预测模型的训练误差和测试误差经过20 次迭代之后基本在0.001 左右趋于稳定。

图3 LSTM 训练误差图

从仿真结果可知,LSTM 模型训练的均方根误差RMSE为4.18,LSTM 的空气质量预测模型具有自动挖掘各个输入信息的内在规律特征的优点,根据上一时刻神经网络的输出和记忆单元的状态信息以及当前时刻的输入,三者共同决定当前时刻记忆单元状态信息的更新,因此LSTM 神经网络对于AQI 指数这样的时序数据有着更强的学习能力,此外LSTM 还可以避免RNN 在训练过程中出现梯度消失和梯度爆炸的问题。因此,基于LSTM 的神经网络可以对时序数据建立最优的模型。

4 结论

本文采用LSTM 神经网络对空气质量进行建模预测。采用空气质量在线监测分析平台历史数据库有关指标参数,形成时间序列样本集,通过构建基于Kears 的LSTM 时间循环神经网络预测模型,用于预测AQI 指数。LSTM 神经网络模型能够深入挖掘并记忆输入样本参数自身变化与AQI 指数的相互关系,使学习更加充分,预测精度更加准确。预测模型所得结果不仅能够帮助人们全面掌握所在地区空气污染源的排放情况,还可以帮助人们及时掌握影响城市空气质量的因素,为空气质量的监测、预警与调控提供科学依据。因此,该模型的建立对城市整体的规划与建设、环境的污染控制管理等有着重要的理论意义与一定的参考价值。

猜你喜欢

时序空气质量神经网络
顾及多种弛豫模型的GNSS坐标时序分析软件GTSA
基于神经网络的船舶电力系统故障诊断方法
乌海市雾对空气质量的影响
清明
基于GEE平台与Sentinel-NDVI时序数据江汉平原种植模式提取
MIV-PSO-BP神经网络用户热负荷预测
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
你不能把整个春天都搬到冬天来
三次样条和二次删除相辅助的WASD神经网络与日本人口预测