EMD-LSTM算法及其在PM2.5中的预测

2020-10-13刘铭，魏莱

长春工业大学学报 2020年4期

刘铭，魏莱

(长春工业大学数学与统计学院，吉林长春 130012)

0 引言

近几年，我国城市中出现雾霾天气的频率逐渐增多，细微颗粒物(Fine Particulate Matter， PM2.5)这个名词慢慢进入到我们的生活，我们的生活也逐渐与空气质量息息相关。大气中有很多有害物质随着空气传播，严重影响人们的正常生活，粒子径小的肉眼观察不出来，也成为生活中的一大隐患。与大颗粒的污染物相比较，PM2.5粒子径小、活性强、经常附带不良物质，而且会在大气环境中滞留，短时间内扩散，所以高浓度的PM2.5会对人们正常生活产生极大的负面影响。如何有效保证人体身体健康，空气环境治理具有非比寻常的意义。由于空气中的PM2.5浓度受很多因素的影响，存在不规则性波动和不确定性，很难对其浓度进行准确地预测。

最近几年，国内外对PM2.5浓度预测进行了许多研究。董小刚等[1]使用EMD算法对PM2.5的发展趋势进行了分析;李嵩等[2]利用主成分分析法对空气PM2.5浓度的各影响因素进行了分析;Chaozhong Guo等[3]提出了裂纹转子动态特性理论,并运用经验模态分解(Empirical Mode Decomposition， EMD)的裂纹检测方法通过实验研究验证了该理论结果;刘文博等[4]针对印第安皮玛族成年女性糖尿病数据集进行分类，运用多种分类算法在多种指标的领域进行对比，在预测方面找到了该数据相对较优的方法；Zhanglei Jiang等[5]通过相关系数和峰度值的大小选择固有模态函数(Intrinsic Mode Function， IMF)，去除高频率噪声，提取非线性特征，从而获得轴承的故障特征频率，证明了该方法的有效性和可行性;Manzar Mahmud等[6]提出了一种自适应EMD技术，用于IM中的转子条故障检测。由于特征故障频率将随负载和速度相关的工作条件而变化，因此，所提出的自适应EMD技术会将不同频带上的故障特征与IMF边带相关联。自适应EMD技术使用第一个IMF检测故障类型，并使用第二个IMF作为预测故障严重性的指标。它可以克服与速度和负载振荡有关的边带频率灵敏度问题。所提出的自适应EMD技术的有效性通过在不同电机条件下的实验测试得到验证;Jianfeng Zhang等[7]开发了一种基于长短期记忆(Long Short-Term Memory， LSTM)的新时间序列模型，以替代计算量大的物理模型。所提出的模型由一个LSTM层和一个完全连接层组成，该层在其顶部具有一个在第一个LSTM层中应用的辍学方法。文中使用14 a(2000-2013年)的数据，在西北干旱地区河套灌区的5个子区域中应用和评估了该模型，证明所提出的模型可以很好地保存和学习以前的信息。此外，还讨论了辍学方法的有效性,以及所提出模型的体系结构。实验结果表明，辍学方法可以显著防止过度拟合。此外，通过对拟议模型的R2得分与Double-LSTM模型(R2得分在0.170～0.864之间)进行比较，进一步证明了所提议模型的体系结构是合理的，并且可以增强对时序数据的学习能力;Zihan Chang等[8]提出了一种基于小波变换和Adam优化的LSTM神经网络的混合模型，称为WT-Adam-LSTM。小波变换后，可以分解电价的非线性序列，并且处理后的数据将具有更稳定的方差，Adam和LSTM的组合可以准确地捕获电价的适当行为，这项研究提出了四个案例来验证混合模型的性能，并采用澳大利亚和法国新南威尔士州的数据集说明混合模型的卓越性;Xu Liu等[9]提出基于标准LSTM的两种新方法，它们不仅可以利用多功能输入和多时间步长输出的优势来提高一次性预测可用自行车的准确性步数，还可以预测多时间步数中的自行车数量，这些方法将帮助自行车共享机构做出更好的决策，以将其自行车有效地分配给每个泊坞窗，实验结果证实，我们的多特征和多时间步长模型优于标准LSTM模型;Qian Fei等[10]提出LSTM网络直接用于有毒气体扩散的预测，并使用Project Prairie Grass数据集进行实验，与高斯扩散模型、支持向量机(SVM)模型和反向传播(BP)网络模型相比，深度学习的LSTM模型具有更高的预测精度(特别是对于高浓度值的预测)，同时避免了传统人工神经网络模型中出现的负浓度值和过度拟合问题;Haoqiang Shi等[11]提出采用双隐藏层LSTM预测陀螺仪的温度数据(包括单点和周期预测)，并提出了预测效果的评估指标，通过BP网络，支持向量机(SVM)和LSTM网络，使用预估值检测陀螺仪的非正常变化，仿真计算与陀螺仪共同结合测算测量数据，并且可以使用LSTM网络预测陀螺仪的温度。

文中采用EMD算法对天津市2017-2019年采集的空气质量数据进行分解，分解后的数据作为深度学习LSTM循环神经网络[12]的输入，从而得到较好的一种PM2.5预测算法。

1 EMD分解

2000年以来,有很多突破性的频谱分析方法，EMD[13]方法是大家都认可的一种新型方法，此方法主要描述数据本身不需要安插其他基函数，只需要按照数据本身的时间尺度特征进行信号方面的分解。这也正是它与其他方法的差异所在。正是由于EMD拥有这样独特的性质，所以在理论层面上各类信号都可以用EMD处理，尤其是在处理非线性数据上，EMD拥有很明显的优势，优胜于其他方法，并且具备很高的信噪比。自从提出EMD方法之后，各个领域都广泛应用其处理一些棘手的问题数据，比如空气质量、海洋数据、天体观测数据资料分析、地震记录数据分析。EMD的主要工作就是将数据分解成不同尺度的各个分量，也称其为IMF，通过IMF可以更加直观地观测数据。

EMD本质是经过特征的时间尺度识别信号中所含有的所有振动模态。在EMD分解中，每个IMF的状态都具有一定的相同性，每个IMF都具有信号的某一时间尺度特征。相比于其他的信号分析方法，EMD分解具有很大可行优势，它的基函数是由自身得到的，所以能在各类的信号处理方面游刃有余，没有特别严格的限定，且具有普遍性。

EMD的优势如下：

1)EMD分解的真正运行是将原数据分解成频率不同的各个数据，由高到低依次得到。对于各个种类的信号来说，高频数据往往代表着此数据的主要特征，所以EMD是一种将高频分量先行提出的一种方法，从另一角度说也是一种新的主成分分析法。

2)EMD能根据分解过程中的信号特征自适应发生改变，所以EMD方法具有自适应时序分析特征。

①找到信号x(t)所有的极值点；

②用拟合出上下极值点的包络线，求得上下包络线的平均值m(t)，得到h(t)=x(t)-m(t)；

③判断h(t)是否为IMF；

④如果不是，则用h(t)代替x(t)，重复步骤①～③，直到h(t)满足判断依据。此时h(t)就是需要提取的IMFCk(t)；

⑤每经过运算得到一阶IMF，就从原信号中去除它，之前的步骤一直重复运算，直到信号最后剩余部分rn就只是单调序列或者常值序列。

经过EMD方法分解将原始信号x(t)分解成一系列IMF，以及rn的线性叠加

(1)

2 基于LSTM的PM2.5预测算法

2.1 RNN神经网络

循环神经网络(Recurrent Neural Network， RNN)是一种处理序列数据的神经网络[14]，常用于各种时序数据。与其他前向神经网络不同的是，RNN可以储存一种上文和下文的形态，可以在上文和下文窗口中学习、表达、储备此列数据序列信息的能力。RNN在很多应用场景有广泛的应用，比如若干个单词组成的段落，若干帧图像组成的视频段落，若干个段落组成的音频。RNN标准网络结构如图1所示。

RNN输入的集合是{x0,x1,…,xt,xt+1,…}，输出的集合是{y0,y1,…,yt,yt+1,…}，隐藏层的输出为{s0,s1,…,st,st+1,…}。不难看出，RNN之所以能够处理传统神经网络处理不了的序列，与它的结构分不开关系，它不光能从输入层传递到输出层，还能在每个单元的隐层间传递信息，具体步骤如下:

st=σ(Uxt+Wst-1+bi),

(2)

ot=Vht+bo，

(3)

yt=softmax(ot)，

(4)

式中：U----输入层权重参数;

W----隐藏层权重参数;

V----输出层权重参数;

bi----输入层偏置参数;

bo----输出层偏置参数;

σ----激活函数，一般情况下会选择tanh函数或者ReLu函数。因为tanh函数的梯度最大只能是1，大部分状态下都是接近0或者饱和状态，每当求导的矩阵存在一些元素接近0，那么一连乘会让梯度很快就消失了，称为梯度消失，如果换成ReLu函数，其中特征值如果大于1，那么连乘后的结果被称为梯度爆炸，这两点是RNN致命的缺点。

2.2 LSTM神经网络

RNN是一种新型神经网络，与传统神经网络结构存在本质上的不同，它是一种跨越和进步，但在实际中，其结果往往差强人意。LSTM[15-16]是长短期记忆网络，在结构上LSTM与RNN有很高的相似，都连接了隐藏层，不同的是LSTM网络在结构中增加细胞状态会随着自己存在的不同时间向下传递状态，细胞状态表示为长期记忆。在整个序列中只有少量的线性计算，所以可以有效保存过去较长时刻的信息。

LSTM应用已经遍布了人们的日常生活，比如LSTM算法处理的模型可以翻译各类语言、对于图像各类的处理和分析、语音和图像精准识别、杂乱手写体的识别、聊天机器人与用户之间的自动聊天、股票等一些时序问题的预测、系列疾病的预测、音乐片段的合成剪辑、编辑文档摘要等应用。LSTM区别于RNN的地方，主要在于LSTM算法拥有一个独特“处理器”，它可以用于判别信息有没有用。这个处理器作用的结构被称为cell，如图2所示。

一个cell当中被放置了输入门、遗忘门和输出门三扇门。这个设计可以应对循环神经网络中的梯度衰减问题，并更好地捕捉时间序列中时间步距离较大的依赖关系。目前已知，解决长序依赖问题的有效算法，LSTM就是重要的一员，并且这种技术的适应性非常高。

LSTM还要确定当前时刻的输入运算，输入门控制当前时间步的输入如何传递到当前时间步的记忆细胞。在输入门内进行的运算过程如下式：

it=σ(Wxixt+Whiht-1+Wcict-1+bi),

(5)

(6)

式中：Wxi,Whi,Wci----输入门中的参数;

xt----输入数据;

ht-1----上个时间步的隐藏层输出;

在输入门运算之后，LSTM需要更新当前时间步的细胞状态，

ct=ftct-1+itct,

(7)

式中：ft----遗忘门的输出，代表是否丢弃上一时间步的信息，是否传递到当前时间步。

最后根据当前的细胞状态ct计算什么信息需要通过输出门进行输出。并按照以下呈现公式计算得出当前输出。

ot=σ(Wxoxt+Whoht-1+bo),

(8)

ht=ottanh(ct),

(9)

式中：Wxo,Who,bo----输出门中的参数;

ht----当前时间步的隐藏层输出。

2.3 基于EMD-LSTM算法的PM2.5预测模型

文中采用LSTM神经网络实现，根据2017年9月14日0时-2019年9月14日0时天津市PM2.5空气质量数据，根据EMD分解后重组，再利用LSTM能够有效地处理，算法网络模型的整体流程如图3所示。

从图3可以看出，文中提出的组合预测模型采用EMD分解后再运用LSTM。经过EMD分解的数据输入LSTM模型训练，这样发挥了LSTM能解决时间序列长期依赖性的优势，因此，从理论上讲，运用EMD-LSTM模型是适应空气质量数据预测的优秀算法。

3 实验结果与分析

3.1 数据集

文中选择天津空气质量数据，从AQI、PM2.5、PM10、SO2中挑选出2017年9月14日0时-2019年9月14日0时PM2.5数据，选择前80%作为训练数据，后20%作为测试数据。共搜集16 991条训练样本，3 400条测试样本，其中有少量缺失值用均值填充。

3.2 实验结果

为验证所提出算法的有效性，将EMD-LSTM算法与标准LSTM算法进行对比分析，迭代次数epochs为20，使用相同的训练集和测试集，得到结果见表1。

表1 评价指标

由RMSE、MAPE、MAE评价标准可知，EMD-LSTM对空气质量数据均有不错的预测能力，经过EMD分解后的预测能力更强、误差更小。文中提出预测模型针对本数据有良好的预测效果。

LSTM与EMD-LSTM结果对比如图4所示。

通过真实值和预测值对比可以明显看出，添加EMD分解后，预测更加精准，比单一使用LSTM神经网络效果要好很多，对于预测这种不稳定、非线性的序列来说大有帮助。

4 结语

提出了基于EMD-LSTM的PM2.5预测算法，不需要对数据进行专业且复杂的处理，缺失值由均值补充。实验结果表明，文中提出的预测算法针对空气质量数据有良好的预测效果。从表1可以看出，加入EMD的LSTM算法各个评价指标都是最优的，而单纯的LSTM算法从RMSE、MAPE、MAE可看出不如经过EMD分解的算法模型。从图4也可以看出，单纯的LSTM算法的预测值与原数据的重合程度不如EMD-LSTM算法的预测程度。未来可以针对PM2.5地区现实特性进行深度的挖掘研究，结合地区实际情况对PM2.5进行更加精准的预测。