基于多变量LSTM的工业传感器时序数据预测

2018-10-20易利容王绍宇殷丽丽杨青顾欣

智能计算机与应用 2018年5期

易利容王绍宇殷丽丽杨青顾欣

Abstract： The forecasting of sensor timing series is a key process for industrial automation and intelligentization， and is of great significance for automated production supervision， risk prevention and technological improvement. Considering the weak generality of traditional statistical-based time series analysis methods and the long-term dependence problem of common Recurrent Neural Network models， a method of Long Short-Term Memory Neural Network based on multivariable analysis is proposed to solve these problems， especially for forecasting temperature， pressure， and current intensity of industrial equipment. This method uses the long-term information of the data and multi-variable correlation， effectively improves the accuracy. The experiment selects a Swedish company's mechanical sensor dataset for training and testing， and compares the proposed method with the univariate long short-term memory model and other major temporal prediction algorithms. The experimental results show that the proposed method has better prediction performance and versatility.

引言

物联网、大数据、云计算[1]等新兴产业的发展极大地推动了工业自动化进程。工业生产过程中通过物联网汇总的各类传感器采集的大量信息构成了传感器大数据，这些数据都具备典型的时序数据特征，通过对这些时序数据的处理和预测可以有效地监督自动化生产过程、预防风险隐患和改进工业技术。

目前对工业传感器时序预测的研究方法主要分为2类。一类是基于统计学的经典模型[2]，如移动平均法、指数平滑法、ARIMA模型和状态空间模型等，由于统计模型过分依赖平稳性、稳定性等假设，对数据要求较高，通用性弱，因此不适用于工业用途。另一类是基于机器学习的预测模型，如KNN回归、SVM回归[3]、BP神经网络[4-5]和深度神经网络等。其中，KNN回归、SVM回归、BP神经网络结构简洁、性能稳定，但预测精度有所局限。随着云计算、大数据时代的到来，计算能力的提高和训练数据的大幅增加对深度学习提供了支持[6]，以循环神经网络（Recurrent Neural Network， RNN）[7]为代表的深度网络以其通用性强、预测精度高等优点逐渐成为时序预测的热门的研究方向。实际应用中传感器数据规律多与远距离时间数据有关，然而普通RNN随着循环进行发生的梯度爆炸或梯度弥散使模型只能学习到短周期的依赖关系[8]。为解决此问题，引入長短时记忆神经网络[9] （Long Short-Term Memory Neural Network， LSTM NN或LSTM）。LSTM的长短时记忆单元能够控制信息的累积速度，并在预测远距离依赖型时序数据上展现了优越的能力。考虑到同一工业设备平台的各类传感器数据之间往往具有很强的相关性，本文基于数据的横向信息（远距离相关性）和纵向信息（多变量相关性），提出了改进的基于多变量LSTM的工业传感器时序数据预测方法。该方法避免了统计学方法中数据假设的过分依赖性，对工业传感器时序预测具有通用性。

1LSTM传感器时序预测

Connor等人[10]依据传统RNN算法提出了基于鲁棒性滤波的RNN时序预测模型，以精简的训练方式实现了优于传统统计学时序分析方法的预测性能。但与传统RNN模型一样，该模型对输入配置要求高，并且由于对长期依赖型时序预测存在内部缺陷，因此该模型无法满足更高的精度需求。随着深度学习的发展，LSTM作为一种改进的RNN算法被提出，基于这种算法建立传感器时序预测模型，可以有效弥补普通RNN的缺陷。

1.1工业传感器时序数据预处理

训练及测试数据为瑞典某公司机械装载传感器时序数据集，该数据集包括一个同步时间段内的压力、热力、电量等24个不同种类的传感器时序数据。数据采集的总时长为6天、时间间隔为1 min。总数据集共有24组、8 641条原生数据，其中包括3组标签数据和21组连续型数据。图1展示了其中4组传感器数据的可视化特征，横轴为时间索引，纵轴为样本值。由图1可知，数据具有明显的周期性，并且不同数据间的相关性也较为显著。考虑到其中油桶温度、排放过滤器压力及室外动力单元温度这3类数据对监督工业生产的正常运行尤为关键，实验模型将分别对这3类数据进行预测。

数据预处理包括数据清洗、标签数据One-hot编码及数据归一化。训练集为前4天的5 760条数据，测试集为余下的2 876条数据。

1.2LSTM模型

RNN使用带有自反馈的神经元，不断将自身上一刻的輸出当作输入，能够学习任意长度的时序逻辑特征。然而RNN在训练后期，容易出现梯度弥散或梯度爆炸，亦即当时序间隔不断增大，这种神经网络无法学习到远距离信息。

研究中拟预测的传感器数据具有远距离依赖特性，为弥补普通RNN的缺陷，本文提出了基于LSTM模型来预测工业传感器数据。LSTM是循环神经网络的一个变体，由德国学者Hochreiter和Schmidhuber于1997年提出。LSTM通过有针对性设计避免了长期依赖问题，在大量实验中证明了其优越性。不同于普通RNN的单一隐藏层，LSTM将信息存放在RNN正常信息流之外的控制单元中，即引入一个新的状态单元C，如图2所示，LSTM的设计核心是门限机制，包括输入门、遗忘门和输出门。对其功能设计可分述如下。

1.3多变量LSTM传感器预测模型

针对实际工业传感器数据的远距离相关性及不同传感器数据间多变量相关性特征，本文提出了改进的多变量LSTM传感器时序预测模型。该模型的网络结构包括3层：输入层、隐藏层和输出层。其中，输入层控制输入数据的格式；隐藏层是包含了若干LSTM单元的结构，通过反复迭代、调整权值来降低误差直至收敛。输出层将结果还原为原始数据格式，拓扑结构如图3所示。

由图3可知，输入层将预处理后的工业传感器时序数据转为可用于监督学习的数据。选取T个时间步为间隔，以每个时刻前T个时间步的数据作为该时刻的输入，该时刻对应的样本值作为目标输出，将数据划分为输入集和相应的输出集。为了使输入数据包含多变量性，将24类传感器数据整合为3维数据：[样本值，时间步，特征]，接着以时间步为唯一索引输入到隐藏层中。

隐藏层数根据数据特征和实验结果灵活调整，本文数据具有较强的规律性，隐层数量过多容易导致过拟合，因此本文中的模型为单隐层结构。由公式（1）～（3）可知，门限激活函数σ（·）的选择是模型建立的关键，由于ReLU函数能减轻梯度弥散问题且计算速度较快，因此选其作为门限激活函数。过拟合是多变量多参数深度神经网络训练过程中的一个严重问题，本文在隐层加入Dropout[8]算法，核心是训练期间从神经网络中随机丢弃单元（及其连接），这种方法能够有效缓解过拟合问题。输出层对预测输出i与目标输出yi计算平均绝对值误差（Mean absolute Error，MAE）作为损失函数，MAE是平均误差幅度的明确度量，适用于大部分模型的平均误差比较[9]。隐藏层将损失函数计算得出的梯度反向传播调整公式中的所有权值，使用Adam算法为每一次迭代学习生成优化参数，直到损失函数收敛。模型训练结束后，输出层对结果进行反归一化等处理，将预测值还原为与输入相符的时序数据格式。

2实验

实验分为模型训练与模型测试2部分，分别对油桶温度、排放过滤器压力及室外动力单元温度3组时序数据进行预测。输入数据的时间间隔T为5，模型训练的Epoch为50， Batch size为512。使用相同数据集训练及测试单变量LSTM预测模型、BP神经网络、KNN回归及SVM回归作为对比实验。

2.1实验环境

实验操作系统为Ubuntu16.04，编程语言为python2.7，算法平台为Tensorflow；硬件配置为CPU Intel i7，内存8 G。

2.2实验结果

其中，yi和i分别表示第i个样本的真实值和预测值，n是样本数量。RMAE和MAPE的值越小，说明预测结果越准确。

研究中得到5种模型对3组数据的预测结果比较可见表1。除单变量LSTM模型外，其它模型均为多变量输入。由比较结果可知，多变量LSTM在3组测试结果中RMSE值均为最低，2组测试结果中MAPE值最低，预测误差最小。实验中，KNN回归和SVM回归的训练速度最快，但预测结果误差较大。多变量LSTM的训练时间低于单变量LSTM，这是由于Dropout算法使多变量LSTM模型的网络节点复杂度降低，且ReLU激活函数计算速度快等原因。

3结束语

本文提出了一种基于多变量分析的LSTM预测工业传感器时序数据的方法，该方法不但克服了传统机器学习方法的长期依赖问题，同时利用实际工业生产平台上多类传感器数据存在远距离依赖和相关的特点，有效提高了时序数据的预测精度。实验结果证明：该模型对工业传感器时序数据的预测能力优于BP神经网络、SVM回归、KNN回归及单变量LSTM模型。论文的未来工作将考虑通过扩大数据集，提高模型的泛化能力。

参考文献

[1] 罗军舟，金嘉晖，宋爱波，等. 云计算：体系架构与关键技术[J]. 通信学报，2011，32（7）：3-21.

[2] BOX G E P， JENKINS G M， REINSEL G C， et al. Time series analysis： Forecasting and control[M]. New York：John Wiley & Sons， 2015.

[3] ZHANG Fan， DEB C， LEE S E， et al. Time series forecasting for building energy consumption using weighted Support Vector Regression with differential evolution optimization technique[J]. Energy and Buildings， 2016， 126： 94-103.

[4] WONG F S. Time series forecasting using backpropagation neural networks[J]. Neurocomputing， 1991， 2（4）： 147-159.

[5] WANG Lin， ZENG Yi， CHEN Tao. Back propagation neural network with adaptive differential evolution algorithm for time series forecasting[J]. Expert Systems with Applications， 2015， 42（2）： 855-863.

[6] 程學旗，靳小龙，王元卓，等. 大数据系统和分析技术综述[J]. 软件学报，2014，25（9）：1889-1908.

[7] CONNOR J， ATLAS L. Recurrent neural networks and time series prediction[C]//IJCNN-91-Seattle International Joint Conference on Neural Networks. Seattle， WA， USA：IEEE， 1991： 301-306.

[8] 焦李成，赵进，杨淑媛，等. 深度学习、优化与识别[M]. 北京：清华大学出版社，2017.

[9] HOCHREITER S， SCHMIDHUBER J. Long short-term memory[J]. Neural computation， 1997， 9（8）： 1735-1780.

[10]CONNOR J T， MARTIN R D， ATLAS L E. Recurrent neural networks and robust time series prediction[J]. IEEE transactions on neural networks， 1994， 5（2）： 240-254.

[11]SRIVASTAVA N， HINTON G， KRIZHEVSKY A， et al. Dropout： A simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research， 2014， 15（1）： 1929-1958.

[12]WILLMOTT C J， MATSUURA K. Advantages of the mean absolute error （MAE） over the root mean square error （RMSE） in assessing average model performance[J]. Climate research， 2005， 30（1）： 79-82.