APP下载

基于深度学习长短期记忆网络结构的地铁站短时客流量预测*

2018-11-17魏子健王思达陈赖谨

城市轨道交通研究 2018年11期
关键词:客流量神经网络预测

李 梅 李 静 魏子健 王思达 陈赖谨

(北京交通大学经济管理学院,100044,北京//第一作者,硕士研究生)

随着城市信息化水平的日渐提高,公共交通IC卡的频繁使用产生了海量数据。如何充分利用大数据资产对交通客流规律进行精细化研究成为新的热点。客流量预测是地铁营运规划和安全防护应用过程中需要解决的一个关键技术问题。应用大数据技术,准确预测地铁站短时客流量,可为地铁管理部门在拥挤环境下的人流疏导与安全防范工作提供科学支持,进一步提升城市应急准备和管理水平。

客流预测是指在t时刻对下一决策时刻t+Δt乃至以后若干时刻的客流作出实时预测。一般认为,t到t+Δt之间的预测时间跨度不超过15 min(甚至小于5 min)的预测为短时客流预测。目前,国内外涉及客流量预测的算法主要分为两类,一类是线性估计模型,主要有自回归移动平均模型(ARlMA)[1]、多元线性回归模型[2]、卡尔曼滤波模型[3]等;另一类是机器学习的方法,如支持向量机、神经网络[4]、深度学习[5]等。线性估计模型有一些不可避免的缺陷:一是不能很好地解决非线性问题以及行人流存在的随机和不确定性等问题;二是不能准确地进行短时客流量的预测。而机器学习算法中所考虑因素仍然较少,预测精度有待进一步提升。

在现实环境中,客流量与天气条件密切关联,天气条件会直接影响人们的出行选择。文献[6]基于历史数据和天气数据对天安门广场每日的客流量进行了预测。文献[7]利用传递函数模型研究了短期天气条件对英国出境流的影响,指出平均气温、热浪、气霜和日照天数对出境流的影响最大。文献[8]探讨了天气对公交客流的影响。

深度学习中,LSTM(长短期记忆)网络算法对具有长期依赖性的大规模时序数据有着良好的学习效果。本文基于2016年3月上海轨道交通刷卡数据,结合外部天气数据,综合考虑影响地铁站客流的内外部因素,提取了包括天气数据在内的12个显著影响因子。在此基础上,以上海轨道交通莘庄站为例,提出了一种基于深度学习LSTM模型的地铁站短时客流量预测方法。

1 数据集与预处理

1.1 数据预处理

试验数据采用2016年SODA上海开放数据创新应用大赛所提供的上海轨道交通刷卡数据以及从国家气象科学数据共享服务平台获取的天气数据。该数据集包含2016年3月1日至3月31日上海轨道交通刷卡数据以及2016年3月天气数据,总量约为2.4亿条。

上海轨道交通莘庄站是5号线、1号线的起始站交汇处,人流相对密集,便于研究。因此,本文选择莘庄站进行客流量数据分析。通过对上海轨道交通刷卡原始数据分析可得,2016年3月莘庄站有进出站客流的时间段为05:00到23:40。为充分利用历史客流量数据,并进一步扩大数据量,按照15 min的时间间隔对2016年3月莘庄站的进出站客流量进行统计,一天共有75个时间段,所以31天共有2 325段数据。然后将天气数据同样按照15 min时间间隔进行整理,并与客流量数据匹配。

1.2 显著影响因子提取

1.2.1 Pearson相关分析法

很多因素都会对地铁站客流量产生影响,如天气等外部因素以及历史客流量等内部因素。为了提取客流量的显著影响因子,本文采用Pearson相关分析法来检验客流量与各因素之间的关系。Pearson相关系数法是检验变量间相关程度的一种有效方法,其计算式为:

(1)

式中:

Xi——客流量;

sX——客流量的方差;

Yi——客流量的影响因素;

sY——影响因素的方差;

r的取值范围在-1到1之间,如果r<0,表示两个变量负相关;如果r>0,表示两个变量正相关。|r|的取值越大,变量之间的相关性越强。

1.2.2 外部影响因子

天气、温度、湿度等外部因素会对人们的出行产生一定的影响,一般来说,对外出购物、旅游等人群产生的影响较大,对通勤人员的影响较小。客流量与其外部影响因子的相关系数表如表1所示。每个影响因子与客流量的Pearson相关系数值都在95%的置信区间内。

表1 客流量与其显著影响因子的Pearson相关系数表

1.2.3 内部影响因子

(1) 历史客流量数据:当前时刻的客流量不仅受到外部因素的影响,还受到历史客流量数据等内部因素的影响。为了充分利用历史数据,将预测点前3个时间段(15 min为一个时间段)的数据也作为客流量的影响因子,预测点客流量数据与3个历史客流量数据的相关系数见表1。其中,Pearson相关系数的值都在99%的置信区间内。

(2) 工作日与非工作日:工作日与非工作日相比,人群出行规律、出行人群特征均不同,人流高峰时段与人流密集程度也不同,从而使得客流量数据在工作日与非工作日呈现不同的特征。图1为2016年3月莘庄站每天进出站客流量,可以看出,工作日与非工作日对客流量的影响非常显著。因此,本文选取“是否工作日”作为影响地铁站客流量的一个内部影响因子。其中,1代表工作日,0代表非工作日。

图1 2016年3月莘庄站每天进出站客流量

(3) 高峰时段与非高峰时段: 地铁站客流量在早晚高峰时段会显著增多,图2为2016年3月7日至13日(从星期一到星期日)莘庄站每天分时段的客流量趋势图(随机选取2016年3月任一周,客流波动趋势是相同的)。可以看出,星期六、星期日客流量波动较为平缓,与星期一到星期五相比,无显著高峰时段。因此,将高峰时段作为影响客流量的一个显著影响因子。其中,1代表高峰时段,0代表非高峰时段。

图2 2016年3月7日至3月13日客流量

1.2.4 小结

综上所述,提取了12个变量作为客流量的显著影响因子。表2列出了本案例研究中使用的所有显著影响因子。

2 基于LSTM网络的地铁站短时客流量预测模型的建立

2.1 LSTM网络

与传统的预测方法相比,深度学习的方法能够更好地对大规模数据进行处理,且具有良好的学习能力和模型泛化能力。递归神经网络(RNN)在现有神经网络的基础上引入了时序的概念,使得上一刻的输出能够对这一刻的输入产生直接影响,特别适合学习具有长期依赖性的时序数据[9]。图3为一个基本的RNN结构。由于RNN增加了跨越时间点的自连接隐含层,所以能够实现对时间的显式建模。从图3中可以看出,当前时刻的隐藏层会有一条连向下一时刻隐藏层的边。

表2 影响上海轨道交通莘庄站客流量的显著影响因子

图3 RNN模型结构

传统的RNN模型有很多缺陷,容易产生梯度爆炸或梯度消失的情况[10]。所以,引入了一种特殊的RNN——LSTM网络。LSTM网络是一种经过改进的RNN,具有很多优良特性,可以在很大程度上避免梯度消失的问题。同时,LSTM网络可以学习时间序列长短期依赖信息,由于LSTM网络中包含时间记忆单元,因此,其在处理和预测具有较长间隔和延迟事件的时间序列方面,应用效果显著[11]。LSTM网络在RNN的隐含层神经元节点中增加了一个存储记忆门(Memory gate),可以保存重要记忆,使得神经网络“不只记住前一刻”。从RNN结构转变到LSTM网络结构的过程如图4所示。具体就是,LSTM网络在RNN的每一个神经元内部增加了三种门,即忘记门(Forget Gate)ft、输入门(Input Gate)it、输出门(Output Gate)Ot。

图4 从RNN到LSTM网络的结构转变

忘记门确定应该被神经元遗忘的信息。忘记门会读取上一时刻隐含层的状态ht-1,以及当前时刻的输入xt,最后将输出的值赋值给Ct-1。该输出值在[0,1]之间,0的含义是“完全丢弃”,1的含义是“完全保留”。其计算式为:

ft=σ(Wf·[ht-1,xt]+bf)

(2)

输入门确定保存哪些新信息到Cell状态中。输入门包括两个模块,一是利用sigmoid层确定要输入的值,二是利用tanh层确定一个新的候选值向量,然后将该向量添加到新的Cell状态Ct中。计算式为:

it=σ(Wi·[ht-1,xt]+bi)

(3)

对神经元状态的新贡献为:

(4)

(5)

输出门确定要输出的值。该输出以当前时刻的Cell状态为基础,还需通过滤波器对其进行过滤。①通过sigmoid函数来确定Cell状态中需要被输出的部分;②利用tanh层对Cell状态进行处理(其目的是使输出值在[-1,1]之间);③乘以sigmoid门的输出,以此来确定最终的输出。具体计算式为:

ot=σ(Wo·[ht-1,xt]+bo)

(6)

ht=ot·tanh(Ct)

(7)

式(2)~(7)中,W表示对应的权重,b表示对应的偏执项,σ表示sigmoid函数,tanh表示双曲正切激活函数。

2.2 基于LSTM的地铁站短时客流量预测模型

本文构建了一个三层的LSTM模型来预测地铁站短时客流量,模型整体框架如图5所示。其包括输入层、隐含层、输出层、模型训练以及模型预测5个功能模块。输入层是一个全连接层,通过对样本数据进行初步处理,以满足LSTM的输入要求;隐含层是由多个LSTM神经元构成的递归神经网络;输出层是将隐含层的多个实际结果重新通过一个全连接网络映射成模型期望的结果;模拟训练是在训练过程中采用优化器对模型进行优化,其是一个实现了Adam算法的优化器;模拟预测是将得到的预测结果可视化。

图5 基于LSTM的地铁站客流量预测模型整体框架

3 应用分析

3.1 基于LSTM的地铁站短时客流量预测

首先,分别定义获取训练集与获取测试集的函数,训练集与测试集个数比为4∶1,并将训练集与测试集的数据标准化。其次,定义神经网络变量,即输入层和输出层的权重、偏执。最后,根据建立的LSTM地铁站客流量预测模型,确定输入与输出数据维度。模型采用AdamOptimizer优化器进行优化,经过反复试验,模型的参数learning rate=0.01、batch_size=2 325、timesteps=32、训练次数为10 000时,模型的预测效果最好。预测结果如图6所示。

图6 LSTM模型预测结果

3.2 对比模型分析

3.2.1 基于多元线性回归的地铁站客流量预测

多元线性回归(MLR)是一种广泛应用于预测任务的多因素分析方法。MLR用于多因素预测分析的模型可表示为y=a0+a1x1+a2x2+…+an-1·xn-1+anxn+ε。其中,y为预测值;x1,x2,…,xn代表不同的影响因素;a1,a2,…,an代表与每个xi(i=0,…,n)对应的回归系数;a0和ε分别代表偏置项和误差项。本文利用MLR模型对地铁站客流量进行预测,结果如图7所示。

图7 MLR模型预测结果

3.2.2 基于BP神经网络的地铁站客流量预测

BP神经网络是一种前反馈性质的网络,又被称为反向传播神经网络。BP神经网络的应用很广泛,且对非线性系统具备很强的模拟能力。其主要原理是:通过对训练数据的不断学习,对网络的权值和阈值进行不断更新,使得网络误差逐渐减小,从而逐渐接近期望输出。本文利用BP神经网络模型对地铁站客流量进行预测,结果如图8所示。

图8 BP神经网络模型预测结果

3.3 模型误差分析及比较

为了更好地分析比较不同参数设置下LSTM网络、MLR及BP神经网络三种模型在地铁站客流量预测中的预测效果,本文计算了两种常见的误差评价指标:均方根误差(RMSE)与平均绝对百分比误差(MAPE)。计算式分别为:

(8)

(9)

不同参数设置下的LSTM网络模型的预测结果分析如表3所示。由表3可知,LSTM模型参数learning rate=0.01、batch_size=2 325、timesteps=32、训练次数为10 000时,模型精度最好。由于batch是对下降的方向进行确定,且本文的样本数据量有限,故利用全数据集进行学习,即batch_size的值为2 325(样本总数),模型效果较好。这是因为样本总体可以由全数据集所确定的方向更好地表示出来,使得确定的极值所在方向更加地准确。

表3 不同参数设置下的LSTM网络模型预测结果分析

timesteps的大小表示RNN可利用的时间序列的长度。从表3可知,LSTM模型的精度在timesteps=128时,反而比timesteps=32时更低,且耗费时间更长。说明过高的timesteps不仅会增加模型收敛时间、提高模型训练难度,而且有可能降低模型精度。同样,过高或过低的learning rate也会导致模型过拟合或欠拟合的问题,从而影响模型精度。

最优参数设置下LSTM网络、MLR及BP神经网络三种模型的预测结果分析如表4所示。

表4 LSTM网络、MLR及BP神经网络预测结果分析

4 结语

本文提出了一种基于深度学习LSTM模型的地铁站短时客流量预测方法,解决了MLR等传统线性模型和BP神经网络等机器学习的方法不能有效从原始数据中提取有效特征而造成的模型有效性低的问题,验证了LSTM模型在地铁站客流量预测中的准确性,以及在该领域中的适用性,同时,拓展了深度学习方法的应用领域。在目前研究工作的基础上,后续研究可进一步扩展隐藏层层数来建立更有效的地铁站客流量预测模型,并运用到不同地区、不同地铁站的客流量预测中。

猜你喜欢

客流量神经网络预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
神经网络抑制无线通信干扰探究
2018年中国地铁客流量年度总结篇
基于嵌入式系统的商场客流量统计算法
不必预测未来,只需把握现在
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于AFC数据的城轨站间客流量分布预测