APP下载

基于PCA-LSTM模型的城市轨道交通短时客流预测

2020-07-04石敏莲刘志钢胡华汪景

智能计算机与应用 2020年3期
关键词:客流

石敏莲 刘志钢 胡华 汪景

摘要:城市轨道交通的进出站客流量具有较大的不确定性和复杂性,尤其是短期客流预测,一直是地铁客流预测中的一个研究热点和难点。AFC设备能准确读取刷卡数据,实现历史和实时进出站客流量的有效统计。为提高进出站客流预测精度,本文以杭州地铁西兴站为例,利用主成分分析法(PCA)对通过AFC设备采集的历史进出站客流数据进行特征提取,然后通过处理后的数据建立长短期记忆网络(LSTM)短期客流预测模型。仿真结果表明该方法在城市轨道交通进出站客流预测中有较好的表现,满足短期客流预测的要求,能够为地铁的运营管理提供一定的指导作用。

关键词: 短期预测; 客流; PCA; LSTM

【Abstract】 The passenger flow  of urban rail transit  in and out of the station is  of great uncertainty and complexity, so it's hard to forecast the volume of it in short-term. AFC equipment can accurately read card data, then realize the history and real-time statistics of passenger flow in and out of the station. In order to improve the prediction accuracy of forecast of number of people arriving or leaving the station, this paper takes Hangzhou Xixing Station as an example. Firstly, the principal component analysis (PCA) method is used to extract the characteristics of the historical passenger flow data collected by AFC equipment, and then establishes the short-term and long-term memory network (LSTM) short-term passenger flow prediction model through the processed data. The simulation results show that this method has a good performance in the passenger flow prediction in and out of the station of urban rail transit, meets the requirements of short-term passenger flow prediction, which can provide some guidance for the operation and management of the subway.

【Key words】  short-term forecast; passenger flow; PCA; LSTM

0 引 言

隨着社会经济的飞速发展,人们的生活节奏加快,出行频率也大幅度增加,同时对出行效率和舒适度的要求也越来越高。对于城市轨道交通而言,客流量是运营的主要依据,也是构建智慧交通的重要基础。日常列车排班计划的制定、大客流的预防等均要求对未来客流量进行预测。

对于短期客流预测,主要可分为线性和非线性两类。其中,线性预测常用方法有卡尔曼滤波、时间序列预测等;非线性预测常用方法主要包括灰色理论、神经网络、支持向量机等。近年来,国内外许多专家学者对这类客流预测进行了大量的研究。王奕等人[1]根据周期时变特点在灰色预测模型的基础上改进了马尔科夫算法。杨军[2]将小波分析与支持向量机结合提出了短期客流预测方法。程浩等人[3]利用BP神经网络对短期客流进行预测。侯晨煜等人[4]在神经网络算法的基础上,结合卡尔曼滤波,提出了一种新型有效的地铁客流短时预测算法。Han等人[5]提出了一种新的基于深度学习的方法STG-CNN (spatial - temporal graph convolutional neural networks for metro),对城市每个地铁站的进站流量和出站流量进行了综合预测。Sun 等人[6]提出了一种新的混合模型小波-支持向量机,结合了小波与支持向量机模型的互补优势,同时克服了其各自的不足。但是,较少有学者把预测站点与其他站点的客流相关性放入预测模型中进行综合考虑。

本文以杭州地铁西兴站为例,考虑到站点之间客流的空间和时序相关性,利用主成分分析法(PCA)对通过AFC设备采集的历史进出站客流数据进行特征提取,然后通过处理后的数据建立长短期记忆网络(LSTM)短期客流预测模型并进行模型有效性验证。

1 短期客流预测

对城市轨道交通短期客流预测的研究能为突发性大客流的预防和列车调度的优化提供有力的参考。现有的短期客流预测一般以15~60 min为时间粒度,指根据历史客流和实时客流等数据,利用客流预测模型,计算得到预测对象在15 min后的客流情况,若该数值超过行业规范或运营公司所给出的安全范围,则相关运营部门和工作人员应按照相应的安全预案立刻开展行动,如通过广播播报、入口限流等措施来保障车站以及站台人流密度在安全范围内,预防踩踏等危及乘客人身安全事件的发生,确保乘客的安全和列车的正常运营。而以60 min为时间粒度进行客流预测,能够为列车调度的优化提供依据,通过调整列车运行计划提高运输效率或节约运营成本。列车运行计划的调整,一般情况下,并不能在15 min内即刻完成。例如,根据客流需求的意外增长,某线路产生了加开一班列车的需求,调度部门需先结合原有排班计划调整列车运行图,再通过部门审批、车辆段对上线列车进行准备工作,还需通知司机等相关执行人员等,整个过程需要30 min~1 h。因此,以1 h为长度对车站进出站客流进行预测,对列车运行实时优化具有十分重要的意义。

2 PCA-LSTM预测模型

2.1 PCA特征提取

在实验和研究的过程中,经常会遇到这样的情况,即对同一研究对象存在大量影响因素。越全面的数据确实能为实验目的提供越丰富的信息,但是同时也会提高模型的计算和训练时间。而且,许多变量之间可能存在较大的相关性或相似性。因此,盲目地增加变量可能会极大地加长运算时间,但是对研究目的产生的帮助甚微,而盲目地减少变量可能会损失重要的信息,影响结论的准确性。

PCA法就是一种对多维数据进行降维的数据预处理方法[7]。通过计算分析各维度数据之间的相关性,PCA法能去除多维数据中一部分不重要的特征,保留相对重要的那部分,从而使得数据更易于使用,提升计算速度。PCA法主要思想是将n维数据映射到k维上,且这k维的特征向量相互正交。特征向量的選取标准是取特征值最大的k个特征所对应的特征向量,目的是使得这k为数据尽量多的保留原数据的特征,减少信息损失。新构造的维度对原维度数据信息的反映一般通过方程贡献率来衡量。一般会选取累计贡献率为80%~95%的k维数据作为降维后数据。

在城市轨道交通客流预测研究中,历史客流数据是进行客流预测的最主要、也是最直接的依据。在对某一站点进行客流预测时,一般该站点的历史进出站客流数据作为主要因素,再结合其他因素,作为预测模型的输入。其实,除了预测站点自身的历史客流数据外,同一线网中的其他的车站的客流进出量也能为该车站的客流预测提供很好的参考。例如A站点在某时间段内进站客流的增加,有一定的可能性使得B站点在下一时间段的出站客流增加。再如,首发站点A站在这一时间段内进站客流增加较大,则其后续站点在之后的短时间内进站客流增加的概率较大。

然而,对大多数城市来说,整个地铁线网的数据量过于庞大,就上海地铁来说,一共有16条线路,共有415座车站(含2座磁悬浮线车站)。即使就单一一天地铁线路来讲,其站点数量也不少,例如杭州地铁1号线,一共有34个车站。若使用所有站点的历史进出站数据,会极大地提高计算复杂性和计算时间,导致计算机无法在有限时间内给出相应的预测结果。因此,为提高模型训练速度并降低计算复杂性,本文采用主成分分析方法对线路上的进出站客流数据进行降维。

选取杭州轨道交通一号线在2018年12月20日~ 2019年5月9日期间沿线各站点运营时段每小时(5:00~7:00时段数据合并为一个数据)进出站客流量作为实验数据。把全天运营时间按顺序划分为20个时段,见表1,每时段采集一次线路上各站点的进出站客流数据。一号线一共有34个车站,每个车站采集各时段进站客流和出站客流两组数据,全线共有68组数据。同时,数据采集时段与各车站客流之间的关系非常密切,故将运营时段进行编号后放入影响因素集中,详见表1。此时数据集为69维。

选定某站点进站或出站客流作为预测对象,文中随机选择了西兴站出站客流作为预测目标,因此先从69维数据集中抽取出西兴站的出站客流数据以备后用,将剩余的68维数据通过PCA法进行降维,得到新的变量。根据方差贡献率和累计贡献率,从高到低,选择主成分,将原来的68个变量压缩成4个主成分,保留了原始数据约90%的信息,得到的主成分方差贡献率和累计贡献率见表2。

将西兴站出站数据与降维得到的4个主成分数据合并,得到维度为5的变量数据作为预测模型的输入。

2.2 LSTM网络

LSTM网络是循环神经网络的一种,是为了解决普通循环神经网络(RNN)所存在的梯度易消失和长期记忆被遗忘的缺点而提出的[8-10]。RNN网络主要由重复的神经网络模块进行链式组合而成,每个模块有2个输入数据和2个输出数据。LSTM网络在RNN网络的基础上增加了一个输入和一个输出,内部结构也更为复杂精细。增加的这一路输入和输出称为细胞状态,是LSTM实现状态记忆和遗忘的主要结构,上面的信息与当前状态的输入信息仅有2次线性交互,使得细胞状态较容易保持稳定,达到长期记忆的目的。

2.3 运用LSTM网络进行预测

2.3.1 参数配置

建立该LSTM网络预测模型需要确定一些超参数,包括输入层的维数、隐藏层的层数与维数、时间步长以及输出层的维数。

本实验以西兴站出站客流量为预测对象,将其历史数据与PCA降维得到的4维变量数据一起作为LSTM网络的输入,该LSTM网络输入层维数为5。预测目标为下一小时出站客流量,确定时间步长为1,输出层维数为1。经过多次尝试,确定隐藏层为2层,第一层中神经元数量为50个,第二层中神经元数量为30个。选定Adam优化器作为该LSTM网络的优化算法。

3 结束语

本文从同一地铁线路上车站客流之间存在相关性这一角度出发,设计了基于PCA-LSTM的城市轨道交通短时客流预测模型,采用了杭州地铁一号线139天的进出站客流数据进行预测实验。结果表明,该模型在对站点下一小时进站客流量和出站客流量的预测方面具有较好的表现,能够为地铁运营部门在实际的列车运行优化和调度方面提供可靠的参考。该方法同样适用于以15 min、30 min等其他时间粒度的短期客流预测。未来的研究工作可以考虑把天气以及是否为工作日等其他因素加入到影响因素集中,从而进一步提高模型的预测精度。

参考文献

[1] 王奕, 徐瑞华. 基于周期时变特点的城市轨道交通短期客流预测研究[J]. 城市轨道交通研究, 2010, 13(1): 46.

[2]杨军. 地铁客流短期预测及客流疏散模拟研究 [D]. 北京:北京交通大学, 2014.

[3]程浩, 徐昕. 基于BP神经网络的轨道客流短期预测 [J]. 电子技术与软件工程, 2016(22): 15.

[4]侯晨煜, 孙晖, 周艺芳, 等. 基于神经网络的地铁短时客流预测服务 [J]. 小型微型计算机系统, 2019, 40(1): 226.

[5]HAN Yong, WANG Shukang, REN Yibin, et al. Predicting station-level short-term passenger flow in a citywide metro network using spatiotemporal graph Convolutional Neural Networks [J]. ISPRS International Journal of Geo-Information, 2019, 8(6):243.

[6]SUN Yuxing, LENG Biao, GUAN Wei. A novel wavelet-SVM short-time passenger flow prediction in Beijing subway system [J]. Neurocomputing, 2015, 166:109.

[7]白亚男. 基于大数据的实时交通流预测方法研究 [D]. 广州:广东工业大学, 2018.

[8]晏臻, 于重重, 韩璐, 等. 基于CNN+LSTM的短时交通流量预测方法 [J]. 计算机工程与设计, 2019, 40(9): 2620.

[9]张铭坤, 王昕. 基于GRU-RNN模型的城市主干道交通时间预测 [J]. 北京信息科技大学学报(自然科学版), 2019, 34(4): 30.

[10]崔洪涛, 陈晓旭, 杨超, 等. 基于深度长短期记忆网络的地铁进站客流预测 [J]. 城市轨道交通研究, 2019(9): 41.

猜你喜欢

客流
地铁换乘站客流组织方案优化论述
城市轨道交通节假日期间大客流行车组织思考与实践
基于大小交路套跑对地铁不均衡客流的可靠性分析
地铁换乘客流预警及应对
地铁线网客流优化配置研究与应用