基于“时间-特征”协同注意力的机场快轨客流预测

2022-10-13杜文博石婉君廖盛时朱熙

北京航空航天大学学报 2022年9期

杜文博石婉君廖盛时朱熙

(1. 北京航空航天大学电子信息工程学院, 北京 100083; 2. 北京航空航天大学前沿科学技术创新研究院, 北京 100083)

相比于城市道路交通,机场快轨以准点率高、速度快、运能大、舒适性好等优势,成为衔接机场与市区的重要交通方式。然而,目前中国各大机场的快轨系统时常出现繁忙时段运力不足、空闲时段运力浪费的“客流-运力”不匹配现象,成为进一步提升民航旅客出行效率和机场运转效能的瓶颈之一。因此,有必要依据机场客流动态变化情况对快轨运力进行高效调配。为达到该目的,首要一步便是设计机场快轨客流的准确预测模型。

机场快轨客流受众多非线性因素影响,如进离港航班旅客量、天气、时段、是否为工作日等,这些因素对快轨客流的影响机理及相互之间的影响方式和大小各不相同;同时,这些影响在时间维度上也有着复杂的先后关系,难以定性和定量描述,如从机场到市区方向快轨的客流形成过程中,恶劣天气会使到港航班靠桥时间延后,加上到港旅客从下机到抵达机场快轨站需要一定时间,造成了机场快轨客流变化在时序上相对于天气与到港航班旅客数量等因素变化的复杂耦合性。可见,机场快轨客流的形成是一个复杂多变的过程,准确预测机场快轨客流极具挑战。

目前专门针对机场快轨客流预测的研究较少,而对于地铁、铁路客流预测问题,国内外已有不少研究,方法大体可分为2 类:①基于数学建模的方法;②基于机器学习的方法。第1 类方法认为客流在历史上的统计规律也适用于未来,基于对历史客流数据的挖掘分析构建描述客流变化规律的统计学模型,从而实现对未来客流的预测。具体来说,Li[1]使用交通四阶段预测模型,即基于交通产生量、吸引量、交通分布和交通方式划分因素建立数学模型,对哈尔滨地铁客流数据进行了预测分析;Ding 等[2]在自回归移动平均(autoregressive integrated moving average,ARIMA)模型中增加自回归条件异方差模块,从地铁历史客流数据中捕捉轨道客流在一天中不同时段的平均值和方差;Zhang 和Liang[3]综合考虑了客流数据的日相似性,计算2 周中同周次的客流量比值得到归一化客流数据,再基于该数据建立改进后的卡尔曼滤波预测模型,实现了对北京地铁站的客流预测。总体上,基于数学建模的方法通常计算复杂度低、易于实现,但就本文所研究的机场快轨在未来较短一段时间内客流的预测问题来说,该类方法难以准确建模与短时客流密切相关的气象、航班载客数等高动态因素对客流的影响,因此对机场快轨短时客流预测的精度较低。

第2 类方法是基于机器学习的轨道客流预测方法,通过使用历史轨道客流样本训练机器学习模型,从样本中挖掘客流受多种因素影响而动态变化的知识,从而实现对未来客流量的预测。具体来说,Roos 等[4]从所研究站点客流与其自身历史客流及临近站点客流具有因果关系这一事实出发,采用贝叶斯网络对客流进行预测,且提出了一种缺失数据拟合策略,在客流数据不完整时采用最大期望算法学习网络结构和参数,提升了该方法在数据缺失条件下的鲁棒性;惠阳等[5]通过反向传播神经网络(back propagation neural network,BPNN)构建节假日、是否为工作日、时段、天气等多种因素与地铁客流间的映射,实现了对西安地铁各站客流的准确预测;Sun 等[6]针对地铁客流数据变化兼备规律性及随机性,将客流变化曲线视作信号,提出了先使用小波分析对客流变化曲线的高频和低频成分进行拆解,再使用多个支持向量机对各成分分别学习预测,最后综合预测结果,避免了客流曲线不同频段成分在预测过程中的相互影响。上述轨道客流预测方法所采用的机器学习模型较为经典,较基于数学建模的方法对多维因素影响客流的非线性机理挖掘得更深,但在捕捉高动态因素与快轨客流间的复杂时序关联上仍较为欠缺,导致预测性能并未达到最佳。为此,一些学者使用时序深度学习网络来解决该问题。 Yang 等[7]使用长短时记忆(long short-term memory,LSTM)网络对地铁客流进行预测,且考虑到每天相同时段的客流变化趋势较为类似,因此,借助时间注意力机制重点关注所预测时段在历史数据上的客流变化情况,提升了预测准确性;Ma 等[8]将客流数据分布转化为静态图像,采用卷积神经网络(convolutional neural network,CNN)提取其中的空间特征,进而用Bi-LSTM 网络对客流时间序列分别从前向和后向学习时间特征,实现了地铁客流数据空间特征和周期性的有效提取;Liu 等[9]使用3 个LSTM 网络分别提取地铁客流的时、日、周特性,结合天气、是否为工作日、降水、地铁运营时刻、站点间的交通时长等影响客流的因素对地铁换乘站及常规站点客流进行了准确预测。

综上所述,基于时序深度学习的轨道客流预测方法因对深层次时空特征挖掘的能力强已成为轨道客流预测的主流方法。但已有相关工作大多针对市区内轨道交通,而本文所研究的机场快轨客流形成机理较之更为复杂。机场快轨客流由乘机、下机、接机、送机等多类人员组成,受气象、航班延误、旅客通关等高动态因素影响较大,同时这些因素变化与机场快轨客流形成之间存在显著但难以量化的时序关联,这些特点导致传统时序深度学习网络难以高效学习机场快轨客流的变化规律。

为此,本文提出了一种基于“时间-特征”协同注意力机制的机场快轨客流预测方法。该方法在LSTM 时序预测模型的基础上嵌入了“时间-特征”注意力机制,用于精细化捕捉各维特征在不同时序上对机场快轨客流的影响规律。将所提方法的性能与支持向量机(support vector machine,SVM)、BPNN、ARIMA、标准LSTM 等现有轨道客流预测代表性方法进行了对比,验证了本文方法的优越性。

1 预测方法

1.1 长短时记忆网络

如图1 所示,LSTM 网络[10]由循环训练的LSTM 单元构成,展开后呈现链状,链中每个LSTM 单元对应着一个时间片。 LSTM 单元内部具体结构如图2 所示。

图1 LSTM 网络Fig.1 LSTM network

图2 LSTM 单元结构Fig.2 LSTM unit structure

LSTM 单元包含输入门、遗忘门、输出门和记忆细胞。输入门用来确定当前输入有多少新的信息可以加入到记忆细胞中;遗忘门用来确定当前细胞需要遗忘的信息;输入门和遗忘门共同更新记忆细胞在每个时间片的状态;输出门用来控制记忆细胞要输出的信息。 LSTM 单元涉及的计算公式如下:

式中:ft、it、ot∈Rm分别为遗忘门、输入门、输出门的计算结果;c⌒t、ct、ht∈Rm分别为新生成的细胞状态、当前细胞状态、隐藏状态;Whf,Whi,Who,Whc∈Rm×m和Wxf,Wxi,Wxo,Wxc∈Rm×n为遗忘门、输入门、输出门和单元状态分别涉及的2 个权重矩阵;bf,bi,bo,bc∈Rm分别为遗忘门、输入门、输出门和单元状态的偏置向量;xt为t时刻的输入时间序列值;σ(·)为Sigmoid 激活函数;tanh(·)为双曲正切函数激活函数;⊙为哈达玛积。

Therefore, we analyzed miRNA expressions of both LSTs and protruded tumors as a specific feature of the stepwise progression from adjacent non-neoplastic mucosa to adenoma and submucosal invasive carcinoma using matched samples to compare accurate miRNA expression in each phase.

1.2 “时间-特征”协同注意力

影响机场快轨客流的各个因素对快轨客流预测的贡献程度、作用方式存在差异,为获得准确的预测效果,需要对不同特征受关注程度,以及同一特征在不同时间片上的受关注程度进行学习和优化。为此,本文提出了一种“时间-特征”协同注意力机制,使得预测模型能够对不同时间片上不同特征的关注焦点进行动态调配。

近年来,注意力机制被广泛应用于基于深度学习的各种分类、预测、聚类等任务中[11-12],促使模型在学习样本过程中重点关注相对重要的特征或历史时序(对于时序样本),以获得更好的样本泛化能力。自注意力机制在捕获全局长时序依赖关系上较传统注意力机制优势明显,然而自注意力机制对不同时间片使用的是同一组权重矩阵,不同特征之间权重不同,因此自注意力机制只能得到不同特征之间的相对注意力大小,无法得到一组时间序列中同一特征在不同时间片的注意力分布。因此,本文通过对每一个时间片设置独立的自注意力模块,构建“时间-特征”协同注意力机制,实现为不同时间片上的多维特征进行独立的权重分配。

本文所提出的基于“时间-特征”协同注意力(time and feature cooperative attention, TFATT)的快轨客流预测模型如图3 所示。首先,对客流及相关影响因素的原始数据进行清洗,包括对数据缺失部分进行推测补全,以及对异常数据进行剔除;然后,为了消除不同客流影响因素(或称输入特征) 间的量纲差异,对数据进行0-1 归一化处理[13]。

图3 机场快轨客流预测模型Fig.3 Passenger flow prediction model of airport express rail

归一化后的输入特征时序数据X= (x1,x2,…,xi,…,xT)∈Rn×T,其中n为输入特征的数量,T为时间序列长度,隐藏层输出H= (h1,h2,…,hT)∈Rm×T,其中m为LSTM 单元数量;再将H经过全连接层得到新的时间序列A=WF·H=(a1,a2,…,ai,…,aT)∈Rn×T,其中WF∈Rn×m为全连接矩阵。

为构建“时间-特征”协同注意力机制,本文方法针对每一个时间片设置了独立的特征注意力模块,即对于第i个时间片分别计算查询(Query)矩阵Qi、关键字(Key)矩阵Ki、值(Value)矩阵Vi,1≤i≤T。

式中:e为K的维度大小。

对于每一个计算结果Attentioni(Q,K,V) ∈RT×n, 取其中第i个向量,记为atti,atti∈Rn。将所有注意力模块计算出的向量组合得到新的时间序列:ATT =(att1,att2,…,atti,…,attT)∈Rn×T,再经过一个全连接层得到^yst=wF2·ATT·wF3(wF2∈R1×n,wF3∈RT×1为全连接向量),最后对^yst进行反归一化处理,得到机场快轨客流预测值^y。

2 实验验证

2.1 实验数据

本文选取2019 年1 月5 日至7 日、5 月9 日至11 日、8 月4 日至15 日、9 月27 日至30 日、12 月14 日至17 日共26 天的北京首都国际机场快轨站的进出站刷卡数据、机场天气数据(含晴、雾、雨3 类),以及航班起降计划数据和实际起降数据。目标预测时段为6:30—23:00,选取10 min作为一个时间片长度(共计100 个时间片/天×26 天=2 600个时间片),统计每个时间片对应的市区到机场方向客流、机场到市区方向客流、天气、机场实际/计划到离港航班载客数、时段信息(以1 h为单元,如19 ～20 时段)、工作日/非工作日信息。

2.2 模型参数

本文将所提TFATT 模型与近年来最常见的轨道客流预测模型SVR[6]、BPNN[5]、ARIMA[2]和标准LSTM[7]模型进行对比,通过咨询行业领域专家与调研文献,得到影响机场快轨客流的主要因素包括快轨客流历史数据、进离港航班旅客量、天气、时段、是否工作日等。为了明确机场到市区、市区到机场2 个方向上机场快轨客流的关键影响因素,本文基于2 600 条样本,使用Pearson相关系数、SNR 信噪比对各个客流影响因素与2 个方向客流的关联程度作初步检验,并挑选其中关联度较大的特征作为模型输入(ARIMA 模型除外,根据文献[1]可知其输入特征仅为客流)。具体为:对于机场到市区方向客流,特征包括机场到市区方向历史客流、机场实际到港航班载客数(机场实际到港航班载客数与快轨客流间Pearson系数为- 0. 106)、实际与计划离港航班载客数(实际离港航班载客数与快轨客流间Pearson 系数为0.302,计划离港航班载客数与快轨客流间Pearson 系数为0.244)、天气(晴、雾、雨天气与快轨客流间信噪比为0.114)、时段(时段与快轨客流间信噪比为1.426)、是否工作日(是否工作日与快轨客流间信噪比为0.108);对于市区到机场方向客流,特征包括市区到机场方向历史客流、机场计划到港航班载客数(机场计划到港航班载客数与快轨客流Pearson 系数为-0. 078)、机场实际与计划离港航班载客数(机场实际离港航班数与快轨客流Pearson 系数为0.136,机场计划离港航班数与快轨客流Pearson 系数为0.156)、天气(晴、雾、雨天气与快轨客流间信噪比为0.265)、时段(时段与快轨客流间信噪比为0.671)、是否工作日(是否工作日与快轨客流间信噪比为0.311)。各模型采用目标预测时间片的前6 个时间片的特征向量,对目标预测时间片客流进行预测。

考虑到模型的参数对模型性能有很大的影响,目前还没有成熟的模型参数选取理论方法,因此,本文进行了参数遍历实验来挑选参数。参数设置如下:①SVM。核函数选择径向基函数(radio basic function,RBF),核系数gamma 设为auto,误差项的惩罚参数C设为10。 ②BPNN。 BPNN 隐含层数设为2,每层大小设为36。 ③ARIMA。自回归系数p设为4,滑动平均系数设为1,差分阶数d设为0。 ④LSTM。 batch_size =128,timesteps =6,epochs =300,LSTM 单元数设为70,LSTM 隐藏层数设为2,损失函数设为MAE,激活函数设为Sigmoid,优化函数设为Adam。 ⑤TFATT。 batch_size =128,epochs =300,隐藏层数设为2,损失函数设为MAE,激活函数为Sigmoid,优化函数设为Adam。

本文实验在Windows10 系统中完成,CPU 为i7-8550U@ 1. 8 GHz,内存8. 0 GB,IDE 为Pycharm2018.2,Python 版本为3.6,实验框架为Tensorflow2.6.2。

2.3 实验设计

将26 天的数据中某一天的数据作为测试集(含100 条样本),剩下25 天作为训练集(含2 500 条样本),设置26 组实验,每组实验独立开展10 次,共开展260 次实验。

本文使用均方误差(mean square error,MSE)和平均绝对误差(mean absolute error, MAE)来定量评估2 种模型的性能[14]。计算公式如下:

式中:yi为实际值;^y为预测值;m为样本总数。

2.4 实验结果对比分析

基于2.3 节所述实验设计,表1 为260 次实验的平均结果。

由表1 可知,BPNN 和SVR 预测效果不如ARIMA、LSTM 及本文所提TFATT 模型,这是由于其虽然能够在一定程度上挖掘出多维特征对客流的非线性影响,但不能捕捉多维输入特征在前后时序上的关联;ARIMA 仅使用历史客流数据作为输入实现对未来客流的预测,但其只能挖掘内生变量的时序影响而未考量其他多因素的综合影响,因此预测效果不如本文所提TFATT 模型;LSTM 可学习客流受到的多元特征时序影响,但面对机场快轨运行中复杂的多维因素与客流耦合机理,对于特征时序关联的泛化准确度仍不足;本文所提TFATT 模型通过“时间-特征”协同注意力机制充分捕捉不同特征影响客流的时序滞后性,由表1 可知,本文所提模型在2 个方向上的客流预测效果均优于其他4个对比模型。

此外,由表1 还可看出,各模型对市区到机场方向客流的预测精度普遍低于机场到市区方向(后文将对该现象原因作进一步分析),但本文TFATT 模型相比于其他4 个模型在2 个出行方向上均有更好的预测效果,说明了“时间-特征”协同注意力机制对于提升模型预测性能的有效性。

表1 机场快轨客流预测性能Table 1 Forecasting performance of airport express rail passenger flow

为更直观地查看各模型的预测效果,图4 展示了将前25 天的样本作为训练集、最后1 天样本作为测试集的预测曲线。

图4 客流预测曲线Fig.4 Forecast results of passenger flow

由图4 所示结果可知,5 种模型均能够预测出机场快轨实际客流变化的总体趋势,但仔细对比可发现,本文TFATT 模型较其他模型在对实际客流曲线的拟合度上更优。机场快轨实际客流曲线均出现了在短时间内波动较大的现象,特别是在市区到机场方向,这是由一些偶然因素所致。例如,图4(b)中市区到机场方向列车到达机场站时刻在各预测时间片上并非均匀分布,一旦有车到站则客流猛增,无车到站则客流稀少,造成实际客流曲线跳跃明显。由于偶然因素尚未被纳入到本文实验模型的输入特征中,造成各模型的预测客流曲线均不能严密拟合于实际客流曲线,但实验结果仍能说明在现有数据基础上,本文方法相比于其他方法具有优越性。