基于改进ARIMA模型的城市轨道交通短时客流预测研究

2022-01-28张国赟

计算机应用与软件 2022年1期

张国赟金辉

(辽宁工业大学汽车与交通工程学院辽宁锦州 121000)

0 引言

随着中国经济的持续增长和城市化规模的快速增加，许多城市的车辆和其他交通工具数量急剧增加。大量车辆在道路上行驶造成了不同规模程度的交通拥堵，不仅造成城市道路交通运行不畅，还造成了燃油的浪费。如何解决城市交通拥堵问题是解决城市问题的重中之重。越来越多的城市选择将城市轨道交通作为出行的第一选择，城市轨道交通短时客流预测的准确性将直接影响交通控制系统对实时交通流的引导，因此，当前做到对城市轨道交通站点的短时客流量的准确预测是非常有必要的。

短时客流预测是指城市轨道交通客流处在平稳形态的运营时间内，对未来某一时间的城轨交通网络、乘车区间、城轨交通车站等进行短时间的、精度较高的预测。如今在许多城市，轨道交通列车与列车之间的运行间隔都不超过5 min，所以把5 min作为列车运行时间间隙得到的城市轨道交通短时客流预测结果对于列车调度以及乘客的出行时间选择都起到非常关键的作用。

近几十年来，很多国内外学者对城市轨道交通的短时客流预测做了大量相关研究。第一类有基于时间序列分析的预测模型[1]、基于回归网络的预测模型[2]等。李科君等[3]构建了非线性自回归神经网络模型对地铁进站客流进行短时预测；唐继强等[4]根据客流季节特征建立季节时间序列并采用自回归差分滑动平均模型来预测轨道交通客流。第二类有小波理论预测模型[5]等。邹巍等[6]建立了运用遗传算法优化小波理论的轨道交通客流预测模型，这个模型的优势在于能够避免客流预测陷入部分最小值情况的发生。第三类有基于交通模拟的预测模型，如元胞自动机模型[7]等。刘岩[8]为了提高预测精度，构建了城市轨道交通客流量支持向量机组合预测模型。第四类包含了基于各种类预测神经网的模型，比如基于多层前馈神经网络的预测模型[9]以及基于模糊神经网络的预测模型[10]等。李梅等[11]通过建立深度学习LSTM网络模型，并用模型来对地铁站客流量进行短时客流预测；李若怡[12]通过优化LSTM网络的神经元以及隐藏层的方法，构造得到了改良后的LSTM模型，但输入层仅为OD客流数据，具有局限性。第五类由两种预测模型组合而成，统称为组合预测模型。

通常短时客流预测的客流量数据规律性较弱，客流量数据会随着不确定性误差的产生而出现比较大的变化，自回归差分整合平均滑动模型[13](ARIMA)能对因变量的滞后值、产生随机误差的滞后值及当前值进行预测。Chiang等[14]使用回归分析(具有自回归误差校正)、神经网络和ARIMA模型对客流影响因素进行分析，随后进行客流预测，发现这些预测方法的简单组合比单独的模型会产生更大的预测精度，但是存在建模难度较大的问题；李洁等[15]结合客流特点及季节性差分自回归滑动平均模型构建了SARIMA预测模型并验证了模型的有效性；倪杰等[16]构建了一种基于时间序列的预测模型，对新的交通线网开通后的某车站进出站客流量进行了预测。

本文应用成都地铁一号线天府广场站2020年1月4日至1月15日的进站客流量真实数据，并综合考虑能够影响城市轨道交通站点客流量的内外部因素，设计一种基于改进ARIMA模型的城市轨道交通短时客流预测方法，通过模型的运行求解验证该模型在客流预测中具有更高的精度，能够取得更好的预测效果。

1 AFC数据与处理

成都轨道交通1号线上的天府广场站是一个换乘车站，它串联着成都轨道交通1号线与成都轨道交通2号线，客流相对比较密集，方便研究。因此采集成都地铁1号线天府广场站2020年1月4日至1月15日进站客流数据，由原始数据分析可得，天府广场站有进站客流的时间段为05:00至次日00:55，以5 min为时间间隔，一天共包含240个时间段，每条数据包含起始时间、输入流、输出流、结束时间等信息。进站客流量如图1所示。

(a)1月4日 (b)1月5日 (c)1月6日

2 模型构建

2.1 模型定义

ARIMA预测模型是时间序列预测模型中的一种，其根本是随着时间序列逐步呈现稳定化的时候，来预测模型因变量生成的推迟量、模型产生的不确定偏差后生成的推迟量和模型的当前量。模型是由三个部分集成得来，分别为其名字中的AR、I、MA三个部分。

AR是模型中的自回归部分，因为该模型的预测方式与自身的变化有关，所以被叫作自回归模型，把模型中随着时间增减过程中数据自身生成的值作为模型数据取值，这样做的好处是能够不考虑除了自身环节外的其他环节的影响，坏处就是受自己本身环节的影响较大。把自回归模型阶数设置为模型的变量，并表示为变量p，变量p的意义就是运行时自回归模型采用的之前的时间断点间隔数量，p=1代表此时模型会用到一个之前的时间断点数据，以此类推。其常见的表达式如下：

(1)

式中：Xt表示模型的预测量；Xt-i表示之前的时间断点数值；αi表示之前时间节点数量增加权重后的数值；εt表示模型产生的偏差值；m表示一个常量；i表示之前时间断点的间隔数量。

I与AR不同，它不是一个单独的模型，它表示的是模型中的差分整合办法，数据的稳定化特征是这种方法的根本，对选择差分方法干扰最大的就是差分整合的基本数量，差分阶数一般表示为变量y。其一阶表达式如下：

Y1=Xt-Xt-1

(2)

二阶表达式如下：

Y2=(Xt-Xt-1)-(Xt-1-Xt-2)

(3)

式中：Yi表示差分整合数值；Xi表示之前的时间断点数据。

MA表示模型中的滑动平均数部分，为了减少或清除预测过程中能够生成的随机波动，通常预测基础选择的是自回归模型中的误差。模型中的变量一般是误差的阶数，用q表示。该模型的一般表达式如下：

(4)

式中：εi表示之前的时间断点i上的偏差值；βi表示偏差值增加权重后的系数；n表示一个常量。

将上述三个部分相互作用叠加可以得到一个新的模型，叫作自回归滑动平均数模型。自回归模型的阶数变量p与滑动平均数模型中的误差阶数变量q作为其变量，通常这个模型表达式如下：

(5)

式中：k表示一个常量。

时间序列的平稳化是构建模型的前提，构建模型时可以使用差分法在时间序列展现相对稳定的形式时使时间序列趋于稳定化，将差分方法加入到式(5)中，并且按y阶差分的方法可以得到新的ARIMA模型。

2.2 构建流程

第一步先处理时间序列数据，使其趋于稳定，采用的方法是单位根方法检验；第二步处理剩下不稳定的数据让这些数据也能逐步稳定，采用的方法是差分法；第三步判定决断使用差分法解决后，这些数值的自相关函数和偏自相关函数能否显示出拖尾特征，如果能显示出就表示这个模型可以被采用；第四步需要进行模型参数的评价估计，目的是保证上述检测能够在统计学方面存在价值；第五步需要针对残差进行白噪声检测；最后进行模型的运行以及预测结果分析。ARIMA模型的构建流程如图2所示。

图2 ARIMA模型流程

2.3 检测方法

检测方法主要有两种，一种是模型的平稳性检测，通常是对拟合模型的早期数据值进行检测，目的是判断这些数据是不是能够呈现稳定状态。使用自相关函数检验的方法，因为这个方法是基于之前的时间断点间隔数据与真实数据之间的距离越大，对真实数值的干扰就越小，随着时间的逐步延长，自相关函数的参数会在不同的时间节点下逐步变小，最后逐渐减少到零，此时就证明模型拟合的数据能够呈现出稳定状态。

另外一种方法是模型的白噪声检测，通常是对残差进行检查，依据的原理与自相关性原理相同，是在模型拟合完成时进行。通常先拟定模型进行检测时产生的残差符合白噪声检测的条件，然后再判断拟定的正确性，使用的是Q检测方法。如果得到的Q值很小，那么就证明模型的残差序列是几乎趋近于零的，符合假设，即表示模型符合白噪声原理。

3 改进ARIMA短时客流预测模型

使用ARIMA算法构建模型进行预测时，算法只受自己本身环节的影响，其他环节产生的变量对算法预测的影响很小，可以忽略不计，所以这种算法在预测具有稳定特性的时间序列的时候有比较良好的性能；缺点是这种算法构建的模型因其属于线性模型，所以只能进行线性预测，同时模型需要预测的数据能够具有稳定特性。从图1中可以看出，短时进站客流量数据十分不平滑，预测周期为5 min的情况下进站客流变化量呈上下随机波动形式。所以首先对模型的训练集进行优化，将已有客流量数据每一个小时的首个5 min数据提取出来，以此类推提取出接下来每个小时的第一个5 min数据共同作为训练集，目的是能够避免发生预测时段越长，预测数据量越大，反而预测精度越低的问题。然后用训练集建立ARIMA模型预测接下来的时间的进站客流量，得到之后一个小时12个5 min的进站客流量预测值，进而得到每天的进站客流量预测值。

为了使训练集能够更好地趋于平稳化，加入遗传算法来优化模型，随着迭代次数的逐步增长，数值会更快地趋于稳定状态并且达到最优值。遗传算法(Genetic Algorithm，GA)拥有天然选择能力和种群传播制度，有着较强的全体寻优本领，是一种常用的传统搜索算法。天然选择和种群传播过程中通常伴随着交配、繁衍、变异现象的发生，遗传算法极佳地模仿了这种现象。

4 实例研究

4.1 平稳性检测和白噪声检测

运用ARIMA算法前要对训练集进行平稳性检测以及白噪声检测，因为该算法只适合用在具备稳定特性并且符合白噪声原理的时间序列上。采用单位根检验方法，并且使用ADF图进行检验。通过观察第二部分显著性来判断时间序列是否趋于稳定。当得到的值比0.5小的时候，则表示这个单位根是有解的，进一步表示此时间序列具备稳定特性；当得到的值比0.5大的时候，则表示此单位根是没有解的，那么表示该时间序列不具有稳定性特征。平稳性检测后再进行白噪声检测，如果检测得到的白噪声结果参数P值比0.5小，那么就表示在95%的置信水平区间内之前的假设是正确的，进一步表示模型时间序列符合白噪声原理；若参数P值大于0.05，则表示该时间序列为随机序列，则无法进行预测。95%置信水平区间预测如图3所示。

图3 95%置信水平区间预测

4.2 预测模型检验

构建好模型后可以进行预测，预测前还需要检验该模型是否能够正确进行预测，需要检查构建的模型的残差符不符合正态分布的特征，运行模型后得到的构建模型残差如图4所示。

图4 标准化残差

运行模型后得到的构建模型的残差分布直方图以及预测模型的核密度曲线如图5所示，可以明显看出预测模型标准化残差能够呈现出正态分布。

图5 残差分布及核密度估计

同时还要检查构建的模型的残差是否能够具备相关性特征，在运行模型后模型的残差能够符合正态分布特征的同时残差不具有相关性，那么证明构建的模型具备有效特性，能够拟合数据，进行接下来的数据预测。生成的预测模型残差Q-Q分布如图6所示，可以清晰地看出残差的分布大致符合正态分布的趋势并且具有正态分布的特性。生成的预测模型的残差ACF以及PACF如图7、图8所示，从图中可以得到预测模型的残差序列的自相关函数以及偏自相关函数基本上都在可以接受的误差范围内，所以模型能够进行下一步的预测。

图6 残差Q-Q分布

图7 残差ACF

图8 残差PACF

4.3 基于改进ARIMA模型的短时客流预测

本文使用MATLAB软件对改进ARIMA预测模型进行编程设计。利用遗传算法进行优化，当迭代次数增加时，得到的输出值会越来越趋近于最优曲线，当迭代60次时达到最优，迭代情况如图9所示。

图9 迭代情况

当模型实现第一次预测的时候，遵循时间序列将测试集中的数据导入训练集，导入后更新训练集数据并且重新开始下一次模型运行，凭借最新得到的训练集数据和测试集数据进行接下来的数据预测，然后重复上述步骤，一直到模型预测出所有需要的结果为止，并与进站客流量真实数据作比较。预测结果如图10所示。

图10 改进ARIMA模型进站量预测结果

4.4 模型误差分析

为了更加清楚直观地对改进前后ARIMA预测模型的预测效果进行比较，本文采用了两个常用的误差评价方法，分别是均方根误差法(RMSE)和平均绝对误差法(MAE)来进行改进模型前后预测结果的比较分析，其计算公式如下：

(6)

(7)

均方根误差计算的是客流预测值与客流实际值的平方误差与总数量N的比值的平方根，一般用来解释预测中的离散程度；平均绝对误差计算的是客流预测值与客流实际值的偏差，一般用于预测值与真值的比较。分别计算改进前后预测模型的结果误差分析如表1所示。

表1 预测结果误差分析

计算的RMSE以及MAE两种评价指标数值越小，证明相对应的模型的预测性能越好。从表1中可以看出，改进ARIMA预测模型的两种指标数值比未改进的模型数值要小，那么证明改进ARIMA模型的预测性能更好，预测精度也比改进前的模型更高，进一步证明此种方法具有一定的实用性和应用性，可以投入至城市轨道交通短时客流预测的研究与应用。