APP下载

ARIMA乘积季节模型及Prophet预测模型在交通运输客运量预测中的应用和比较

2019-09-10韩苑

环球市场 2019年6期
关键词:ARIMA模型

韩苑

摘要:交通运输客运量是在一定时期内,各种运输工具实际运送的旅客数量。它是反映运输业为国民经济和人民生活服务的数量指标,也是制定和检查运输生产计划、研究运输发展规模和速度的重要指标。准确的交通运输客运量预测,可以有效的帮助有效的帮助交通运输管理部门制定下一步交通运输发展的方向,调整和优化交通运输方式,更好地为人民的交通出行提供基础服务。由于客运量的预测受到多重因素的影响,如节假日因素、突发事件等,其预测一直是时间预测领域的难点。本文搜集了国家统计局公布的2016年值2018年交通运输客运量数据,构建了乘积季节性ARIMA(p,d,q)×(P,D,Q)模型,对建立的模型进行参数估计、模型诊断,选择最优预测模型。同时,本文也基于Facebook开源时间序列预测框架Prophet,对同一批数据进行预测和验证。结果显示,Prophet模型在预测的准确性上优于乘积季节性ARIMA(p,d,q)×(P,D,Q)模型,更适合于全国客运量预测。

关键词:客运量预测;ARIMA模型;Prophet;时间序列预测

交通运输客运量是在一定时期内,各种运输工具实际运送的旅客数量。它包含了铁路客运量、公路客运量、水运客运量,民航客运量,是反映运输业为国民经济和人民生活服务的数量指标,也是制定和检查运输生产计划、研究运输发展规模和速度的重要指标。随着全国交通运输基础设施的不断提升,如全国高铁路网的铺设,高速公路公里数的不断增长,水运及民航线路的调整及优化等,全国人民在出行上的行为和数量也发生了相应的变化。准确的交通运输客运量预测,可以帮助交通运输管理部门,针对人们出行行为的变化,进一步优化全国运输的基础设施和结构。作为交通运输指标,客运量有当月值、累计值、同比增长和累计增长四种数据表达形式。常用的預测所采用的方法有,基于时间序列模型的差分整合移动平均自回归模型ARIMA[1]、基于人工神经网络的(ANN)[2]以及支持向量机(SVM)[3]等。本文分析了交通运输客运量的当月数据特性,分别采用乘积季节性ARIMA模型和最新的时间序列预测工具Prophet[4]对其进行预测,以期找出适用于客运量的简单准确的预测方法。

一、交通运输客运量基本特性分析

在对每月全国客运量数据进行预测之前,首先需要掌握数据的变化规律。影响当月客运量的主要因素主要有两类,第一大因素是由于全国交通运输基础设施的改善及运输航线的调整,或者因经济形式的变化带来的人们出行活动的变化等因素,带来的客运量年度的上升或下降趋势;第二大因素是由于传统节假日,如春节,或者国家法定节假日,国庆、端午等因素造成的季节因素变化。

为了更好地展示全国客运量的年度变化趋势及周期性季节因素,本节选取了2016年以及2018年每月全国客运量量作为分析对象。由图1可以明显看出,全国客运量呈现逐年下降的趋势,同时也可以明确看出,客运量呈现年维度的季节性趋势,其中2月份由于有中国传统佳节春节的影响,达到全年客运量最高峰,7、8月份由于暑期因素影响,学生旅行出行人次增加,也在全年客运量分布中处于高点,10月份由于国庆假期影响,同样客运量较高。

二、数据集及模型介绍

(一)数据集介绍

本文选取国家统计局公布的交通运输客运量2016年1月至2018年12月的当月客运量数据。

(二)统计软件

本文选取Eviews软件进行SARIMA模型建模,使用R软件进行Prophet模型建模。

(三)基于SARIM、的时间序列分析

1.SARIMA模型介绍

ARIMA模型是由美国统计学家Box和英国统计学家JENKIN提出,该模型是对时间序列进行分析的模型。实质是根据现在和过去的随机序列样本进行取值,对未来某一时刻的随机变量进行估计。

如果一个时间序列{Y}的d次差分W=▽Y是一个平稳的ARMA过程,则称{Y}为自回归滑动平均求和模型。

如果一个时间序列优}的d次差分W=▽▽Y满足某季节周期为s的ARMA(p,q)×(P,Q)模型,{Y}称为季节周期为s的ARIMA(p,d,q)×(P,D,Q)模型。

其中,P是消除同一周期不同周期点之间相关性的自回归阶数,q是消除同一周期不同周期点之间相关性的移动平均阶数,P是消除不同周期的同一周期点之间相关性的自回归阶数,Q是消除不同周期的同一周期点之间相关性的移动平均阶数,d是差分的阶数,D是季节差分的阶数,s是周期长度。

2.时间序列平稳化检验和处理

将2016-2018年客运量输入导入Eviews软件,生成序列y。通过观察序列y时间序列图可以发现数据具有一定的趋势性和季节性,见图2。

对序列y进行长度为12的季节差分后,得到序列y_s,时序图如图3。经过单位根检验,序列y s为平稳序列。

3.SARIMA模式识别、定阶及检验

在对y序列进行了步长为12的一阶季节差分后,得到的y_s序列消除了趋势性和季节性,成为均值为。的平稳序列,因此取a=0;D-1.观察y_s序列的ACF及PACE图,见图4。

如图4所示,ACF图PACE图在1阶、8阶后快速衰减,因此取P=0或1,q=0或1,P=0,Q=0。得到的可能模型如下:SARIMA((1,0,O)0,1,0)12和SARIMA((0,0,1)0,1,0)12。

将模型带入方程进一步检验,模型各项参数均通过t检验,其中SARIMA((1,0,0)0,1,0)12模型AIC值为20.51,SC值为20.61,SARIMA((0,0,1)0,1,0)12模型AIC值为20.1,SC值为20.7。根据最小信息准则,选择SARIMA((1,0,0)0,1,0)12模型。对该模型的残差序列进行白噪声检验,观察其自相关和偏自相关图,见图5,均落在随机区间内,因此,选择SARIMA((1,0,0)0,1,0)12模型较合适。

4.SARIMA模型预测结果与实际结果比较

将模型SARllMA((1,0,0)0,1,0)12参数带入方程,拟合2017年及2018年每月客运量AM值。

采用静态预测法,平均误差率为3.03%,2017年至2018年每月预测误差率分布如表1:

采用动态预测法,平均误差率为6.69%,2017年至2018年每月预测误差率分布如表2:

(四)基于Prophet的时间序列分析

1.Prophet模型介绍

Prophet模型是2017年由Facebook提出并开源的一套时间序列预测框架,旨在解决商业场景中时间预测问题。传统的时间序列预测方法,如本文使用的ARIMA模型,已经用在很多场景中了,但它们通常都有一些缺陷,如适用的时序数据过于局限、缺失值需要填补、模型缺乏灵活性、指导作用较弱等。而Prophet模型弥补了这部分缺陷,它适用于具备较强季节性趋势、有重大节假日、有历史趋勢性变化且存在部分缺失的历史数据的业务场景。目前,国内已有将Prophet模型应用于CPI指数预测[5]和电信业务[6]预测,取得了良好的效果。

Prophet模型本质上是一个时间序列加法模型,模型的整体构建如下:

y(t)=g(t)+s(t)+h(t)+∈

模型由三部分组成:growth(增长趋势)、seasonality(季节趋势)以及holidays(节假日对预测值的影响)。其中g(t)表示增长函数,用来拟合时间序列中预测值的非周期性变化;s(t)用来表示周期性变化,比如说每周,每年中那个的季节等;h(t)表示时间序列中那些潜在的具有非固定周期的节假日对预测值造成的影响。最后∈为噪声项,表示模型未预测到的波动,这里假设∈是高斯分布的。

2.Prophet模型建模

Prophet中输入的数据要求必须有两列固定的名称的dataframe:ds和y。其中,ds列为日期列,y列为数字。将咨询服务量数据按照prophet允许的格式规范化并导入训练。模型将数据成分自动拟合为线性趋势成分和以年为维度的季节成分。

考虑到全国客运量的下降趋势和年季节趋势,将增长参数设置为linear,年季节参数设置为TRUE.(见图6、图7)

3.Prophet模型预测值与实际值比较

Prophet模型平均误差率为1.10%,所有月份的预测绝对误差都小于5%。

三、SARIMA模型和Prophet模型预测结果比较及结论

本文使用了两种模型,对全国客运量数据进行了训练和预测,都可以较好地建立模型预测客运量的未来变化值。

1.通过Eviews建立SARIMA模型,经历了时序平稳化、模型识别与定阶及白噪声检验,最终利用静态预测法可以得到较为准确的预测结果,平均误差率为3.03%。但静态预测法只能预测短期数据,可行性不高,而动态预测法平均误差率为6.69%,准确性较低。

2.通过R软件建立的Prophet模型,平均误差率1.I0%o Prophet模型建模过程简单直观,且可以针对客运量数据的特性,设置季节因素参数,从而可以更好地通过调节参数来调整模型预测准确率。同时,Prophet模型在进行长期预测上准确性也有保障。

通过本文的研究,Prophet模型更适合全国客运量预测研究,可以为交通运输部门的工作规划提供参考。

参考文献:

[1]张伟,张新波.移动GSM网话务量的ARIMA模型的建立及其预测[J].数学理论与应用,2008(2):70-74.

[2]张一农,刘伯龙,王文婷.基于神经网络的客服中心话务量预测模型[J].吉林大学学报(信息科学版),2011,29(2):97-101.

[3]曾雨桐,钱学荣.基于支持向量机的多因素话务量研究[J].微型机与应用,2016,35(1):63-6fi.

[4]Taylor S J,Letham B.Forecasting atScale[J].2017.

[5]刘权明.基于prophet的CPI指数预测[J].中国管理信息化,2018,21(13):122-123.

[6]聂锋,罗清.Pophel在电信业务预测中的应用[J].环球市场,2018.

猜你喜欢

ARIMA模型
基于时间序列模型的中国出口总额分析及预测
基于R软件的金融时间序列的预测分析
基于Eviews上证综合指数预测
基于ARIMA模型的河北省能源消费预测
基于ARIMA模型的沪铜期货价格预测研究
组合预测法在我国粮食产量预测中的应用
基于ARIMA模型的广西城镇居民收入预测分析
基于SARIMA的我国汽车销量预测分析