APP下载

基于乘积季节模型的铁路客运量预测*

2018-05-11灵,

关键词:客运量差分季节

葛 灵, 张 杰

(西南交通大学 数学学院统计系, 成都 611756)

0 引 言

近年来,铁路在经济发展中起着越来越重要的作用,对社会发展产生了深远影响。在汽车、船舶、航天器等众多运输工具中,火车具有成本低、运输距离长、安全性好等优势,是一种便捷的交通运输工具。从安全、舒适、速度、价格等综合因素来看,铁路将是大多数人长途旅行选择的主要交通方式。社会经济发展水平、居民消费水平、城镇化水平等会影响铁路客运量的变化,同时也会受到气候条件、法定节假日、运输服务质量与舒适度以及政策等因素的影响[1],铁路客运量呈现增长趋势并具有一定的规律性。分析与预测铁路客运量,提高预测率有助于铁路部门更好地进行资源配置,促进我国铁路运输不断发展。

申耀伟[2]运用灰色动态GM(1,1)模型,对武昌车站2006—2020年的客运量进行了预测。刘会芳[3]综合比较单一多元线性回归、时间序列以及支持向量机的分析预测法,最终建立了精确度较高的铁路客运量组合预测模型。针对局限于单变量序列的铁路客运量预测,林璐[4]探讨了铁路客运量的主要影响因素,并将其一起作为输入变量序列纳入模型、参与预测;通过比较B-J、灰色预测、灰色线性回归以及ARIMAX模型,认为ARIMAX模型的预测效果最好。郝军章等[5]利用Eviews和SPSS分析与建模,对我国铁路客运量建立SARIMA模型,探究数据之间的季节性变化。曹韩、许晓铃[6]运用R软件,针对1997—2016年铁路客运量月度数据,建立铁路客运量乘法季节ARIMA模型,改进了预测方法。

据新闻报道,数据统计至2017年10月底,全国铁路已完成固定资产投资超6 200亿元;铁路客运量、货运量大幅度增长[7]。研究铁路客运量变化并预测,仍是有意义的。对于具有显著长期趋势和明显季节性的客运量序列,简单的ARIMA模型不能充分提取其间相关信息。R语言操作简便,分析效果良好,在数据挖掘中具有广泛的实际应用优势[8]。故本文建立乘积季节模型,利用Eviews和R这两种不同的软件来对中国铁路客运量进行建模与预测,通过分析比较选择最优的操作与模型。

1 乘积季节模型

如果有一序列{Xt}经过d阶差分和D阶长度为s的季节差分后变成了平稳序列,并且可以利用ARMA模型对差分后的平稳序列建模,则称序列{Xt}模型结构为简单季节模型[9]:

通过季节差分和差分可以消除序列的周期性,但并不能完全消除季节性。如果随机序列{Xt,t=0,±1,±2,…}有如下结构,则称其为乘积季节模型,记ARIMA(p,d,q)×(P,D,Q)s:

其中,p是消除同一周期不同周期点之间相关性的自回归阶数,q是消除同一周期不同周期点之间相关性的移动平均阶数,P是消除不同周期的同一周期点之间相关性的自回归阶数,Q是消除不同周期的同一周期点之间相关性的移动平均阶数,d是差分的阶数,D是季节差分的阶数,s是周期长度。

U(Bs)=1-u1Bs-u2B2s-…-uPBPs

V(Bs)=1-v1Bs-v2B2s-…-vQBQs

可以对不同周期的同一周期点之间的相关性进行拟合:

φ(B)=1-φ1B-φ2B2-…-φpBp

θ(B)=1-θ1B-θ2B2-…-θqBq

以此消除同一周期不同周期点之间的相关性。

2 数据来源

为研究中国铁路客运量,从国家统计局获取了2005年1月至2017年6月我国铁路客运量数据,见表1。将2005年1月至2016年12月的数据作为训练集(记为序列x),建立适当模型并预测后6期数据;将2017年1月至6月的数据作为测试集,评估模型的预测能力。

3 结果与分析

3.1 基于Eviews的时间序列分析

3.1.1 直观分析和相关分析

通过软件操作,得到序列x描述性统计结果:其相伴概率为0.005 335,拒绝序列x为正态分布的原假设;经绘制序列x的QQ图后发现:图形并不呈现出一条直线,故认为序列x不服从正态分布。

通过自相关和偏相关分析,可得序列x的样本偏自相关系数如图1:

图1 序列x的样本自相关系数和偏相关系数

从图1中可以看出,序列x的样本自相关系数在滞后期为12、24时出现最大值,说明序列x具有波动性和季节性,需进行差分操作。

3.1.2 单位根检验

序列x单位根检验结果,认为x是非平稳序列。由于序列x具有波动性和季节性,序列x进行对数变换后又进行一阶差分,得序列x1。由线性分析可知其均值在零点附近波动,再通过单位根检验序列x1为平稳序列。

3.1.3 季节性分析

利用软件得到一阶差分序列x1的自相关和偏相关函数图,如图2所示。

图2 序列x1样本自相关系数和偏相关系数

由图2可以发现,当滞后期为12的倍数时,序列x1的样本偏自相关系数较大。显然地,序列具有季节性,周期为12个月。

3.1.4 模式识别与初步定阶

当k>1时,样本自相关系数1步截尾。

当k>3时,样本偏相关系数4步截尾。

综上所述,据Box-Jenkins思想用ARMA(4,1)模型对序列x2进行拟合。即需拟合和检验的ARMA模型为ARMA(4,3)、ARMA(3,2)、ARMA(2,1),即对原序列logx尝试用ARIMA(4,1,3)×(0,1,0)12、ARIMA(3,1,2)×(0,1,0)12、ARIMA(2,1,1)×(0,1,0)12进行拟合。

3.1.5 参数估计与相应的AIC值

利用软件可得到各个模型参数的最小二乘估计、模型的剩余平方和、模型的AIC值,具体的数值见表2。

表2 序列x2的各个模型的相应结果Table 2 The result of models about the sequence

其中,ARMA(2,1)模型的AIC值最小,即对原序列logx用ARIMA(2,1,1)×(0,1,0)12进行拟合比较恰当。

3.1.6 参数显著性检验

利用模型进行参数估计,选择最小二乘法,得到的检验结果如图3所示。

图3 序列x2的ARMA(2,1)模型的参数检验结果

P值近乎于0,拟合结果较好。即对原序列logx用ARIMA(2,1,1)×(0,1,0)12进行拟合是比较恰当的。

3.1.7 模型适用性检验

对序列x2ARMA(2,1)进行适应性检验,残差序列resid的样本自相关系数除个别外,其余均满足:

残差序列在单位根检验下,结果显示是平稳的。

综上所述,模型ARMA(2,1)对序列x2是适应性的。

所以,综合图3各项系数,铁路客运量取自然对数后的值logx模型结构满足:

(1+0.4727B+0.417148B2)(1-B)(1-B12)Xt=εt+0.610 824εt-1

Xt=logxt

(1)

3.1.8 模型预测

利用上述模型,采用条件期望预测方法对全国客运量取了对数后值的变化情况进行预测,向前做6步预测,根据条件期望预测公式得:

0.610 824εt=10.098 395 95

同理,可得:

将自然对数形式转换回去,得到原序列的预测值,依次为:24 304、27 040、24 022、27 190、25 868和26 238,填制如表3。

表3 预测结果与真实值之间的误差Table 3 The deviation between the predicted resultand the true value

3.2 基于R的时间序列分析

3.2.1 平稳性检验

对于客运量序列x,绘制其时间变化趋势图:认为图形有明显的上升趋势、些许的指数趋势,同时具有周期变化,故序列是非平稳的。

将序列x转换成对数序列x3,经一阶差分与中心化处理,得序列Z,经检验序列Z是平稳序列。

3.2.2 模型的识别与定阶

对序列Z进行相关性分析,绘制自相关和偏相关图,如图4所示。

图4 序列Z的样本自相关系数和偏相关系数

从ACF和PACF可以看出,该序列在滞后期为12和24处有明显的波动,说明该序列接下来需要做长度为12的一阶季节差分。结果如图5所示。

图5 样本稳定性和相关系数图

对于非季节项,只做了一阶非季节差分,故d=1,由偏自相关图可以知道p=2,q=1。对于季节项,已做一阶12步季节差分,故D=1,由偏自相关图可以知道P=4,Q=2。

在时间序列分析中,季节算子的阶数小于等于一阶,所以最终对序列建立ARIMA(2,1,1)×(1,1,1)12模型。

3.2.3 模型适应性检验

模型适应性检验即是残差序列的白噪声检验。直接调用R软件函数,结果中p值都大于0.9,通过适应性检验。

3.2.4 模型参数估计与预测

模型参数估计方法主要有矩估计、最小二乘估计、极大似然估计,本文采用极大似然估计,得到如下模型:

(1-0.369B12)(1+0.435 4B+0.398B2)(1-B12)(1-B)Zt=(1+0.829 9B12)(1+0.644 1B)εt

调用函数,得到模型后6个预测值,将自然对数形式转换回去,得到原序列的预测值,如表4所示。

表4 预测结果与真实值之间的误差Table 4 The deviation between the predicted resultand the true value

3.3 预测结果比较

研究两种软件分析下的预测效果,综合预测结果表3和预测结果表4得表5。

表5 两种软件预测结果与真实值之间的误差Table 5 The deviation between the predicted result and the true value under two softwares

(1) Eviews操作下,分析结果最终建立ARIMA(2,1,1)×(0,1,0)12模型;R操作下,最终建立ARIMA(2,1,1)×(1,1,1)12模型。

(2) Eviews操作下的预测误差率在9%以下,平均预测误差为4.59%;R操作下的预测值误差率均在5.5%以下,平均预测误差为3.36%,两种操作下误差率都小于10%,是有效预测。但是相比之下,R预测结果更为精准。

Eviews模式识别与参数估计阶段,本文研究过是否可以建立ARIMA(2,1,1)×(1,1,1)12模型。但季节AR算子和季节MA算子并没有通过t检验,p值很大,故拒绝原假设。最终选择建立ARIMA(2,1,1)×(0,1,0)12模型。

为使研究结果更具有说服力,本文用R直接建立ARIMA(2,1,1)×(0,1,0)12模型,得:

(1+0.47B+0.413 1B2)(1-B)(1-B12)Xt=

Xt=logxt

由于各软件操作分析方法与精度稍有不同,总体上看,此模型与Eviews建立的模型(*)结果基本一致。表6为预测结果与真实值之间的误差。

表6 预测结果与真实值之间的误差Table 6 The deviation between the predicted resultand the true value

R操作下的预测值误差率波动大,平均预测误差为4.29%(大于3.36%,小于4.59%),较ARIMA(2,1,1)×(1,1,1)12模型其预测结果稍差,但预测结果仍好于用Eviews建立的ARIMA(2,1,1)×(0,1,0)12模型。由于两种软件操作分析方法的不同,致使分析建模结果稍有不同;综合上述,建议使用R软件分析中国铁路客运量数据,对客运量数据未来变化能进行更有效的预测。

4 结 论

在两种统计软件操作下,对中国铁路客运量数据进行训练与测试,都可以较好地建立模型预测中国铁路客运量的未来变化值。

(1) Eviews建立乘积季节模型,经历了相关分析、平稳性检验、季节性分析、显著性检验、适用性检验等一系列流程,最终进行模型的识别与定阶,利用条件期望预测法预测。分析思维更加严谨,但操作较为复杂。

(2) R软件分析并建模,历经平稳性采用一阶自然对数差分消除序列线性递增趋势后,在模型识别与定阶过程中,利用相关性研究选择进行一阶季节差分,继而进行模型的适用性检验、参数估计与模型预测。可利用程序包中相关函数直接进行分析与预测,操作较为简便,数据预测的正确率较高。

通过本文的研究,可以利用R建立ARIMA(2,1,1)×(1,1,1)12模型。经检验,模型的预测精度较好,可为预测未来全国铁路客运量变化提供一定的参考价值。

参考文献(References):

[1] 关于中国铁路客运量及其影响因素的实证研究[J/OL]. http://www.docin.com/p-760268172.html

[2] 申耀伟, 谢孝如. 基于灰色动态模型的铁路客运量预测与分析[J]. 中国铁路, 2008(6):36-38

SHEN Y W, XIE X R. Prediction and Analysis of Railway Passenger Volume Based on Grey Dynamic Model[J]. China Railway, 2008(6): 36-38

[3] 刘会芳. 我国铁路客运量的组合问题研究[D]. 长沙:长沙理工大学, 2013

LIU H F. Study on the Combination of Chinese Railway Passenger Transport[D]. Changsha:Changsha University of Science & Technology, 2013

[4] 郝军章, 崔玉杰, 韩江雪. 基于SARIMA模型在我国铁路客运量中的预测[J]. 数学的实践与认识, 2015, 45(18):95-104

HAO J Z, CUI Y J, HAN J X. Prediction of the Railway Passenger Volume Based on the SARIMA Model[J]. Journal of Mathematics in Practice and Theory, 2005, 45(18):95-104

[5] 林璐. 基于ARIMAX模型的铁路客运量预测研究[D]. 广州:暨南大学, 2016

LIN L. Prediction of Passenger Railway Volume Based on ARIMAX[D]. Guangzhou:JiNan University, 2016

[6] 曹韩, 许晓铃. 基于ARIMA模型的中国铁路客运量研究[J]. 广西民族师范学院学报, 2017, 34(2):85-89

CAO H, XU X L. Research on China Railway Passenger Volume Based on ARIMA Model[J]. Journal of Nanning Junior Teachers College, 2017, 34(2):85-89

[7] 人民网. 中铁总:全国铁路今年已完成固定资产投资6256.4亿[EB/OL]. http://finance.people.com.cn/n1/2017/1120/c1004-29657018.html

[8] 陈荣鑫. R软件的数据挖掘应用[J]. 重庆工商大学学报(自然科学版), 2011, 28(6):602-607

CHEN R X. Data Mining Application Based on R[J]. Journal of Chongqing Technology and Business University(Naturnal Science Edition), 2011,28(6):602-607

[9] 王沁. 时间序列分析及其应用[M]. 成都:西南交通大学出版社, 2008

WANG Q. Time Series Analysis and the Application[M]. Chengdu: Southwest Jiaotong University Publishing House, 2008

猜你喜欢

客运量差分季节
RLW-KdV方程的紧致有限差分格式
数列与差分
2018年北京市城市公共交通运行特征分析
2018年北京市城际交通运行特征分析
2018年北京市轨道交通运行特征分析
我喜欢的季节7
季节蠕变
季节的变换
花的季节
基于差分隐私的大数据隐私保护