APP下载

基于ARIMA-SVM模型的快速公交停站时间组合预测方法

2016-06-24

关键词:支持向量机

杨 敏  丁 剑  王 炜

(东南大学交通学院, 南京 210096)(东南大学江苏省城市智能交通重点实验室, 南京 210096)(东南大学现代城市交通技术协同创新中心, 南京 210096)

基于ARIMA-SVM模型的快速公交停站时间组合预测方法

杨敏 丁剑 王炜

(东南大学交通学院, 南京 210096)(东南大学江苏省城市智能交通重点实验室, 南京 210096)(东南大学现代城市交通技术协同创新中心, 南京 210096)

摘要:为了研究快速公交(BRT)系统公交站台停靠时间的可靠预测技术,对BRT车辆在站台停靠的物理过程进行分析.该过程既具有纵向时间相关性,又受到其他交通子系统的非线性作用,因此将BRT车辆停站时间拆解成线性部分和非线性部分.分别采用差分自回归移动平均(ARIMA)模型和支持向量机(SVM)方法对两部分进行预测,并将预测结果叠加,构成一种快速公交停站时间的组合预测方法.以常州BRT 2号线2个快速公交站的停站时间数据及其相关数据为样本进行建模,建模结果表明该组合预测方法行之有效.相较于单一的ARIMA模型和SVM模型,组合模型停站时间预测值的平均相对百分误差、均方误差均明显降低,误差1 s内命中百分率提高,且在训练数据足够时,组合模型的平均相对百分误差、均方误差分别为0.62%和4.05 s2,误差1 s内命中百分率达到 96.79%.

关键词:差分自回归;支持向量机;组合预测方法;快速公交;停站时间

经过数十年的发展,快速公交系统(BRT)在控制上已经体现出智能化与信息化的特点[1],而这些控制需要对一些关键参数进行预测,其中研究较多的就是BRT车辆的行程时间预测[2-5].区别于普通公交,BRT车辆多在专用道上行驶,路段行驶时间变化较小且容易得到,但在公交站停站时会受到外部交通参与者和系统内部的双重作用,其停站时间又具有相当的不确定性.文献[6-7]指出准确预测公交停站时间是进行公交优先控制的关键技术.因此,准确预测快速公交停站时间是获得公交行程时间的重点,它直接关系到快速公交高效管理控制手段的实施效果.

已有多种预测方法成功应用在车辆行程时间预测中[8-10],如李进燕等[8]和Kisgyörgy等[9]分别利用多步线性卡尔曼滤波模型和人工神经网络的非线性技术预测了车辆行程时间.在公交车辆停站时间预测模型方面,胡华等[11]对基于车辆自动定位数据(AVL)的公交到站实时预测模型进行了研究,并采用点估计法及自适应指数平滑法对其进行了动态预测.黄宇等[12]分析了公交在车站停靠的影响因素,运用排队论的方法构建了公交站点停靠时间模型.

BRT停站时间预测结果的不确定性主要是由于交通系统复杂的内在联系所造成的,这种联系难以依靠单一的线性或非线性关系进行解释.单纯的线性模型精度较低且需要大量不间断数据进行回归计算,而对于模拟技术、神经网络等非线性技术,其模型结构的可解析性不高,实际运算效率较低.因此将BRT车辆的停站时间划分为线性自相关部分和非线性部分,分别采用差分自回归移动平均(ARIMA)模型与支持向量机(SVM)模型进行预测.这样建立的组合模型不仅更符合BRT车辆的实际运行特点,而且可以充分发挥不同模型的各自优势.

本文选取常州BRT 2号线怀德中路上金谷花园站及谭墅站晚高峰(17:00—18:00)时的快速公交停靠站时间及其相关信息数据,建立基于ARIMA-SVM模型的车辆停站时间组合预测模型.通过将预测结果与单一ARIMA和SVM模型预测结果进行比较,验证本文模型的适用性,为基于快速公交的交通控制提供理论基础.

1模型原理

1.1差分自回归移动平均模型

差分自回归移动平均模型的实际预测过程包含平稳化分析、差分过程、模型选择、参数估计、假设检验等步骤.模型将非平稳的时间序列进行差分转化为平稳序列.每一个当前观察值yt都受到当下和前q期的随机干扰项影响,其值应包含这些项的加权平均;每一个当前观察值yt又是前p个观察值的加权平均和当下随机扰动的和[13].其数学表达式如下:

φ(L)dyt=c+θ(L)εt

(1)

式中,L为滞后因子,该因子作用1次表示该变量滞后1期,如Lyt=yt-1,L2yt=yt-2,以此类推;φ(L)=1-φ1L-φ2L2-…-φpLp,p为自回归项,φ1~φp为系数;θ(L)=1+θ1L+θ2L2+…+θqLq,q为移动平均项,θ1~θq为系数;d=(1-L)d,为差分项,d为差分阶数;c为常数,与时间序列期望有关;εt为当下随机扰动.

1.2支持向量机

SVM的核心主要是ε不敏感函数和核函数算法.ε不敏感函数用于包络由支持向量所构成的多维曲线和训练点.为适应训练样本集的非线性,SVM采用核函数代替传统线性方程中的线性项,将低维线性空间通过非线性变换映射到高维空间.同时,SVM的基本结构和神经网络有相似之处,利用自动生成的权重将中间层与输出层连接,而每个中间层与相应的支持向量通过核函数进行连接[14].

SVM中的ε不敏感函数表达式通常如下:

(2)

式中, f(x)为非线性回归函数,可由下式决定:

(3)

(4)

s.t.

0≤αi≤Ci=1,2,…,l

(5)

式中,l为样本个数.

通常使用的核函数有以下3种:

① 多项式核函数,即K(xi,x)=[(xTxi)+1]q,对应SVM是一个q阶多项式分类器.

② 径向基函数,即K(xi,x)=exp{-‖x-xi‖2/σ2},对应SVM是一种径向基函数分类器.

③S形核函数,如K(xi,x)=tanh(v(xTxi)+c),此时SVM实现的是一个2层的感知器神经网络,其中网络的权值和网络隐层节点数目由算法自动确定.

通过实地调查和资料收集,快速公交的停站时间主要与公交自身因素、乘客因素及交通环境有关.因此,在进行SVM计算时,选择车辆到站时间、车辆到站间隔、乘客上下人数、乘客单门流率及排队识别因子(经常出现公交扎堆到站时使用)作为支持向量机预测的输入属性变量.公交停站时间值是一个总体平稳、局部波动的序列,无太多周期性规律,因此采用多项式核函数会取得更好的预测效果.

当选定核函数类型并将数据输入模型后,SVM中惩罚因子C、不敏感系数ε及核函数参数影响着预测模型的稳定性和精度.这些值过大或过小都会对预测结果产生消极影响,因此本文采用遗传算法进行参数寻优.

遗传算法是借鉴生物进化理论演化而来的随机搜索算法,通过选择算子、交叉算子和变异算子,不断将种群适应度值向最值逼近,以求得最优解.均方误差是衡量模型预测精度的常用指标,其值越小,预测精度越高,因此将种群的适应度函数定义为预测值的均方误差.

1.3ARIMA与SVM组合模型

BRT车辆的停站时间受到整体交通环境的影响,即不同时刻对停站时间的影响不同,因此停站时间呈现出纵向的时间相关性,而ARIMA属于一种时间序列方法,可以很好地在预测过程中体现出停站时间的线性自相关性.BRT车辆在停站时,与乘客及其他BRT车辆的相互作用存在非线性,因此选取已述及的车辆到站时间、车辆到站间隔、乘客上下人数、乘客单门流率以及排队因子等变量输入SVM模型进行非线性回归,可以完成停站时间的非线性部分预测.

因此,本文将BRT车辆停站的时间序列数据Yt看作是由线性自相关的Lt与非线性的Nt两部分组成[13],即

Yt=Lt+Nt

(6)

从而建立两阶段预测模型进行组合预测.

第1阶段利用ARIMA模型建立预测初始模型,第2阶段对初始模型产生的残差进行再次预测,并把第2阶段的结果反馈到第1阶段预测结果中,进而实现对初始预测值的修正.上述方法可以扩大初始模型的适用范围和提高整体预测精度,且可以根据实际情况对残差进行多轮迭代预测,得到符合预测对象变化规律的混合预测模型.本文组合模型通过Matlab软件和Libsvm工具箱自主编程实现,具体步骤如图1所示.

图1 两阶段组合模型流程图

2实例分析

常州市公交专用道为路内侧式,且仅供BRT车辆行驶.本研究选取位于常州市BRT2号线怀德中路的谭墅站和金谷花园站作为研究实例.

通过实地视频拍摄和后续处理,BRT车辆的停站时间及相关信息数据示例如表1所示.研究数据覆盖了谭墅站和金谷花园站连续3个工作日晚高峰(17:00—18:00).金谷花园站和谭墅站的有效样本数据容量分别为192和57条.将采集的数据整理成如表1所示形式,依次采用ARIMA模型、SVM模型,以及ARIMA-SVM组合模型进行BRT车辆停站时间预测.

表1 预测数据资料

注:到站时刻为BRT车辆实际到站时刻经过转换后得到的变量,如将17:01:59转换为17×3 600+1×60+59=61 319.

2.1ARIMA模型单独预测效果

ARIMA模型参数利用网格法搜索得到.其中,谭墅站模型参数d,q,p分别为0,2,2;金谷花园站模型参数分别为0,1,3,预测结果如图2所示.单一时间序列方法很难准确预测出BRT车辆停站时间值,但为后续残差预测提供了良好的基础.

(a) 谭墅站

(b) 金谷花园站

2.2SVM模型单独预测效果

以原始停站时间为主变量,采集信息为属性变量,仅用SVM模型预测BRT车辆的停站时间.经分析得出原始停靠时间值较大,因此对原数据进行归一化处理.采用遗传算法寻优后,谭墅站SVM参数C, ε和核函数参数分别为20.050 9,0.082 6和0.011 7,金谷花园站对应参数为0.203 7, 4.529 2和0.046 2.寻优过程与预测效果如图3所示.由图可看出,SVM模型提升了停站时间的预测精度,因此将其作为组合预测模型的主要组成部分是合理的.

2.3组合模型预测效果

将停站时间序列与第1阶段结果求差,得出预测残差后,再利用SVM模型对残差进行预测,此残差序列值相对于原始序列而言相对较小,因此在第2阶段不进行归一化处理.用遗传算法寻优后,谭墅站SVM参数C, ε和核函数参数分别为4.405 0,14.618 5和0.998 2,金谷花园站对应参数为18.396 8,49.123 8和0.010 0.第2步参数寻优过程和最终预测效果如图4所示.

2.4模型评价指标选取与结果讨论

对比图2~图4,可以发现组合模型预测的效果较单独的ARIMA和SVM模型有所提升,尤其是在有较多训练数据的金谷花园站,表现更为突出.可以定量反映模型预测精度的指标有:平均相对百分误差(MAPE)、均方误差(MSE)和误差1s内命中百分率(P).

(a) 谭墅站SVM模型寻优过程

(b) 金谷花园站SVM模型寻优过程

(c) 谭墅站SVM模型预测效果

(d) 金谷花园站SVM模型预测效果

平均相对百分误差计算公式如下:

(7)

(a) 谭墅站组合模型寻优过程

(b) 金谷花园站组合模型寻优过程

(c) 谭墅站组合模型预测效果

(d) 金谷花园站组合模型预测效果

均方误差(MSE)计算公式如下:

(8)

MSE值越小,模型精度越高.

误差1s内命中百分率这一指标并不常见,它是针对公交停靠时间预测的本身特性而提出的.对于停靠时间预测而言,预测精度在1s内就能很好地为信号配时等交通控制手段提供支撑.P值越大,表明预测符合信号配时要求程度越高.

(9)

式中,na为小于1s的预测误差数目; n为样本数目.

3个模型的3项指标统计如表2所示.

表2 停靠时间预测指标统计

通过对比单一ARIMA和SVM模型的预测效果,可发现,SVM模型总体上优于ARIMA模型.其中,在谭墅站和金谷花园站,SVM模型的MAPE值和MSE值均低于ARIMA模型,这说明在BRT车辆停站过程中,非线性相互作用对停站时间值存在关键影响.通过对比P值可以发现,在样本容量较小的谭墅站,SVM模型的P值达到了61.40%,优于ARIMA模型,而在金谷花园站,ARIMA模型的P值却比SVM模型略高1.6%.这一方面是由于SVM模型本身在处理小样本问题时更具优势,另一方面是因为金谷花园站BRT车辆停站时间更为平稳,在训练数据足够多的条件下,朴素时间序列线性模型更具优势.因此,纵向时间相关性也是BRT车辆停站时间的另一影响因素,这也说明了综合考虑线性和非线性作用的组合模型的合理性与必要性.

在3项指标上,组合模型均优于其他2种模型,充分表明了组合模型在预测精度和稳定性方面的优势.尤其是在有较多数据支撑模型训练的金谷花园站,组合模型的平均相对百分误差、均方误差分别为0.62%和4.05s2,误差1s内命中百分率达到96.79%,预测精度提升了80%以上.虽然组合模型总体预测精度高于其他2种模型,但在谭墅站,其优势却有所下降.这主要是由于谭墅站样本容量较小,线性预测的优势并不能得到很好发挥,而SVM模型更擅长解决小样本预测问题,其预测结果在组合模型中所占比重更高.因此,更多的训练数据有利于充分发挥线性与非线性模型组合建模的优势,使得组合模型整体的预测精度更高.

综上所述,采用线性与非线性的组合建模更符合BRT车辆的停站特性,能够较为准确地预测BRT的停站时间,从而为公交系统的高效管控提供更精确的关键参数.

3结语

以拥有公交专用道的BRT为研究对象,分析其停站过程,发现其既存在纵向时间相关性,又有与交通系统相互作用的非线性,据此建立ARIMA与SVM的组合模型,对BRT车辆停站时间进行预测.基于常州BRT2号线相关数据,对模型进行对比检验.研究结果表明,线性与非线性高度结合的ARIMA-SVM组合模型可以成功应用到公交停站时间预测模型中,且预测效果良好,可以为基于快速公交的高效管控措施提供技术支持.

参考文献 (References)

[1]杨震,王炜,陈淑燕,等. 干线公交绿波通行控制中公交专用相位的设置方法[J]. 东南大学学报(自然科学版),2014,44(4):854-858. DOI: 10.3969/j.issn.1001-0505.2014.04.031.

Yang Zhen, Wang Wei, Chen Shuyan, et al. Setting methods of bus exclusive phase in bus green-wave control of urban arterial[J].JournalofSoutheastUniversity(NaturalScienceEdition), 2014,44(4):854-858. DOI: 10.3969/j.issn.1001-0505.2014.04.031. (in Chinese)

[2]Li J, Wang W, van Zuylen H J, et al. Predictive strategy for transit signal priority at fixed-time signalized intersections [J].TransportationResearchRecord:JournaloftheTransportationResearchBoard, 2012, 2311: 124-131.

[3]Ma W J, Yang X G. Efficiency analysis of transit signal priority strategies on isolated intersection [J].JournalofSystemSimulation, 2008, 20(12): 3309-3313.

[4]He Q, Head K L, Ding J. PAMSCOD: Platoon-based arterial multi-modal signal control with online data[J].TransportationResearchPartC:EmergingTechnologies, 2012, 20(1):164-184. DOI:10.1016/j.trc.2011.05.007.

[5]Kim W, Rilett L R. Improved transit signal priority system for networks with nearside bus stops [J].TransportationResearchRecord:JournaloftheTransportationResearchBoard, 2005, 1925: 205-214. DOI:10.3141/1925-21.

[6]Dai G Y, Wang H, Wang W. Signal optimization and coordination for bus progression based on MAXBAND[J].KSCEJournalofCivilEngineering, 2015, 20(2):890-898. DOI:10.1007/s12205-015-1516-4.

[7]Yang M, Sun G, Wang W, et al. Evaluation of the pre-detective signal priority for bus rapid transit: Coordinating the primary and secondary intersections [J/OL].Transport, 2015. DOI:10.3846/16484142. 2015.1004556.

[8]李进燕, 朱征宇, 刘琳, 等. 基于简化路网模型的卡尔曼滤波多步行程时间预测方法[J]. 系统工程理论与实践, 2013, 33(5): 1289-1297. DOI:10.3969/j.issn.1000-6788.2013.05.026.

Li Jinyan,Zhu Zhengyu,Liu Lin,et al. Multi-step Kalman filtering travel time estimation method based on simplified road network model [J].SystemEngneering—Theory&Practice, 2013, 33(5): 1289-1297. DOI:10.3969/j.issn.1000-6788.2013.05.026. (in Chinese)

[9]Kisgyörgy L, Rilett L R. Travel time prediction by advanced neural network [J].PeriodicaPolytechnicaCivilEngineering, 2002, 46(1): 15-32.

[10]Shalaby A, Farhan A. Bus travel time prediction model for dynamic operations control and passenger information systems [C/OL]//TRB82ndAnnualMeeting. Washington, DC, 2003. http://www.civ.utoronto.ca/sect/traeng/its/downloads/civ1507-pubtran/lecture8-traveltimepred.pdf.

[11]胡华, 高云峰, 刘志钢. 基于AVL数据的公交到站时间实时预测模型[J]. 重庆交通大学学报(自然科学版), 2012, 31(5):1014-1017, 1041. DOI:10.3969/j.issn.1674-0696.2012.05.23.

Hu Hua, Gao Yunfeng, Liu Zhigang. Dynamic prediction model of bus arrival time based on AVL data[J].JournalofChongqingJiaotongUniversity(NaturalSciences), 2012, 31(5):1014-1017,1041. DOI:10.3969/j.issn.1674-0696.2012.05.23. (in Chinese)

[12]黄宇, 张庆. 基于排队论的公交进站影响分析[J]. 交通运输系统工程与信息, 2010, 11(sup 1): 68-73.

Huang Yu, Zhang Qing. Analysis of the influence to the buses entering stops based on queuing theory [J].JournalofTransportationSystemsEngineeringandInformationTechnology, 2010, 11(sup1): 68-73.(in Chinese)

[13]谭满春, 冯荦斌, 徐建闽. 基于ARIMA与人工神经网络组合模型的交通流预测[J]. 中国公路学报,2007, 20(4):118-121. DOI:10.3321/j.issn:1001-7372.2007.04.021.

Tan Manchun, Feng Luobin, Xu Jianmin. Traffic flow prediction based on hybrid ARIMA and ANN model[J].ChinaJournalofHighwayandTransport, 2007, 20(4):118-121. DOI:10.3321/j.issn:1001-7372.2007.04.021.(in Chinese)

[14]姚智胜, 邵春福, 高永亮. 基于支持向量回归机的交通状态短时预测方法研究[J]. 北京交通大学学报, 2006, 30(3):19-22. DOI:10.3969/j.issn.1673-0291.2006.03.005.Yao Zhisheng, Shao Chunfu, Gao Yongliang. Research on methods of short-term traffic forecasting based on support vector regression[J].JournalofBeijingJiaotongUniversity, 2006, 30(3):19-22. DOI:10.3969/j.issn.1673-0291.2006.03.005. (in Chinese)

Hybrid dwell time prediction method for bus rapid transit based on ARIMA-SVM model

Yang Min Ding Jian Wang Wei

(School of Transportation, Southeast University, Nanjing 210096, China) (Jiangsu Key Laboratory of Urban ITS, Southeast University, Nanjing 210096, China) (Collaborative Innovation Center of Modern Urban Traffic Technologies, Southeast University, Nanjing 210096,China)

Abstract:To explore a reliable dwell time prediction technology through experiments, the physical process of bus rapid transit (BRT) when it stays at the stops is analyzed. Both the longitudinal correlation and nonlinear effects from other traffic subsystems are included in this process. Therefore, the dwell time can be divided into the linear and nonlinear parts. Accordingly, autoregressive integrated moving average(ARIMA)model and support vector machine (SVM)are adopted to predict these two parts, and the final prediction results are produced by combining the two parts. Thus, the hybrid dwell time prediction method for BRT is established. The dwell time and the relative data gained at two stops in BRT Line 2 in Changzhou are modeled. The results indicate that the hybrid prediction method is effective. Compared with the single ARIMA and SVM models, the hybrid prediction method has a sharp decline of the mean absolute error (MAPE) and the mean square error (MSE). Also, the target percent whose prediction error is less than 1 s significantly increases. Furthermore, the MAPE, MSE and the target percent can reach 0.62%, 4.05 s2 and 96.79%, respectively, when training data is enough.

Key words:difference autoregression; support vector machine(SVM); hybrid prediction method; bus rapid transit; dwell time

DOI:10.3969/j.issn.1001-0505.2016.03.033

收稿日期:2015-10-26.

作者简介:杨敏(1981—),男,博士,教授,博士生导师,yangmin@seu.edu.cn.

基金项目:国家自然科学基金资助项目(51338003, 51378120)、国家重点基础研究发展计划(973计划)资助项目(2012CB725402).

中图分类号:U492.3

文献标志码:A

文章编号:1001-0505(2016)03-0651-06

引用本文: 杨敏,丁剑,王炜.基于ARIMA-SVM模型的快速公交停站时间组合预测方法[J].东南大学学报(自然科学版),2016,46(3):651-656. DOI:10.3969/j.issn.1001-0505.2016.03.033.

猜你喜欢

支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
数据挖掘技术在电厂经济性分析系统中的应用Q
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究