APP下载

基于RS-IPSOSVM的公交客流量预测方法

2020-11-25黄益绍

关键词:约简客流量客流

黄益绍,韩 磊

(1. 长沙理工大学 道路灾变防治及交通安全教育部工程研究中心,湖南 长沙 410114;2. 长沙理工大学 交通运输工程学院,湖南 长沙 410114; 3. 同济大学 道路与交通工程教育部实验室,上海 201804)

0 引 言

公交客流量可为运营者实现公交智能调度、科学规划公交线网提供直接有效的基础数据支持,精确、实时的公交客流预测是实现智能公交信息服务、提高企业服务质量和经济收益的重要科学依据[1-3]。公交客流预测作为国内外智能交通系统的研究热点,20多年来已经取得了较多的研究成果。一般来说,短时客流预测可以分为参数预测、非参数预测和混合预测3种方法:

1)在参数预测方法方面,自回归移动平均模型(ARMA)和自回归积分移动平均模型(ARIMA)是一种传统且有效的客流预测方法[4-5]。但是,这些回归模型均存在一定的线性局限性。为了研究客流的非线性部分,研究人员引入和改进了各种非参数预测方法[6-11]。

2)在非参数预测方法方面,研究主要集中于人工神经网络[8]、支持向量机[9-10]和KNN算法[11]等智能预测模型。高为等[8]基于交通流特性的深入挖掘,构造了一种基于RBF神经网络的短时交通流预测模型,该模型能够有效预测动态交通流量,但并没有考虑外界影响因素;M. CASTRO-NETO等[9]提出了一种基于监督统计学习的支持向量回归(OL-SVR)模型,用于预测典型和非典型条件下高速公路的短时交通流量,该模型鲁棒性较强,但模型较为复杂,预测时间较长;刘晓玲等[10]将城市道路短期交通状态的多个影响因素作为支持向量机的输入变量,构造了基于SVM的不同维数的道路短期交通状态预测模型,结果表明,SVM-TF能够实现对道路交通流进行实时、准确的预测,但是多个影响因素之间存在一定的数据冗余;于滨等[11]充分考虑了城市道路的时空特性,并将其作为K近邻算法的时间和空间参数,最后将4种状态向量融合进一个K近邻模型内,该模型预测精度较只考虑时间维度的模型有了大幅提升,如对该模型继续进行SVM参数优化,则预测效果更好。相较于参数预测方法,非参数预测方法的主要过程是在没有先验知识的情况下构造输入和输出变量之间的非线性关系。因此,它们在特征回归中更加灵活,更被广泛使用。

3)在混合预测方法方面,W. Z. ZHENG等[12]利用贝叶斯定理分配两个单一神经网络的权值,提出一种新的贝叶斯组合预测模型,并对短时交通流量进行了预测,取得较好的效果,但模型鲁棒性较差,适用范围较小;W. C. HONG等[13]提出了一种基于支持向量回归模型和连续蚁群优化算法(SVRCACO)相结合的短期交通预测模型,并基于实际交通流数值验证了SVRCACO模型的预测性能,结果表明,其具有较高的预测性能,但没有考虑到实际交通流数据的复杂性。

交通流预测问题已经得到了深入的研究,但预测方法仍存在一些局限性。参数预测方法计算简单,数据要求低,但在复杂环境下无法保证预测精度;非参数预测方法拥有较强数据拟合能力,预测精度相对较高,但是传统的前馈神经网络学习速度较慢,且容易陷入局部最优解,而SVM只有在小样本条件下效率较高,且参数选择困难。公交客流复杂性和不确定性较强,影响因子众多,且各个影响因子间存在冗余性,如何科学筛选核心因子、剔除冗余信息制约着模型的预测效率和精度。

综上所述,笔者首先根据公交IC卡数据挖掘公交客流的影响因子,通过粗糙集对公交客流的多个影响因子进行属性约简,确定关键属性,然后通过改进的IPSO算法找到全局最优SVM参数,构造基于RS-IPSOSVM的公交客流预测模型,并与传统SVM方法进行对比分析。

1 模型原理

1.1 基于粗糙集的属性约简

属性约简就是在保持信息系统的分类或决策能力不变的前提下,删除不重要或不相关的冗余属性,推导出待解问题的分类或决策。在粗糙集中,一个信息系统为:

S=(U,A,V,f)

(1)

式中:U为论域;A=C∪D={a1,a2,…,an}为非空属性的有限集合,其中,C为条件属性集(客流量影响因子),D为决策属性集(客流预测);V=UVa为属性值的集合,Va为a∈A的值域;f为映射函数,赋予了U中每个成分的属性值,其中,U×A→V,f(xi,a)∈V。具有条件属性和决策属性的知识表达系统统称为决策表。决策表中行代表对象的一条记录,列代表对象的属性。

定义条件属性C对决策属性D的支持度为:

(2)

式中:POSC(D)为D的C正域,具体指根据C的知识能确切划入U|D类的元素集合;γC(D)为条件属性对决策属性的支持程度。通过条件属性对决策属性的贡献程度来判断该属性的重要性大小。在量化由属性集得出的分类属性子集B′⊆B的重要性时,依据双方依赖程度的差来度量,如式(3):

Δk=rB(D)-rB(D)

(3)

式中:Δk表示当从集合B中去掉某些属性子集B′后进行分类时,分类U|D的正域受到的影响大小。其值的大小表明了对应属性的重要性。冗余属性的支持度为零,可以将其剔除。另外,在一个决策表中,不可或缺的属性称为核属性。

1.2 SVM回归预测模型

假设给定的训练集样本为S={(xi,yi),xi∈Rd,yi∈R}(i=1,2,…,l)。其中:xi为第i个输入变量(属性约简后得到的核心影响因子);yi为对应的目标输出向量(客流量预测值);l为样本容量。通过非线性映射∅(x)把输入变量映射到高维特征空间,在高维特征空间中构造函数:

f(x)=ω∅(x)+b

(4)

式中:∅(x)是将样本点映射到高维空间的非线性变换;ω为权值矢量;b为阈值。

采用ε线性不敏感损失函数,如式(5):

(5)

式中:ε为线性不敏感损失函数;f(x)为预测值;y为与之对应的真实值。

(6)

式中:C为常数,表示误差大于ε的样本个数。

为了求解式(6)的优化问题,引入拉格朗日函数,将问题转化到其对偶空间中:

(7)

(8)

为了提高可靠性,一般先分别计算所有标准支持向量b的值,再求平均值,即:

(9)

式中:Nn,SV为支持向量的数量;SV为支持向量。

构造回归函数如式(10):

(10)

支持向量机中核函数的选取极其重要,直接影响着模型的预测性能。文献[14]表明,RBF核函数具有较高的预测准确率,泛化能力好,故笔者选取RBF函数为核函数。

径向基(radial basis function,RBF)核函数,如式(11):

K(x,xi)=exp(-‖x-xi‖2/2σ2)

(11)

1.3 改进的粒子群算法优化支持向量机

粒子群算法是一种基于种群进化的智能优化算法[15]。传统的PSO算法全局搜索能力较弱,容易陷入局部最优,很难逃出[16-18]。笔者提出一种改进的PSO算法,引入一种自适应调整的惯性权重的方法,将其设为随迭代次数线性改变的变量,实现对PSO算法的改进。再利用IPSO算法来寻找SVM全局最优参数。迭代公式为:

(12)

(13)

式中:ωmin、ωmax分别为ω的最小值和最大值;f为当前个体适应度;fmin、favg分别为最小适应值和平均适应值。

此外,为了提高算法的收敛速度和精度,笔者采用异步变化的学习因子:

(14)

式中:c1ini、c2ini分别为c1、c2的初始值;t、Tmax分别为当前和最大迭代次数;c1fin、c2fin分别为c1、c2的终值。

IPSO优化SVM参数的具体步骤如下:

步骤1:初始化。随机产生一组粒子的初始位置和速度。

步骤3:按式(12)更新每个粒子的速度和位置,按式(13)和式(14)更新ω、c1和c2。

步骤4:检查结束条件,若寻优达到最大迭代次数Tmax,或者评价值小于设定精度值,则寻优结束;否则转至步骤2,继续寻优。

步骤5:将搜索到的粒子最优位置,即最优参数向量C和σ赋给SVM。

步骤6:应用样本数据对SVM进行训练。

2 公交客流数据分析

2.1 数据描述

所用实验数据源自于广州市公交公司提供的公交线路IC卡数据和广州市气象局统计的天气数据。笔者采集使用2017年8月1日至2017年12月31日的4条具有代表性的干线公交线路(3、6、9、10路)IC卡刷卡数据和天气数据。IC刷卡记录收集量达900多万条,公交线路覆盖城市多数重要站点,其中IC刷卡记录主要包括使用地、线路名称、刷卡终端、交易时间、IC卡类型等,公交线路信息主要包括线路号、停靠站点数量、线路类型。天气数据包括日期、天气情况、温度、风速/风向、风力。笔者通过使用文献[19]中方法,利用IC卡刷卡数据确定了公交线路客流量,从而便于对影响公交客流因素进行分析以及客流量的预测。

2.2 影响公交客流因素分析

公交客流受到众多因素的影响,深入挖掘客流变化规律是客流预测的重要前提。

1)不同人群拥有不同的出行习惯。随机选取某日6:00—20:00的样本线路IC卡数据进行各类人群统计,如图1。由图1可知,样本线路中普通乘客、老人和学生占乘客总数量的99.51%,故在分析人群出行习惯时,选择普通乘客、老人和学生这3种人群作为研究对象。选择广州市6路公交在2017年9月4日(周一)从早上6点到晚上20点的IC刷卡数据作为研究对象,在这期间普通乘客、老人、学生及客流总量在每小时的客流量变化如图2。由图2可知,各类人群在出行上具有自己的规律性,但是客流变化趋势基本一致。在对客流量的预测中,为了不增加模型的复杂度,可以抛弃分人群建模的思想,采用整体建模的方式依然可以反映出客流量的总体趋势。

2)公交客流规律受公交线路影响较为明显。随机选择样本线路某日的6点到20点客流量进行横向对比分析,如图3。由图3可知,不同线路每小时客流的总量和变化趋势存在很大差别。因此,在对客流量的预测中,应充分考虑线路的自身特性。

3)公交客流规律受节假日影响明显。以6路公交43个工作日和110个节假日早上8点客流量为例,对不同日类型进行纵向对比,如图4。从图4中可以看出,工作日和节假日出行的客流量整体特征差距明显,属于重要影响因素。因此在对客流量预测时,需要充分考虑节假日因素的影响,在SVM回归预测时应将此因素量化作为训练的输入数据。

4)公交客流规律受天气影响明显。选择广州市6号公交的客流数据作为研究对象,日期则选择天气特征明显的3天(晴天、阴天、大暴雨),在这3种天气情况下一天内客流量数据变化如图5。从图5中可以看出,天气的变化影响了客流量的数值,晴天阴天的客流量总量发生变化,但是客流变化不明显。而在大暴雨当日,公交客流量相比晴天时明显减少。因此在遇到极端天气时,对客流的影响会相对较明显。

综上所述,公交线路不同、时间、节假日安排和天气状况是公交客流量的4个主要影响因素。天气状况包含众多方面,笔者为了简便,仅将预测场景划分为工作日和节假日。

3 基于RS-IPSOSVM的公交客流量预测

3.1 公交客流量预测流程

图6是采用RS-IPSOSVM模型进行公交客流量预测的流程,具体步骤如下:

1)影响因子的选取。根据2.2节分析,选取影响公交客流变化的线路、时间、节假日和天气状况初始影响因子。

2)数据预处理。数据预处理主要是进行客流噪声数据的清洗、数据归一化、数据整合以及天气状况数据的量化。

3)利用粗糙集对影响公交客流变化相关的属性进行约减,去掉冗余或者干扰因子,得到最小条件因子集和核。

4)将约简后的核因子集分为训练样本集和检验样本集,取训练样本集作为SVM预测的输入,利用IPSO算法寻找SVM全局最优参数,选取RBF函数为核函数,构造公交客流量与影响因子的SVM预测模型。

5)将模型输出的预测结果进行反归一化处理,选取评价指标,完成模型的性能评价。

3.2 影响因子选取

1)线路因子。通过2.2节分析可知,不同公交线路的客流量变化存在差异。因此,选取线路号(A1)、站点数量(A2)、线路类型(A3)作为初始因子。

2)时间因子。不同时间、时刻下客流量存在不同,故选取季节(A4)、月份(A5)、日期(A6)、时刻(A7)作为初始因子。

3)节假日因子。节假日与工作日客流量差距明显,故选取节假日情况(A8)作为初始因子。

4)天气状况因子。天气情况的波动会影响居民对出行交通方式的选择,进而影响公交客流量,故选取天气状况(A9)、最高温度(A10)、最低温度(A11)、风力(A12)、风向(A13)作为初始因子。

5)初始影响因子相关性计算。利用Pearson相关系数得出13个影响因子的相关性如表1。由表1可知,各影响因子间存在一定程度的关联耦合和冗余性,若直接以初始因子集作为输入集进行预测会造成预测结果出现较大的误差。

表1 影响因子相关系数

3.3 数据预处理

1)处理残缺数据。由于传输设备的不稳定性,所获得IC卡刷卡数据会出现残缺数据。通过对残缺数据的筛选发现,此部分数据占总体数据比例极小,故直接将其删除处理。

2)处理无效数据。线路停运、道路管制等一些突发情况会造成客流量与平常相差巨大,此时的数据毫无代表性和可靠性,故应将其删除放弃。

3)数据整合及量化。其一,为了缩减整体数据的规模,将松散的刷卡数据分线路转化为每日每小时的刷卡记录总和。其二,原始天气属性数据均为非量化数据,故需进行量化处理。

4)为了消除评价因子不同量纲造成的影响,按其属性将其归一化到[0,100]间。

3.4 基于粗糙集的影响因子约简

限于粗糙集输入的属性数据均为离散型变量的要求,笔者选取的13个影响因子均为连续型变量。因此,需要先进行影响因子离散化处理。笔者对数据离散化处理采用等宽间隔法,如式(15)~式(16):

(15)

(16)

(17)

式中:a0、a1分别为两个分隔点的数值;Ai为第i个影响因子;Aimax、Aimin分别为Ai的最大值和最小值。

运用基于Pawlak的属性重要度的决策表属性约简算法进行属性约简[20],最终得到属性约简后的部分决策表结构如表2,决策属性集代表着指定时刻客流量的数值。由表2可知,核因子集为{A1,A6,A7,A8,A9,A10,A11,A13}。

表2 属性约简后的预测决策表

3.5 SVM模型建立

SVM参数C和σ的取值范围分别为[0,100]、[0,10]。设置IPSO算法参数的初始值,粒子群规模为30,最大迭代次数为200,学习因子c1=c2=2,ωmin=0.3,ωmax=0.9。通过计算每个粒子的适应度,根据适应度值的大小更新pi和pg,并更新粒子的位置、速度、学习因子以及惯性权重ω,从而形成新的粒子群。然后搜索得到支持向量机的最优参数C=4,σ=2.1。利用获得的最佳模型参数对样本数据进行学习,建立公交客流量预测模型。通过构造的模型对样本线路客流量进行预测,检验模型的预测性能。

3.6 预测结果分析

笔者应用构造的基于RS-IPSOSVM模型分别对广州市6路公交在工作日(2017年12月25日—2017年12月29日)和元旦节假日(2017年12月30日—2017年12月31日)的客流量进行预测,预测结果如图7。传统SVM回归模型预测结果如图8。从图7、图8中可以看出,RS-IPSOSVM模型预测值及其变化趋势基本符合真实值,拟合度更好。

为了进一步验证笔者提出的RS-IPSOSVM预测方法的有效性和优越性,再选取ARIMA和BP这两种经典方法,利用均方根误差(RMSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE)3个评价指标对这4种模型性能进行分析,如式(18)~式(20):

(18)

(19)

(20)

式中:N为样本数。

利用式(18)~式(20)分别计算4种模型的RMSE、MAE和MAPE值,得出表3。由表3可以定量地看出,RS-IPSOSVM预测方法在不同预测场景下的预测误差均保持了较低的值,相邻工作日、相邻节假日之间RMSE、MAE和MAPE值变化幅度不大,模型预测效果具有一定的稳定性。在综合测试集上,相较于ARIMA、BP和SVM模型,RMSE分别减小了69.86%、67.83%、60.51%,MAE分别减小了75.01%、73.34%、67.27%,MAPE分别减小了63.98%、41.70%、38.45%。

表3 不同模型预测误差

综合4种模型的预测结果表现,得到4种模型在12月1日客流预测中的绝对误差对比,如图9。由图9可知,RS-IPSOSVM预测模型在各个时段的预测精度均高于ARIMA、BP和SVM模型。综上所述,组合预测模型准确度更高,预测曲线的拟合度更好。同时通过运用粗糙集的属性约简算法可以简化训练样本的输入,减少模型的运算,也是该组合模型的一大优点。

4 结 论

1)公交客流具有不确定性和复杂性,受多重因素影响,粗糙集理论具有较强的数据挖掘能力。通过对建立的公交客流预测决策表进行属性约简,删除冗余信息,获得影响客流变化的主控因素,为选取正确的客流预测评价因子提供依据。

2)支持向量机模型的惩罚参数和核函数参数对预测分类结果的准确性影响较大,采用改进粒子群算法对参数和进行优化,减少了人为选取参数的随意性,提高了分类准确性。

3)根据RS-IPSOSVM公交客流预测模型,将公交客流变化的影响因素通过核函数映射到高维空间,建立与客流的映射关系,通过对样本线路的预测,发现预测值与实际值基本一致,证明RS-IPSOSVM预测模型具有较强的有效性。

4)通过对比ARIMA、BP和SVM预测模型,证明笔者方法在满足预测精度的前提下拥有更快训练速度与可靠性。

综上所述,笔者所提出的RS-IPSOSVM算法可以为公交公司实现公交实时调度提供科学依据,合理配置有限的资源,降低公交运营成本,进一步推动城市公交系统的发展;同时也可为居民智能公交出行提供信息便捷服务,及时掌握到公交运营线路客流量情况,具有一定的实用价值。在本研究中,运用粗糙集对影响因子进约简,在未来的研究中,可以对比多种算法,选择其中最优一个与IPSOSVM相结合。

猜你喜欢

约简客流量客流
面向连续参数的多粒度属性约简方法研究
基于数据挖掘的景区客流量预测模型研究
城市轨道交通节假日期间大客流行车组织思考与实践
基于差别矩阵的区间值决策系统β分布约简
基于系统动力学的城市轨道交通车站客流控制仿真与优化
带权决策表的变精度约简算法
地铁开,玩起来
基于灰色预测理论在交通枢纽客流量的实际应用
基于灰色预测理论在交通枢纽客流量的实际应用
近似边界精度信息熵的属性约简