APP下载

基于特征子序列修正的公交刷卡滞后时间推算

2017-12-08冉江宇戴彦欣

城市交通 2017年1期
关键词:时间差IC卡公共汽车

冉江宇,戴彦欣

(中国城市规划设计研究院,北京100037)

基于特征子序列修正的公交刷卡滞后时间推算

冉江宇,戴彦欣

(中国城市规划设计研究院,北京100037)

针对一票制公共交通IC卡刷卡系统存在的滞后时间问题,提出基于特征子序列修正的时差匹配推算方法。依托GPS车辆到站信息序列和刷卡聚类序列,分析首末站和中途站站间运行时间分布的差异化特征,分别从两序列中提取大时间差和连续小时间差等特征子序列;利用两种子序列间一对一或一对多的对应关系分别进行初步搜索和二次修正,兼顾匹配过程的效率和精度。将推算流程应用于山西省大同市公共汽车系统,结果显示,抽样车辆的刷卡匹配率均达到99%以上,并且针对不同类型的公共汽车线路具有较强的适应性。

公共汽车;GPS;IC卡;刷卡聚类;首末站;中途站;滞后时间;特征子序列;修正

0 引言

公共汽车GPS(以下简称“GPS”)和公共交通IC卡(以下简称“IC卡”)收费系统已应用于中国很多城市。无论是拥有几百条线路的大城市还是仅仅拥有十几条线路的中小城市,通过安装GPS系统采集车辆的实时地理位置、时间及速度等信息,可以实现公共汽车智能调度。超过200个城市启动了IC卡系统,累积发出可用于公共交通支付的IC卡超过3亿张[1]。IC卡系统不仅方便居民支付乘车费用,也为将来实现公共交通一卡通跨地区互联互通奠定基础。

多数城市使用的一票制IC卡刷卡收费系统缺少对乘客上下车车站及下车时间等内容的记录。有必要结合GPS系统数据对上述信息进行推断,获取公共汽车站换乘量、公共汽车站间OD等信息[2],以便与居民出行调查数据、城市用地空间分布数据等相结合,支持公共汽车系统的运营管理、城市空间结构的合理性判断以及个体出行特征的分析等[3]。

文献[4]基于智利圣地亚哥市的GPS和IC卡刷卡数据推算公共汽车乘客的完整出行链,将重点集中于公共汽车下车车站识别。文献[5-7]基于连续性假设推断刷卡乘客的下车车站,较少涉及公共汽车上车车站的匹配识别。

中国每辆公共汽车的IC卡收费设备与GPS设备的时间存在不同程度的偏差,有必要在处理时逐一核对每辆车的偏差。由于工作量较大,相关数据研究人员通常将其转化为刷卡信息序列和GPS车站信息序列的匹配问题。文献[8]基于GPS相邻车站间运行时间序列和相邻刷卡聚类间时间差序列,建立约束规则进行序列匹配,将匹配成功数据的到站时间差值平均后作为两系统的调整偏差。文献[1]提出以GPS系统时间为基准,在调整两系统时差对刷卡数据进行修正的过程中,将刷卡数据车站识别率达到最高时的时差作为实际时差。文献[9]将基于马尔可夫链的贝叶斯决策树算法应用到乘客上车车站的推算过程中,针对提取的首末站间相邻刷卡聚类序列,求取条件概率乘积最大的车站序列作为匹配序列。文献[10]针对南宁市IC卡刷卡时间数据和GPS时间数据精度不一致的情况,基于GPS数据的瞬时车速、刷卡时间以及车辆运行方向等因素推算上车车站。既有方法相对复杂且耗时[3],并易受公共汽车运行状态、GPS数据和IC卡刷卡数据完整性的影响,也受制于搜索起点、搜索匹配范围等因素。

本研究基于大同市GPS和IC卡刷卡数据,以公共汽车站间运行时间分布特征为突破口,将首末站和中途站的站间运行时间进行区分和融合,探索适应性和灵活性较强的推算方法。

1 IC卡和GPS 数据匹配思路

尽管中国很多城市的IC卡发行量增长速度较快,但日刷卡量占公共汽车客运量的比例通常不超过50%[10-12]。已安装车载刷卡机具的公共汽车并非在每个公共汽车站均有乘客上车,且并非每位上车乘客均刷卡,因此以相邻刷卡记录间的消费时间差为依据进行聚类,类别总数通常小于车辆运营期间经过的车站总数。

GPS数据记录了公共汽车在每个车站的进站时间和出站时间,依据相邻车站的进站时间可以推算车辆的站间运行时间。相邻IC卡刷卡记录间的时间差包括三种情况:1)在同一个中途站刷卡上车的乘客,彼此间的刷卡时间间隔相对较短;2)当相邻刷卡乘客位于不同站台时,彼此间的刷卡时间间隔相对较长;3)当车辆在首末站停靠时间较长时,乘客间的刷卡时间间隔存在不确定性。依据前两种情况,相邻刷卡聚类数据间通常包含一个或多个站间运行时间,而在第三种情况下,一个站间运行时间可能包含0至多个刷卡记录。如何在GPS车站信息数据和IC卡刷卡聚类数据的两个序列中选取比选子集,是实现两个数据集成功匹配的关键。

以GPS车站信息数据中记录的进站时间和IC卡刷卡聚类数据中各类别首条刷卡记录时间为基准,分别计算各车辆全日GPS站间时间差和IC卡刷卡聚类时间差。图1展示了山西省大同市某条公共汽车线路不同车辆两种数据时间差的频数分布情况。结果表明,超过80%的GPS站间时间差小于3 min,而刷卡聚类时间差小于3 min的比例不超过40%,其80%分位点大致为6 min。尽管两组时间差序列在数量规模和分布特征上均存在差异,但两组序列中超过15 min的大时间差不仅数量相对接近,而且一对一匹配的概率较大。这主要是由于GPS数据序列中超过15 min的大时间差通常出现在首末站,即车辆经过长时间停放后按照调度计划重新投入运营,或受高峰时段拥堵影响、站间运行时间超出常规的中途站。无论是上述哪种情况,刷卡聚类序列中必然存在同样数量级的大时间差,其所属类别的首条刷卡记录消费时间与GPS序列中出现大时间差的进站时间具有较强的对应关系。因此,尽管刷卡聚类序列中还可能存在部分大时间差是由于相邻刷卡记录相隔多个车站所致,但以GPS站间大时间差为准,依据相邻刷卡聚类间大时间差、刷卡消费时间、GPS进站时间等多个字段对两序列中提取的大时间差子集进行匹配,能够提高准确度。此外,大时间差子序列中有限的记录数量也有利于提高匹配效率。

依据大时间差特征子序列推算的两系统间时差往往受刷卡记录出现时刻的随机性影响,产生不同程度的偏差。尤其当大时间差出现在非高峰时段的线路首末站时,偏差更加明显,有必要在初步推算基础上对滞后差值进行二次修正。修正的主要思路是从公共汽车刷卡聚类数据中选择一段连续子序列作为目标,以该序列中首条刷卡记录的消费时间、上述大时间差序列推算得到的初步滞后时间和容忍阈值共同确定GPS子序列的搜索范围,以期找到与目标刷卡连续子序列匹配度最佳的GPS连续子序列。

目标刷卡连续子序列的选取标准为:1)尽可能避免将公共汽车首末站长时间停留期间的刷卡记录类别纳入目标序列,使目标序列中的刷卡聚类时间差与GPS连续子序列中的进站时间差均为一对多关系;2)目标序列中的刷卡聚类数尽可能多,以便充分检验GPS连续子序列的匹配度。

图2 典型车辆刷卡记录数和刷卡聚类数比例Fig.2 Ratio of the number of IC card charging records and number of clusters

本文选取IC卡系统滞后时间已得到修正的4辆公共汽车为例,将其刷卡记录数和刷卡聚类数按照修正时段进行统计,得到刷卡记录数波动图和刷卡聚类数比例(即刷卡聚类数与经过车站数的比值)波动图(见图2)。结果表明,刷卡记录数较多的时段,其刷卡聚类数比例相对较高,即高峰时段刷卡聚类数通常较多,线路上多个车站均有刷卡记录的概率较大。基于上述原则和刷卡数据分布特征,以每辆车相邻中途站进站时间差的95%分位数为基准,当IC卡聚类序列中出现一连串首记录时间差小于等于95%分位数的刷卡类别,并且各类别所对应的刷卡数量较多时,该小时间差序列即可作为目标刷卡连续子序列。GPS站间时间差序列中所寻求的连续子序列须满足的条件是:每条时间差记录或相邻时间差记录之和与目标刷卡连续子序列中的每条刷卡聚类时间差记录连续对应,对应记录间的绝对误差均小于一定阈值,即可认为上述两连续子序列匹配。

2 基于特征子序列二次修正的推算流程

本文提出的滞后时间推算方法所基于的刷卡数据集须包含消费时间、车辆编号等字段,GPS数据集须包括车辆编号、车站名称、上下行方向、进站时间等字段。按照上述推算思路,提出具体推算流程如下:

1)将IC卡数据和GPS数据按照车辆编号进行拆分归类,并分别按照消费时间和进站时间进行排序。设第i辆车的IC卡数据序列为GPS数据序列为其中 p和q分别为第i辆车IC卡数据序列和GPS数据序列的记录编号,k和h分别为记录编号的上限。

2)对每辆车的刷卡数据集按消费时间差进行聚类,依据聚类结果和相邻类别时间差阈值为每一类别统计连续聚类数。设第i辆车的刷卡聚类结果为序列序列中的各记录均包括刷卡聚类号、聚类时刻、相邻类别时间差、刷卡数量和连续聚类数等字段,m为聚类总数(m<k,m<h)。

3)针对同一车辆号i的刷卡聚类序列和GPS序列,分别提取大时间差子序列进行初步匹配。大时间差提取阈值γ与城市公共汽车线路的平均站间距、高峰时段运营车速和车辆调度计划等相关,通常可设置为15 min以上。设从序列中提取的大时间差子序列为序列中提取的大时间差子序列为两序列分别按照相邻类别时间差和进站时间差大小排序,具体匹配规则如下:

②对备选集合Si中的数据按相似度进行聚类,选取规模最大的类别中各数平均值作为初步匹配滞后时间hi。

表1 抽样公共汽车线路现状特征Tab.1 Characteristics of sampled bus lines

④遍历备选集合Zi中的各数组。设中末尾的GPS记录为当将第 ( )q+g条GPS记录作为新的末尾GPS记录;否则,在备选集合Zi中删除数组

⑤当备选集合Zi中仅剩唯一数组时,该数组中首个GPS记录的进站时刻与的差值,即为第i辆车的最终匹配滞后时间;否则,转入步骤③。

上述流程首先将刷卡序列中的相邻数据进行聚类,以期能够与GPS数据序列形成匹配对应关系。其次,以刷卡聚类序列和GPS序列中的大时间差子序列为匹配依据,选取滞后时间备选集合中出现频率最高区间的平均值作为初步匹配滞后时间,以此缩小后续搜索范围。在确定目标刷卡连续子序列时,查找最大连续聚类数的出现位置,更易捕捉公共汽车在高峰运营状态下的连续中途站刷卡记录,减少首末站长时间停靠、高峰时间平均行驶车速较低等因素的干扰。

3 实例分析

本文针对2014年9月18日大同市中心城区18路、22路、24路和59路4条公共汽车线路,每条线路随机选取4辆公共汽车,提取其GPS数据和IC卡数据,采用基于特征子序列二次修正的推算方法对每辆车的两组时间序列进行匹配。4条公共汽车线路的上下行车站数、抽样车辆刷卡总数及沿线串联用地特征状况如表1所示。所选对象包含上下行车站不对称线路以及抽样刷卡数相对较少线路,线路服务区域及沿线用地特征差别较大。可以借此检验本文所提出的推算方法是否适用于不同情境。

表2 抽样车辆刷卡滞后时间匹配结果Tab.2 Estimated results of IC card lag time

将16辆公共汽车的刷卡数据集按车辆号进行拆分,分别按刷卡消费时间进行排序和聚类,聚类时设置的刷卡时间差阈值α=60s,为每一类别统计连续聚类数时设置的相邻中途站GPS进站时间差95%分位数βi和每辆车的刷卡聚类数见表2。依据出现在线路首末站的GPS大时间差统计特征,设置大时间差提取阈值γ=1 000s,大时间差匹配阈值 ε1,ε2分别设置为1 500 s和500 s,得到每辆车的初步匹配滞后时间hi如表2所示。采用逐步延伸法提取目标刷卡连续序列的过程中,GPS初始进站时刻控制容差值δ1设为900 s,相邻站间的进站时间差控制容差值δ2设为50 s,在初步匹配滞后时间的基础上经过有限次筛选,得到最终匹配滞后时间。以此修正每辆车刷卡记录的消费时间,与车辆所属线路各车站的GPS进站和出站时间进行比对,获取每条刷卡记录所在的公共汽车站位置。

图3 抽样车辆不同车站刷卡上客量分布Fig.3 Number of IC card users of boarding at each stop

表2显示,16辆车的刷卡匹配率统计结果均在99%以上,匹配效果良好。按照线路汇总统计抽样车辆各车站的刷卡上客量(见图3),各线路的车站刷卡上客量分布状况与线路各车站周边主要用地特征吻合度较高,一定程度上证明该推算方法具有较强的适用性。此外,最终匹配滞后时间最短不小于1 min,最长可超过1 h,在数量级上存在的不确定性说明推算过程中不宜预先设置固定的搜索范围,以适应不同城市车载刷卡机具时间校核状况的多样性。最终匹配滞后时间和初步匹配滞后时间的差值为30 s~7 min 34 s。可见,部分车辆仅依靠大时间差推算结果会产生较大偏差,有必要通过二次修正法对初步推算结果进行调整。

4 结语

本文依托公共汽车GPS数据序列和公交IC卡刷卡聚类序列,通过比较GPS进站时间差和刷卡聚类时间差的分布特征,提出基于特征子序列二次修正的匹配滞后时间推算方法。该方法从原序列中提取大时间差和连续小时间差两种特征子序列,很大程度上确保了子序列间各组数据的对应性。同时,基于大时间差子序列的推算结果有助于确定搜索区间,缩小后续环节的搜索范围。而连续小时间差子序列所包含的时间数据相对精细,两者间的互补使该推算方法整体兼顾了效率和准确,有利于实现上千辆公共汽车的批量化处理。与既有方法相比,本文所提的修正方法无须在初始阶段设定匹配滞后时间的范围,且在一定程度上能够适应多种不同特征的公共汽车线路。该方法涉及阈值、容差值等多个参数的设置,本次研究仅选择几条线路的有限车辆进行尝试。未来在推广应用过程中,须进一步探索参数设置对更多类型线路及路况的适应性,以期实现参数随线路特征进行针对性的调整。

[1]陈学武,李海波,侯现耀.城市公交IC卡数据分析方法及应用[M].北京:科学出版社,2014.

[2]周涛,翟长旭,高志刚.基于公交IC卡数据的OD推算技术研究[J].城市交通,2007,5(3):48-52.Zhou Tao,Zhai Changxu,Gao Zhigang.Approaching Bus OD Matrices Based on Data Reduced from Bus IC Cards[J].Urban Transport of China,2007,5(3):48-52.

[3]龙瀛,孙立君,陶遂.基于公共交通智能卡数据的城市研究综述[J].城市规划学刊,2015(3):70-77.Long Ying,Sun Lijun,Tao Sui.A Review of Urban Studies Based on Transit Smart Card Data[J].Urban Planning Forum,2015(3):70-77.

[4]Munizaga M A,Palma C.Estimation of a Disaggregate Multimodal Public Transport Origin-Destination Matrix from Passive Smartcard Data from Santiago,Chile[J].Transportation Research Part C:Emerging Technologies,2012,24(9):9-18.

[5]Trepanier M,Tranchant N,Chapleau R.Individual Trip Destination Estimation in a Transit Smart Card Automated Fare Collection System[J].Journal of Intelligent Transportation Systems,2007,11(1):1-14.

[6]Zhao Jinhua,Rahbee A,Wilson N.Estimating a Rail Passenger Trip Origin-Destination Matrix Using Automatic Data Collection Systems[J].Computer-Aided Civil and Infrastructure Engineering,2007,22(5):376-387.

[7]Farzin J M.Constructing an Automated Bus Origin-Destination Matrix Using Farecard and Global Positioning System Data in Sao Paulo,Brazil[J].Transportation Research Record,2008(2072):30-37.

[8]陈绍辉,陈艳艳,赖见辉.基于GPS与IC卡数据的公交站点匹配方法[J].公路交通科技,2012,29(5):102-108.Chen Shaohui,Chen Yanyan,Lai Jianhui.An Approach on Station ID and Trade Record Match Based on GPS and IC Card Data[J].Highway and Transportation Research and Development,2012,29(5):102-108.

[9]Ma Xiaolei,Wang Yinhai,Chen Feng,Liu Jianfeng.Transit Smart Card Data Mining for Passenger Origin Information Extraction[J].Journal of Zhejiang University Science C:Computer&Electronics,2012,13(10):750-760.

[10]陈君,杨东援.基于智能调度数据的公交IC卡乘客上车站点判断方法[J].交通运输系统工程与信息,2013,13(1):76-80.Chen Jun,Yang Dongyuan.Identifying Boarding Stops of Bus Passengers with Smart Cards Based on Intelligent Dispatching Data[J].Transportation Systems Engineering and Information Technology,2013,13(1):76-80.

[11]杨东援,段征宇.大数据环境下城市交通分析技术[M].上海:同济大学出版社,2015.

[12]邓春瑶.哈尔滨市居民公交IC卡数据分析方法研究[D].哈尔滨:东北林业大学,2013.Deng Chunyao.Study on Analysis Method of Bus IC Data of Harbin City Residents[D].Harbin:Northeast Forestry University,2013.

Lag Time Estimation of IC Card Charging Records Based on Revision of Characteristic Subsequences

Ran Jiangyu,Dai Yanxin
(ChinaAcademy of Urban Planning&Design,Beijing 100037,China)

To better solve the problem of lag time of IC card charging records in flat fare system,this paper proposes an estimation method for inferring time difference of IC card based on revision of characteristic subsequences.According to the arrival time sequence of GPS records and clusters of IC card charging records,the paper firstly analyzes the variation of travel time among stops which is for extracting a serial of large time difference and a serial of small time difference respectively.And then,the paper utilizes the relations of one-to-one or one-to-multiple to implement preliminary searching and revising by constraints of estimation efficiency and accuracy.The results in Datong show that the successful match ratio reaches to above 99%for sampled buses.

bus;GPS;IC card;clustering sequences of IC card charging records;terminals;bus stops;lag time;characteristic subsequences;revision

1672-5328(2017)01-0059-07

U491.1+7

A

10.13813/j.cn11-5141/u.2017.0109

2016-03-01

冉江宇(1985—),男,江苏扬州人,博士,高级工程师,主要研究方向:城市交通规划、交通需求分析。E-mail:jaredhaha@163.com

猜你喜欢

时间差IC卡公共汽车
公共汽车
工商业IC卡控制器改造为物联网控制器实践
量子定位系统中符合计数与到达时间差的获取
在用电梯加装外接式IC卡运行控制系统设计改进
乘公共汽车
乘坐公共汽车出门
跌跌撞撞的公共汽车
基于BP网络的GIS局部放电声电联合检测故障定位方法
立体声音乐节目后期制作中声像定位的探讨
厘米级室内无线定位方法研究