APP下载

基于特征工程的常规公交车辆聚簇预测

2022-05-10王小可陈泱霖

城市公共交通 2022年4期
关键词:时距班次车头

王小可 陈泱霖 王 娅 张 栋

(大连理工大学建设工程学部,大连 116024)

引言

有序、高效的运营是现代化常规公共交通系统应具备的主要特征之一。然而大量的实测数据显示,公交线路上普遍存在着车辆偏离调度聚集行驶以及在站点处密集到达的聚簇现象。公交车辆聚簇是指在同一条线路上运行的公交车辆在行驶一定距离和时间后,至少有两辆及以上的公交车辆在视线范围内共同运行或者同时进站,是城市常规公共交通服务中常见的异常运行状态。公交车辆聚簇影响了乘客的出行体验,造成了运力的浪费,也容易给人带来城市管理无序混乱的印象,因此引起了交通工程领域学者的长期广泛关注。

Arnold Barnett在1973年的研究表明,公交车辆聚簇是由于某种原因导致的车辆滞后于时刻表的运营而使得车辆承载了更多的乘客,因而带来了更长的驻站时间并最终形成负反馈,进而提出可以通过增加松弛时间的方法来改善这一现象[1]。然而Daganzo教授的研究表明,单纯引入松弛时间并不一定能完全控制车辆聚簇现象,故提出了基于公交车辆车头时距判断的公交车辆自我调节运行策略[2]。Turnquist[3],Levinson[4]和Ceder[5]等学者的研究表明,公交车辆运行过程中的驾驶员不当驾驶行为、社会交通拥堵、突发交通事件以及交叉口信号控制措施等诸多不确定因素都会导致车辆聚簇的发生。基于GPS技术的车辆定位数据极大地方便了公交车辆聚簇现象的研究。Wei Feng等人[6]分析了美国波特兰市半年时间的公交运行数据,揭示了某一具体时间和状况下可能引发公交车辆聚簇的因素。Luis Moreira-Matias等人[7]提出了基于公交车辆历史和实时运行数据的车头时距分布的概率预测方法。石琴等人[8]采用基于元胞自动机的方法模拟了站台泊位数和乘客到达规律对于公交车辆到达分布的影响。Chen Guojun等人[9]通过建立两种不同的线性回归模型,发现当聚簇发生时,后车进入车站的时间平均要增加4.2-6.2s。杜若基于速度-道路拥挤度模型建立了公交车辆聚簇的预测方法,并通过对磁力模型的改进阐述了车辆聚簇产生的数学原理[10]。

综合上述研究不难发现,目前关于公交车辆聚簇的研究认为,公交车辆聚簇的成因是外部运行环境的不确定性,而解决方案则聚焦于对于车头时距的控制上。实际情况中,由于无法有效控制天气等外部影响因素,也无法给予常规公交车辆绝对优先的路权,更无法强制调节乘客的乘降行为,因此公交车辆聚簇现象的最终解决还是有赖于实际运行过程中灵活调度措施的实施,因此,有充分的必要对公交车辆是否将要出现聚簇现象做出预判,以支持下游系统人工或者自动做出车辆调度决策。

1 研究数据及清洗

1.1 数据

本研究采用了由青岛市公交集团提供的322路公交车于2015年8月3日至2015年8月9日的车载GPS、发车班次以及乘客刷卡记录数据,其中GPS数据包含车辆编号、站点名称以及车辆在各站的到达驶离时间,见表1;发车班次数据包含各班次的发车时间,见表2;乘客刷卡记录包括刷卡时间和扣费金额等信息,见表3。

表1 青岛322路公交车GPS数据(部分)

表2 青岛322路公交车班次数据(部分)

表3 青岛322路公交车乘客刷卡记录数据(部分)

1.2 数据清洗过程

为了提高预测的准确度,需要对数据进行清洗。其主要工作为删除GPS数据中公交到离站时间的错误数据、补充缺失数据,并对最终数据质量进行确认。

首先,根据公交车辆到离站数据,我们可以计算出每班公交车在每两个站点之间的行程时间。

数据删除操作主要基于对最小行程时间的估计确定行程时间的下界,再根据数据分布形态分时段、分站点确定行程时间的上界。当数据中两站间行程时间不在设定的上下界之间时,认为两站中后一站的到达驶离时间为异常值,将其删除,见表4。

表4 异常值识别(部分)

将错误数据删除后,对各个站点之间所有班次的行程时间进行检索,当某两站点之间某班次行程时间缺失时,利用相邻班次在同一区间行程时间的均值进行补充,见表5。并在现有班次到站时间的基础上,逐项相加推出缺失站点的到站时间。

表5 行程时间缺失值补充(部分)

补全数据缺失值后,进一步识别出补全后数据不合逻辑的部分,如同一班次公交到达下游站点的时间早于上游站点等错误,然后再次利用上下站点取平均值等方法,对错误数据进行覆盖处理,最终确认得到符合逻辑的数据集,见表6。

表6 数据清洗结果(部分)

2 车辆聚簇特征构造及描述性统计

本研究的思路为:利用上游若干站点的运行特征数据预测所关心的下游站点是否会发生聚簇现象。因此,研究主要致力于解决以下三个问题:

(1)聚簇现象如何通过数据表征。换言之,当数据呈现何种状态时,可以等价于实际生活中的聚簇现象。

(2)利用哪个上游站点进行预测时,预测效果最好。

(3)采用上游站点的哪些运行特征可以有效预测下游站点的聚簇现象。

2.1 车辆聚簇判定

通过查阅相关文献,结合实地调查情况,对于任意两个班次,若下游站点的车头时距小于等于首站车头时距的1/2,则可认为发生聚簇;反之则不发生聚簇:

2.2 特征工程实践

2.2.1 准备工作

研究团队认为,车辆聚簇特征的构建需要考虑两个因素:一是上游站点与下游站点的车头时距关联性要足够强,也就是相关系数要足够大;二是用于预测的上游站点不能与其相距过远。综合以上两个因素,建立综合指标,将两个因素结合起来考虑。

首先,通过区间归一化公式,对于第i站,选定[i-4,i-2]为区间,利用式(2)计算归一化指标:

式中,rij为归一化指标;i为被预测站序号;j为预测站序号。

然后,求出每两个站点车头时距的相关系数,设预测站为j站,被预测站为i站,对于第i站和第j站之间的相关系数,记为corij。

最后,综合以上两个指标,得出综合指标p:

2.2.2 特征构建

计算对于被预测站i而言,综合指标p最大的预测站为j,本次建立车头时距预测模型所提取的特征有:

(1)第j站的车头时距数据:是用于预测的最基础数据。

(2)第j站的前三站行程时间方差数据:可以用于表征第j站的道路交通拥堵水平和车头时距波动情况。

(3)发车间隔:部分已有研究表明聚簇与发车间隔相关,因此也作为特征向量进行测试。

2.2.3 特征筛选

以聚簇发生与否对上述三个特征进行假设检验,以完成特征筛选。

t检验的结果表明,在0.05的显著性水平上,可以认为两类场景下在当前站点前一班次的车头时距有显著差异,且两种类型数据的均值差异达到了400s以上,得出结论:聚簇时的车头时距远小于非聚簇时的车头时距。

对于第j站的前三站行程时间方差数据同样进行假设检验,根据t检验结果发现,在0.05的显著性水平上,可以认为在聚簇和非聚簇车辆的前三站行程时间方差有显著差异。根据计算得到的均值差异,可以发现聚簇车辆的前三站行程时间方差更大,这也说明了聚簇车辆在前几站的行驶过程中不稳定性更强。

而对发车间隔的t检验结果表明, 聚簇和非聚簇时段的车头时距没有显著差异。因此,选择“本站前序班次车头时距”和“上游三站车头时距方差”作为选中的特征。

以班次作为横坐标,站点作为纵坐标画图,将每一站点的聚簇班次在图中标出,从而得到直观的聚簇表现,如附图所示。其中,深蓝色点代表每班次所有聚簇站点,浅蓝色点代表每班次首个聚簇站点。

附图 2015年8月4日-7日青岛市322路公交车辆轨迹及聚簇时空分布图

3 车辆聚簇预测模型标定结果

3.1 重构数据集

聚簇点的数量远远小于非聚簇点,造成的样本不均衡会影响预测精度。研究中采用过采样法、欠采样法以及综合采样法重构数据集。过采样法是通过对占比少的数据随机重复以扩大其比例,从而实现数据平衡;欠采样法则通过删除占比多的数据来实现数据平衡;综合采样法结合前两种方式,可以自行定义数据集大小和两类数据的比例。

3.2 模型建立

采用Logistic回归模型,将三个重构数据集分为训练集和测试集,使用R语言对训练集数据建立Logistic回归模型后,利用测试集数据评价预测准确度。评价指标有三个:TPR(True Positive Rate)即聚簇站中预测正确概率;FPR(False Positive Rate)即非聚簇站中预测错误概率;Accuracy即总体预测准确率。三种重构方法参数标定与预测效果见表7。

表7 参数标定结果

综合比对三种采样方法,可以发现欠采样法和综合采样法的总体预测精度较高,但聚簇站中预测正确概率很低,这会导致一半左右的车辆聚簇现象无法预测。因此,我们综合考虑,选择过采样法作为最终数据采样方法。

4 结语

本研究针对当前公交车辆聚簇预测研究中的不足,从数据驱动的角度出发,提出了基于特征工程的常规公交车辆聚簇行为预测思路,并结合青岛市322路公交车实际运行数据完成了理论模型验证,结果表明,基于“本站的车头时距”以及“上游三个站点的车头时距方差”两个特征的Logistic回归模型可以较好地预测公交车辆聚簇行为的发生。

对于公交公司而言,短期内,可以通过对车辆聚簇的预测提前预知车辆行驶变动情况,对运行和待运行的车辆进行实时调度,以缓解聚簇现象;长期来看,可以支持公交公司对聚簇点较多的线路进行分析调整,充分利用公交运力,提高服务质量。

(张栋为本文通讯作者)

猜你喜欢

时距班次车头
趣味性进度提示设计对时距知觉的影响
考虑编制受限的均衡任务覆盖人员排班模型①
男子刮擦奔驰车后留字条 车主“索赔”12元
公交车辆班次计划自动编制探索
高铁车头为什么是子弹头的?
客服坐席班表评价模型搭建及应用
“时距”理论视野下的叙事文本解读
论《毛猿》中的叙事时间及艺术效果
绕道走