基于数据驱动的机场出租车返程方式预测模型
2020-02-18刘俊宇葛振澎
刘俊宇,葛振澎,李 想
(沈阳化工大学,辽宁 沈阳 110142)
随着经济的高速发展,国内各大机场客流量的逐渐加大。各大机场出租车拒载、宰客等不良现象时有发生。一般来说出租车送完客人到达浦东机场后,空载驶回市区成本较高,大多数就地加入排队接客行列中[1]。但某些时刻司机在机场排队等客时间较长,且司机并不希望从机场拉载近途乘客,一部分司机会选择空车回城。因此,司机从机场返程时产生了进入等客区排队载客,即载客回城和直接开空车回城到市区再拉客,即空载回城,这两种返程方式。对出租车司机返程方式的预测将有利于对机场出租车的数量监控和调度管理。本文综合考虑决策影响因素,引入小时客流量指数、替代物因子、气象因子、机场出租车饱和度、空载损失度等指标在MATLAB环境下利用层次分析法构建出综合决策权重得分模型,并通过控制限和得分的比较给出决策。
1 数据预处理
首先参考文献[2]对上海强生公司出租车GPS 数据[3]进行速度阈值、时间阈值、空载去噪、时间降维等数据预处理并筛选出浦东机场附近的出租车坐标,数据预处理流程如图1所示。
图1 数据预处理流程图
图2 处理好的机场出租车GPS数据样表
处理好的数据样表如图 2 所示。其列标从左到右依次代表车机号、控制字、业务状态、载客状态、顶灯状态、业务状态、无意义字段、接收日期、GPS时间经度纬度速度方向、卫星数。其中应尤为关注的是第4、12、13、14列。
提取上海市2018年4月8日12:00 和16:00浦东机场内出租车GPS数据,建立出租车分布可视化模型如图3、4所示,其中红色为满载车,绿色为空载车,从图可以看出不同时间段内机场内出租车数量和空载比变化较大。
图3 12:00机场出租车分布
图4 16:00机场出租车分布
2 指标定义
2.1 小时客流量指数
为简便模型我们以机场单位时间内航班数表征机场小时客流量,并假设每个航班有50%的乘客选择乘坐出租车。可得归一化机场小时客流量指数:
其中,Nri为小时流量指数,NMAXNmin分别为某天每小时进出港航班数的最大最小值,Ni为第i小时进出港航班数。
2.2 替代物因子
考虑到机场周边其他交通工具对选择乘坐出租车人数的影响,假设有25%的人选择出租车以外的公共交通工具,可引入替代物因子Rri:
其中,Rri为第i小时的替代物因子,RMAX,Rmin分别表示第i小时内机场周边可用公共交通工具数的最大最小值。
2.3 气象因子
阴雨天打车人数、平均打车里程等因素会发生变化,特引入气象因子如下:
2.4 机场出租车饱和度
将租车在“乘车区”的排队时间对出租车司机决策的影响因素称机场出租车饱和度饱和度:
其中,Tri为出租车饱和度,Tli为载客出租车个数,Tei为空载出租车数。
2.5 空载损失度
损失度表征出租车空载回城的收益损失程度:
其中,Ce出租车一次载客的收益,Ch为出租车各小时最高、低收益。
其中,Ti为机场出租车小时饱和度,Tei,Tfi分别为小时机场内空车和载客出租车数,TMAX,Tmin分别为某天机场内最大最小出租车数。
3 权重模型
利用层次分析法[4]综合考量各影响指标可得出租车决策层次模型,如图5所示。参考Saaty等人提出的成对比较尺度在查阅大量资料和文献后,综合考量各成分的相对重要性后得相对比较矩阵A。
图5 出租车决策层次模型
在MATLAB 2019a环境下运行AHP算法0.006360秒后可求得综合权重矩阵:
因此可得综合决策权重模型:
ωi表示第i小时的综合决策指标,该值越大越应该选择载客回城。可给出租车司机的决策方案。
4 模型求解
图6 小时-机场航班数曲线
从上海市机场管理局官方网站[5]可获得航班信息和交通情况,经过处理可得浦东机场一天(以19年5月12日为例)内航班数随小时变化曲线如图6。可看出凌晨0~5时航班数较少,且2~3时航班数出现波谷,8~22时航班数较多且变化较为稳定。此外,可得机场周边可用交通工具数随时间变化曲线(图7)。可知5~17时交通工具数达峰值且不发生变化,3~5时和17~23时变化幅度较大。
图7 小时-机场公共交通工具数曲线
图8 全市出租车坐标K-means聚类分析
现实生活中出租车每单收益与行驶里程存在分段函数关系。为简便计算出租车平均收益,可以认为某时刻某点出租车密度越大出租车则越有可能前往该地,为进一步简化模型我们使用K-means算法对出租车坐标点进行聚类分析,将区域中心坐标值代替该区域其他坐标点的坐标值。从而可以由的收益计算方法近似得到由机场载客驶出的平均收益。以12:10数据为例,代码运行时间 0.831527 秒得聚类图(图8)、各区中心坐标(表1)。
表1 各区域中心点信息表
对表1中距离对区域内坐标个数取加权平均后,带入表的收益计算规则,可得由机场载客驶出的平均收益:
白天平均载客驶出的平均收益 (05:00-23:00):143.5968(元)
夜间平均载客驶出的平均收益 (23:00-05:00):186.0486(元)
由权重模型的各指标计算公式,计算出相应指标如表2(空载损失度由本问中的平均收益计算值代替),其中出走空车比表示某时刻机场内静止空车与运动空车的比值,可较好的表征出租车司机的实际决策情况,以此检验决策模型的可靠度并对控制限进划定。
表2 各指标计算结果统计表
5 划定控制限
图9 决策控制限划定图
由表3,可发现决策指标在0.4左右变化时出走空车比的变化幅度显著,如对比表格第一行和第四行发现ω由0.42变化为0.36时出走空车比变化较大。因此我们将控制限拟定为0.4,如图9所示,在控制限左侧认为大部分出租车司机会选择空车回城,在控制限右侧则大部分司机会选择客回城。
6 相关性检验
可使用Spss软件求取各指标与出走空车比的相关性,其中各因子得分均较高,结果如表3所示。 再用Spss对ω与出走空车比进行了皮尔逊相关性分析,两者线性相关性显著如表4,这证明了模型各指标选取的合理性。
表3 各指标与出走空车比的相关性
表4 ω与出走空车比的相关性
注:**,在0.01级别(双尾),相关性显著。
7 总结
本文提出的是一种基于层次分析法的理想化的机场出租车返程方式预测模型,并使用Spss软件验证了各指标选择的合理性。本模型只需对GPS数据进行简单处理,运算简便可用性强。不足之处在于抽取的样本数过少,本文划定的控制限仅供参考。进一步的研究可多取数据使控制限的划定更合理。