APP下载

基于网约车GPS数据的用户出行挖掘与推荐研究

2018-12-24贾步忠

微型电脑应用 2018年12期
关键词:网约车网约路段

贾步忠

(陕西财经职业技术学院 会计二系, 咸阳 712000)

0 引言

在智能化和信息化背景下,智能交通城市当前我国城市发展的一个亮点,也是未来城市发展的趋势。作为智能交通发展代表的滴滴、神州等网约车软件,在运行的过程中积累了大量的车辆运行轨迹数据[1]。在这些轨迹数据中,记录了大量的城市交通和人群移动的信息,为我国城市交通的进一步优化提供了大量的信息。由此,如何加强对这些数据对挖掘应用,特别是结合部分专职滴滴、神州司机的GPS数据,对居民出行特征进行挖掘,对政府和部分网约车企业进一步投放网约车广告,提升网约车服务等,具有非常重要的作用和价值。同时在利用GPS数据对用户出行进行分析的研究中,很多学者都进行了研究,并取得丰硕的成果。如景维鹏(2016)则结合出租车的GPS运行轨迹,提出一种基于地图匹配算法模型,以GPS采集的坐标作为基础,在一定区域内采用空载概率推荐的方法完成对居民用户出行的出租车推荐[2];王瑶(2018)为进一步挖掘居民出行的轨迹,提出一种基于高斯定律的出行轨迹挖掘方法,该研究的最大特点在于对GPS数据区域进行划分,然后以每个单元作为统计点,对载客的终点和起点进行统计,最后根据公式计算在一定时间内的乘客净流入量。但是这种方法通常计算量大;林基艳则提出将聚类分析算法引入到对用户出行特征轨迹分析中,从而提取市民出行的时空特征[3,4]; Jing Yuan(2013)、Yu Zheng(2011)等则利用GPS轨迹对用户的出行进行挖掘,从而得到出租车主要运行特征。本文则在以往研究的基础上,结合居民出行具有典型的时空特性的特点,以陕西某城市的网约车GPS数据作为基础来源,提出一种基于密度聚类的城市用户出行分析方法,并在该基础上,提出一种基于BP网络的乘客推荐模型[5]。

1 数据来源

本文使用的网约车数据,主要以西安市某网约车公司平台下注册的1.1万辆车辆在1个月内的运营数据作为基础,在对以上的GPS数据经过预处理后,保留车牌号、当前位置、营运状态、行驶速度、行驶方向和运营时刻等基本属性[6]。部分网约车属性如表1所示。

表1 部分网约车基础数据统计表

在上述的数据中,网约车的营运状态用0~3来表示,其中1表示车辆为空载状态、1表示车辆为载客状态、2表示车辆为驻车状态,3表示网约车司机下线停运。GPS方向取值为0~360°。

2 数据处理

2.1 数据预处理

在对网约车的GPS数据挖掘中,可能存在两个比较突出的问题,一是轨迹点存在异常;二是轨迹点的经纬度越界[7]。为解决以上的问题,在对经纬度越界问题的处理中,首先划分重点研究区域,清楚研究范围以外的区域,以减少可能出现的越界问题。在本研究中,则以西安市三环以内作为研究区域,清除掉三环以外的所有坐标。其次,针对轨迹点可能出现的异常,如某网约车原本在西安的A处,5分钟出现在西安B处,且距离相差10 km,这对于城市交通来讲,这种数据明显存在异常的问题[8-9]。因此,在对数据的筛选中,剔除这类GPS坐标异常的数据。在具体的执行过程中,则采用Douglas - Peucker算法对曲线中密度节点较高的进行剔除。

3 基于时间序列的居民出行时空特征挖掘模型构建

3.1 相似度衡量方法

在对数据进行挖掘之前,必须要对选择的路段进行区域划分,以提高聚类挖掘的准确率。但是,在实际的聚类挖掘中,大部分的GPS数据为静态数据,而就业时间序列的数据为动态数据。对此,本文首先结合程静的研究成果,采用时间序列距离度量和相关性结合的方式将数据进行转换[10]。由此,分别定义相关性函数和距离度量计算式(1),(2)。

(1)

(2)

由此通过以上的分类,我们可以把西安的某区域划分的区域,如图1所示。

图1 区域划分

3.2 K均值聚类算法

为进一步挖掘陕西西安居民在不同时间段、不同地点等方面的上车信息,从而更好的为网约车的分配等提供借鉴,在本文中,则采用K均值聚类的方法对居民出行进行挖掘[11]。K均值聚类的原理是随机一个簇作为中心,然后通过距离公式公式对类进行划分,如图2所示。

图2 K均值聚类

在图2中可以看出,K均值聚类最为关键的是两个部分:一是对K值的确定,即对初始聚类的划分;二是对距离的计算[12]。在本文的研究中,则以周末周日和上车量、下车量作为基本的分类,设定K=4。

4 乘客模型构建

结合上述的居民出行时空特征,为更好的为市民提供网约车服务,在本文中,则提出一种基于空车概率推荐算法,以满足在早高峰或者是晚高峰用户出行的需求。而在进行推荐前,引入地图匹配算法完成对推荐的基础构建。

4.1 地图匹配模型

结合网约车实际的GPS位置来讲,其定位的精度往往会受到手机GPS信号的影响,导致部分西安网约车主的GPS数据存在误差[13]。由此,我们就需要对这部分数据进行进一步的处理,以减少误差带来的干扰。而在实际的对这部分数据的处理中,通常采用地图匹配的方法进行。但是在传统的地图匹配算法中,通常会在预约数量较多的地方为用户增加候选路段,目的是让出行的用户能在目标路段选择网约车,如图3所示。

图3 地图匹配示意图

假设用户的目标路段为GJ,可通过候选域PQRS中的候选路段对其进行定义。若是采用固定候选域ABCD对目标路段GJ进行定义,则还需对其他候选路段进行验证,比如EN路段、IK路段等,如此一来,将会花费大量的时间在验证工作中,造成一种不必要的资源浪费。如果在数据稀疏区中,固定候选域内并不存在路段,那么该算法匹配不成功。

基于上述的问题,为了提高该算法的匹配成功率,对以上匹配方法进行改进[14]。利用用车辆运行速度方向以及候选路段的夹角对该结果进行重新验证,也就是说,当车与候选路段的夹角a>ω时,则说明当前候选路段失去利用价值。

在匹配过程中,将人在地图上的位置看作一个静态点;将车的位置看作动态点。其中,静态点可存在于地图中的任何位置,包括地图路段之外;动态点智能出现于地图中的路段之上。因此,若是出现人与预选路段的夹角为钝角时,此时,可将人与该路段之间的直线距离当作判断依据;若是出现车与预选路段夹角为钝角的情况时,则放弃该预选路段[15]。具体匹配过程,如图4所示。

在图4中,AB代表预选路段;M代表目标点;a代表待匹配点;β代表预选路段夹角;d代表a至AB的最短直线距离;b代表M至AB的欧式距离。

4.2 乘客推荐模型构建

在乘客的推荐中,乘客等待主要根据等待的时间,或者是网约车的距离。在本文中,当前网约车车主在开启网约车APP后,在空载的情况下,以乘客等待的时间作为推荐的根本依据。具体则是每3分钟统计一次在某个区域内的空车数量,然后采用最小二乘法对时间和在该区域内的空车数进行拟合,进而得到关系曲线f(t),最后计算乘客到达目标路段的时刻开始,至到达率函数的积分大于等于 1 的时间差即为预测到达第一辆空车的时间[16]。而预测的到达的时间一般是小于等于5min,可以为网约车的用户所接受,为式(3)。

f(t)=a0+a1t+a2t2+a3t3+a4t4,0

(3)

5 试验验证

为验证上述方案的可行性,以西安市的路网数据作为基础,整个路段超过10万条,路网节点有100多万。轨迹数据由某网约车下注册的网约车司机在180天内,由1.1万辆网约车产生的2亿条信息记录,转换为数据的话,大概在30G左右。同时本文输入挖掘的历史GPS轨迹参数,输入聚类分析的K值,以及区域分析的半径,从而可以得到的聚类分析结果,如图4、图5所示。

图5 工作日聚类结果

通过上述的结果可得到一个非常明显的特征,那就是在工作日和非工作日中,陕西西安部分居民的出行特点:在工作日下,热点区域出行预约网约车的用户较多,并且出行密度高[17];而非工作日出行用户少,且相对分散。

同时选择西安某地的GPS坐标,运用上述的模型呼叫网约车,在经过多次和多时刻抽样测试后,可得到的用户等待结果,如图6所示。

图7 用户等待时间

通过图6的结果对比看出,预测时间和用户实际的等待时间相差不大,说明本文构建的网约车乘客推荐模型预测的推荐时间与实际的时间比较接近,在乘客推荐方面具有很大的可行性。

6 总结

通过以上的分析可以看出,本文通过分析,挖掘出居民在不同时刻的出行特征,在工作日的网约车出行要求明显高于非工作日,同时通过本文构建的用户推荐模型,客户等待的时间与预测的时间非常接近。进而验证了本模型构建的可行性。

猜你喜欢

网约车网约路段
网约车平台责任条款的识别方法——基于解释进路的正当规制
冬奥车道都有哪些相关路段如何正确通行
共享经济税收征管挑战及对策——以网约车为例
网约车侵权责任在司法实践中的认定
对网约车地方立法若干法律问题的几点探讨
网约车问题研究及对策
网约车安全性提高研究
基于XGBOOST算法的拥堵路段短时交通流量预测
高速公路重要路段事件检测技术探讨
基于元胞自动机下的交通事故路段仿真