APP下载

出租车轨迹数据挖掘进展

2019-11-20吴华意向隆刚

测绘学报 2019年11期
关键词:出租车数据挖掘轨迹

吴华意,黄 蕊,游 兰,向隆刚

1. 武汉大学测绘遥感信息工程国家重点实验室,湖北 武汉 430072; 2. 湖北大学计算机与信息工程学院,湖北 武汉 430062

近年来随着物联网感知与高性能计算技术的不断发展,大规模城市感知数据受到了各个领域的广泛关注。作为最重要的一个数据类型,轨迹数据隐含了丰富的城市信息,往往规模巨大且来源广泛。轨迹数据主要包括人类活动轨迹数据、交通轨迹数据、动物活动轨迹数据和自然现象轨迹数据[1]。这些轨迹数据的时空尺度与粒度各有不同,分别适用于不同研究。其中人类活动轨迹数据与交通轨迹数据是与人类日常生活联系最紧密的两类轨迹数据,因此有大量研究围绕他们展开。

人类活动轨迹数据,包括微博签到数据、Flickr照片数据、手机基站定位数据、信用卡消费数据、手机GNSS定位数据等,按照时间顺序跟踪这些位置记录就形成关联人在一段时间内的移动轨迹。这类轨迹数据精度不高,通常在200 m左右[2],而且大多涉及个人隐私,并没有得到广泛的应用,一般在研究中作为辅助数据用于丰富语义信息。

交通轨迹数据包括两类:一类是通过固定设备采集得到的数据,如城市道路卡口照片、视频监控数据、地铁刷卡数据等;另一类是通过车载GNSS设备采样得到的交通工具移动轨迹,如公交车轨迹数据、出租车轨迹数据、船只轨迹数据等。这其中,固定设备数据只能粗粒度地描述人群或车辆在不同固定位置之间的移动,覆盖范围有限;公交车轨迹数据也只能记录运营时间内公交车的固定路线轨迹。出租车不受线路和时间的约束,是最灵活、覆盖范围最广的轨迹数据,且精度较高、较少涉及隐私问题,常被作为轨迹数据研究和应用的主要数据集。

出租车轨迹数据不仅反映城市道路的交通状态,还折射出隐含的城市问题与挑战。通过轨迹数据挖掘可以帮助乘客了解出行信息[3-6]、为司机推荐导航路线[7-8]、改善出租车的运营管理[9-12]。同时,轨迹数据与其他社会、经济、人口数据的关联分析,能发现城市人口流动模式[13-16]、社会活动动态[17-18]、能源消耗分布[19-20]及环境污染状况[21-22]等,帮助提高城市管理决策水平。

近年来,围绕出租车轨迹数据挖掘展开了大量研究,并取得了丰硕的成果。同时,随着滴滴出行、Uber等新型出行方式的兴起,以及神经网络与深度学习方法的热潮,出租车轨迹数据挖掘领域正面临着重大机遇和挑战,有必要对该领域的研究现状进行梳理总结。为此,本文综合分析近十年来出租车轨迹数据挖掘方向的研究成果,从研究方法与研究应用两个维度对出租车轨迹数据挖掘研究成果进行剖析,试图描绘出该领域的发展历程与研究前景,以期为轨迹数据挖掘等相关领域学者提供参考。

本文首先从空间统计、时间序列、图论与复杂网络及机器学习4类研究方法阐述出租车轨迹数据挖掘领域的研究现状;其次从智能交通、环境与资源保护、城市规划及社会感知4个应用方面来归纳分析该领域的最新进展;最后讨论该领域目前面临的主要问题和有待探索的研究方向。

1 出租车轨迹数据

1.1 数据内容

原始的出租车轨迹数据集本质上都是出租车轨迹点集,由多行采样记录构成,每条记录代表一个轨迹点,包括出租车编号、时间戳、经纬度坐标、速度和方向等基本行驶数据,部分数据集还会记录载客状态、车辆类型等信息。从数据集中抽取出以车为单位的轨迹点序列,就形成轨迹。此外,出租车轨迹在一些特殊场合,也通过二维曲线或关键位置序列如路段编号字符串、交通格网编号序列等来描述。

具有不同属性特征的轨迹适用于不同研究主题,如载客轨迹与空载轨迹常被用于人群移动[14,17]、出行模式[23-24]和运营策略[25]等研究;低速行驶轨迹可以用于发现交通拥堵现象[26];异常轨迹能作为评估司机驾驶行为[27]或感知交通突发事件[28]的依据。

1.2 数据特点

(1) 覆盖范围广。出租车轨迹数据在时间和空间尺度上的覆盖范围比其他交通轨迹数据更广。出租车运营时间可达全天24 h,而且出租车行驶在城市交通路网中,不受线路制约。如图1所示,武汉市一天的出租车轨迹数据可覆盖城市中心路网的80%以上。

图1 武汉市一天的出租车轨迹数据覆盖范围Fig.1 Road network coverage of one-day taxi trajectories in Wuhan

(2) 采样密度高。出租车轨迹数据的采样间隔一般在1 min以内,部分数据集可达到3 s以内,能完整地记录出租车的行驶路径,具有时空序列性和连续性。

(3) 位置精度高。出租车轨迹数据是通过车载GNSS采集获得的出租车位置数据,其精度较高,一般为5~20 m[2]。同时由于出租车始终行驶在城市路网中,因此可以通过地图匹配等方法进一步提高数据的位置精度[29]。

(4) 数据规模大。由于城市出租车数量多、运营时间长、采样密度高,因此出租车轨迹数据集往往规模庞大,中心城市如武汉等一天就可产生200多万条出租车轨迹数据记录。而滴滴出行等商业平台每日新增轨迹数据就超过106 TB,每日处理数据更是达到4875 TB[30]。

(5) 蕴含信息丰富。出租车轨迹数据中记录的最直接信息是出租车在每个时间点的位置坐标,这些连续坐标点刻画了出租车在一段时间内的移动轨迹。移动轨迹体现出租车司机的运营特征,包括寻客策略[11]、路径选择偏好[31]、载客范围[10]或欺诈绕路现象[27]等。

出租车在城市交通中所占比重较大,达到总交通流的20%左右,在一些关键区域甚至可以达到50%[32]。国家交通运输部发表的《2018年交通运输行业发展统计公报》表明,2018年出租车客运量达到351.67亿人。因此,出租车速度和密度等属性一定程度上能够反映城市交通流和人群移动的整体情况,从而用于估计或预测通行时间和交通流量、监测交通拥堵情况[4-6],并结合POI数据进行城市规划结构、用地分类[33-35]等的进一步探测。

1.3 数据预处理

原始的出租车轨迹数据多存在异常点、噪音点、轨迹点漂移等问题,因此在对数据进行挖掘分析之前通常要对数据预处理。出租车轨迹数据预处理过程包括数据清洗、地图匹配、数据轨迹化与轨迹划分、质量评价4个部分。

数据清洗主要是为了剔除数据中的异常点和噪音点,其中卡尔曼滤波[36]、粒子滤波[37]等都是常用的数据清洗方法。而地图匹配的目的是要将出租车轨迹点准确地匹配到城市路网上。现有的地图匹配算法可分为确定性地图匹配算法与不确定性地图匹配算法两大类[29],具体有投影算法[38]、概率统计算法[39]、模糊逻辑算法[40]、相关性分析算法[41]等。数据轨迹化则是将原始的出租车轨迹点数据转化为线数据的方法。基本思想是将每辆出租车的连续GNSS采样点按照时间顺序先后连接起来,映射到地图上即得到一条与道路地图相匹配的有向曲线[42]。出租车轨迹数据质量评价方面可分为两部分,一是对出租车轨迹数据定位精度进行评定;二是出租车与真实的交通流之间存在密度与速度[43]上的差异,这些差异会导致最终交通流计算或预测结果中存在误差[44],因此还需要对出租车轨迹数据的计算精度进行评定与校正。

1.4 开放数据集

目前通过互联网可免费获取到许多公开出租车轨迹数据集。如微软T-Drive项目提供的2008年北京出租车一周内的轨迹数据[45];纽约Taxi & Limousine Commission(TLC)官方网站发布的纽约市出租车轨迹数据集[46],时间区间为2009—2018年,可以月为单位下载所需的数据;CRAWDAD是达特茅斯学院的一个无线数据资源网站[47],包含了大量出租车轨迹数据集,如旧金山海湾地区500辆出租车30 d内的轨迹数据、上海4000辆出租车在2007年2月20日这一天内24 h的轨迹数据、罗马市区320辆出租车在2014年2月1日至3月2日一个月内的行驶数据等;滴滴出行通过盖亚数据开放计划向研究者免费开放了部分网约车数据[48],目前已提供西安市和成都市2016年的局部轨迹。

2 研究趋势分析

出租车轨迹数据挖掘相关研究的历史最早可追溯至1999年,第3代蜂窝通信网络与基于位置的服务(LBS)在这一时期开始兴起,如图2所示。移动特性的知识对规划、设计和运行通信网络具有重要意义,因此研究者们利用全球定位系统(GNSS)测定一段时间内出租车的位置数据,来评估物体的移动特性[49-50]。之后这些出租车轨迹数据开始被尝试用于估计路段速度[51]、进行出租车调度[52]和监测交通排放量[53]等智能交通与环境保护方面。

在2011年第十三届普适计算国际会议上,文献[54]提出利用出租车轨迹数据检测城市规划中的缺陷。此后,利用出租车轨迹数据发现并评价城市规划结构的研究成果开始大量涌现,如发现城市中的功能区域[55]、识别城市土地利用分类[34,56]、评估城市交通系统应对突发事件的能力[10]等。基于出租车轨迹数据进行城市动态研究的文献在同一时期开始出现,如文献[57]以北京1万多辆出租车为研究对象,对人类移动行为建模分析;文献[13]基于上海158万条出租车轨迹数据,识别城市居民出行模式;文献[58]从葡萄牙里斯本5个月的出租车轨迹数据中发现城市流动规律等。

图2 1999—2019年出租车轨迹数据挖掘领域文献数量Fig.2 Numbers of publications on taxi trajectory data mining from 1999 to 2019

总的来说,出租车轨迹数据挖掘领域在2011—2012年间发生了重大变化,出现了两个新的研究方向:一是城市规划,指利用出租车轨迹数据发现、识别并评估静态的城市规划和城市结构;二是社会感知,指基于出租车轨迹数据对城市内人群活动的动态变化、移动模式进行分析和监测。这时期出现的一系列重要成果彻底改变了之前出租车轨迹数据只能在交通领域内得到应用的情况,出租车轨迹数据挖掘领域进入新的发展阶段。

智能交通、资源与环境保护两个应用方面贯穿出租车轨迹数据挖掘领域始终,尤其智能交通方面,是出租车轨迹数据的直接应用领域,直至现在也是每年发表研究成果数量最多的方向,如图3所示。城市规划和社会感知虽然都是于2011年前后开始起步,但这两个方面的联系较为紧密,城市规划结构可以看作是社会感知研究的基础,因此城市规划方面相对来说得到了更多的关注和发展,但近年来社会感知研究也开始出现上升的趋势。

空间统计、时间序列、图与复杂网络等传统的分析挖掘方法是该领域早期的主要研究方法,如图4所示。空间统计方法适用范围广,能解决多种类型的问题,如热点区域发现、通行时间估计、预测等。时间序列方法主要用于出租车轨迹数据的频繁模式挖掘与相似性度量。图与复杂网络方法则是对基于出租车轨迹数据抽取出的网络结构如道路网、市民出行网等进行网络相关特性的挖掘分析。值得注意的是,从2014年开始,由于计算机处理能力和硬件设备的提升,机器学习中的神经网络与深度学习方法重新吸引了各领域科学家的目光,也开始被用于出租车轨迹数据挖掘领域中预测通行时间、打车需求等问题。

图3 2008—2019年出租车轨迹数据挖掘研究数量的应用领域分布Fig.3 Application distribution of researches on taxi trajectory data mining from 2008 to 2019

图4 2008—2019年出租车轨迹数据挖掘研究数量的研究方法分布Fig.4 Methodologies distribution of researches on taxi trajectory data mining from 2008 to 2019

2014—2015年可看作是出租车轨迹数据挖掘领域的第2个分界点。从2014年至今,出租车轨迹数据挖掘领域都依然处于转型过渡阶段。这一时期,除了引入神经网络与深度学习方法外,更重要的是出现了滴滴出行、Uber、共享单车等新型出行方式。《中国共享经济发展年度报告(2019)》表明,网约出租车客运量占总出租车客运量的比重达到36.3%,这对传统出租车行业造成了一定冲击。许多城市的出租车公司与滴滴出行合作,传统出租车也能通过在线接单来寻客,因此出租车行业整体的运营方式也改变了。出租车行业的巨大转变与前沿技术的发展,对出租车轨迹数据挖掘领域,既是机遇也是挑战。

一方面,基于滴滴平台获得的网约出租车轨迹数据比传统出租车轨迹数据的采样密度更高,达到1~3 s一个轨迹点;采集精度更高,由于滴滴依据行驶轨迹计费,GNSS数据与实际行驶路径匹配准确率可达到100%;覆盖范围更广,以北京为例,62%的滴滴网约车起点或终点位于城市边缘公共交通覆盖不足地区,且包含大量跨城轨迹[59]。这为出租车轨迹数据挖掘研究提供了质量更高、更具代表性的数据源。

另一方面,滴滴网约车与传统出租车之间因其行业背景不同而存在差异。例如,主要寻客方式由过去的巡游寻客变为在线派单,滴滴网约车本身存在专车、快车、出租车和顺风车等多种运营形式,这些因素影响行车经验挖掘、载客点推荐等问题的结果。此外,神经网络与深度学习方法的应用尚未深入。在解决不同问题时应该怎样选择网络?在使用不同网络时又应该怎样选择出租车轨迹数据的输入形式?神经网络与深度学习对轨迹数据来说是否真的适用?这些问题都还未得到完整解答。从图2可看到,2017年后出租车轨迹数据挖掘研究的文献数量有所回落,这一定程度上表示出租车轨迹数据挖掘领域渐渐开始进入新的瓶颈期,需要进一步探索新型前沿技术在该领域的应用,以及与多源数据的联合分析。

近年来,部分学者发表了出租车轨迹数据挖掘综述成果,为本文方法和应用综述研究奠定了一定基础。文献[60]从社会动态、交通动态和行为动态3方面来对出租车轨迹研究进行分析总结;文献[61]以城市计算为出发点,综述出租车轨迹数据在城市感知和规划方面的应用;文献[62]总结了出租车轨迹数据在交通状态分析、运营管理及支持和路径规划及预测等智能交通方面的研究。这些研究综述的角度有所不同,各有侧重。本文综述研究的重点是出租车轨迹数据挖掘与分析的理论和方法,以及总结该领域研究主题变化趋势和挑战。在出租车轨迹数据领域面临转变的背景下,本文旨在梳理出租车轨迹数据挖掘研究的现状,同时思考未来可能的发展趋势,为广大研究人员掌握现有研究状况、定位和规划未来研究方向提供参考。

3 出租车轨迹数据挖掘方法

多年来,各个领域的学者都不断试图从出租车轨迹数据中挖掘出新的知识与经验,所涉及的理论与方法覆盖多个学科,采用的主要方法可以归纳为4类:空间统计、时间序列方法、图论与复杂网络及机器学习。

3.1 空间统计

空间统计方法能直观地帮助研究者获得数据集的整体分布特征,从而选择相应的统计模型对轨迹数据进行后续分析。因此,空间统计方法是应用最多最广泛的基本数据挖掘技术,它可以作为独立的方法对轨迹数据进行分析,也可以作为前期的数据处理方法为后续的研究提供依据。

3.1.1 探索性空间分析

探索性空间数据分析方法的特点是对数据集的总体不作假设,而是使用统计图表、图形和统计概括等探索性、描述性的方法对数据的特征进行分析和描述[63]。在面对出租车轨迹数据时,数据的整体特征对研究者来说往往是未知的。采用该类方法可以获得数据集的整体统计特征,计算得到载客里程、载客时间、载客数、上下客点数、行驶速度、换乘时间间隔等统计量,帮助发现时空分布规律,进而建立统计模型解决相应问题。

例如,司机收入这一统计量通常被作为衡量司机寻客策略有效性的标准[64-67]。在此基础上,通过跟踪高收入司机的行车轨迹,可以为其他出租车司机推荐载客点和提供行车指导[11,25,68-69],从而提高出租车服务质量和司机收入水平。

除了对出租车行业本身的探索与评价之外,部分研究综合考虑公交站点分布[70]、网约车服务[71-72]、天气[9]等外界因素从而进一步发掘出租车行为规律。在统计量的基础上进行简单计算能粗略估计城市道路交通状况和交通容纳量[3,73-75],提取居民出行与移动的规律[23,57,76]。基于与道路网和社会经济数据的联合分析,可以探测城市功能区域和土地利用布局[56,77]、估计城市汽油消耗和尾气排放总量[19,20,78]。

探索性空间分析方法能帮助简单、直观地把握整个数据集的特征,但结果都是比较概括性的结论,容易受到数据处理过程中的误差影响,不能充分挖掘轨迹数据的价值。

3.1.2 空间聚类

空间聚类方法是数据挖掘领域的关键技术之一。根据聚类对象的不同,出租车轨迹数据的空间聚类方法可分为点聚类方法和轨迹聚类方法。

点聚类方法主要是对出租车轨迹数据中的点数据进行空间聚类,包括出租车的GNSS采样点、停留点或者是上下客点。常用的聚类算法有k-means算法和DBSCAN算法。聚类分析的结果直观简明,能直接从结果中发现特定的出租车行为规律。例如,通过对出租车上下客点进行点聚类能获得热门上下客区域,从而向出租车司机推荐最佳载客点[79-81]。下客点聚类结果反映了市民出行偏好,可辅助城市规划布局[16,34,82]。道路网中大量低速聚集状态的出租车集群是道路拥挤现象的表现,因此,通过道路低速点聚类能对城市道路拥堵模式进行估计和分析[83-84]。文献[85]还基于空间聚类提出一种城市交叉口自动识别方法,为城市交通路网局部结构的探测提供了新途径。

点聚类得到的结果通常是要素聚集的面状区域,但在数据量较大时,难以快速识别出不规则形状的聚类簇。同时,如何确定具有多重属性的点数据相似系数也是目前难点之一。如文献[86]针对现有算法在出租车载客热点区域提取结果的不足,提出一种顾及路网约束的改进DBSCAN算法,将道路拓扑关系与路段长度数据加入聚类算法的相似性度量中。

轨迹聚类是对出租车行驶轨迹进行聚类,得到的结果是具有相似形态且聚集的轨迹簇。例如,对下客热点到上客热点之间的轨迹进行聚类,得到最具有寻客潜力的最优路径[87]。或者,跟踪特定区域间的下客轨迹,从而识别出城市交通流向规律[88]。此外,文献[26]基于相似轨迹聚类的思想提出拥堵同伴的概念和发现算法,筛选出可能发生拥堵的浮动车数据,进而对拥堵区域的变化趋势进行预测。

轨迹聚类的难点是如何定义轨迹在时空维度上的相似性度量,基于整体的轨迹聚类会忽略子轨迹的细节信息,而基于分段的轨迹聚类会分割轨迹,使一条轨迹分属于多个聚类簇。从聚类准确度出发,多数研究者认为基于分段的轨迹聚类方法粒度更细、准确度更高。

3.1.3 空间回归分析

空间回归分析是定量描述空间数据之间关系的常用方法。出租车轨迹数据记录了出租车的行驶路线,在空间分布上具有明显的空间异质性,并与社会经济因素和城市规划布局紧密相关;同时,也受城市居民的出行规律影响,在时间上表现出明显的周期性。因此,空间回归分析方法常被用来拟合并预测出租车客流量,并量化分析乘客需求与社会经济因素、环境质量之间的关系。

例如,各种回归模型被用来拟合出租车上客点的数量分布[89],再对热点地区乘客的时空变化和等待时间进行预测[10,90-92]。或者,利用地理加权回归模型来刻画出租车的空间异质性[93],并将客流量与社会人口和建筑环境变量关联起来。

空间回归分析能准确地刻画因子之间的相关性和拟合程度,但其应用范围会受到回归模型假设条件的限制,且模型的构建通常是一个探索性的过程,因此结果依赖于研究者对因子的选择和表达。

3.1.4 密度分析

密度分析是用来计算整个研究区域内数据聚集情况的方法,利用离散的点(线)生成连续的曲面,从而发现要素较为集中的区域,包括普通的点(线)密度分析方法和核密度分析方法。

普通的点(线)密度分析对落入搜索区域的点或线进行求和,计算区域单位面积内的元素数量。出租车停留点密度能作为有效估计区域内打车需求与出租车充电需求[94-95]的指标、提取城市热点区域和人们出行规律[35]的依据;同时,跟踪出租车停留点密度变化过程可以探测城市中上下客事件的冷热点集群变化规律[17,96]。这种方法的局限在于会导致网格边缘出现过大落差,也就是“断崖”现象。

核密度分析方法中,落入搜索区的点具有不同的权重,分析的结果是平滑、连续的表面,避免了普通的点(线)密度分析中“断崖”的出现。通过核密度分析方法能提取出租车集聚的热点区域[97]、分析出租车行为的时空分布模式[98]。与普通密度分析方法相比,核密度分析方法提取的区域边界更平滑、更合理,但由于带宽的设置会直接影响结果的好坏,因此根据数据集的特点选择合适的带宽是该方法的关键。

3.1.5 其他方法

除了上述方法之外,还有大量研究使用基于空间统计理论的其他方法来挖掘出租车轨迹数据,如利用OD矩阵分析[15,99]、隐马尔可夫模型[100]、离散选择模型[31]等对出租车上下客行为进行建模预测,通过图像处理方法从出租车轨迹数据中提取路网结构[101]等。另外统计检验方法[102]、基于证据理论的方法[103]、主成分分析方法[28]等也逐渐受到人们的关注。总之,空间统计方法种类众多,所应用的研究领域也涵盖甚广,但使用时多受前提假设的限制,是一类基础而又需谨慎使用的方法。

3.2 时间序列方法

时间序列数据反映了一类事物或现象随时间的变化状态或程度。出租车轨迹数据可以看作是按照一定时间间隔通过定位设备采样得到的时间序列数据,因此部分研究利用时间序列方法的思想对出租车轨迹数据进行分析。

例如,文献[104]使用PrefixSpan的思想搜索轨迹的频繁模式子序列,并构建一个频繁轨迹图模型,该模型能计算得到最佳打车推荐结果。文献[105]对GSP算法进行改进以应对大规模轨迹数据,挖掘出租车频繁轨迹特征[106],从而分析出租车司机的驾驶经验与行为模式,并为其他司机提供路径规划。

相比轨迹数据,时间序列数据的相似性度量要简单得多,因此有部分研究首先将轨迹数据转换为时间序列数据,再对其进行轨迹聚类,从而探测十字路口[107]和道路网变化[108]、挖掘司机行为规律[109]等。但其缺点在于转换过程中会损失信息,且时间序列方法是用于分析一维数据的方法,在应用于二维数据的过程中存在许多限制。

3.3 图论与复杂网络

出租车轨迹数据可以看作是城市道路网的映射,能够从中提取出城市道路网的主干结构。同时,由于出租车轨迹数据记录了居民出行路径,将出行热点区域作为节点,区域间的交通轨迹作为边,可以构建乘客出行网络图。利用从轨迹数据中提取出的图和网络特性,通过图论与复杂网络相关方法能解决更多特定问题。

3.3.1 路径搜索方法

路径搜索方法是解决在图或网络中怎样按照特定的规则从一个顶点到达另一个顶点问题的一类方法,实际应用时通常先构建交通道路网,再遵循长度最短或时间最短的条件在道路网中计算最佳路径,最后将计算的结果推荐给司机,为司机提供路径规划和导航[110-113]。例如文献[7]基于k-最短路径算法提出了一种具有负载均衡分配的时空轨迹模型,该模型为出租车司机提供推荐点间的最短路线。最短路径搜索可以提供理想情况下的路径参考,然而在现实情况下,距离最短的路径不一定是司机第一选择的路径,还受到许多环境因素的影响如道路拥堵、交通限速等,同时也依赖于道路网构建合理与否。

3.3.2 可达性衡量方法

在城市道路网络中,可达性指的是道路网中从一个区域到达某个特定区域的容易程度,是评价城市区域和道路网规划是否满足市民需求的指标[114-115]。如文献[116]构建了两个矩阵模型来分别表示每条轨迹的起讫网格和经过的网格坐标,并采用基于位置的可达性衡量法对研究区域的城市规划进行评价。这类方法要求研究者对城市规划和交通规划有比较深刻的认识,充分理解可达性的内涵与类型,同时考虑各个指标的假设条件限制。

3.3.3 社区发现方法

社区发现方法是用于发现复杂网络中的社区结构的一种算法,社区是一个子图,而整个网络可以看作是由多个社区构成的。其中社区内节点与节点之间的连接很紧密,而社区与社区之间的连接比较稀疏,因此社区发现方法与聚类方法有一定的相似性。社区发现方法可以探测道路网、市民出行OD网络的子结构,并分析评价城市结构与空间的相互作用,跟踪其动态演化过程[33,117]。如文献[118]基于出租车轨迹数据,把空间单元看作节点,人类运动流看作边,建立了空间嵌入式网络模拟城市内部空间互动。目前社区发现方法所研究的对象已不局限于静态单一的网络,如何在多模式、多维度网络当中解决不同模式及维度下的信息融合、共享及动态演化是该方法的最大挑战。

3.3.4 中心性分析方法

中心性(centrality)是量化判定网络中节点重要性的指标,道路网的中心性评价结果可以用以估计城市交通流量并分析城市路网的结构特征[4,119]。常见的中心性指标有度中心性、介数中心性和PageRank中心性等,如文献[120]首先评价了道路网的中心性对交通量的预测能力,然后提出了基于现有中心性测度的扩展方法。但现有的大部分中心性指标都是针对静态网络的,自然界中的复杂系统本质是不断变化,面向动态复杂网络的中心性度量还有待进一步研究。

3.4 机器学习

随着近年来人工智能技术的发展,机器学习受到了各个领域的广泛关注。在出租车轨迹数据挖掘中,机器学习方法自发、主动的特征学习过程满足了轨迹数据挖掘的需求,同时,轨迹数据其规模巨大、来源广泛的特点为机器学习方法提供了足够的数据样本。在出租车轨迹数据挖掘中常用的机器学习方法有神经网络、贝叶斯模型、支持向量机及遗传算法等。

3.4.1 神经网络

神经网络是利用计算机模拟人的神经系统结构,并通过它从大规模数据中学习到规律和知识的一种过程[121]。神经网络模型的一个重要应用是预测城市中不同区域的打车需求与寻客潜力,并将其推荐给出租车司机[8,122-123]。文献[12]以路段集群为预测单位,采用基于排名的ELM回归模型(极限学习机)预测未标记集群的寻客潜力。神经网络模型同样能分析道路交通状况,文献[124]采用一种深度限制的玻尔兹曼机和递归神经网络结构模型基于出租车轨迹数据对交通拥堵的演化过程进行建模和预测,能够快速识别出交通拥堵区域。神经网络学习的能力非常强大,但由于是直接从数据出发得到规律和经验,其结果往往难以解释,而且前期需要大量数据集进行训练。

3.4.2 贝叶斯分类

对于分类问题来说,贝叶斯理论考虑的是在所有相关概率都己知的理想情形下,如何基于这些概率和误判损失来选择最优的类别标记。不同于其他的分类预测方法,贝叶斯分类不仅利用模型信息和数据信息,还会充分利用先验信息。贝叶斯分类方法能够基于历史数据预测交通流量[22]、空载出租车数量[125]、乘客出行目的[126]及司机决策行为[127]。如文献[22]在估计每个路段的交通状况基础之上,利用一个基于贝叶斯网络的非监督图形模型TVI来学习交通速度、流量和密度之间的关系,并计算得到交通流量。该方法的优势在于分类效率稳定、容易解释,而且所需参数少,适用于大规模数据。但贝叶斯分类中的属性独立性假设往往在实际中不成立,且分类之前需要知道先验概率,存在分类决策错误率。

3.4.3 支持向量机

支持向量机(support vector machine,SVM)是一类二分类模型,其基本模型定义是特征空间上间隔最大的线性分类器,其学习策略就是间隔最大化。同时作为一种预测算法,通常能对有效客源、交通速度以及出租车排队等待时间等[128-130]进行预测。如文献[130]基于支持向量机模型建立了一个短期交通速度预测模型,并与人工神经网络、k-最近邻模型、基于历史数据的模型、基于移动平均的模型等方法进行比较,其中带有时空参数的支持向量机模型展现了良好的性能。支持向量机方法对小集群分类效果比较好而且可以避免局部极小点问题,但其局限是难以应用于大规模数据。

3.4.4 遗传算法

遗传算法是一种最优化方法,通过模拟遗传学中生物进化过程来搜索最优解,常应用于解决城市交通领域的各类优化问题,如对电动出租车充电站选址进行优化[131]、对出租车应急调度方案进行优化[81,132]等。文献[80,132]利用多种群遗传算法进行最短路径计算,实现出租车应急调度模型,同时为司机推荐最佳载客路线。遗传算法采用的是启发式搜索,易于并行化处理,但可能出现早熟现象,并且处理大规模数据时效率不高。

4 出租车轨迹数据挖掘应用

目前出租车轨迹数据挖掘领域研究的应用很广泛,其中在智能交通、资源与环境保护、城市规划、社会感知等方面的应用,是目前的应用热点。

4.1 智能交通

(1) 交通状态分析。从出租车轨迹数据中提取城市道路交通相关的信息,并利用这些信息来识别交通拥堵现象[26,75,124]与特殊社会事件[28,133]、估计并预测交通流量[4,134]和行程时间[6]等的一类研究,这类研究的意义是辅助管理者及时处理道路交通中的突发事件。

(2) 出租车运营管理和支持。将出租车轨迹数据挖掘结果用于改善出租车的运营管理、提高出租车司机平均收入是该领域应用最为广泛的一个方面。如将出租车轨迹数据中提取得到的上下客点、载客里程、空载率等数据作为出租车行为分析[31,70]、打车需求预测[89,92,100]的依据,从而为出租车的寻客策略[8,11]和调度方针[132]提供指导。

这一应用领域相对广泛和深入,一方面是因为出租车轨迹数据本身是通过安装在出租车上的GNSS定位设备采样而来,轨迹数据呈现出的时空规律实际上就是出租车行为的映射,因此与出租车行业经营与管理紧密相关;另一方面,智能交通领域的研究结果能直接改善乘客与司机信息不对等的现状,并切实解决现实中打车难、司机收入低等问题,具有现实意义性,而且利用数据作为基础支撑,直观且具有说服力。

(3) 路径规划与异常检测。路径规划主要指为出租车司机规划特定两个位置之间的最短路径,在路径规划时多会结合从出租车轨迹数据中挖掘到的高收入司机的择路经验[7,112-113]。异常检测则指对出租车行驶路径进行异常检测,如将待检测路径与从轨迹数据中提取的常规路径进行比较,从而判断路径是否存在绕路、超速等异常现象[135-136]。该类研究目的是预防司机的欺骗行为及监测突发事件的发生。

4.2 资源与环境保护

车辆在行驶过程中的燃油消耗、尾气排放等活动是自然资源与环境保护方面关注的一个重要部分。将出租车作为城市行驶车辆的一个样本,计算出租车行驶里程、行驶速度并提取加油行为[19]可估计城市内整体油耗量[78]和尾气排放量[20],并可作为相关政策制定的辅助依据。

4.3 城市规划

(1) 城市规划优化。这里的城市规划主要指城市功能区域规划及道路交通规划,通过出租车轨迹数据挖掘而获得的城市功能单元[35]、区域可达性指标[116]和道路容纳量[74]等,能作为评价现有城市规划的指标,并为城市规划优化[95,98]提供依据和支撑。

(2) 路网更新。从出租车轨迹数据中能提取出较为清晰的交通路网结构,通过比对历史路网数据可以识别出路网变化,实现路网更新[101,108,137]。同时,结合出租车速度与方向信息对道路交叉口进行分析能够识别复杂的交叉口结构[85,138]、学习交叉口交通规则[107]。

4.4 社会感知

社会感知是指利用各类地理空间大数据研究人类时空间行为的一类研究。出租车轨迹数据是地理空间大数据中的一类重要数据,它所反映的人类时空间行为主要体现在城市人群出行规律与人类移动特性两个方面。

(1) 城市人群出行规律。城市道路网中或城市各区域间交通流方向与流量的变化可以反映市民的日常出行规律变化。这类研究通过挖掘交通热点、跟踪热点区域间的交通轨迹来探究人群的移动规律[17-18,117]与市民社会活动与娱乐生活的偏好规律[16],其关注的是城市尺度上人群的集体流动模式。

(2) 人类移动特性。人类移动特性研究是利用特定的统计模型,在个体层面上对人类出行的步长、时间与频率等量进行建模分析[23-24]。与前一类应用不同的是其不局限于特定的出行目的或时间段,而是更多地关注个体的随机漫步模式[139],通过数理统计方法对人类移动进行分析。

值得注意的是近年来在城市规划、社会感知方面出现了许多有价值的工作,出租车轨迹数据挖掘研究已不仅应用于智能交通领域与解决打车问题,而是逐渐开始扩展应用领域外沿,寻求与其他专业领域相结合的综合应用,如提取城市功能结构、挖掘社会动态等。现如今,城市计算相关主题已渐渐成为出租车轨迹数据挖掘领域的热点话题,如何利用城市中产生的大规模数据来辅助决策、应对城市化进程中出现的各种挑战是未来值得继续深入探索的方向。

5 研究展望

出租车轨迹数据是城市交通状态、城市结构规划及人口流动规律的数据映射,通过挖掘出租车轨迹数据可以改善城市交通服务、优化城市规划、提高市民生活质量。但是出租车轨迹数据挖掘研究的相关理论与技术仍然亟待深入。基于现有研究,本文提出还需进一步探索的几个方向:

5.1 支持轨迹大数据实时清洗、管理、挖掘的高性能计算

轨迹数据的规模越来越庞大,与此并存的还有数据缺失、精度低、语义信息单一等一系列问题,如何提高数据质量并开发出更高效的轨迹数据实时挖掘方法是一直以来面临的难题。一方面,急需结合大数据、云计算[140]等新兴技术,在充分挖掘轨迹数据的前提下,提高挖掘方法的精度和效率。另一方面,轨迹数据压缩技术能在保证轨迹数据的结构和语义完整性的前提下,尽可能地减小轨迹数据量。结合分布式计算、量子计算等高性能技术,设计高效的轨迹数据实时压缩算法与管理查询机制是未来的研究方向。

运用出租车轨迹数据进行司机行为分析或市民出行目的预测等研究时会涉及个人隐私问题,在不暴露用户敏感信息的前提下进行有效的数据挖掘,既能挖掘出规律,又能隐私保护,并严格遵守法律法规。

5.2 基于泛在信息融合的跨领域研究

随着传感网、物联网、射频识别技术与智能嵌入技术的发展,信息社会正逐步转变为泛在信息社会,人与物、物与物之间交流所产生的泛在信息关联分析将带来大量潜在新型应用。出租车轨迹数据本身语义信息有限,与其他泛在信息如共享单车数据、夜光数据[141]、POI数据、微博签到数据、交通刷卡数据、道路卡口数据等进行联合分析能扩展应用领域范围,进行多领域多学科的综合应用研究,有效解决城市问题。其难点在于泛在信息标准不一、结构多样,需要提出成熟可行的数据度量与融合方法。

5.3 基于轨迹大数据的城市和城市群建设与管理的新型应用

让健康的人生活在健康的环境里,让生活在城市中的人都有安全感是城市规划与设计的一个重要目标。出租车轨迹大数据所反映的正是城市居民的移动行为和出行偏好,能为城市规划优化、改善城市环境提供依据和支撑。如基于出租车轨迹大数据探测交通网络中车道设计与实际承载交通流量不相匹配的区域,从而对交通网络进行重新规划与建设,在一定程度上缓解城市拥堵现象,从而实现城市的健康与安全。

同时城市本身也处于不断发展的过程中,城乡一体化和城市群的发育发展等,也提出了一系列新的课题,为出租车轨迹数据的挖掘提供了新的空间。

5.4 结合轨迹数据与新兴信息技术的创新研究

从出租车轨迹大数据中能挖掘出新的规律和知识,结合知识图谱与知识库等技术对这些获取到的知识进行组织、关联和管理能进一步发挥其应用价值。目前已有部分研究尝试将神经网络、深度学习等智能方法应用于出租车轨迹数据挖掘,但大多并未深入。大规模的历史轨迹数据集为机器学习提供了足够的训练样本,机器学习方法主动的特征学习过程能充分挖掘轨迹数据的价值,在未来这仍是一个前景广阔的方向。此外,将出租车轨迹数据作为一类辅助数据源用于语义理解、自然语言识别等领域也是值得尝试与探索的一个方向。

猜你喜欢

出租车数据挖掘轨迹
探讨人工智能与数据挖掘发展趋势
乘坐出租车
轨迹
轨迹
轨迹
凭什么
进化的轨迹(一)——进化,无尽的适应
基于并行计算的大数据挖掘在电网中的应用
开往春天的深夜出租车
李书福炮轰出租车