APP下载

居民出行与轨迹行为交互模式挖掘与关联技术

2021-04-28代维秀陈占龙

测绘学报 2021年4期
关键词:工作日住宿类别

代维秀,陈占龙,谢 鹏

1. 中国地质大学(武汉)地理与信息工程学院,湖北 武汉 430074; 2. 西安测绘研究所,陕西 西安 710054; 3. 地理信息工程国家重点实验室,陕西 西安 710054

大数据对地理信息的研究提供了新的视野,人们从基础的地理信息研究转移到利用计算机技术解决地理和城市问题上。与传统小数据相比,地理大数据具有粒度细、广度宽、密度大、偏度重和精度差的特点[1-2]。合理利用地理大数据的优点,挖掘其隐藏价值,使其在实际应用中发挥作用。出租车作为城市交通工具的重要组成部分,对居民出行尤为重要。出租车轨迹数据包含移动过程中的位置、速度、时间等信息,能够体现人们时间序列上的位置变化,反映人们的出行规律,并且数据量极大,符合地理大数据的特征。随着技术的发展,挖掘轨迹数据信息,研究城市居民活动极具价值。轨迹数据的研究从个体研究群体,从大量的个体数据之间,分析群体性特征。随着城市的发展,一些与居民出行有关的城市问题逐渐显现,如交通拥堵等,轨迹数据是研究这类问题的基础。

轨迹数据在城市中的应用研究主要分为城市空间结构功能单元识别、人类活动模式的挖掘、行为预测、异常监测、城市计算等内容[3]。出租车轨迹数据反映城市居民行为特征,通过对其挖掘和分析能够揭示居民的生活规律、行为特征。一些学者通过对轨迹数据进行分析来识别城市结构单元,为城市建设决策和交通疏导提供参考依据[4-10]。除了对人们出行活动的研究外,利用出租车轨迹数据对居民活动进行预测和推荐也是研究的重点[11-14]。通过分析轨迹数据的规律分析及预测,从而进行异常检测,来识别异常移动模式[15-16]。文献[17]提出了位置链接和用户链接模式挖掘算法,利用手机位置数据验证了算法的可行性。此外,语义信息的挖掘也是出租车轨迹数据的一项重要研究内容,弥补了轨迹数据丰富而活动信息匮乏的不足[18-33]。众多国内外学者[34-39]都在轨迹数据信息挖掘方面进行深入的研究,为进一步利用地理大数据提供经验。

根据包含出租车的位置、时间等信息的轨迹数据对居民活动规律进行挖掘,是研究轨迹数据的一项重要内容。考虑时空约束,首先对轨迹数据进行停留点提取,并对停留点进行语义类别推断,然后利用语义类别信息建立语义交互矩阵,对居民行为目的交互模式挖掘。以北京市出租车轨迹数据为样本进行方法的验证,分析不同日常活动的时空特征,挖掘行为目的交互模式。本文有助于揭示城市结构和资源配置,为城市规划提供科学依据。

1 研究方法

出租车轨迹数据包含上下客位置、时间等信息,但上下客位置信息并不代表确定的活动语义信息。本研究首先通过轨迹数据提取停留点,以停留点和兴趣点为基础数据,然后采用高斯核密度推断停留点的语义类别,采用DBSCAN聚类方法识别居民活跃度高的区域,最后通过停留点语义类别交互信息构建语义交互矩阵,并对不同时间段语义交互矩阵进行相似性度量,挖掘行为目的交互模式。整体研究流程如图1所示。

图1 研究流程Fig.1 Research scheme

1.1 停留点语义类别推断

根据出租车的载客状态变化可以确定出租车的上、下客情况。当出租车载客状态由0变为1时,则可确定该处为上客点。定义上客点位置集为SP,表示为P={spk∈SP|spk=1 and spk-1=0}。当出租车载客状态由1变为0时,则可确定该处为下客点。定义下客点位置集为SD,表示为D={sdk∈SD|sdk=0 and sdk-1=1}。其中k为连续的k个出租车位置,spk表示第k个上客位置对应的出租车状态,sdk表示第k个下客位置对应的出租车状态。为了方便后续研究,本文将上客点和下客点统称为停留点。

根据居民日常出行目的对POI进行重分类,以便更准确的刻画居民活动,本文中POI重分类结果为:住宿、工作、休闲、教育、餐饮、其他(一定范围内无以上类型POI定义为基于其他目的出行),对分类后的POI点赋予合理的开放时间[40]。考虑到权重分配的全面性和平滑性,构建高斯核密度估计方程计算各类POI成为停留目的的概率公式,停留点目的概率为聚集在停留点一定范围内的不同类别的POI成为该停留点目的的概率,如式(1)所示

(1)

式中,yj为第j类POI点成为停留点目的概率密度;j为1,2,3,…,6,表示POI类别;xi是该点距离停留点的直线距离;i为1,2,3,…,n,表示搜索半径内第j类POI点的数量;δ是标准差,本文中定义为250 m;μ是均值,本文忽略道路优势,故取值为0;ρj表示第j类POI数量之和的倒数。为了消除由于POI数量差异引起的结果误差,故采用倒数对其数量进行平衡。综合居民行为特点,大都会选择在临近目的地的位置上下车,本文中将搜索半径选为100 m,研究对象为搜索范围内所有的POI点,通过采用式(1)确定每类POI对应的停留点目的概率密度,选取其最大值所对应的POI类别作为该停留点的语义类别。停留点语义类别为该停留点研究范围内,概率密度最大值所对应的POI类别,具体为:①计算停留点目的概率yj; ②判断max(yi)所对应的POI类别; ③将②所得出的POI类别作为此停留点的语义类别。停留点语义类别如式(2)

Pt=max(yi)

(2)

式中,Pt为停留点语义类别;yi为停留点目的概率。停留点语义类别推断过程如图2所示。

图2 居民出行停留点类别推断Fig.2 The inference of residents’ travel purpose

本研究通过对语义类别相同停留点进行聚类,分析不同语义类别的停留点在不同时间段内空间分布情况,对其进行可视化及聚类研究。DBSCAN算法因其结构简单,多用于处理高密度数据,因此本文采用DBSCAN聚类算法对不同语义类别的停留点进行聚类分析,根据相关研究可知DBSCAN对Eps(簇半径参数)和minPts(邻域密度阈值)参数非常敏感。本文通过多次试验分析,设置minPts值为当前数据集总点数的1/25[41]。Eps通过k-距离曲线取值为500 m。

1.2 行为目的交互模式度量

停留点活跃度指相同时间段内每类语义类别的停留点的数量之和,即每类停留点的活跃程度,如式(3)所示,反映了不同时间段内居民出行行为的特征。

(3)

式中,j为停留点的语义类别,j为1,2,3,…,6;pij为研究时段内第i个j类的停留点,i为1,2,3,…,n。

停留点活跃度可以直观反映居民出行目的随时间的分布状态,但是不能反映上下客点之间的语义交互情况,因此在停留点活跃度研究的基础上进一步进行停留点交互情况的研究。在不同的时间段,居民出行目的不同,即停留点的语义类别不同。本文将停留点语义类别作为居民的行为目的属性,以此构建不同时段内的语义交互矩阵,度量行为目的属性之间的交互。即对一天24个时间段的语义交互矩阵进行度量,总结居民出行的交互规律。交互一般指发生在可以互相影响的两方或多方之间的行为,相同时间段内,不同行为目的属性的上、下客点发生互动,此过程即形成了城市居民的行为目的交互模式,例如语义类别为住宿的上客点与语义类别为工作的下客点之间的互动为住宿-工作交互模式。频繁交互是指在行为目的交互模式中频繁出现的互动,通过频繁交互挖掘可以对居民行为进行总结分析。

语义交互矩阵构建是研究行为目的交互模式的重要部分。为了构建不同时间段内的语义交互矩阵,首先对不同时间段内的上下客点的行为目的属性的交互情况进行统计,即每类上车点语义类别流向各类不同下车点语义类别的交互次数构成矩阵的元素,然后对同时间段的上下车点的语义类别进行交互索引,构建语义交互矩阵。具体矩阵如下

(4)

式中,Dt表示t时对应的语义交互矩阵,Dtij表示在t时刻上车点的语义类别为i(i为1,2,3,…,6)的流向下车点语义类别为j(j为1,2,3,…,6)的关联值。矩阵的行表示上车点语义类别为i与下车点各类语义类别之间的交互,矩阵的列表示下车点语义类别为j与上车点各类别间的交互。

由于不同时间内出行量差异巨大,不同时间段对应的矩阵元素差异较大,因此需要进行矩阵的归一化处理,这样可以平衡矩阵元素之间的巨大差异,也可以均衡不同特征值差异太大导致的影响差异大。本文对交互矩阵进行了归一化处理,选取的归一化方法为min-max scaling方法。该方法将原始矩阵的行采用线性化的方法将数转换到[0,1]之间。具体实现公式如下

(5)

对归一化的语义交互矩阵进行相似性度量,可以对24个时间段内的语义交互矩阵进行相似性区分,进而挖掘不同时间段居民出行规律。该研究中语义交互矩阵维度相同,传统的矩阵度量方法如矩阵减法、R平方法等均可以作为该类型矩阵的度量方法。本文采用矩阵减法度量归一化后的矩阵,对两个时段归一化后的矩阵作差,分别计算3个矩阵范数,通过式(6)进行相似度计算

sim=1-dis(m1,m2)

(6)

式中,sim为度量后两个矩阵的相似性,取值范围sim∈[0,1];dis(m1,m2)为差向量范数与m1、m2欧氏距离度的比值。sim越接近于0则表示两个矩阵相似性越低,sim越接近于1则表示两个矩阵相似度越高。

2 试验与分析

2.1 试验数据及区域概况

北京市是我国的政治、经济、文化、科教以及创新中心,图3所示区域是北京核心功能区,其城市功能齐全,人口密度大,城市结构复杂,且出租车是北京市居民重要的出行方式,因此选择该区域作为研究区。

图3 研究区域Fig.3 Research area

本文中采用的是北京市2012年11月共30 d的出租车GPS记录数据,以*.txt格式存储,出租车轨迹数据说明见表1,根据研究需求对轨迹数据进行处理。研究中采用的POI数据通过百度地图服务(http:∥map.baidu.com)获取;北京市路网数据从open street map(OSM)获取,研究数据说明见表2。

表1 轨迹数据说明

2.2 出行热点区域分析

通过推断停留点的语义类别,对不同语义类别的停留点进行聚类分析,以获得不同类别的热点区域分布情况。不同语义类别的停留点分布可以直观表现区域规划情况以及各类别停留点间的关系,分析结果如图4—图13所示。

图4 工作日上午9时住宿类别停留点分布Fig.4 The distribution of accommodation data stay point at 9 am on workdays

图5 工作日上午9时工作类别停留点分布Fig.5 The distribution of work data stay point at 9 am on workdays

图6 工作日9时教育类别停留点分布Fig.6 The distribution of educational data stay point at 9 am on workdays

图7 非工作日11时休闲类别停留点分布Fig.7 The distribution of leisure data stay point at 11 am on non-workdays

图8 工作日13时餐饮类别停留点分布Fig.8 The distribution of catering data point at 1 pm on workdays

图9 工作日和非工作日住宿热点载客路径Fig.9 The hot routes for accommodation on workdays and non-workdays

图10 工作日和非工作日工作热点载客路径Fig.10 The hot routes for work on workdays and non-workdays

图11 工作日和非工作日教育热点载客路径Fig.11 The hot routes for education on workdays and non-workdays

图12 工作日和非工作日休闲热点载客路径Fig.12 The hot routes for leisure on workdays and non-workdays

图13 工作日和非工作日餐饮热点载客路径Fig.13 The hot routes for catering on workdays and non-workdays

图4—图8为各类语义类别的停留点时空分布情况,图中不同颜色的停留点为聚类结果可视化,以Ci(i为正整数)表示。工作日8—9时段为上班高峰期,工作类别的停留点分布能直接反映研究区的商业分布情况;住宿类别的停留点分布与商业分布有一定的关联,这一现象在中心区域反映较为明显;教育类别的停留点与商业分布一定程度上相关,特别是教育发达的海淀区;休闲类别的停留点除了在商业圈分布,在景点处也形成明显聚集;餐饮类别的停留点分布与商业分布的相关程度不能仅通过停留点反映,这与居民多择近就餐有关。

通过分析不同语义类别的停留点聚集情况可知:北京市的商业分布和高校之间互相依托,共同发展,奠定了经济发展与教育事业共存的基础;居民区围绕着商业圈分布,这符合职住一体的规划,从一定程度上节省了通勤时间;餐饮与商业的分布有限相关;五环内的休闲不仅与景点有关也与商业分布相关,这与商业圈规划的多功能性有关。

将沿道路分布的各类语义停留点进行可视化表达(图9—13),对停留点聚集程度高的路段进行提取分析可知:①工作日和非工作日各类停留点的载客热点路径分布存在明显差异,特别是工作、住宿和休闲类别,工作日时工作和住宿类别的停留点高于非工作日,工作和住宿类别停留点在工作日分布相对发散,非工作日分布更趋向中心集中,休闲类别停留点的活跃度在非工作日时明显比工作日高且非工作日时更为发散;②教育和餐饮类别的停留点的热点载客路径在工作日和非工作日的发散程度区别不太,但教育类别的停留点在工作日时更趋于中心分布。

研究不同类别的停留点的分布情况,可以直观认识城市布局,即北京市的商业和高新科技集中于中心城区,也可以得出人流量大的热点区域。北京市城市规划政策即通过疏解非首都功能,实现人随功能走、人随产业走,不断调整人口布局,缓解城市压力。中心城区人口密度大,以业控人,通过产业疏解进而达到人口疏散,缓解中心城区的压力。此外也将增加公共服务设施、交通市政基础设施、公共绿地等用地规划,以人为本,提高居民生活品质,从源头入手,解决“大城市病”。

2.3 居民行为目的交互模式挖掘

通过分析不同时段、不同语义类别的停留点活跃度,直观了解居民出行目的的差异,为交互模式挖掘提供一定的依据。与其他交通系统类似,基于出租车服务的居民出行行为表现出时间和空间的日常周期性,反映了潜在的人类活动模式[42]。不同行为目的属性的上下客点发生互动形成了城市居民的交互模式,交互模式反映了不同类型停留点之间的互动情况。O-D矩阵可以表达居民的行为,通过挖掘O-D矩阵在不同时段描述的居民行为变化或差异,以便有效管理出租车服务运营以及资源分配。本文通过构建停留点语义交互矩阵,基于该语义交互矩阵进行交互模式分析,并根据不同语义类别的停留点之间的互动情况进一步挖掘居民行为目的的频繁交互。

通过式(3)对不同类别的停留点活跃度进行统计,并对其进行标准化处理,分析每类停留点活跃度相对变化情况(图14、图15)。

图14 工作日各类停留点上下车的活跃度变化Fig.14 Activity change of track stay points of up and down vehicles on workdays

图15 非工作日各类停留点的上下车活跃度变化Fig.15 Activity change of stay points of up and down vehicle on non-workdays

通过工作日和非工作日各类停留点的活跃度对比分析可知:

(1) 工作日和非工作日在0—6时段各类停留点的活跃度较低并在该时段内出现最小值,下客点的活跃度最小值迟于上客点的出现;6—8时段停留点的活跃度呈陡增趋势,9—22时段活跃度出现波动,在22时后整体呈现下降趋势。

(2) 非工作日的各类停留点的活跃度峰值比工作日出现晚,非工作日停留点在10—16时段活跃度较高,工作日停留点的活跃度从10时持续到22时。非工作日18—24时段停留点的活跃度骤减。

(3) 工作日各类停留点的活跃度对比明显,对于上客点,住宿类别的停留点的活跃度在8时陡增;休闲类别的停留点的活跃度在19—22时段活跃程度较高。对于下客点,工作类别的停留点的活跃度在9—10时段达到峰值,19时起其活跃度骤降;住宿和休闲类别停留点呈现小幅增长。各类型的停留点的活跃度均在12—13时段出现谷值。

(4) 非工作日停留点的活跃度在10—14出现峰值。对于上客点,住宿类别停留点的活跃度峰值在10—11时段出现;住宿、休闲和其他类别停留点在13—14时段出现下降,而教育类别停留点在14时上升达到峰值;休闲类别停留点的活跃度在18时后高于其他类型。对于下客点,住宿类别的停留点在18时前低于其他类型停留点的活跃度,18时后有所增长;工作类别停留点的活跃度在11—12时达到峰值。除住宿外其他类别停留点在16时后活跃度逐渐下降。

分析不同类别停留点的活跃度可以直观展现居民出行情况,但仅研究停留点活跃度无法提示出居民出行的交互情况,因此,后续需要进行交互模式研究。对语义类别分类后的停留点,构建停留点语义类别信息的语义交互矩阵(式(4)),通过对语义交互矩阵归一化后的相似性度量(式(6)),可以得出工作日和非工作日不同时段的居民行为目的交互模式。将一天24 h的语义交互矩阵分别进行相似性度量,根据相似性度量的结果构建相似度热力图(图16、图17)。

图16 工作日与非工作日居民出行交互热度Fig.16 Interaction heat of residents’ travel on workdays and non-workdays

图17 工作日和非工作日交互模式Fig.17 Interactive mode of residents’ travel on workdays and non-workdays

由图16、图17可知:工作日凌晨0—6时段内,多为其他语义类别与住宿之间的交互;8—10时和14时内,主要为工作与工作之间的交互、住宿与工作的交互、其他各语义类别与工作交互;上午10—12时和下午15—17时内,表现为工作与其他类别的交互;18—24时内交互类与下班后居民的生活习性有关,主要为工作类型与住宿、休闲以及餐饮间的交互。非工作日凌晨0—5时相似性较高,主要是与住宿相关的交互;8—17时交互相似性较高,多为居民的休闲娱乐出行相关,非工作日居民出行时间宽泛,可以自由选择出行时间;19—24时交互相似性高,多为居民活动结束后返回居住地有关。总体而言,工作日住宿、工作、教育为主要的交互内容,其中工作和住宿之间的交互最为主要;非工作日则以休闲、住宿、教育交互为主,住宿与休闲的交互明显。

工作日和非工作日之间交互整体上都分为3段,0—7时、7—18时和18—24时。但是在行为目的交互模式方面有所不同,工作日主要为职住交互、工作交互、住宿交互。非工作日的交互主要为居住-休闲交互、休闲交互、住宿交互。工作日和非工作日同一时间段内对应着不同的行为目的交互模式,这与工作时间对于居民的影响有关。挖掘行为目的交互模式可以反映居民出行中不同语义类别的停留点间的交互情况,可以根据不同时段的交互特征,为城市的管理、交通规划提供一定的参考依据,在城市规划时应更加注重职住资源匹配、通勤成本以及资源协调分配,也为居民在不同的高峰时间段出行提供合理的规划建议,既节省了交通成本,又避免了时间的浪费。

3 结 语

本文提出了基于语义交互矩阵进行居民行为活动挖掘的方法,该方法考虑了时空约束。首先对轨迹数据进行停留点提取,并对停留点进行语义类别推断,然后利用语义类别信息建立语义交互矩阵,挖掘居民行为目的的交互模式。采用北京市中心区域出租车轨迹数据对本文方法进行了验证,研究了北京市中心区域居民的不同日常活动的时空特征,挖掘行为目的的交互模式。本文方法可以为城市规划管理、资源调度和应急管理提供一定的决策支持。随着出行方式的多样化,人们有更多的出行方式选择,下一步将考虑集成新的数据源进行研究,对研究方法进一步改进,使之能够更充分反映居民的行为。

猜你喜欢

工作日住宿类别
民宿市场占比已超星级酒店
关于休闲的量的问题的考察
P大的住宿学院
服务类别
论类别股东会
中医类别全科医师培养模式的探讨
酒店住宿
聚合酶链式反应快速鉴别5种常见肉类别
对《资本论》中工作日问题的哲学思考
郑州局办理业务全程提速