APP下载

基于手机信令数据的旅游客流特征分析

2022-08-19陈艳艳孙浩冬

北京工业大学学报 2022年8期
关键词:信令客流交通

陈艳艳,张 野,孙浩冬

(北京工业大学交通工程北京市重点实验室,北京 100124)

近年来,中国对旅游业的重视程度越来越高,加大了对旅游业的投资力度,促进了旅游业的蓬勃发展.与此同时,随着收入的增加和消费观念的转变,中国的游客数量也在逐年递增.旅游业的快速发展不仅可以提高人们的生活质量,而且将为经济发展注入一剂强心针.2019年全年,中国国内旅游人数达60.06亿人次,同比增长8.4%;全年实现旅游总收入6.63万亿元,同比增长11%.旅游业对GDP的综合贡献达10.94万亿元,占比达11.05%[1].

然而,旅游客流的快速增长在促进经济发展的同时也带来了一系列的问题.游客人数过多会引发城市交通供给不足、交通拥堵、交通设施故障等问题,严重影响游客出游品质,甚至会引发交通安全事故.例如,2014年12月31日,大量游客来到上海外滩迎接跨年,由于没有及时掌握游客流量变化,管理部门未能有效引导涌入上海外滩参加跨年活动的游客,导致拥挤踩踏事件发生,造成36人死亡、49人受伤的严重后果[2].从长远来看,一旦游客流量超过相关旅游景点的容量,还会破坏旅游资源的可持续发展,加速环境恶化.

因此,为解决目前旅游交通面临的突出问题并进一步促进旅游交通发展,其关键是实现合理的客流管控,这就需要获取完整、准确、及时的客流数据并在此基础上挖掘客流的规律性.随着信息通信技术的发展,相较于传统调查,利用手机信令数据获得旅游客流数据更具优势.一方面,手机普及率已接近100%,使得获取数据量大、覆盖范围广的旅游流量数据成为可能;另一方面,手机信令数据已被证明可以用于提取用户的轨迹[3]、出行起讫点(origin destination, OD)[4-5]和出行特征[6].

表1 手机信令数据的优点

综上,如何利用丰富的旅游出行数据,识别游客出行OD并探索其分布规律,指导旅游交通线路的规划、旅游交通资源的分配及旅游客流的疏散,是目前急需解决的关键问题.本文从当前旅游交通亟待解决的突出问题出发,充分利用手机信令数据的特有优势和条件,获取旅游交通客流数据,分析旅游交通客流特征,为相关管理部门提供决策支持,引导出行者选择最佳出行方式,提高旅游者出行品质,促进旅游交通的发展.

本文将按以下思路展开:首先,总结过往文献中的研究方法和研究成果.其次,描述本研究使用的数据来源,并介绍本研究中所用到的出行OD提取和游客识别技术.然后,对典型旅游景点八达岭长城进行案例研究,并对结果进行讨论.最后,对全文进行总结,并对未来旅游交通的研究与发展进行探讨.

1 文献综述

客流特征分析是居民出行研究中的重点内容,而旅游出行作为常规通勤外最为典型的一类,也一直受到学者们的广泛关注.

传统的旅游客流数据获取方式往往依赖于统计部门的行业数据或问卷调查.为了分析景观小路上的游客的特征,Eby等[7]从一个包含9 400万个用户的全国消费者数据库中选取了15 000个用户进行调查并得到9.2%的响应率.Du等[8]分2个阶段调查了上海市枢纽内游客的偏好,并在此基础上建立Logit模型来分析上海世博会游客的出行行为选择.Can[9]通过在旅游海岛芽庄收集了402份有效调查问卷并建立数据库,用于估计越南游客的旅行选择.传统的问卷调查不仅耗费大量的研究预算和时间,而且由于统计时间范围、标准和方法的不同,无论是基于统计数据的研究还是基于调查数据的研究,都不能完整地体现旅游交通客流的规律性.

近年来,利用新兴技术获取和分析客流数据已逐渐取代传统的交通调查方法[10-13].Scherrer等[12]基于智能手机的导航应用程序收集到的高精度轨迹数据识别旅游游客.Lu等[13]推出了一款手机游戏TouristGo用以收集游客的位置数据,从而更好地管理旅游客流.同时,也有学者基于兴趣点(point of interest, POI)数据[14-16]识别旅游者的位置,通过互联网签到数据识别位置和游客的属性并分析其的特征[17-18].与传统的调查相比,新的数据源可以记录用户的位置,便于及时地跟踪用户的旅行轨迹.然而,尽管GPS数据的准确性高于其他数据源,但用于出行行为研究的 GPS 数据通常是从有限数量的志愿者处收集,因此GPS 数据通常用于研究个人的出行行为和出行模式.诸如POI数据及社交网络数据具有相对较大的样本量,但由于用户仅来自特定的社会群体,样本往往会存在偏差.

随着移动通信技术的进步以及智能手机的普及,成本低、精度高、覆盖范围广、连续性好的手机信令数据变得更容易获取[3-6,19].

Asakura等[3]将移动设备收集的用户轨迹数据与神户地区实际的出行数据相结合,建立出行行为的指标.文献[20-22]提出手机信令数据的社会定位方法可用于时空行为研究,并以此分析了爱沙尼亚游客出行的季节性特征,证明了手机信令数据可适用于旅游出行研究.Zhai等[23]则通过手机信令数据识别出上海市各公园的游客以及他们的居住地,以此探索城市公园实际服务半径的影响因素及其相关关系,这也为研究旅游景点的服务范围提供了新的途径.方家等[24]分析了大客流的时空分布特征和旅游行为变化,并尝试提出大客流预警方案.Qin等[25]基于手机信令数据提出了一套可实时提供旅游游客行为信息的分析方法,有效支撑“智慧旅游”的发展.

由表3可以更清晰地看出,传统旅游客流研究受研究基础数据的限制,只能获得少量样本进行分析,而随着中国经济的发展,居民生活水平的提高,国内旅游客流量逐年飞升,现有方法、研究数据已经不足以支撑对旅游“大客流”的分析.伴随着移动通信技术的发展,数据量大、覆盖范围广、连续性好的手机信令数据为出行行为研究提供了更好的数据支持.然而,对比现有研究后发现,目前更多研究关注居民的刚性出行需求即通勤出行,将研究聚焦在游客出行行为的研究相对较少.

因此,在中国旅游业蓬勃发展的大背景下,本文旨在现有旅游出行研究及手机信令数据的基础之上,做到旅游游客的精准识别、游客出行特征的全面分析以及客流规律的深入挖掘,从而为旅游景区的管理、旅游交通的发展、旅游政策的制定提供基础支撑.

2 数据介绍

本节对研究所用手机信令数据进行特征描述,并对原始数据进行预处理,得到本研究使用的数据集.

2.1 数据收集

本研究使用的数据为北京市范围内中国移动通信公司的手机信令数据,时间范围是2015年6月1日至6月7日.北京移动电话用户约1 400万,数据总量约12亿条记录,通信基站总数为3.8万多个,其分布如图1所示.数据主要包含7个字段,字段含义如表4所示.

表4 基站与信令数据字段

图1 北京市基站分布

2.2 数据预处理

由于手机信令数据的产生机制以及通信系统的数据采集与传送等问题,原始信令数据中会存在重复、缺失、错误等无效数据与噪声数据,对后续游客识别算法以及出行特征提取将会产生干扰,因此需要结合无效、噪声数据的具体产生机制,利用多重过滤算法,对数据进行有针对性的筛除,最终得到质量较高的手机信令数据.

首先,对无效数据进行清理.原始信令数据存在着大量静态数据、重复数据、字段缺失数据,以及时间或空间在研究区域之外的数据,这些数据的存在不仅不会扩大研究的样本量,反而会增加后续算法的计算量,浪费计算资源.

其次,信令数据中存在位置在2个相邻基站反复切换的乒乓数据和位置在短时间内突变的漂移数据,其会对后续计算产生干扰,影响算法的精度与分析的准确度,故利用基于时间与空间阈值的过滤算法,对乒乓数据及漂移数据进行识别并删除,以提升数据质量.

经以上2步信令数据预处理,共清洗无效数据及错误数据约1.1亿条,占信令数据总量的9.17%.以完成清洗后的10.9亿条信令数据作为研究所用数据集,提升了本文提出的OD与游客识别算法的精确度,并减少了约20%的工作量.

3 研究方法

本节介绍了通达性的计算方法以及OD提取和游客识别的算法.

3.1 通达性计算方法

首先,建立旅游景点位置与城市路网之间的拓扑关系.然后,根据道路的通行能力、等级和流量赋予其不同的权重.最后,用最短加权距离计算各旅游景点的可达性和相对连通性.

通达度是一个最基本的概念,决定着整个网络的功能.通达度的大小取决于网络中节点与线的数量、组合及其空间连接状况.通达度是指网络中一点到其他各点最短路径的总和,表达式为

Ai=∑Dij

(1)

式中:Ai为i点的通达度,值越小,表示通达度越好;j为网络中除了i点以外的其他点的数目,j=1,2,…,n;Dij为i点到j点的最短路径.

相对联通性可以用来衡量各景点的通达和联系的相对难易程度,表示为

(2)

式中:RCi为i点的相对联通性(0≤RCi≤1),RCi值越小,该景点与其他景点越容易联系;Ai为第i点的通达度;A*为网络中通达度的最大值;A′为网络中通达度最小值.

3.2 OD提取算法

由于信令数据的触发频率较高,用户轨迹点之间的距离和时间间隔较短,不能反映其真实的停留状态.如图2所示,M和S均是轨迹点,Mi是移动点,Si则被聚合成用户的驻留点.

图2 用户出行状态

时间阈值(T)和距离阈值(D)是移动或停留识别算法中的关键参数,将算法运算结果与交通调查数据进行相关性分析,确定阈值.本文识别游客停留状态的方法如下.

步骤1按时间升序排列用户的轨迹点.

步骤2计算相邻2个信令数据之间的时间间隔Δti和距离间隔Δdi,且

Δti=ti-ti-k

(3)

(4)

式中:ti、Loni、Lati分别为信令数据的时间戳、对应基站的经度与纬度;R为地球的半径,为6 731 km;i为轨迹点,值为1,2,…,n;k为i之前的轨迹点,值为1,2,…,i-1.

当ΔtiD,则用户在k到i是运动状态;如果Δdi>D,则至步骤3.

当Δti>T时,如果ΔdiD,则至步骤4.

步骤3令i=i+1并跳转至步骤2.

步骤4令k=k+1并跳转至步骤2.

步骤5重复上述步骤,遍历所有用户的轨迹数据.

步骤6得到用户的全部驻留点,即用户的出行轨迹,每2个相邻的驻留点即一次OD出行.

3.3 游客识别算法

在获取所有用户的驻留点和出行轨迹后,识别属于旅游景点内的用户.处理流程图如图3所示.

图3 游客识别流程

流程如下:

首先,确定出旅游景点的地理位置,并将其与用户的停留点进行匹配,以选择曾在其中停留的用户.

其次,重新统计用户停留时间的长度和范围,选择在景区内停留0.5~8.0 h的用户[23].

再次,由于参观景点的游客在短时间内存在 “一次游览”的规律,因此剔除符合上述条件但在景区出现1 d以上的用户,从而淘汰景点的工作人员,并将剩余的数据视为游客数据.

最后,对获得的旅游数据进行分析,提取旅游景点的游客数量及其变化规律以及游客在出行和停留期间的时空特征.

4 案例分析

在这一部分中,以北京八达岭长城景区为案例进行计算、识别与分析,并得到其景区内游客的时空特征.

4.1 景区通达性和相对连通性

北京有许多历史名胜、博物馆、艺术区、名校、繁华的商业区、游乐园和其他旅游景点.本文选取北京市所有5A级旅游景区和其他11个受游客欢迎的旅游景区,如图4所示,并对其通达性和相对连通性进行计算.计算结果如表5所示,八达岭长城景区的通达性和相对连通性最差.与此同时,八达岭长城也是世界著名的旅游景点,吸引了国内外大量游客前来参观.基于以上2个因素,本研究选取了八达岭长城作为研究对象.

图4 北京市景区分布

表5 北京市主要旅游景区通达度与相对联通性

4.2 出行OD

根据第五次北京市综合交通调查(2014),北京市居民平均出行频次为2.75次.将不同的时间阈值与距离阈值输入本文的OD算法中,将计算结果与上述调查数据进行比较.从表6可以看出,T设为30 min,D设为500 m时,出行频次与出行调查结果最接近.这也表明该OD算法的结果与实际的调查数据是一致的,从而证明了算法的准确性.

表6 不同阈值下平均出行频次的计算结果

4.3 游客时空特征

基于上述对手机信令数据的处理和对游客的识别,率先对八达岭长城景区的客流总量和客流的分时变化情况进行分析.分析结果展现景区客流的整体情况以及游客到达景区的高峰时刻,这有助于景区和旅游交通部门制定相关政策,满足高峰时段的旅游需求.八达岭长城每天的客流量约为24 000人次,其一周客流分布情况如图5所示.

图5 客流量一周波动

可以看出,八达岭长城周末的客流比平日多,其中星期六的客流量最大,达到34 000人次.由于市中心各热门博物馆会在周一进行闭馆,故周一八达岭长城的游客流量在工作日中最大[26],这也与八达岭长城景区的游客流量统计数据一致.

而由于八达岭长城远离中心城区,晚上客流很少,全天游客分布呈现单峰状态.大多数游客更喜欢在上午参观,八达岭长城的客流8:00—10:00快速增长,10:00达到一天中的最高点,之后开始下降.9:00—11:00是八达岭长城上游客数量的高峰时段.此时段,八达岭长城周边的交通压力和停车需求也将迎来高峰.

接下来继续分析游客在八达岭长城景区的停留时间,即旅游持续时间.此分析内容可展现景区内客流的黏滞性,且根据到达时间可分析景区内客流的实时存量,这将有助于景区客流的管控和疏解.图6为景区游客停留时长的分布和占比情况,可以看出,大多数游客在八达岭长城停留的时间在2~4 h,其中1~2 h游览的所占比例最大,约为1/3,并且在周末长时间游览的游客比例比平日更高.

图6 游览时长比例

以上是对八达岭长城景区内部游客数量和游览时长的分析.接下来则对游客到达八达岭长城过程中的特征进行提取.包括景区游客的出发地以及从出发地到达景区所需的时间、距离,这部分内容可用于了解景区客流的来源,在游客出发聚集区域调整旅游交通线路,加强旅游交通调度,既可以方便游客出行,提高服务质量,又可缓解旅游线路及旅游景区周边的交通拥堵问题.

以5 km为间隔划分游客的旅行距离,以10 min为间隔划分游客的旅行时间,提取不同时空范围的游客数量,游客到达八达岭长城景区所消耗的时间及距离的分布情况如图7所示.

图7 游客出行时间、距离分布

上述时间、距离分布图中,游客出行距离和出行时间呈现明显的双峰特征.短途、低时游的游客比例最大,这是因为八达岭长城地处北京郊区,部分京外游客可以直接到达.当距离达到50 km、时间消耗达到60 min时,游客数量达到第2个高峰.这一现象与八达岭景区远离市区,相当一部分游客来自北京主城区的实际情况相符.在获得了游客的旅行距离和时间后,下一步的目标是了解游客在去八达岭长城之前的出发地点.因此,进一步分析了北京游客来源地的分布情况,八达岭长城游客的来源分布特征在图8中表现得更加清晰.

图8 游客出发地分布

从图8可以看出,短途游客主要来自北京北部边界方向,长途游客分布在北京市主城区,因为大部分游客居住或会先行到达市区,然后再选择去八达岭长城景区.与此同时,周末期间从北京主城区前往八达岭长城景区的游客数量明显增加,更多的游客乘坐公交车或小汽车前往八达岭长城,这将增大周末该景区连接道路及其周边区域的交通压力.

5 结论

随着中国旅游业的发展和旅游人口的快速增长,准确掌握旅游客流及其出行特征是实现旅游交通合理化管理的迫切需要.

本研究基于覆盖广泛的手机信令数据,对景区游客进行精准识别并全面分析其出行特征.相比于过往研究,本文做到了将基于传统数据的旅游出行分析研究和以手机信令数据为基础的居民通勤出行研究相结合,弥补了大数据在旅游出行行为研究中的相对空白.本研究的贡献有3个方面.

1)基于手机信令数据识别游客及其出行行为的研究.与过往研究相比,本文在将研究对象聚焦游客的同时,提升了数据的全面性和准确性.

2)本文提出了一种游客及其出行OD的识别算法,并且以八达岭长城为例精准识别了景区游客并分析其多项出行特征.本方法具有普适性和可移植性,可在数据支撑充足的情况下完成长时段、多范围的景区客流识别及出行规律挖掘,为景区客流量预测提供基础.

3)本文对游客出行的研究结果可用于推动旅游交通的发展.微观上,可供景区了解其内部的游客客流特征与规律,避免发生景区游客聚集及危险事故;中观上,可为旅游交通线路的规划、旅游交通资源的分配、旅游客流的疏散等提供指导;宏观上,可为旅游城市宣传、旅游交通政策制定以及管理部门的科学决策提供数据支撑.

同时本研究也存在着一些局限性.一是没有对旅游者的社会属性和旅游者在不同旅游景点之间的旅行轨迹进行分析.二是本研究使用的信令数据时长为一周,难以支撑景区旅游客流的预测.今后的研究工作可以利用多源数据对游客的属性和旅游路线选择进行分析,从而实现对旅游交通的宏观调控.同时,基于时间范围更广泛的客流数据,对景区客流量进行预测,更好地支撑景区客流预警、旅游交通资源分配、旅游政策制定等工作.

猜你喜欢

信令客流交通
城市轨道交通节假日期间大客流行车组织思考与实践
基于大小交路套跑对地铁不均衡客流的可靠性分析
地铁换乘客流预警及应对
网内信令链路负荷分担不均原因研究
地铁线网客流优化配置研究与应用
浅谈JSQ-31 V5数字程控用户交换机NO.7及NO.1信令参数设定及不同
图说交通
发达交通之磁悬浮列车
阅读理解三则