APP下载

基于社交媒体数据的旅游移动模式提取

2021-11-17孙奇张毅赵鹏飞吴梦彤

关键词:目的地旅游用户

孙奇 张毅 赵鹏飞 吴梦彤

北京大学地球与空间科学学院遥感与地理信息系统研究所, 北京 100871; † 通信作者, E-mail: zy@pku.edu.cn

人类移动模式指人群移动的时空规律, 研究移动模式有助于理解人类移动行为和城市空间结构,在城市规划和交通管理等方面具有重要意义[1]。旅游移动模式指游客离开常居地后, 在各目的地城市旅游的时空轨迹呈现的特定移动规律[2], 了解游客的移动模式对目的地营销和规划有重要意义[3‒4]。从旅游行程中提取的移动模式能够帮助旅游管理者更好地了解游客的决策行为[5]、消费习惯[6‒7]以及旅游偏好[8‒9], 甚至可以基于用户偏好的移动模式来调整营销策略[10‒11], 推出旅行产品[12], 推荐热门线路[13‒14]。

有关旅游移动模式的理论研究已经比较成熟。Mercer[15]于 1970 年首次定义旅游流的概念。Lue 等[16]对旅游路线的空间模式进行系统的分析, 并划分为单目的地模式、往返模式、基营模式、区域环游模式和完全环游模式 5 种。2002 年, Stewart 等[17]将这一模式体系称为 LCF 模型。Oppermann[18]将旅游移动模式划分为 7 种, 包括两种单目的地模式和 5 种多目的地模式。Flognfeldt Jr[19]通过研究 7 年的游客出行数据, 将旅游移动模式划分为一日游、度假游、基营游和观光游 4 种类型。Lew 等[20]定义 3 种目的地城市内部的移动模式: 点点模式、环状模式和复杂模式。Tussyadiah 等[21]开发兰卡斯特(Lancaster)模型来解释多目的地旅行套餐的最佳组合。这些理论模型为后续研究(如时空约束[22]、游客体验[23]、目的地熟悉度[24]和节点结构[25]等)奠定了坚实的基础。

研究者采用多种来源的数据进行实证研究, 通常用调查问卷和访谈的方式获取实验数据[24,26‒27]。一些研究者将 GPS 数据与访谈数据相结合, 得到粒度更细的轨迹信息和游客信息[28‒31]。地理信息系统(geographic information systems, GIS)也广泛地应用于旅游流和空间模式中[32‒33]。Yang 等[34]通过探索性的数据分析, 发现入境和国内旅游流的全局莫兰(Moran’sI)指数具有显著的空间正相关关系, 并利用 Moran 显著性水平图提取 4 个重要的入境旅游热点。

通常用一些回归模型来分析各种因素变量在旅游移动模式中的作用。Zhang 等[35]从供给侧的视角,提出一个模型来探讨并解释国际旅游流动的影响因素(如自然条件和基础设施等)。Koo 等[36]发现, 休闲旅游的移动模式选择受旅游环境影响, 而较低的机票价格会减弱旅游移动模式选择偏好的影响。Yang 等[37]使用嵌套 logit 模型来评估旅游决策的影响因素, 发现空间配置也是影响游客目的地选择的因素之一。Le-Klähn 等[38]通过一个双变量 probit 模型, 发现影响游客交通方式的多种因素, 如访问地区、教育背景和游客动机。

传统的问卷调查方法费时费力以及 GPS 设备需要回收等原因, 使得近年来研究者将更多的注意力放在目的地城市内的移动模式方面。随着 GPS 定位设备和移动互联网的普及, 收集人们的出行轨迹愈加便捷, 使大数据驱动的人类移动模式成为研究热点[1]。研究人员通过移动定位数据[39‒41]、社交媒体数据[42‒45]、旅游博客数据[46‒47]以及其他来源的数据[48‒49], 对游客的空间行为有了更加深入的了解。与传统的数据源相比, 大数据研究节省时间, 降低人工成本, 具有更高的时空分辨率[41,50]。

庞大的数据量也导致研究方法的转变。研究者通过社会网络分析和复杂网络方法, 计算得到目的地网络的中心性指数、密度、中介中心性和出度中心性[51‒53]等指标来衡量旅游移动模式的特征。网络 motif 指出现频率非常高的子图, 通常用于挖掘常见的旅游移动模式[54]。Liu 等[53]基于 twitter 数据,发现居民和游客的主要移动模式是短距离移动, 而用户均匀度呈现的“T”形核心‒外围结构可能与州际公路有关。

在基于大数据的旅游行为研究中, 根据游客流量构建目的地网络是一种常用的方法[46,51,55]。现有的研究中, 较多关注目的地城市网络体现的空间结构或目的地城市在移动模式中所处的位置, 较少关注游客群体呈现的移动模式。本文通过海量个体旅游时空轨迹, 挖掘游客在目的地城市间的不同移动模式, 着重关注旅游行为中游客呈现的移动模式。一方面, 用大数据方法验证和细化传统的旅游移动模式理论模型; 另一方面, 研究结果可以帮助当地旅游管理者了解游客的旅游行为。本文以苏州市为研究案例, 以新浪微博为数据源, 通过确定常居城市、提取游客出行行为以及识别游客出行移动模式, 提取到访苏州游客的城市间移动模式。

1 研究区域与数据

本文选择苏州市进行案例研究。苏州市以其独特的园林景观, 被誉为“中国园林之城”。苏州市又处在经济高度发展、交通高度连通的长江三角洲(简称长三角)地区, 周边上海、南京和杭州等城市都具有丰富的旅游资源, 到访苏州的游客通常会同时选择这些城市。例如, “马蜂窝旅游”中就有这样的推荐线路: 上海→苏州→乌镇→杭州。

本文采用的数据源是新浪微博数据。新浪微博是提供微型博客服务的社交网络网站, 其中主要有两种地理标注数据, 分别是地理微博(geo-tagged weibo)和签到微博(check-in weibo), 内容结构如表1 所示。签到微博是地理微博的一个子集, 其中增加了一个 POI 字段, 记录微博的签到 POI。为了尽可能地还原游客的时空轨迹, 本研究使用全部的地理微博数据。

表1 地理微博和签到微博的数据结构及示例Table 1 Data structure and example of geo-tagged weibo and check-in weibo

根据新浪地理微博的抓取策略, 首先选择一个城市(苏州), 然后抓取苏州市的 POI 数据。在此基础上, 抓取苏州市的签到微博, 从而得到签到用户。最后, 抓取苏州市签到用户在全球的地理微博。我们共采集苏州市 171045 条 POI 数据, 并据此获取 2710510 条签到微博, 涉及 748847 名用户。根据这些用户信息, 提取到分布在全球的 48409276 条地理微博。

2 研究方法

本文提出的从社交媒体数据中提取旅游移动模式的处理流程包含以下 4 个步骤。

1) 反向地理编码: 根据地理微博的经纬度坐标, 得到用户发布微博时所在的地市级行政区。

2) 确定用户常居地: 根据用户的地理微博发布时间序列, 计算得到用户最可能的常居城市。

3) 提取旅游时空行为: 基于空间移动、时间间隔和狭义旅游等规则, 对用户的地理微博时间序列进行划分, 并提取游客的时空行为数据。

4) 识别城市间的移动模式: 对旅游行为进行形式化表示, 并提取其中出现的旅游移动模式。

2.1 用户常居地的确定

世界旅游组织将旅游定义为基于观光休闲目的, 离开常居城市, 去往他处短暂逗留(不超过一年)的活动[56]。因此, 识别常居城市是研究旅游移动模式的重要前提。中国大陆共计 333 个地市级行政区, 本文采用信息熵来衡量各个城市成为游客常居城市的可能性。对于一个特定的用户U, 通过反向地理编码得到该用户到访的城市集合C={c1,c2,…,cn}。对于每个城市ck, 得到该用户在该城市发布的微博总数Nk。用nk,m表示该用户m月份在城市ck发布微博的总数, 并用以下公式计算熵值Ek:

根据信息熵的原理, 数据分布越均衡, 熵值越大; 用户在常居城市停留时间最长, 在全年范围内的微博数量分布会更加均匀, 所对应的信息熵值最大。因此, 最大熵值对应的城市就确定为用户的常居城市。

2.2 旅游行为的提取

确定常居城市后, 需要对用户的连续微博序列进行划分, 得到该用户的若干次旅游出行时空行为。本文采用以下 4 个规则划分用户的旅游行为。

1) 常居地规则: 根据世界旅游组织的定义, 旅游行为发生在游客离开惯常环境情况下。因此, 我们规定游客的旅游活动发生在常居城市之外。如果常居城市出现在游客的城市序列中, 那么这个序列就会从常居城市处被分隔开, 即如果常居地出现k次, 则用户的微博序列将被划分为k+1 个子序列。

2) 时间间隔规则: 用时间间隔阈值来衡量相邻两条微博是否属于同一次出行行为。如果相邻两条微博的时间间隔超过给定的阈值, 那么就假定游客已结束当前出行行为, 并开始下一次出行行为。采用时间间隔阈值这一参数, 可以防止用户返回常居城市但未发布微博而导致序列过长的情况。本文将时间间隔阈值设定为 3 天。

3) 简化规则: 合并出行行为中连续的同一节点, 即相同城市。

4) 旅游规则: 国内将旅游分为广义旅游和狭义旅游[57]。广义旅游指离开常居城市, 在他处短暂逗留的所有活动; 狭义旅游则规定短暂逗留活动中必须包含游憩活动。本文采用狭义旅游的概念, 规定用户在出行过程中至少到访过一个景区, 该次出行才是旅游行为。如果其行程未包含景区, 则用户在该次出行中不是游客身份, 该次出行也不是旅游行为。

常居地规则给出空间约束条件, 时间间隔规则给出时间约束条件, 简化规则减少出行行为表示的复杂度, 旅游规则给出出行动机的限制。通过上述4 个规则, 可以从社交媒体数据中提取游客的若干次出行, 即旅游时空行为轨迹, 将其表示为目的地城市的时间序列。

下面以一个用户的行为为例, 说明如何从游客的微博序列中划分出多个出行行为(Trip)。如图 1所示, 从 20 天的时间线上可以提取 3 次出行行为。第 1 次出行中, 虽然用户在第 3 天和第 7 天没有发布微博, 但处于时间间隔规则允许的范围内, 因此这段出行是连续的。第 2 次出行中, 用户在第 9 天和第 12 天返回常居城市, 因此该次出行只包含第10 天和第 11 天。第三次出行中, 虽然用户在第 16天后没有返回常居城市, 但超过时间间隔的阈值,因此该次出行在第 16 天后结束。最终, 每次出行(Trip)都可以表示为如下形式:

图1 以某个用户的微博序列为例, 进行行为划分Fig. 1 A user’s weibo timeline, used as an example

其中,R是用户的常住城市;ci是行程中第i个目的地城市, 与ci+1表示的城市不同。

2.3 城市间旅游移动模式的识别

对提取的旅游行为, 需要用统一的形式表示。本文用有向图表示游客旅行过程中的城市序列: 用有向图中的节点表示游客的常居城市和目的地城市, 用节点之间的有向边表示游客在相邻两个城市间的移动行为。根据当前行为中游客到访目的地城市的先后顺序, 确定有向图中节点的序号。例如,序号为 1 的节点表示游客到达的第一个目的地城市。

然后, 将有向图转换成一个邻接矩阵。为了便于存储, 将方阵按行展开, 转换为二进制字符串,最后转换为十进制值, 作为唯一图 ID (GID)。旅游移动模式的表示方法如图 2 所示。

在利用有向图抽象地表示游客在常居城市与目的地城市间移动的拓扑关系基础上, 识别旅游行为的移动模式。在有向图中, 只保留游客访问节点的顺序关系, 不保留节点的其他信息(如城市名称等)。将游客的旅游行为表示为对应的 GID, 相同的GID 即为同一个模式。例如, 两个游客分别有旅游行为“北京市‒上海市‒苏州市‒北京市”和“上海市‒无锡市‒苏州市‒上海市”, 这两种行为都可以表示成图 2(a)中的节点关系, 即从常居地出发, 访问两个不同的城市后, 返回常居城市。虽然两个行为中包含的城市不完全相同, 但其拓扑结构相同, 属于同一个移动模式, 即 GID=140 的模式。

图2 不同的旅游移动模式表示方法Fig. 2 Different representation methods of travel movement patterns

3 研究结果

3.1 旅游行为数据

根据旅游的定义以及社交媒体的稀疏性特征,本文选择符合以下 3 个条件的用户作为研究对象:1) 非苏州市居民; 2) 在常居城市至少发布 50 条微博; 3) 在出行过程中至少到达过一个景区。我们共得到 58720 个用户。从这些用户中提取 88270 个旅游时空行为, 如表 2 所示。随着目的地城市数量的增加, 出行次数迅速减少, 相应的平均旅行天数不断地增加。大多数旅游时空行为只有一个目的地城市, 其平均逗留时间为 1.1 天。

表2 按目的地城市数量划分的出行数量和平均旅行时间Table 2 Quantity and duration of trips with different number of destination cities

3.2 城市间移动模式

从 88270 个旅游时空行为中识别出 853 种城市间移动模式。选择出现频次超过 25 次的模式作为频繁模式, 最终识别出 36 种旅游移动模式。目的地城市数量是影响游客旅游行为及移动模式的重要因素, 目的地的数量会影响游客的出行规划(如全程旅行天数)。因此, 尽管一些模式之间仅在目的地城市数量方面存在差异, 但本文都单独进行表示(图 3)。

根据 LCF 理论模型, 按照拓扑结构特征, 可以将图 3 中 36 种旅游移动模式分为 5 类。

图3 36 种旅游移动模式的识别结果Fig. 3 Recognition results of 36 travel movement pattern

第 1 类(模式1): 单一目的地模式。该模式是最简单的一种旅游移动模式, 仅由常居城市和单个目的地城市组成, 是苏州旅游行为的主导模式, 占总数的 76.62%。

第 2 类(模式 2 和 3): 往返模式。该模式在路径上具有往返特性。第一个目的地城市通常具有交通枢纽的功能。从常居城市到第一个目的地的距离一般较远, 而目的地城市之间的距离较短。往返模式中目的地城市数量较少, 只有两个子模式与之匹配,分别包含两个和 3 个目的地城市。

第 3 类(模式 4): 基营模式。该模式的特点是以一个目的地城市为基地, 将游客的常居城市与其他几个目的地城市连接起来, 整体上呈放射状。基营模式通常出现在经济不发达地区, 游客需要选择区域中接待要素聚集的相对发达的城市作为基地。苏州市所处的长三角地区经济较发达, 该模式数量很少。

第 4 类(模式 5~10): 区域旅游模式。该模式的特点是门户目的地(游客离开常居城市后到达的第一个目的地[58])和离开目的地(游客返回常居城市之前到达的最后一个目的地)是同一个城市, 称为枢纽目的地。其他目的地和枢纽目的地形成一个单向环路。通常, 枢纽目的地是本地区交通最便利、经济最发达的城市(如长三角地区的上海市)。区域旅游模式更加多样化, 包括 6 个子模式。其中, 模式7 (GID=9054244)比较特殊: 游客首先按照往返模式到达第 2 个目的地城市, 进行一次区域环游, 最后返回第 2 个目的地城市。可以将该模式视为往返模式与区域旅游模式这两个简单模式的组合。

第 5 类(模式 11~36): 完全环游模式。该模式的特点是门户目的地和离开目的地是不同的城市, 且所有目的地大致形成一个单向环路。实验结果中多目的地城市的旅游行为大多属于该模式, 并表现出更多的形态, 大致分为单环型、单环+支路型和双环型 3 个亚型。

单环型(模式 11~15, 18, 24, 31 和 33~36)对应LCF 模型中的简单单环类型, 有多个子模式, 目的地城市数量为 2~10 个, 目的地城市之间可能出现往返现象(模式 12, 14 和 15)。

单环+支路型(模式 16, 17, 19, 20, 23, 25, 26, 28,30 和 32)是简单单环型与往返模式和基营模式相结合, 在完全环游的过程中, 游客以其中一个目的地为城市基地, 到达另一个独立目的地城市后返回,继续完成环游。单环+支路型子模式之间的差异除与目的地城市数量有关外, 还与基地城市在环路中的绝对位置有关。

双环型(模式 21, 22, 27 和 29)是区域环游模式与完全环游模式相结合, 游客在一条大型环路上进行局部环游。双环型中子模式的拓扑结构比其他类型复杂, 随着目的地城市数量和拓扑复杂度增加,对应模式的出现频率逐渐降低。

根据数据采集方式, 游客肯定访问过苏州市,即本文识别的模式是到访苏州游客的城市间移动模式。表 3 显示到访苏州的旅游行为中单目的地、往返、基营、区域旅游和完全环游 5 类模式的数量和比例, 可以看出, 单目的地旅游移动模式超过 70%,是苏州游客的主导模式, 客源主要来自周边城市,特别是上海; 多目的地移动模式中, 完全环游模式占绝对优势(18.26%), 其次是区域旅游模式(2.13%),选择往返模式和基营模式的行为总计只有 1%左右。另外, 出现更复杂的旅游移动模式, 可以用多个简单模式的组合来解释。虽然旅游移动模式多种多样, 但游客倾向于选择简单的路线旅行。在目的地城市数量确定的情况下, 选择不同拓扑形式的游客数量排序为单环型>单环+支路型>往返型, 符合以较低的成本游览更多目的地的游客消费心理。

表3 不同移动模式的行为数量和比例Table 3 Number and proportion of different movement patterns

4 结束语

本文提出大数据驱动的旅游移动模式提取方法, 其中两个核心部分为旅游行为提取和城市间移动模式识别。旅游行为提取方法结合社交媒体数据的特点, 基于时空约束及旅游规则, 精准地获取游客的出行行为。城市间移动模式识别方法则通过有向图表示城市间的拓扑结构, 发现游客的移动模式。从新浪微博数据中提取88270 个到访过苏州的旅游时空行为, 并从中识别出 5 大类 36 种城市间的频繁移动模式。与基于小数据的研究[24,59]相比, 基于社交媒体数据的研究具有数据量大、时间跨度长等优势, 得到的旅游移动模式类型更加丰富, 模式表示更加细粒度。

通过社交媒体提取的到访苏州游客的城市间旅游移动模式覆盖 LCF 模型中全部 5 类简单移动模式, 验证了 LCF 理论模型。同时, 实验结果中出现由简单模式组合形成的复合旅游移动模式, 表明游客不是单纯地遵循一个简单模式在目的地城市之间流动, 可能会出于不同的动机, 甚至综合多个动机,对旅游线路有不同的选择, 形成复杂的城市间移动轨迹[16]。本研究验证、细化并丰富了 LCF 模型中的旅游移动模式类型。

受多种因素的影响, 本研究中旅游移动模式的选择与以往研究结果[5,11,22,60]存在差异。到访苏州游客的城市间移动模式中, 单目的地模式占据主导地位; 多目的地模式中, 完全环游模式占据主导地位。这种模式选择差异是目的地城市的区位、社会经济水平、旅游资源配置、文化差异、旅游动机和旅游时间等因素影响的结果[16]。选择单目的地模式的客源以周边城市为主, 旅游动机主要是周末休闲度假; 选择多目的地模式的客源以远距离的城市为主, 旅游动机主要是观光[61]。

社交媒体为旅游行为研究提供了新数据源, 通过社交媒体大数据得到的频繁旅游移动模式能够更全面更精准地描述游客在目的地城市间的移动行为, 有助于旅游决策者把握游客动向及偏好, 调整目的地营销策略, 优化旅游资源配置, 为游客提供更好的服务, 也有助于旅游管理者快速地获取目标人群, 进行精准营销。例如, 可以针对热门的单目的地旅游移动模式, 推出苏州深度游、休闲多日游等旅游产品; 可与周边城市联合营销, 根据多目的地旅游移动模式中枢纽城市的位置, 精准地投放联合营销广告, 设计环型旅行线路来推动区域旅游发展; 同时, 可以根据群体的频繁移动模式, 将热门线路推荐给其他旅游者, 减少游客出行前和出行中的决策时间, 提升旅游体验。

社交媒体驱动的旅游移动模式研究存在一些局限性: 1) 只使用社交媒体数据, 不能完整地刻画整个游客群体, 存在数据偏差问题; 2) 社交媒体不能精准地刻画用户的完整移动过程, 存在数据稀疏性问题。未来研究中, 需要将社交媒体大数据与其他数据(如信令数据等)相融合, 更快速、更准确地获取不同类型游客的精准移动轨迹, 以期得到更加精准的旅游移动模式。

猜你喜欢

目的地旅游用户
基于用户和电路的攻击识别方法
2021少儿出版用户触达能力指数
恋爱中的城市
迷宫弯弯绕
动物可笑堂
信用卡资深用户
旅游
出国旅游的42个表达
户外旅游十件贴身带