APP下载

基于向量自回归模型的旅游热门景点预测方法研究

2020-08-04任婕

现代电子技术 2020年3期
关键词:旅游景点客流量热门

任婕

摘  要: 常规的预测方法变量之间的皮尔逊相关值较低,造成预测的结果出现偏差,为此,设计基于向量自回归模型的旅游热门景点预测方法。综合不同的搜索引擎数据,计算旅游景点关键词网络搜索指数,对其进行预处理并筛选出与旅游景点热度相关性较强的关键词,利用向量自回归模型对变量进行均值化处理,确定影响最大的网络搜索指数,实现对旅游热门景点的预测。实验结果表明:与常规的灰度预测方法和SVR模型预测方法相比,基于向量自回归模型的预测方法的皮尔逊相关值能够保持在0.8~1.0之间,变量之间具有极强的相干性,适合应用在旅游热门景点预测中。

关键词: 旅游热门景点预测; VAR模型; 关键词搜索指数; 皮尔逊相关系数; 搜索指数计算; 客流量预测

中图分类号: TN911.1?34; TP181                   文献标识码: A                    文章編号: 1004?373X(2020)03?0158?04

Research on popular tourist spot prediction method

based on vector auto regression model

REN Jie

(Ningxia Academy of Social Sciences, Yinchuan 750021, China)

Abstract: Since the Pearson′s correlation coefficient between the variables in conventional prediction methods is low, which leads to the deviation of predicted results, a popular tourist spot prediction method based on vector auto regression (VAR) model is designed. In combination with the data of different search engines, the internet search indexes of tourist spot keywords are calculated. The keywords are preprocessed, and those with strong correlation for tourist hot spots are screened out. The vector auto regression model is used to average the variables and determine the most influential internet search index to predict the popular tourist spots. The experimental results show that, in comparison with the conventional gray prediction method and the SVR model based prediction method, the Pearson′s correlation coefficient of the prediction method based on vector auto regression model keeps in the range of 0.8~1.0, and the variables are of strong coherence. Therefore, the proposed method is suitable for the prediction of popular tourist spots.

Keywords: popular tourist spot prediction; VAR model; keyword search index; Pearson′s correlation coefficient; search index calculation; tourist flow prediction

0  引  言

随着经济的高速发展,现代人们的生活水平不断提高,人们开始追求更高层次的体验,比如旅游。旅游行业是一个综合性的新兴行业,其突出的特点就是投入成本较少,经济价值回报较高,能够满足人们对精神层面上的需求[1]。一般旅游业具有综合性和季节性特性,可以带动文化教育业、交通运输业以及服务行业等的发展,因此应重视旅游业的发展[2]。

旅游景区因旅游人数的迅速递增,带来了可观经济效益的同时,也考验旅游景区的科学管理能力。根据大量旅游产品的调查资料,对旅游游客流量的走势进行分析,利用合理的方法对旅游热门景点进行预测[3]。目前常规的预测方法有:灰度预测、SVR模型预测法和线性回归法等,但是这些方法存在一定的缺陷,如影响因素过于单一、没有与客流量预测相关的因素、变量之间皮尔逊相干值较低、分析和筛选存在外界干扰等,缺少一定的实用性[4]。因此设计基于向量自回归模型的旅游热门景点预测方法,解决常规方法中存在的问题。

1  基于向量自回归模型的旅游热门景点预测方法

预测旅游热门景点与网民的搜索行为相关,通过关键词网络搜索指数的变化趋势,了解潜在游客前往不同旅游景点的需求和意愿,使用向量自回归模型进行预测。

1.1  计算关键词搜索指数

游客搜索某景点的相关词汇较多,使用一定方法筛选出关键词。如果关键词的数量过多,将关键词搜索指数和实际游客量作为内生变量,分析相关词汇搜索指数对实际游客量的影响,并以此预测未来的游客量[5]。大部分人在旅行前都会通过电脑或手机搜索与旅游目的地相关的关键词信息,基本都围绕着旅游六要素,也就是是“吃住行游购娱”,将其扩展开来搜索的关键词有景点、特产、酒店、交通方式和天气等[6]。以去年的数据为例,搜索引擎使用率达到了84.5%,通过互联网进行旅游相关操作的网民使用率达到了41.3%。每一个旅游景点搜索关键词都被相应的搜索引擎收录并累计,形成网络搜索指数[7]。综合不同的搜索引擎数据,根据搜索引擎指数修正,旅游景点的关键词搜索指数计算公式如下:

式中:[Qs]表示综合所有搜索引擎的旅游景点关键词的网络搜索指数;[Qi]表示个体搜索引擎的关键词搜索指数;[W]表示与[Qi]对应的搜索引擎使用率[8]。

与个体的旅游景点关键词搜索指数相比,综合的旅游景点关键词搜索指数更能准确地反映关键词在全网的搜索变化趋势[9]。

1.2  数据预处理及变量筛选

以旅游六要素为参考依据,将与旅游景点相关的小吃、酒店、地图、旅游及景点和购物作为基准关键词。围绕着设定好的基准关键词找出相关性较高的网络搜索关键词,如地图查询、购物攻略、酒店预订以及特色小吃等[10]。获取每个关键词的网络搜索指数,利用式(1)计算各个变量的网络搜索指数。完成后验证不同的关键词与该景点每个月客流量的相关性,尽可能避免伪回归现象[11]。假设包含[n]个关键词的随机变量[K=K1,K2,…,Kn],由[m]组样本数据组成,得到相对应的样本矩阵:

式中:[kij]表示第[i]个样本对应的第[j]个观测值,对其进行标准化,避免不同指标的数量级不同对预测结果造成影响。假设对样本矩阵标准化处理后的矩阵为[X],[X=x1,x2,…,xn=xijm×n] ,其中,[i=1,2,…,m] ,[j=1,2,…,n] 。则矩阵[K] 的相关系数矩阵就是[X] 的协方差矩阵[H=hijm×n] 。将相似系数矩阵与Spearman系数检验法和Pearson系数检测法相结合进行变量筛选,Pearson系数和Spearman都大于0.6的变量才是能够反映旅游六要素的变量[12]。选定的关键词及相关性检验结果如表1所示。

从表1中数据可以看出,筛选出的旅游景点关键词与景点每个月的客流量相关性比较显著。之后使用向量自回归模型实现旅游热门景点的预测。

1.3  利用向量自回归模型实现热门景点预测

以旅游景点关键词网络搜索指数与景点实际客流量的关系为依据,预测旅游景点的客流量,判断该景点是否为旅游热门景点。利用向量自回归模型将旅游景点客流量与6个关键词变量均值化后通过软件实现,获得的均值化主变量如表2所示。

从表2中可以看出,大多数均值化变量的累积贡献率超过了0.9,这就意味着该变量能够反映出原始变量的大部分信息[13]。将[a2]标記为第一综合网络搜索指数,[a3]作为第二综合搜索指数。从中提取最大特征值和次大特征值对应的特征向量:

利用向量自回归模型得到对应的网络搜索指数,表达式如下:

式中:[k1~k6]表示对应的6个关键词,观察以上内容,均值化以后的变量对第一综合网络搜索指数和第二综合网络搜索指数的解释都是负值,其中,旅游景点大全对[a2]影响最大,对[a3]影响最大的是旅游地图。从中能够看出潜在游客的搜索行为,体现了潜在游客对旅游比较倾向的搜索行为是景点大全和路线搜索[14]。因此,可以利用[a2]主变量和[a3]主变量进行预测,最大程度地反映游客对综合搜索行为与实际游客量的影响[15]。将相关数据输入至Excel软件中,利用向量自回归模型求得的景点大全和旅游地图两个相关主变量实现旅游热门景点的预测。

2  仿真实验

2.1  实验环境

选择Hadoop云计算平台作为实验环境,该平台具有较高的扩展性,能够更好地处理大量数据。使用6台PC机的小型Hadoop集群实验平台。其中,1台作为主节点,其他5台作为从节点,各个节点配置相同,参数配置如表3所示。节点之间通过100M的以太网交换机相连进行通信。

2.2  实验数据

获取游客相关属性,通过搜索平台的API获取30天内搜索过旅游景点关键词的游客信息,将其保存在HDFS分布式存储文件中,在HDFS中新建两个文本文件,一个保存游客信息,一个保存旅游景点关键词汇。将采集的数据用于预测一段时间旅游景点热度。搜索界面如图1所示。

2.3  实验内容

对于旅游热门景点的预测,与之相关的两个变量就是旅游景点关键词网络搜索系数,以及以此为依据的客流量预测,旅游景点关键词网络搜索系数越大,对应的旅游景点未来一段时间的客流量就会增大,则该旅游景点即为旅游热门景点。由此可以看出,关键词网络搜索系数与客流量两个变量之间存在着较强的关联性,符合皮尔逊相关系数分析条件,实验中首先计算皮尔逊相关值,确定关联性的强弱。皮尔逊相关值在0.8~1.0之间,变量之间具有极强相干;相关值在0.6~0.8之间时,强相干;0.4~06是中等程度相干;0.2~0.4是弱相干;0.0~0.2是无相干或极弱相干。皮尔逊相干性实验设置界面如图2所示。

在进行实验过程中,引用常规的灰色预测方法以及SVR模型预测方法进行对比实验,并根据实验结果进行分析。

2.4  结果及分析

利用基于向量自回归模型的旅游热门景点预测方法、常规的灰色预测方法以及SVR模型预测方法进行多次对比实验,获取对应的皮尔逊相关值结果如图3所示。

从图3中可以看出,常规的预测方法中灰度预测方法皮尔逊相关值逐渐降低,其波动趋势在相干值0.2~0.6之间,关键词网络搜索指数与客流量之间的关系趋向于中等程度相干偏弱相干;而SVR模型预测方法获得的皮尔逊相干值大约在0.5~0.7之间,关键词网络搜索指数与客流量之间的关系趋向于中等相干;与前两者相比,基于向量自回归模型的预测方法获得的皮尔逊相干值在0.7~1.0之间,关键词网络搜索指数与客流量之间具有极强的相干性,能够准确地对旅游景点的热度进行预测。这是由于向量自回归模型对参数不施加零约束,能够通过确定滞后期[K],使模型反映出变量间相互影响程度,有助于对旅游热门景点的预测。

3  结  语

本文利用向量自回归模型对旅游热门景点进行预测,采取均值化主变量分析对旅游景点关键词网络搜索指数进行定义,并将其与旅游景点客流量一起作为内生变量进行预测,避免与旅游景点相关的关键词较多时不能更好地使用向量自回归模型的弊端。同时,引入传统的预测方法进行对比实验,证明了基于向量自回归模型的旅游热门景点预测方法能够很好地反映游客量的变化规律,准确进行预测。但是该方法中还是存在不足之处,没有考虑到天气等外界因素对旅游热门景区造成的影响,在后续的研究中,将以此为基础进行更进一步的研究,并解决方法中存在的问题。

参考文献

[1] 李雅美,王昌栋.基于标签的个性化旅游推荐[J].中国科学技术大学学报,2017,47(7):547?555.

[2] 朱亮,张建萍.基于Bernstein Copula函数的中国入境旅游需求预测[J].旅游学刊,2017,32(11):41?48.

[3] 胡晓琴.基于支持向量机的旅游需求量预测模型[J].现代电子技术,2017,40(15):105?107.

[4] 梅梅,刘颖,唐小利,等.微博非结构化数据的情绪挖掘方法及在旅游预测中的应用[J].情报资料工作,2019,40(1):66?74.

[5] 汪威.最优组合预测线性模型在旅游需求预测中的应用:以中国大陆赴澳门游客量预测为例[J].数学的实践与认识,2018,48(12):68?77.

[6] 陈美璘,何清龙.基于熵权法混合模型的贵州省旅游人数预测研究[J].数学的实践与认识,2018,48(21):307?313.

[7] 党婷,彭乃驰.基于GM?ES?GASVR组合模型的丽江国内旅游需求预测[J].数学的实践与认识,2017,47(8):279?287.

[8] 陈荣,梁昌勇,陆文星,等.面向旅游突发事件的客流量混合预测方法研究[J].中国管理科学,2017,25(5):167?174.

[9] 段莉琼,宫辉力,刘少俊,等.基于客源地的聚类?ARIMA模型的短期旅游需求预测:以天津欢乐谷主题公园为例[J].地域研究与开发,2017,36(3):108?112.

[10] 徐翠蓉,张广海.中国文化产业与旅游业发展的交互动态响应分析[J].统计与决策,2018,34(23):145?148.

[11] 陈文捷,高雪.基于VAR模型的旅游业与区域经济发展动态关系研究:以广西为例[J].广西社会科学,2018(2):38?44.

[12] 李维维,虞虎,王新歌,等.消费需求与国内旅游消费需求的周期性波动同步吗:基于MS?VAR模型时变特征的分析[J].商业经济与管理,2018(1):49?60.

[13] 孙烨,张宏磊,刘培学,等.基于旅游者网络关注度的旅游景区日游客量预测研究:以不同客户端百度指数为例[J].人文地理,2017(3):152?160.

[14] 刘飞,李柯青,项清,等.基于大数据分析的旅游景点承载力模型设计[J].现代电子技术,2018,41(12):52?55.

[15] 郭旭东,刘永平,王远回.以旅游功能为主的城市轨道交通线路客流预测方法[J].城市轨道交通研究,2018,21(1):49?52.

猜你喜欢

旅游景点客流量热门
贫民窟也能成旅游景点?
基于嵌入式系统的商场客流量统计算法
热门智能手机应用
基于AFC数据的城轨站间客流量分布预测
旅游景点介绍的文体分析
从客流量推算公交出行PA矩阵的方法
新建旅游项目客流量分析方法初探
2009年热门特色风味小吃
本月热门产品报价