基于网络搜索数据的平遥旅游客流量预测分析

2016-11-25靳鑫元罗珊

时代金融 2016年27期

靳鑫元+罗珊

【摘要】本文基于百度指数进行旅游关键词的挖掘，运用决策树、bagging、随机森林和支持向量机四种算法模型对旅游关键词与平遥古城游客流量关系进行分析，并比较了各模型的拟合度、稳定性及预测效果。实证研究发现，随机森林模型稳定性最好，SVM模型拟合和预测效果最好，因此SVM模型可以作为最终的平遥古城客流量预测模型。

【关键词】平遥古城百度指数机器学习预测

一、引言

近年来，我国旅游产业规模不断扩大，平遥古城作为中国境内保存最完整的古代县城与票号文化发源地，游客量快速增长，逐年增加的游客对古城承载力及景区建设提出了更高要求。与此同时，随着互联网技术的发展以及大数据时代的到来，旅游信息传播形式、游客信息搜索方式、旅游消费行为等均发生了巨大改变。许多旅游经营者、旅游企业及政府机构都通过互联网平台发布旅游信息，随之互联网平台也成为广大游客出游的重要信息来源，相应产生的网络搜索数据则逐渐成为高质量的游客旅游搜索行为数据库。2011年百度推出的百度指数可以直接、客观地反映某特定时间段内的社会热点、用户兴趣和需求，并且实证表明利用百度指数这一网络搜索指数进行预测克服了传统预测中存在的数据滞后以及数据量不足的缺陷，结果更为准确、更具时效性。因此，本文依托百度指数的时效性，挖掘旅游网络关注度和实际旅游需求的关系，预测景区客流量，对指导旅游管理部门做出科学、合理的决策安排，促进旅游可持续发展具有重要意义。

二、指标选取与数据

（一）指标选取

根据指标选取理论的分析可知，用户搜索行为反映了用户近期行为，但由于搜索用户的异质性，不同用户对某一事物的关注度有所不同，从而使得搜索关键词也具有多样性，且关键词应包含与目标事物相关的各个方面。因此，本文在已有文献基础上，根据相关旅游经验及人们外出旅行时的主要考虑因素，即衣、食、住、行、游5个方面，通过百度指数“趋势研究”和“需求图谱”两个模块来进行关键词的提取，这5个方面涵盖了平遥天气、平遥牛肉、平遥古城住宿、平遥古城门票、平遥古城旅游攻略等多方面信息。本文将这5个方面的相关词作为初始关键词，运用百度关键词挖掘进行关键词搜索，从而得到最终的关键词指标。

（二）数据说明

本文的关键词数据是利用网络爬虫技术从百度指数网页源代码中提取得到的。在利用初始词进行关键词搜索过程中，剔除没有数据对应和数据量很少的关键词，最终得到57个关键词从2011年12月到2014年12月共162周的数据。平遥古城旅游客流量数据来自山西省旅游局，选取的时间区间为2011年12月至2014年12月，共37个数据。由于我们得到的关键词数据为周度数据，而本文研究的是月度数据，所以要对关键词数据进行处理，将周度数据转化为月度数据，即按照日历中各月周数进行加总，将每月最后几天数据按所在周的天数作为权重，将该周的数据按权重分配到相邻月中，最终得到37个月的搜索指数数据。

三、实证分析

首先对模型拟合和预测有两点说明：一是拟合样本区间为2011年12月到2014年10月，共35个数据，用于预测检验的样本区间为2014年的11月到12月2个月的数据。二是在模型拟合效果的比较上，本文引入MSE和NMSE两个指标，分别代表模型的稳定性和拟合度。

（一）搜索关键词确定

首先，利用简单手动筛选，观察所有关键词数据，将趋势变化不明显或几乎无变化趋势的剔除；然后，利用Pearson相关系数筛选，分别计算各关键词与因变量的Pearson相关系数，将相关系数小于0.6的剔除；最后，利用线性回归筛选，并诊断回归的多重共线性和自相关，利用逐步回归及AIC准则选出最终的4个关键词：平遥古城旅游攻略、平遥古城地图、山西旅游景点大全、平遥住宿。

（二）模型估计

在筛选关键词过程中，我们构建了一个线性回归方程，回归估计如下：

从回归结果看，总体拟合效果较好，变量系数均通过显著性检验，因此该线性模型似乎具有较好预测效果。但为进一步考察模型假设是否成立，我们进行残差的Shapiro-Wilk正态性检验，并且刻画了因变量直方图及对应的线性分布图，检验结果均表明因变量不服从正态分布，因此本文利用线性回归进行模型模拟时并不能满足其对因变量分布的假定，从而会产生较大误差，影响拟合和预测效果。

故本文采用了对数据分布没有任何假定且结果可用交叉验证方法来评判的四种机器学习方法进行模型拟合及预测，并比较了决策树、bgging、随机森林、支持向量机这四种算法模型的拟合度、稳定性与预测效果。

（三）模型结果分析

使用以上四种算法估计模型，计算出各模型的MSE和NMSE，结果见表1。

从模型的拟合度和稳定性来看，回归树和Bagging都存在明显不足，其MSE和NMSE 值均大于另外两个模型，回归树模型在所有模型中拟合效果最差。而随机森林和支持向量机（SVM）这两种模型的效果较好，其中随机森林的拟合度和稳定性最佳，SVM模型的拟合度较好，但模型稳定性不佳。最后分别用以上算法模型对样本期外两个月的客流量进行预测，并将其与真实值对比，计算其平均误差率，结果见表2。

如表2所示，模型拟合效果较差的回归树和bagging的预测效果仍不理想，平均误差率分别达到了11.55%和7.18%，与真实客流量数据相比存在较大偏差。同时，拟合效果最佳的随机森林预测效果并不理想，其平均误差率达8.54%，甚至差于bagging。而SVM模型的平均误差率仅有1.46%，具有较好的预测效果。分析原因，笔者认为可能是由于bagging、回归树、随机森林三种算法模型的分类原理本质上源于归纳算法，这类模型在结构复杂的数据集上学习能力和适应性不够强，有效性和伸缩性不足，而SVM则采取了与传统模型不同的思想，具有较强的泛化能力，所以预测结果与实际较为接近。

四、结论

本文在分析旅游客流量和百度搜索指数关系的基础上，运用一系列方法筛选出与旅游客流量相关性最高的四个关键词，并运用回归树、bagging、随机森林和SVM四种机器学习算法模型对客流量数据进行了拟合和预测。研究具体结论主要有三点，一是主要或潜在游客主要通过对“平遥古城旅游攻略”、“平遥古城地图”、“山西旅游景点大全”、“平遥住宿”等关键词的搜索来获取平遥古城旅游信息。二是回归树、bagging、随机森林和SVM模型中，拟合效果最好的是随机森林和SVM模型，稳定性最好的为随机森林模型，回归树、bagging的拟合度和稳定性都较差；预测效果最好的为SVM。因此，综合拟合度、稳定性和预测效果可知，SVM模型的整体效果最好，可以作为最终的平遥古城旅游客流量预测模型。三是利用关键词的百度指数来对平遥古城旅游客流量进行预测，可以在每月月底得到较为准确的数据，这比相关部门公布的数据提前了15天左右，具有较高的时效性。

参考文献

[1]Choi H，Varian H.Predicting the Present with Google Trends[J].Economic Record，2009，88（s1）：2-9.

[2]黄先开，张丽峰.百度指数与旅游景区游客量的关系及预测研究——以北京故宫为例[J].旅游学刊，2013，28（11）：93-100.

[3]殷杰，郑向敏.基于VECM模型的景区网络关注度与旅游人数的关系研究——以鼓浪屿为例[J].福建农林大学学报，2015，18（5）：68-75.

作者简介：靳鑫元（1991-），女，汉族，河北保定人，硕士，山西财经大学统计学院研究生，研究方向：应用统计、数据挖掘；罗珊（1992-），女，汉族，贵州遵义人，硕士，贵州大学经济学院研究生，研究方向：商业银行经营与管理。