APP下载

基于文本挖掘的典型旅游网站的旅游分享研究

2020-04-22林毅焜

价值工程 2020年8期
关键词:文本挖掘陕西省

林毅焜

摘要:旅游分享近些年来作为旅游管理研究的新方向,受到很多旅游管理学家的广泛关注。本文选取四个典型旅游网站——携程网、马蜂窝网、去哪儿网、途牛网作为研究样本,采用文本挖掘的方法,选取四大旅游网站上有关陕西的旅游游记作为研究内容,对游记中的词频、情感和语义网络进行分析。研究结果表明:具有典型旅游符号标记且充满历史文化底蕴的景点最受来陕西游客的喜爱。来陕旅游者的情感类型以积极情绪为主,消极情绪所占的比例较小。陕西省旅游景点景区的社交网络中心度较低,语义社交网络结构较为松散,一半以上的景点景区对相邻的旅游资源控制力较小,不存在景点景区集群现象。

Abstract: Tourism sharing, as a new direction of tourism management research in recent years, has received extensive attention from many tourism management scientists. This article selects four typical travel websites-Ctrip.com, Ma.com, Qunar.com, and Tuniu.com as research samples. Using text mining methods, this article selects the travel notes related to Shaanxi in four major travel websites as research content and analyzes the word frequency, emotion and semantic network in travel notes. The research results show that the scenic spots with typical tourist symbols and full of historical and cultural heritage are most popular with tourists from Shaanxi. The sentiment types of tourists coming to Shaanxi are mainly positive emotions, and the proportion of negative emotions is small. The social network centrality of tourist attractions in Shaanxi Province is relatively low, and the semantic social network structure is relatively loose. More than half of the tourist attractions have less control over neighboring tourism resources, and there is no cluster of tourist attractions.

关键词:陕西省;文本挖掘;典型旅游网站;旅游分享

Key words: Shaanxi Province;text mining;typical travel website;travel sharing

中图分类号:F590.3                                      文献标识码:A                                  文章编号:1006-4311(2020)08-0243-05

1  研究背景与问题的提出

随着我国旅游经济的迅速发展,我国大部分拥有丰富旅游资源的省市希望通过发展其旅游业来促进经济社会的发展,在此大背景下,新老旅游省份之间的竞争也日益激烈。在互联网时代,越来越多的旅游者通过查询旅游网站相关攻略完成旅游过程(游前游中进行旅游景点的确定和服务搜寻,游后进行旅游分享或评价)(田逢军 2019)。[1]各大旅游网站向旅游者提供将旅游攻略或者点评分享出去,表达自己对旅游地情感态度的途径,但是各个文本都是分散的,人们只能看到一篇篇攻略却不能整体了解旅游地的受欢迎程度。旅游地的负面评价也难以整体呈现出来给政府或者景区有关部门进行改正,对旅游者在旅游网站上分享的网络游记文本进行研究,可以了解旅游者对旅游目的地的需求和偏好。景点通过满足旅游者的需求增强自身的吸引力。本研究以陕西省为例,通过对各大旅游网站上的互联网旅游大数据进行挖掘分析,对陕西省网络旅游形象进行定量评价,找出陕西省旅游业发展的不足之处(王昕天,汪雷 2017)。[2]在此基础上,提出相应的对策建议,为互联网时代陕西省旅游发展提供参考。

2  国内外旅游分析文献综述

自2006年Scott Noel等人系统性定义旅游与酒店业相关知识分享的概念以来。[3]旅游分享一直是国内外学者研究的热门话题。Lon M J(2009)等指出,旅游者会根据自身对旅游目的地的个人看法,对分享社区的忠诚程度决定是否进行旅游分享行为。[4]Serena Volo(2010)通过搜寻旅游者旅游期间发表的博客对其分享的旅游体验进行了研究。[5]Park(2012)等对不同国家且不同文化背景的人群进行了调查研究,研究表明文化背景不同的人群采取的旅游分享行为也大不相同,主要体现在分享渠道和形式方面;[6]Anil Bilgihana(2016)等通过研究旅游者在虚拟社区的旅游分享行为中指出实用性感知和诚信感知对旅游者的旅游分享行为有着正向预测作用。[7]近些年来,国内学者也展开基于中国情境下旅游分享的研究。苗学玲(2006)对网络上各种旅游主帖进行分类研究,研究表明旅游分享帖,经验帖可以表达旅游者对旅游目的地的偏好和情绪。[8]苗学玲、保继刚(2007)通过挖掘旅游者在博客、百度贴吧等分享的结伴帖子,研究旅游者在虚拟社区寻找结伴的行为,研究指出分享行为对旅游者结伴旅行有着积极的影响。[9]陈雅茜(2012)采用系统调查的方法对旅游网站发布的相关旅游信息进行搜寻,研究并提出了基于相册的旅游体验分享原型系统;[10]欧阳震青、彭润华(2015)在MOA理论基础上架构了知识分享模型,研究了旅游者在移动UGC环境下的旅游经验知识分享行为;[11]胡传东(2015)等通過对网络游记文本进行内容分析,对旅游者在风景道上的骑行体验进行研究。[12]

目前,旅游管理学家主要采用系统调查,问卷调查等较为传统的方法研究旅游知识分享、体验分享和虚拟旅游社区分享帖。但传统旅游调查容易受时间、地点、问卷设计等问题的限制,不能客观的反应出旅游者的旅游情绪与感受。而网络游记作为一种网络文本用于旅游者行为研究时,样本内容更加真实,提高了研究的信度和效度(张艺镒,柯彬彬,苏欣慰 2014)。[13]同时,采用文本挖掘对旅游分享进行研究跟传统的研究方法相比,前者在抓取数据上具有较大的灵活性。本研究拟采用文本挖掘方法开展典型网站旅游分享研究,为潜在的来陕旅游者提供相应的帮助和对陕西旅游景区的发展决策提供建设性的意见(王耀斌,杨玲,孙传玲,蒋金萍 2017)。[14]

3  研究方法与过程

3.1 典型旅游网站样本选取

Alexa排名在业界被作为评价网站访问量的权威指标,基于Alexa排名,本文截取六大典型旅游网站在2019年3月到6月的日均访问量进行数据收集,数据如表1所示。携程旅游网是目前国内Alexa排名最高的旅游网站,日均IP浏览量达到71.92万,马蜂窝旅游网以重视旅游游记分享而著称,其日均IP浏览量占百分比也达到25.37%,飞猪旅游网Alexa排名指标虽然排名第三,但飞猪旅游网的旅游分享游记大多为国外著名景点的分享与本文陕西省文本分析的主题不符合。因此本文舍弃飞猪旅游网作为我们的数据样本。途牛旅游网日均IP访问量所占百分比和访问量都要高于驴妈妈旅游网站,样本文本的质量也达到我们所需。基于此,本文选取携程旅游网、马蜂窝网、去哪儿网、途牛旅游网这四大网站作为获取旅游分享文本数据的典型网站。

3.2 文本内容的获取以及处理

本文分别在携程、马蜂窝、去哪儿、途牛四大旅游网站上收集和筛选有关陕西省地区及旅游景点景区的游记。在收集游记过程中本文遵循下列三个原则:①剔除网站自身员工以旅游顾问名义发表的一些虚假性文章;②选取的游记内容必须要信息完整并能真实地反映旅游者的旅游体验与感受,剔除一些仅有少量文字或只有大量照片的游记;③删除在多个旅游网站重复发表的游记。首先将抓取游记的时间定在2019年1月至2019年12月,利用以上三个原则进行筛选,选取有关陕西省旅游目的地和景区景点的网络游记共412篇,共11512178字。其次,将收集到的游记文本利用word对进行地名的统一化处理,方便后面数据的处理及分析,如兵马俑统一名称为秦始皇兵马俑、古城墙统一为西安古城墙等。第三为了方便ROST CM 6软件对文本的识别分析,将修正完成的word文档转为txt文本。第四利用ROST CM 6软件对文本的数据词频进行分析,将获得的词汇频数分析结果进行词汇过滤,筛选过滤出一些游记文本中常见但与旅游者分享的内容无关的表达词(如:吗、去哪、在哪等等),提高数据词频分析的相关性。

3.3 社会语义网络中心度

网络中心度是衡量整个网络中心化程度的重要指标,中心化程度越高,越容易获取资源与信息,拥有的权力和影响力就越大。计算公式为:

4  研究结果

4.1 网络游记文本的词频整体分析

通过ROST软件对收集到的网络游记文本进行高频特征词分析,统计得到各旅游网站高频词各20个(表2)。从收集到的412篇游记中提取出来的词汇可以归纳为四个类型。如名胜古迹型(秦始皇兵马俑、西安古城墙、大雁塔、华清宫)、自然奇观型(靖边波浪谷、秦始皇兵马俑、华山、壶口瀑布)、城市风景型(西安、汉中、古镇、大唐芙蓉园)、美食型(回民街、小吃)。陕西作为旅游大省,名胜古迹分布集中且各具特色,不仅拥有丰富的自然奇观型景点旅游区,而且还拥有众多的红色景点。还有以西安为代表的古城风光,以回民街为代表的陕西美食,高频特征词统计的类型正好印证了这一点。

从表2中词频统计可知,词频在600以上的数据有7个,其中西安的词频为2597,是网络游记文本中频数最高的特征词。西安富集了众多优质的旅游资源,再加上旅游网站的重点宣传,使西安成为来陕西旅游的必游之地。历史的词频为828,位居第二,陕西作为文化古都,拥有着一大批历史文物以及旅游景点,陕西旅游也致力于以历史、文化悠久来打造其文化旅游品牌。此外西安古城及一些歷史文化建筑进一步加深了旅游者对陕西历史文化悠久的印象。陕西历史博物馆、华山、西安古城墙、秦始皇兵马俑、大雁塔五个高频词的频数介于620-810之间,是来陕旅游者关注的热门旅游景点。事实上,名胜古迹型景观作为陕西省独特的旅游文化品牌,已引起了来陕旅游者的浓厚兴趣。词频介于270-510的中频特征词有5个,文化的词频最高,表明旅游者对文化旅游的日渐关注和对陕西有较高的文化认同感。近几年来陕西省着利于利用自身的旅游资源来塑造自身的文化旅游品牌例如以西安古城、大雁塔、华清宫等为代表的西安古城文化,以延安红色圣地为代表的红色革命文化。此外,拥有较高知名度的回民街、西安鼓楼、西安钟楼和华清宫词频较低,可能与去景点景区的交通线路过于拥堵或较少、景区配套设施不够完善、体验感较差有关。旅游者对回民街、西安鼓楼、西安钟楼和华清宫旅游的认知较弱。词频在245以下的低频特征词有8个,有着靖边波浪谷、延安、秦岭这些著名景点。可能与景区旅游形式单一、景区内部蕴含的独特文化内涵没有得到有效的挖掘有关。秦岭并非陕西独有,河南、安徽等省份也在发展秦岭文化旅游品牌,所以,大多数旅游者对秦岭旅游的认知程度偏低。整体而言,具有典型旅游符号表征且处于核心资源的名胜古迹型景点最受来陕旅游者的关注。

4.2 旅游网站文本情感分析对比

网络游记文本情感分析是借助ROST MT6软件的情感分析功能进行分析。由于中性情绪无法反映出旅游者对旅游目的地的偏好,所以本研究在分析时不考虑旅游者的中性情绪。如表3所示:从整体上来看,共有780条积极情绪所占比例为49.68%,消极情绪158条所占比例为10.7%。整体而言来陕西省旅游者的情感态度大多数以积极情绪为主,表明以陕西省作为旅游目的地对大多数旅游者有着积极的吸引力,这与前面表2旅游文本词频分析的结果相符合。从各个网站情感分析来看,途牛网有100条体现旅游者积极情绪的游记词条,占比98.4%,是四个网站中积极情绪占百分比最多的网站;马蜂窝网有248条体现旅游者积极情绪的游记文本,占比为45.34%,是四个网站中占比最低的。研究表明:积极情绪在各旅游网站中占比较大。但其中体现旅游者消极情绪的游记文本也同样存在,且在携程网、蚂蜂窝网和去哪儿网中占有一定比例。蚂蜂窝网有74条体现旅游者的消极情绪,数量在所有网站中排名第一,根据该网站的相关游记,有一部分旅游者对陕西省旅游景点相关配套服务以及基础设施的相对滞后存在着不满情绪。例如:前往景区的交通线路较少且交通拥挤、景区门票较高。

4.3 典型旅游网站社会语义网络分析

通过对社交语义网络多层次进行分析,可以发现隐藏在游记文本中语义信息和剖析语义文本中各部分组成之间的关系(李亚婷,马费成 2012)。[15]

社会语义网络中心度分析:借助ROSTCM6软件以及公式(1)-(3)对陕西省旅游景点进行分析如图1所示,西安的绝对点度中心度和中间中心度最大,处于社交网络的核心,说明西安与陕西其他景区相比共现次数最多,与其他景区相比西安富集更多优质的旅游资源,对旅游者的吸引力最大,西安与其他景区相比对临近旅游资源具有较高的控制力。其次兵马俑和鼓楼、博物馆的绝对点度中心度和中间中心度也较高,处于社交网络的次核心。资源控制力较弱于西安但高于陕西省其他旅游景点。统计发现,黄河、壶口瀑布、索道、西峰等景点的中心度太低以至于游离在整个图形外面。西峰、壶口瀑布等,这些景点拥有较高的资源控制力,但这些景点与其他景点的共现的节点较少且缺乏关联,导致接近中心度较低。

社交语义网络凝聚子群密度分析:凝聚子群密度能对网络中小团体现象的严重程度进行判断,密度越接近于1,则旅游景点景区之间小团体现象就越难产生。由图1可知陕西省的旅游景区之间彼此相互关联较为松散。社交语义网络凝聚子群的密度为0.10123,表明陕西省各旅游景点在社会语义网络中不存在小团体的现象。处于同一子群内的各个景点相互之间联系较不紧密,再者出现紧密联系的景点景区大都位于西安市内,同时也反映出陕西省各旅游景点之间的联系较少。因此,进一步加强各景点之间的交流合作对于未来该景区的发展起着重要作用。

5  结论与建议

本文根据旅游者在不同旅游网站分享的有关陕西省旅游景点网络游记文本进行特征词频、情感和旅游景点共现社会网络图进行分析,得出以下结论。

从高频特征词来看,处于核心旅游资源的名胜古迹景点最受来陕西旅游的旅游者的关注。这一现象的产生与当地独特的旅游资源基本符合。基于以上的分析,陕西省应该以具有典型符号特征的名胜古迹类旅游景点作为发展旅游业的中心,根据旅游者的网络游记,进行相关旅游线路的开发设计,发展适应旅客需求的新型旅游线路;其次,应挖掘出旅游景点本身蕴藏的文化与景点的结合,重点打造具有地域特色的文化旅游项目。加深各景点之间的地域协作,使游客可以感受整体的陕西旅游文化。

旅游者关于陕西省的旅游分享情绪以积极情绪为主,消极情绪占比较小。通往景区交通线路不方便、门票价格不合理、景点景区过于商业化、缺乏体验项目是造成旅游者消极情绪的主要因子。因此,相关景点景区应首先增加通往景区的交通线路,改善景区周围交通环境。二是在制定门票价格时要充分进行票价调研,选择大多数旅游者接受的票价进行定价;三是景区增加体验旅游项目,丰富旅游者的旅游体验等。

网络中心度和凝聚子群密度分析表明,陕西省处于核心位置的旅游景点景区较少,处于语义网络边缘景点景区较多,且凝聚子群密度低且规模小。这些表明,陕西省大部分旅游景点只能与少部分景点产生联系,合作范围较小。陕西省应该将处于核心位置的景区景点重点发展,将低知名度的景点与周围其他景点景区进行组合,推进大景区的建设,达成景区之间互利共赢的目的。此外,低知名度的旅游景点,在抓大景区建设这一契机的同时,要积极加强自身建设,进一步增强自身的吸引力,陕西省的旅游业将得到巨大提升。

参考文献:

[1]田逢军,吴珊珊,胡海胜,田国林,李向明.江西省城市旅游形象的网络化呈现[J].经济地理,2019,39(06):214-222.

[2]王昕天,汪雷.基于文本挖掘的在线旅游热词情报分析——以携程网为例[J].情报理论与实践,2017,40(11):105-109.

[3]Scott Noel, Laws Eric. Knowledge Sharing in Tourism and Hospitality[J]. Knowledge Sharing and Quality Assurance in Hospitality and Tourism, 2006, 7(1)∶1-12.

[4]Lon M J,Hung S, Chen C.Fostering the Determinants of Knowledge Sharing in Professional Virtual Communities[J]. Computer in Human Behavior, 2009,25(4)∶929-939.

[5]Serena Volo. Blogger's Reported Tourist Experiences: Their Utility as a Tourism Data Source and Their Effect on Prospective Tourists[J]. Journal of Vacation Marketing, 2010, 16(4)∶297-311.

[6]Park, Reisinger, Yvette, et al. Cultural Differences in Wed Communication: A Preliminary Study[J]. Tourism Analysis, 2012,17(6)∶761-774.

[7]Anil Bilgihana, Albert Barredab, Fevzi Okumusc, et al.Consumer Perception of Knowledge-sharing in Travel-related Online Social Networks[J]. Tourism Management, 2016, 52(2)∶287-296.

[8]苗學玲.自驾车旅游研究的新视角:旅游网络论坛的主帖分类研究[J].商业研究,2006,343(11):158-160.

[9]苗学玲,保继刚.“众乐乐”:旅游虚拟社区“结伴旅行”之性质研究[J].旅游学刊,2007,22(8):48-50.

[10]陈雅茜.基于相册的旅游体验分享技术的研究[J].西南民族大学学报(自然科学版),2012,38(3):462-465.

[11]欧阳震青,彭润华.移动UGC环境下旅游者知识分享行为研究[J].旅游科学,2015,29(2):47-49.

[12]胡传东,李露苗,罗尚火昆.基于网络游记内容分析的风景道骑行体验研究——以318国道川藏线为例[J].旅游学刊,2015,

30(11):99-107.

[13]张艺镒,柯彬彬,苏欣慰.穷游研究——基于网络文本分析方法[J].未来与发展,2014,38(7):37-39.

[14]王耀斌,杨玲,孙传玲,蒋金萍.基于文本挖掘的典型旅游网站旅游分享比较研究——以甘肃省为例[J].资源开发与市场,2017,33(01):100-104.

[15]李亚婷,马费成.基于标签共现的社会网络分析研究[J].情报杂志,2012,31(7):103-109.

猜你喜欢

文本挖掘陕西省
陕西省自强中等专业学校简介
陕西省红色文化教育研究院
陕西省抓党建促脱贫攻坚的实践与思考
聚焦两会
陕西省阅读文化节
慧眼识璞玉,妙手炼浑金