APP下载

数据采集工具在互联网旅游UGC平台的应用

2019-02-24何梓翔

营销界 2019年28期
关键词:爬虫社交软件

何梓翔

一、概述

随着移动互联网和电子商务的发展,移动电子商务已经得到普及。据亿邦动力网2019年1月发布的报告现实,2018年的中国移动互联网月度活跃智能设备规模增至11.3亿。基于移动互联网和社交网络的用户存量,电商领域中产生了名为社交电商的新型交付平台。社交分享不同于传统的顾客评价,它侧重于在社交网站上与朋友分享信息,而传统的顾客评价是与不知名的在线购物者分享的。据研究显示,83%的网购者愿意与朋友分享购物信息,67%的网购者可能会根据社区的推荐产生购买意愿或购物决策[2]。由于社交电商的兴起,在线旅游平台也纷纷嵌入社交功能,通过旅游平台发布旅游消费体验、旅游攻略等,使得在线旅游平台加速发展,据艾瑞咨询发布《2018年中国在线旅游行业研究报告》,数据显示2018年在线旅游市场交易规模将突破1.48万亿元,相较于2017年的1.17万亿元,同比增长26.3%,再创历史新高。随着在线出行市场的成熟,该行业的增速从快速增长到相对平稳,在网络中寻找旅游信息已经成为消费者的首选。

互联网中消费者产生的信息在学术中称为用户产生内容(UGC, user-generated content),UGC有很多不同的形式,比如Twitter的推文, Facebook状态更新,YouTube上的视频等。经过学者们的研究发现,该类型的数据直接或间接地影响相关企业的绩效,关于UGC的研究对企业具有强烈的管理意义,而如何批量采集UGC数据进行统计分析是技术上的关键一环。该文章旨在为无编程基础的研究人员提供数据采集建议。

二、研究回顾

(一)在线旅游者消费行为研究

基于口碑营销(WOM),消费者在使用产品或者服务之后倾向于与家人或朋友分享消费体验,由于电子口碑营销(e-WOM)的跨空间性,消费者能够很容易地与广大潜在消费者分享他们对产品或服务的看法,并引起他们的消费欲望(Albarq, 2014)。Gretzel and Yoo (2008)经过调查发现,超过70%的旅游者在计划旅游时,会将网络中其他有经验的消费者的在线评论作为主要的参考信息。因此,从营销学、旅游学和管理学的视角来看,对于在线旅游的消费行为研究是学者们的研究重点。

Parra-Lopez等(2011)分析了旅行者在计划旅行时使用社交媒体意愿的影响因素,经过研究发现使用社交媒体的功能性、心理性、享乐性和社会性的感知利益显著影响使用意愿。Aluri等(2016)通过比较使用嵌入式社交媒体渠道的酒店网站和没有使用嵌入式社交媒体渠道的酒店网站的用户体验,研究了游客满意度、满意度和购买意愿之间的关系。目前多数学者主要使用TAM、ELM等模型,通过调查问卷来获取数据,再进行结构方程模型或回归分析后得出结论。值得注意的是,利用网络爬虫等抓取UGC的方式来对消费者行为进行研究已经成为一大热点,目前,结合网络爬虫的技术对在线旅游消费者的研究尚有不足之处。

针对于旅游网站的数据采集需求有多种类型。Duan等(2008)通过采集yahoo!电影等三个电影评论网站的相关数据,考察了用户的在线评论对日常票房表现的说服效应和认知效应。郑聪(2017)使用爬虫对网络平台上的旅游满意度舆情数据进行采集和分析, 生成可视化图表结果,为相较于以往的旅游满意度调查提供一种新的思路。李勇等(2018)采用内容分析法对在线旅游平台及问答社区的旅游提问信息文本进行,研究了用户对九寨沟旅游相关信息的关注内容,发现不同游客对同一信息的侧重点也不同,并提出了相应的管理建议。高佳美(2017)通过采集互联网上的大量旅游文记,基于文本挖掘的方法改进个性化推荐技术,帮助用户快速准确地找到适合自己需求的旅游攻略。综上所述,利用网络爬虫技术采集在线旅游问答社区、在线旅游电商平台等UGC,分析UGC对旅游商品或服务销量的影响机制,或是利用文本分析的方法进行详细的内容分析或情感分析等,用来探讨企业绩效的影响因素等。

本文以使用“八爪鱼采集器”抓取携程网(https://www.ctrip.com/)中“九寨沟景区”自由行攻略的UGC为案例,为无编程基础的研究人员提供一个新的采集思路和收集数据方法,以达到论文研究的目的。

三、实验设计

(一)实验背景

目前的爬虫技术一般基于python语言编程,而由于python技术所需要的编程基础相对较高,对于非计算机专业而又需要数据采集的研究人员来说,短时间掌握python比较困难。而八爪鱼采集器(https://www.bazhuayu.com)的便捷性、易用性可以满足上述人员的需求。

(二)实验框架

实验前需要明确实验框架,确定论文所需要的数据以及对所需数据的抓取流程。一般来说,需要抓取UGC的相关数据来撰写论文的研究人员需要经过如下关键步骤:

(1)确定论文主题,建立论文研究模型,明确相关变量。研究者需明确论文研究的目的,在建模之后,拟定数据来源,目前消费者日常使用的网站或手机app中,由于平台的防采集、反爬虫很严格,部分数据是无法抓取或者比较难抓取的,并且每个平台的数据不一定都会有显示,例如京东商城的商品评价数超过一万条时,不会显示精确到个位数的数量。

(2)选取数据来源网站或平台,利用八爪鱼采集器抓取所需数据。在使用八爪鱼软件的过程中,框选研究所需要变量的数据,然后进行数据采集,目前八爪鱼采集器仅限于采集网站数据,手机app应用的数据需通过fiddler或wireshark等抓包软件进行抓包。

(3)清洗并整理数据。将采集的数据进行整理是必不可少的,这样可以避免后续的数据分析产生偏差。如果研究人员跳过了清洗数据这一环,可能会导致将重复数据导入到分析软件,从而使得研究结果不准确,最后给出的管理建议也会偏离标准。

(4)最后,进行相应的数据分析。将所需的数据进行整理之后,研究者需要依据论文的目的,进行不同的数据分析,例如回归分析、内容文本分析等。

四、实例分析

旅游者在制定旅游计划时,消费者倾向于在网络中搜寻相关信息,最终作出旅游相关决策,在旅行结束之后,部分消费者又会在社交电商平台中分享旅游信息,从而产生一个信息传递闭环。

携程网(https://www.ctrip.com/)作为中国领先的综合型在线旅游服务平台,拥有超过1亿的用户注册量,提供全球超过60000个旅游目的地的旅游攻略评等相关资讯。本案例以采集携程网为对象,采集“四川九寨沟”景点旅游攻略中,每条攻略的标题、发布者信息、浏览量、收藏量、评论数、评论内容等网页中显示的内容。

五、实施过程

(1)打开八爪鱼采集器,点击自定义采集,在“网址”栏中输入“九寨沟自由行攻略”的网站https://you.ctrip.com/place/jiuzhaigou25.html,并点击保存。

(2)将页面拉到底端,点击“下一页”按钮,并选择“循环选择下一页”,此时点击软件右上方的“流程”,可以看到已经建立了“循环翻页”,这表示选择采集该景点下所有页面的旅游攻略。

(3)找到网页中第一条攻略的“标题”,点击“选择全部”,选择“循环点击每个元素”,这一步骤即选择采集该页面中所有的九寨沟旅游攻略。

(4)进入到第一条攻略页面之后,选择攻略标题,点击“采集该元素的文本”,同理选择其他所需要的文本信息即可。选择所有需要采集的信息之后,保存并点击“开始采集——启动本地采集”

(5)采集完成之后选择“导出数据”,选择需要保存的文件格式,并点击保存,最后即完成数据采集,最终以可视化的方式呈现。

六、结语

由于移动互联网和社交电商的发展,对UGC进行深入研究是目前营销学、管理学等多种学科中的研究重点。而相较于编程类的数据采集技术,使用八爪鱼等数据采集软件进行数据抓取所需的技术要求较低,对于非计算机专业或无编程基础的研究人员来说,能够通过简单的实验步骤轻松地获取到所需数据。

使用采集软件获取数据虽然相对容易,但是也有许多局限性。八爪鱼采集软件是针对于各种网页版的可见数据进行采集,目前许多企业已经关闭网页版官网或商城,转向投入到手机app应用的开发与研究,但对于八爪鱼采集软件来说,抓取手机app应用的数据目前是无法实施的。据了解,想要获取手机app应用的数据,需要先下载研究对象的客户端,在保持手机与电脑在同一局域网的情况下,使用Fiddler、Charles、Wireshark等抓包软件进行抓包,结合python等编程语言进而达到数据抓取的目的。

猜你喜欢

爬虫社交软件
利用网络爬虫技术验证房地产灰犀牛之说
社交牛人症该怎么治
禅宗软件
聪明人 往往很少社交
基于Python的网络爬虫和反爬虫技术研究
社交距离
软件对对碰
你回避社交,真不是因为内向
大数据背景下校园舆情的爬虫应用研究
大数据环境下基于python的网络爬虫技术