APP下载

网络爬虫数据采集技术在旅游行业中的应用与实现

2021-09-08张鹏

中国新通信 2021年14期
关键词:爬虫网页页面

张鹏

引言:

目前,我国开启了全面建设社会主义现代化国家的新征程。面对国内外环境复杂多变形势,我国提出加快构建以国内大循环为主体,国际国内双循环相互促进的新发展战略。旅游业作为国家经济社会发展的重要组成部分既有新机遇,也面临新挑战。

科学技术飞速发展,为旅游业提供了新动能,也提出了创新发展的新要求。大数据、互联网、物联网、人工智能等新一轮信息技术不断突破,深刻地改变着旅游业的发展格局,用数据管理、服务、决策,对于培育繁荣国内旅游市场,充分释放内需潜力,促进国内大循环,具有十分重要的支撑作用。

一、用数据支撑管理已成为政府部门迫切需要

旅游行业是多种行业服务的综合集成,有很强的复杂性和综合性,涉及旅游、交通、天气、酒店、餐饮等多个服务行业,需要多个行业通力合作提供一盘棋服务。国内著名景点景区的供给数量相对于众多游客差距,面对大量游客的需求,再加上重要节假日时间较集中,经常会出现,由于出行计划路线冲突导致游客拥挤,旅游体验质量不高等问题。目前,旅游行业有关管理部门,为加强管理,提升服务质量,要求各地严格落实“限量、预约、错峰”措施,控制好接待游客数量,引导游客间隔进入景区、错峰进行游覽,将流量管控关口前置,及时发布旅游提示,为游客出行提供参考。面对以上需要,旅游行业有关管理部门可借助大数据分析,强化行业管理,开展业务和服务模式创新。

基于这样的需求,经过前期可行性分析和统一规划,本文将采用网络爬虫等数据采集技术,对互联网旅游信息进行扫描汲取,实现对网络旅游信息的采集。旅游行业有关管理部门可再结合多年来建设相关信息系统形成的数据积累,实现旅游相关信息多维度采集和汇总,为实现数据的多维度挖掘和关联分析,辅助相关政策出台、旅游提示发布等提供科学数据支撑。

二、互联网旅游信息采集需求

目前,我国网民规模为9.04亿。游客通过网络方式查询制定出行计划、定制购买旅游产品、分享出行体验、投诉问题意愿强烈。借助网络爬虫等技术,对互联网多维度旅游信息进行采集,具有部署方便、运行高效、采集稳定等优势。

旅游采集数据类型多样,涵盖旅游产品资源、营销推广、舆情观点、游客行为等多个方面。旅游资源信息,指旅游要素的基础数据项,主要包括旅游目的地、星级酒店、A级景区、旅行社及导游等要素的基础信息。旅游营销信息,指旅游产品或旅游服务的生产商所提供的旅游服务、产品和项目。旅游舆情监测信息,对互联网上旅游者及旅游相关的言论和观点进行监测和预测的行为。游客网络行为信息,通过互联网上的信息分析,研究游客的网络行为,从而进行网络用户分析,用户消费潜力、消费行为和消费动机分析等。

旅游采集数据来源渠道广泛,既包括景区、旅行社、酒店等网站的结构化旅游要素,也包括博客、新闻、贴吧、微博等非结构化旅游衍生数据。旅游资源信息,主要来源于省、市级旅游行政管理部门政务网站和资讯网站。旅游营销信息,主要来自星级酒店、A级景区、旅行社等旅游企业网站信息和导游信息。旅游舆情信息,主要来自门户网站微博、国内知名论坛、重要舆情网站,社交网络和社区。游客网络行为信息,主要来自对携程网、美团点评、去哪儿网等评价类数据。

旅游采集方式及更新频率需全面考虑数据类型和数据渠道各自特征,可按照动态和静态对相关采集信息进行分类设置。动态信息是指交通、天气、价格、促销、展会等随时或较短时间内会发生变化的旅游信息,还包括热点新闻、重大活动、旅游市场动态等信息。静态信息是指法律法规、企业名称地址、简介设施等随时间变化不频繁的信息。动态信息需要即时更新,静态信息可以根据实际情况设定更新周期。更新周期不同可根据信息的属性,一般可分为实时更新、变即更新、定期更新等几类。

三、互联网旅游信息采集系统设计

旅游行业数据涉及行业具有综合性和复杂性等特点,既要加强与气象、交通、公安等政府部门横向合作,又要加强与运营商、在线电商、搜索引擎等行业和自媒体的纵向融合。总体设计思路主要有三方面考虑,一是多样性数据采集方式。旅游数据种类众多、分布广泛,数据采集需要综合接口开发、网上抓取等多种方式。二是先进数据整合架构。旅游数据来源广泛、异构种类多,数据整合管理难度高,采用比较成熟第三方软件是一种较好的方案。三是通过应用提高科学管理。整合各方旅游数据形成旅游信息资源数据库,可通过大数据分析挖掘里面蕴藏的大量价值信息。数据采集系统主要实现互联网数据采集渠道、采集策略和采集内容管理等三个部分。主要是通过网络爬虫等技术,对网络信息采集、处理,其主要技术包括以下几部分:

3.1主题初始化

主题初始化模块首先要配置好旅游相关的景区、酒店、旅行社等主题词库,然后将把一些与主题相关度紧密度高的URL存在相关数据库中,为爬虫采集工作做好准备。

3.2网络机器人

1.网页下载:爬虫向目标网页的WEB应用服务器请求页面,根据REP协议要求下载相关页面并存入库中,并建立索引。

2.解析HTML:按照预先设定好的规则,提取网页中有用信息,以文本格式保存用于后期分析,并将新提取出来的URL存入URL队列,这样就进入了一个循环。

3.3信息过滤

在爬虫工作前,需要预先分析网页或者URL,提取与主题相关度高的网页或URL链接。具体说来,信息过滤模块包含如下功能:

1.页面与主题的相关度判定:第一设定一个主题相关度阈值A,当采集页面的主题相关度小于A,则判定过滤该网页,否则添加并下载该页面,并对其建立索引。主题相关度阈值A的初值可以设置小一点,采用机器学习的方法不断迭代更新该阈值,至其收敛。

2. URL与主题的相关度判定:为了快速提高所需信息获取的准确率和效率,需要先判断采集的URL与预设主题是否相关,称作链接过滤。本采集系统采用TDT(Topic Detection and Tracking)、Pagerank算法对URL与主题相关度进行判定。

3.4分词索引

1.中文分词。中文分词简单言之就是讲整段话进行加标点处理,使其具备实际词条意义。英文分词比中文分词更加简单,使其26个字母实现其实际的含义,也就是变成一个个的单词。

目前,几大流行的中文分词主要有PaoDing、Imdict、Mmseg4j、IK等工具,IK分词器以其自带词库量大且速度快占用内存小等优势被本系统而采用。旅游行业综合性、复杂性强涉及信息领域种类多样,需要IK分词各类专业词库的支持。

2.本文在数据检索服务方面,采用是Solr分布式全文检索服务器。其本身具有的API接口类型与Web-service的类似。用户通过http协议进入所需Web页面查找,同时提交XML文件给搜索引擎服务器,Web页面显示出来的结果是XML格式的结果。

由于采集系统需采集网页规模比较大、搜索的页面非常多,采用分布式数据采集技术,会明显提高系统的性能,可以实现更快的采集速度和更高的采集性能。在执行Web信息采集任务时,利用多并发信息采集节点协同工作,且每一个节点的计算资源也可独立运算。

采集系统提供了比较高效的网络信息的采集工具,主要包括元搜索、定向深度搜索、网络智能机器人深网搜索三种互补的策略。

四、互联网旅游信息采集系统实现及应用

为方便日常管理及使用,旅游信息采集系统需要实现对采集信息的实时、快速、灵活的浏览和显示,以方便对各类信息的审核。

可对各类的旅游信息按照地域、时效、来源、类型、内容进行多维度筛选检索查看,对需要的各类型的信息进行相应的审核处理。

以采集北京“故宫”景区信息为例,展示从爬虫配置、采集信息管理到最后数据库查询等功能实现。

4.1配置爬虫程序

网络爬虫工具内置一个网页浏览器,用户不但可以灵活定义网页中要采集的任意内容,而且可以完全模拟浏览操作网页的所有步骤(如输入注册信息、循环、翻页等),并自动形成一个网络智能爬虫,实现网页信息的自动采集。

4.2生成智能爬虫

配置爬虫脚本文件并设定了爬虫的名称和调度时间等信息。执行脚本,爬虫就正常工作了,并将采集到的网页同步到待审页面进行一定的人工审核。

4.3采集系统采集策略定向配置

输入“故宫”可以查到爬虫从各个来源采集到的信息,需要人工进行一定的合并、添、删除等數据处理工作。

4.4数据库查询验证

在数据库中查询“故宫”采集信息的覆盖范围情况,执行select * from travel where name like '%故宫%' and cite=858语句,用户可对采集渠道进行验证。

五、下一步工作展望

政府管理部门通过打破“系统烟囱”“数据孤岛”,形成覆盖政府各级部门的多级联动、共建共享的业务协同格局,并应用大数据技术实现对政府数据和社会信息的汇聚、存储和关联分析,可以有效激活数据资源价值,从中发现新问题、创新新动能、提升新能量,为政府政策制定科学化、行业监管精准化和社会服务高效化提供重要支撑。随着信息技术不断发展,大量游客行为被记录,越来越多的数据可以被加以利用。在数据源头,本文虽然利用一种成熟方便数据采集技术实现了多种数据采集。

但是由于旅游数据信息来源比较普遍,采集量巨大,爬虫智能有限,即便增加各种采集策略,难免会出现漏采,缺采等情况发生,采集过程中很难保证各类旅游数据源的数据采集量和采集质量。所以旅游数据采集在渠道覆盖、持续采集、人工参与量大等方面还存难点,今后工作重点在以下两方面:

1.优化采集策略,开发更加智能的采集程序是旅游大数据分析中的一个必要突破点。

2.旅游数据的维度多,可分析主题广泛,分析模型根据以往的经验建立会存在局限性,不能体现“让数据说话”的过程,如何有效的建立更符合实际情况的分析模型也是下一步工作中必须要考虑的问题。

参  考  文  献

[1]郑鑫臻,吴韶波,基于网络爬虫技术的时令旅游信息获取[J].物联网技术,2018年05期

[2]刘焕欣,基于匿名网络的网络爬虫设计与实现分析[J].计算机产品与流通,2017年12期

猜你喜欢

爬虫网页页面
答案
基于Python的网络爬虫和反爬虫技术研究
让Word同时拥有横向页和纵向页
Python反爬虫设计
基于Scrapy框架的分布式网络爬虫的研究与实现
基于HTML5静态网页设计
谁抢走了低价机票
搜索引擎怎样对网页排序
驱动器页面文件大小的总数为何总是07
网页智能搜索数据挖掘的主要任务