APP下载

谁抢走了低价机票

2018-05-30米沃奇

电脑知识与技术·经验技巧 2018年1期
关键词:订票爬虫低价

米沃奇

2018年春节假期即将来临,出行需求随之增大,不论你是旅游,还是回家,买票都是不可避免的一部分。其中,低价机票尤其受旅客青睐,但不少人都有这样的苦恼:低价机票总是买不到,真的只是网速原因吗?其实和你抢票的是网络爬虫。

据媒体报道,“机票代理”行业中,不少公司正利用爬虫技术抢占航企官网放出的低价票,利用航企允许的账期反复订票、退订,直至将票加价卖出,全程操作中爬虫可替代95%的人工操作量。据业内人士估计80%以上的低价机票是被票务公司的爬虫抢走的。

一、爬虫为订票网站产生90%虚假流量

什么是爬虫?网络爬虫又被称为网页蜘蛛,是一种按照一定的规则,自动抓取万维网信息的程序或者脚本。百度、搜狗等搜索引擎,依靠巨大的爬虫集群每天抓取数百亿网页。

目前爬虫被广泛用于互联网金融、电商、社交等领域;在机票领域,爬虫可以抓取机票价格,发现超值机票后,爬虫还可以模拟真人用户抢先预订。

携程的反爬虫专家在技术分享中举例:某网站的一个页面,每分钟的浏览量是1.2万,真实用户只有500个,爬虫流量比例是95.8%。业内人士表示,爬虫所带来的虚假流量占订票网站总流量的50%,高峰期可达到90%以上。

二、利益链:低价机票去哪了?

爬虫利用买来的身份信息或虚假客户信息订票,之后黄牛再将抢来的票高价卖出,黄金周、春节长假一张票甚至会加价1000元。

为了应对这种虚假抢票、占座的情况,有些航空公司不得不采取潜规则:每架飞机要多卖5%至10%的票,这被称之为“超售”,这给真实用户带来了问题,有的用户会因为“超售”严重无法登机。

三、”反爬虫“之战打響

网络爬虫被用来抢票,不仅侵犯了人们的权益、影响人们的日常出行,航空公司也将蒙受损失。就爬虫生存时间的关键在于,在访问网页爬取数据的过程中,要尽量模拟真实用户的行为,使服务端无法分辨是爬虫还是用户;如何进行“反爬虫”? ISEC实验室专家来支招:

1)根据访问数量来“反爬虫”。爬虫的访问总数远高于人类,且访问数量随时间增长而表现出一定的线性增长规律,但大部分的真实用户不会长时间持续访问同一个网站;

2)在网站设置伪造的钓鱼链接。正常情况下真实用户不会访问这些链接,-旦被访问,则存在爬虫的可能性就比较高;

3)进行IP地址的分析统计.绝大部分爬虫为了长时间爬取数据,不会选择在个人电脑上运行,一般放到云服务器或者VPS。“反爬虫”可根据来访的IP进行风险属性的细分,对IP地址进行标记;例如对单个IP访问设置一个阈值,如果在—定时间超过阈值,则进行封锁或禁用。需要注意的是,该举措容易误伤真实用户;

4)验证码校验是反爬虫的一个重要环节。爬虫是按照预先设定好的流程,是无法变通的;而验证码需要基于人的主观陛去判断,如若在验证过程中加入随机陛,爬虫绕过验证的过程就相对复杂。行为验证码是当下流行的一种验证码,采用了多种图像技术,能有效防止OCR的识别,防止暴力破解。如12306,就是采用点触式行为验证码。

有效反击“机票代理”公司的爬虫战术,除技术手段外,航空公司可从内部完善各项管理制度,勿给爬虫留下可乘之机。此外,旅客尽可能选择航空公司的官方网站购买飞机票,避免通过微信朋友圈等渠道购买低价票而上当受骗。网络爬虫技术在提供高效搜索的同时,也带来了安全挑战,相信在相关技术、法律制度的不断发展完善下,在各相关职能部门的共同努力下,购票机制将日益完善、旅客的合法权益将得到更好的保障。

猜你喜欢

订票爬虫低价
基于Python的网络爬虫和反爬虫技术研究
Python反爬虫设计
大数据爬虫风暴
基于Scrapy框架的分布式网络爬虫的研究与实现
工程量清单招标合理低价的确定方法
英君主航空:态度好可升舱
订票姑娘
低价策略为何不适合J.C.Penney
稍安勿躁