APP下载

大数据驱动下公务机票运价监管平台建设研究

2020-09-06刘美田大勇王心安张腾飞

科学导报·学术 2020年77期
关键词:大数据

刘美 田大勇 王心安 张腾飞

【摘  要】根据航空公司运价的制定原理,利用现代计算机技术,结合国际惯例,以及实际的公务机票销售数据,提出了大数据驱动下的公务机票运价监管平台的整体架构设计,分析了监管平台所包涵的主要模块以及模块之间的关系;探索了平台对运价监管的方式,实现了方便公务旅客出行,规范了销售公务机票的代理销售行为,为节约国家财政资金,建设公务机票运价监管平台提供了参考模型。

【关键词】大数据;公务机票运价;监管平台

一、引言

目前我国航空运输市场存在两类机票运价,一种是需旅客自己付费的普通运价,它包括公布运价和私有运价,公布运价分为公布的全价和折扣价,而私有运价也称为特殊运价,只有符合特定条件的旅客才能购买,例如团体旅客;另一种是政府采购运价,简称GP运价,其主要为了满足公务出行、处理公务的需求。根据财库〔2014〕33号文件,国内航空公司按政府采购合同约定给予公务机票优惠。对于市场折扣机票,各航空公司按国内、国际机票各航班舱位的折扣票价给予9.5折优惠;对于市场全价机票,则分别给予全价票价的8.8折、8.5折优惠。它是在公布运价基础上给予折扣的运价,它要比同一时段同一子舱位的普通运价要低。

然而,政府采购机票过程中,有购票人反馈政府采购渠道票价高于普通票价;或反馈无法购买到市场打折票等问题。同时由于航空客运票价的复杂性,具体包括销售渠道的多样性、子舱的复杂性等,国家清算中心对于政府采购运价的监管面临监管的过程繁杂,难以全面实时监控、航空公司票价发布滞后和市场上出现了新的票价形式,很难实时识别真实价格等难题,导致其对公务机票采购的监管有限。因此,规范公务出差市场,建立公务机票运价监管平台,监控违规销售行为,切实为公务旅客提供和销售低票价具有较强的现实意义。

二、构建公务机票运价监管平台的理论基础

民航业不是一个完全竞争的市场,政府对民航业的价格管理体系应该根据其定价的原理,利用现代计算机技术,结合国际惯例,进行的科学的监管,以发挥政府对市场的有效监管职能,进而避免财政资金的浪费[1]。

对政府采购机票运价进行监管,首先需要对关于航空公司运价的影响因素进行分析。众多学者对运价组成进行了大量的定量研究,例如Borenstein(1989)[2]、Brueckner和Spiller(1992)[3]等通過回归分析发现航空公司的运营投入、服务质量、航线网络结构、航线距离影响航空公司机票的定价,肖俊极和唐昕(2009)发现航线特点、航空公司的品牌效应、航班特点均对民航机票价格折扣产生不同程度的影响[4]。

关于价格监管手段与方法,许多学者在其他领域进行了深入的探究,例如冯永晟等(2020)提出了一种动态响应机制,去识别哄抬价格行为,进而实现价格监管[5]。王星云(2020)认为引入大数据能够推进价格监管制度优化,建立统一的价格信息数据库,并在其基础上开展价格信息公开、价格监测预测等大数据信息应用[6]。段琪斐等(2019)指出我国的电网监管制度应该以监管内容与监管时间为标准,同时引入强激励机制和不确定调整机制[7]。

关于平台之间产品价格比较的理论和实践已经相当成熟,尤其在购物网站方面。邱磊(2012)设计了基于Web数据抽取的方法,通过集成各购物网站主页的搜索功能,搜索用户希望购买的商品,并将查询到的结果进行比较并呈现给用户的比价系统[8]。在对比机票价格方面,李祥仪(2016)基于开源的Heritrix和Lucene项目,设计并实现一款基于国内机票的比价系统,同时会给出用户购票的跳转链接[9]。

综上所述,市场需求和竞争形势是目前影响国内航空公司运价的主要因素。价格-需求之间的关系导致在不同季节、不同DOW(day of week)、甚至每一天的不同时刻机票的价格都是不相同的。对运价的监管应该基于运价的组成及其特点进行监管。同时,价格监管应顺应智能化、网络化的潮流,充分考虑网络系统的安全性、灵活性和易维护性,借鉴其他领域在价格监管上成功事例,利用大数据、机器学习等方法推进价格监管平台的优化,创新监管方式。

三、运价监管平台的设计与实现方法

(一)系统目标与框架

运价系统,采用B/S架构,是一个较为全面的机票价格监管系统。用户使用本系统可以获得对机票运价进行和监管,与此同时,依据在运价监管过程中采集和存储的海量运价数据,适时运用大数据分析、机器学习等技术,主动为公务人员在合理的时间范围内提供性价比更高的公务机票(含返程机票智能推荐),提升公务出行人员的购票体验。系统主要由两大部分组成,第一部分是服务器端;第二部分是基于浏览器的客户端。

1.服务器端

服务器端通过初始的设置条件确定URL种子,期间用户可以根据需求设置相应的字段进行爬取相关的平台机票信息储存至数据库中,形成外部运价数据源以及GP内部运价数据源。服务器还负责执行数据处理相关模块、运价比对相关模块,以及其他相关模块。

2.客服端

监管人员查看并修改监管的规则以适应监督的需求。监管人员在Web页面上打开相关的页面,输入新的约束性规则并确认。系统服务器在收到监管人员的请求后,更改爬取规则,进行数据收集。

监管人员通过浏览器查询运价比对报告。在Web页面上输入相关的约束性条件,如:出发城市、达到城市、时间段等,然后进行提交。系统服务器在收到监管人员的请求后检查索引和数据库,为其返回相关的机票运价比对报告。

(二)系统的功能需求

系统的功能需求包含了Server端的功能、Client端的功能。

1.Server功能

系统采用B/S架构。Server功能主要为了实现以下需求功能:

(1)机票主题相关的搜索

系统的管理人员输入初始的URL种子和爬取条件后,服务器通过网络爬虫可以抓取机票主题相关的数据。

(2)页面解析与入库

系统在网络爬虫抓取机票数据后,这些数据都是散落在Web页面中的,Server端需要对页面进行解析,去错除重。最后把这些数据写入不同的数据库中,以便运价比对以及检索。

(3)设置相关的运价比对规则

通过上述功能完成数据的爬取、入库、索引建立后,系统管理员可以按照需求设置比对规则以进行运价比对。

(4)运价比对,并形成结果报告

根据管理员设置的规则进行运价比对,并形成相应的运价比对结果。

(5)缓存策略

系统在网络爬虫抓取机票数据过程储存了大量的历史信息,需要系统管理员按照需求设置缓存策略,以保证数据库中有足够的内存获得新的数据,进行比对。

(6)面向客户提供查询

监管人员可以通过浏览器向服务器发送请求,设置相关的查询规则,快速检索相关的运价比对的结果。

(7)优化模块

根据历史数据监管的异常情况以及用户的举报信息对监管的航线、搜寻的时间、航空公司等条件做进一步的优化,以便更加精准的监管运价情况。

(8)预测模块

采用机器学习、神经网络等方法预测用户查询的机票价格在未来时间的变化趋势。

2.Client端功能

系统采用的B/S架构,可以使用户通过浏览器访问Web服务器获取所需数据,如图1所示。主要有以下功能:

(1)基本的机票比价信息查询

用户可以通过输入航空公司名称、舱位、出发地、到达地的航线信息、出发日期等信息查询运价的基本比对信息,具体流程功能如图6所示。

(2)高级查询

可以查询未来一段时间的GP平台上机票价格变化情况,什么时候最低,主动为公务人员在合理的时间范围内提供性价比更高的公务机票(含返程机票智能推荐),提升公务出行人员的购票体验。

(3)订票接口跳转

用户在获取到有用的机票信息,当想购买该机票时,可以点击购买按钮,系统会自动跳转到该机票的发售站点,避免用户再一次检索。

(4)举报功能

用户可以根据实际经历,在平台上上傳外部运价低于内部运价的截屏,服务端接收信息,确认GP内部运价异常后,记录储存并发送该机票相关信息至优化模块,加强精准监管。

(三)系统的关键业务流程

系统的关键业务流程主要由数据获取流程、信息处理流程、监管流程以及监管优化流程组成,由数据获取模块、信息处理模块、监管结果展示模块等模块完成,如下图2所示。

1.数据获取流程

为了实现系统的功能需求,首先需要确定目标站点以及根据需求设置抓取机票相关信息的规则,这被称为系统的数据获取,主要由数据获取模块完成。

目标数据的获取主要是通过两种方式,一种是通过爬虫爬取目标站点所需的机票相关信息,然后储存至数据库进行配对比价,另一种方式是通过购买、资源置换或者是要求被监管的渠道提供的所需要的数据,比如可以向携程、飞猪、航空公司等平台购买或者资源置换,给与一定的政策支持后,可以要求对方提供所需要的数据。

系统的数据获取流程具体步骤如图3所示。首先,可以通过爬虫的方式。在系统中输入需要抓取机票数据的各个目标站点URL,然后设置爬取规则,例如设置爬取的航空公司、时间段、航线等。接着通过网络爬虫技术在目标页面上进行原始数据的爬取。爬虫爬取到的页面原始数据需要按一定规则进行规范化,这称为模板化原始数据,接着对模板化数据进行数据抽取,取得系统需要的数据如票价、航线、日期、报价站点等,储存至数据库。也可以通过购买、资源置换或者是要求被监管的渠道提供的所需要的数据存储至数据库,以待后续的使用。

2.信息处理流程

经过数据抓取后,数据库中已存入了由不同站点提供的机票报价信息,但是,由于这些信息仅仅是对价格、航班、报价站点等内容的反映,不足以直接支撑系统需要实现的比价、预测等功能;另外一方面,可能存在数据重复、爬取不完整的情况,因此还需要对数据库中的数据进行进一步的处理。

系统的信息处理流程如图4所示。首先对数据库中保存的抓取数据进行判断,将重复信息或错误信息去除,这一步称为数据清理;然后进行按照日期、航线、航空公司、舱位等信息匹配机票,进行运价的比较;最后通过一定的策略,对数据库中的信息进行分析,得到各条航线在未来一段时间的报价趋势,智能推荐给查询人。

3.监管流程

采用被动和主动两种方式进行运价监管。被动监管包括普通运价和特殊运价的机票。对普通机票的监管是指以公务机票出票、热门航线查询等行为节点或行为特征,作为触发运价监管的触发节点,被动启动对市场上投放的同航线/航班/舱位相关的市场运价实时进行采集、转换、存储和比对,以增加运价监管的针对性和精确度。对特殊机票的监管是指在政府采购平台上对团体机票或者特价机票在重点航线投放情况的监管,通过在购买的高峰时间阶段性采集各平台特殊机票的投放与否、投放数量以及投放价格的信息,储存至数据库进行比对,从而实现对特殊机票的被动监管。

主动监管为自动扩大或者缩小监管范围。对于已经确定存在问题的航线/航班/舱位,根据学习的规则自动扩大监管范围,例如加强对其他舱位的监管、同航线其他航班的监管、涉嫌航空公司的其他航线/航班/舱位的监管等。

同时,对数据库中的运价比对信息进行汇总整理。对正常的结果,即GP内部运价低于外部运价,不进行长时间储存,更新相关的航线、航空公司、起飞时间、航班等正常记录次数。对于异常结果,即GP内部运价高于外部运价,长时间保存相关的信息,更新相关的航线、航空公司、起飞时间、航班等不正常记录次数。然后把运价比对相关的信息传递给监管优化模块,进行监管优化。最后,按照航线、航空公司、起飞时刻、舱位等划分标准,进行监管结果报表不同细粒度度的输出。输出的报表应包含监管的样本量、异常样本比例,异常样本特征分析等。

4.监管优化流程

根据历史监管的结果以及用户举报信息,识别异常航班的特征,建立疑点航线/航班/舱位的实时监管列表,通过大数据分析、机器学习等方法预测下个周期可能出现的不合规机票信息并纳入重点监管列表中,把被动触发的方式切换为主动触发,甚至全程跟踪。

(四)系统的监管规则及实例分析

由于政府采购网站上所公布的票价种类繁多,涉及到不同日期、航线、航空公司、舱位,且监管平台的监管能力有限,不能做到对所有类型票价的实时监管。为了使监管效果达到最优,以节约财政资金的政策初衷为目标,科学合理地筛选监管对象及分配监管力度。本文以监管2019年从北京出发的所有公务员购票记录为例,确定重点监管航线、日期、航空公司以及舱位等规则。

1.监管流程

(1)确定重点监管的航线:各航线按照上一个监管周期内购买次数占总购买次数比重由高到低排列。选择的航线为购买次数相对多,同时这些航线的累计购买次数占总体比重达到80%。接着按照航线的购买次数,确定相应的监管次数比重。以北京为出发地为例,累计购买次数占总体比重达到80%共有26条航线,如表1所示。然后按照其购买次数,确定相应的监管次数比重,例如北京-上海虹桥,分配监管次数为10.86%。

(2)确定不同月份监管权重:按照不同监管航线每月的购票记录,确定不同月份的监管次数。以北京-成都为例,全年购票次数为14950次,一月份为762次,分配监管的次数比重为5.10%,如下表2所示。

(3)确定监管航空公司及舱位的权重:按照各航空公司舱位的购买次数占总购买次数比重由高到低排列,选择购买次数多的航空公司及其对应的舱位,并使得选择的航空公司舱位的累计购买次数占总体比重达到80%。以北京到成都航线为例,选择的重点航空公司及其对应的舱位共14种情况,如下表3所示。

综上,依据政府采购机票网站的购票流程,即输入出行日期及出行起始城市后得到推荐的航班及舱位。首先将最大监管次数按照26条航线的公务出行购买比重进行分配,分别得到26条航线的监管比重;然后将26条航线的监管次数逐个按照月度购买次数的比重再次进行分配,分别得到每条航线每个月份的监管次数;最后将每条航线每个月份的监管力度均分到每个航司机器对应的舱位中。

参考文献:

[1]沈毅.美国民航业价格规制改革经验及启示[J].商业时代,2006(14):82-83+92.

[2]Borenstein S. Hubs and high fares:dominance and market power in the U.S. airline industry. RAND Journal of Economics(RAND Journal of Economics). 20(3):344-365. 1989.

[3]Brueckner,J. K.,Dyer,N. J.,& Spiller,P. T.Fare determination in airline hub-and-spoke networks. RAND Journal of Economics(RAND Journal of Economics),23(3):309–333. 1992.

[4]肖俊極,唐昕.中国民航业价格竞争实证分析[J].南开经济研究,2009(02):80-90.

[5]冯永晟,管世杰.重大突发事件下的哄抬价格与价格监管研究[J].价格月刊,2020(10):1-8.

[6]王星云.价格监管的大数据嵌入与工具优化[J].宏观经济管理,2020(02):66-72.

[7]段琪斐,吴珊,许光建.我国电网激励性价格监管政策研究[J].经济理论与经济管理,2019(09):98-109.

[8]邱磊.基于Web的比价系统的研究与实现[D].复旦大学,2012.

[9]李祥仪.基于Heritrix和Lucene的国内机票比价系统的设计与实现[D].上海交通大学,2016

猜你喜欢

大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索