APP下载

基于数据挖掘技术的航班延误预测综述

2020-12-09罗凤娥

科技和产业 2020年11期
关键词:贝叶斯决策树数据挖掘

罗凤娥, 王 波, 李 娜, 王 洵

(中国民用航空飞行学院 空中交通管理学院, 四川 广汉 618307)

航班延误一直是民航运输业的一大困扰。图1整理了近十年中国民航运输业的航班量和航班正常率数据。从统计图可看出,近十年的航班量以9.22%的平均增长率不断攀升,对比来看,航班正常率则不断下滑。直到2016年中国民航局对航班延误定义做了调整,配合相关政策的督促,航班正常率才逐步回升。但这并不能从延误本身解决问题,对提高空域利用率和运行效率没有实质性帮助。做好对航班延误的提前预测是从延误源头出发考虑问题,从本质上改善航班延误问题且行之有效的一种方法。

图1 2010—2019年中国民航运输业的航班量和航班正常率统计

航班延误预测研究难点在于数据海量、特征复杂,处理困难。而数据挖掘技术恰在大数据以及高维特征问题上表现出巨大优势。因此,本文就数据挖掘算法在航班延误预测研究中的应用进行分类总结。内容具体安排如下:第1节提出数据挖掘解决航班延误预测问题的一般程序;第2节对比分析数据挖掘分类预测算法,以及在该领域的应用总结;第3节就提高预测精度关键因素展开讨论;第4节结合当前热点方向进行研究展望。

1 数据挖掘及技术流程

1.1 数据挖掘技术

从实践角度来讲,数据挖掘就是从海量数据探索隐藏的、具有潜在价值的规律、信息和知识的过程[1]。其主要包括预测和描述两大类任务。描述型数据挖掘是通过对现有数据探索,就其特征进行呈现[2];预测型数据挖掘可通过对样本数据进行关联学习,产生的预测模型能够实现对未来的输入进行输出预测。表1给出两者的对比和相关解释。基于数据挖掘的航班延误预测问题正是依赖于预测型数据挖掘的技术原理展开研究。

表1 数据挖掘技术的两大类别

1.2 一般技术流程

结合数据挖掘技术,从解决航班延误实际问题出发,总结得出明确预测目标、数据收集与处理、特征选择、模型搭建、模型评估与应用五大分析步骤。图2为基于数据挖掘的航班延误预测一般流程。

图2 基于数据挖掘的航班延误预测研究一般流程

1.2.1 明确预测目标

根据研究背景和需求确定挖掘目标是开展整个研究的基础,多通过具体的预测指标明确具体的研究需求。就航班延误预测研究领域而言,常用的延误预测指标有平均航班延误时长、航班延误率、航班延误架次、航班延误旅客人数等。

1.2.2 数据收集与处理

用于航班延误预测研究的数据包括航班运行数据、气象数据、流量管控等相关数据。数据收集难度较大,多来源于航空公司和机场的各大管理系统、气象报文或对天气报告网站的爬虫抓取、以及飞常准等相关航班数据分析平台。

数据处理前,通过对单个重要特征进行可视化以及多个特征的相关性比较,直观获悉数据特征是否与先验吻合以及把握相关系数较大的特征对关系,有助于宏观把握延误分布,便于数据处理。

数据预处理对维度较大、不完整、有噪音的原始航班信息进行初步过滤和降维处理,包括数据筛选、缺失值处理、异常值处理、特征优化、数据合并等步骤。

1.2.3 特征选择

针对高维航班数据,特征选择是处理特征关联和简化模型的有效手段。最佳相关特征子集的选取有助于达到降维、强化模型泛化能力、减少过拟合发、增强特征与特征值之间理解等目的。特征选择可包括产生过程、评价函数、停止准则、验证的一般过程,各步骤通过彼此关系连接构成特征选择的基本框架,如图3所示。

图3 特征选择基本框架

1.2.4 模型搭建

预测模型搭建是一个反复迭代的过程,最终目的是尽可能降低模型的泛化误差,提高预测精度。将数据按合适比例和方法划分训练集和测试集,分别用于模型的训练优化与验证评估。结合研究目标和训练集数据选择适合的数据挖掘算法反复迭代优化,选取和调整相应参数建立优化后的预测模型。

1.2.5 模型评估与应用

通过相关指标对模型效果进行量化,对模型精确性、泛化等能力评估,对模型反馈调节,达到优化目的。将最优模型推广至实际应用中,对航空公司运行安全和效率提供些许的帮助和理论支持。

2 经典算法在航班延误预测的应用

数据挖掘功能包括分类、预测、聚类、关联分析等多种算法和技术。下面就贝叶斯网络、决策树、随机森林、支持向量机、神经网络5中经典算法在航班延误预测中的应用做一归纳,并对比分析各算法特点。

2.1 贝叶斯网络

贝叶斯网络,是一种以概率统计为基础的图形模型,可将依赖关系同概率表示相结合,先验知识同样本数据相结合,以图形方式描述变量概率分布,其结构反映了各变量的因果关系,是目前不确定信息表达和推理领域最有效的理论模型之一。

贝叶斯网络可以对不完全、不精确或不确定信息中进行推理,也一直是航班延误预测研究中常用的方法之一。文献[3]基于贝叶斯网络搭建延误预测模型,采用多状态系统结构建立评估航班进场运行状态。文献[4]在传统贝叶斯网络基础上进行改进,提出高评分优先遗传模拟退火贝叶斯网络结构学习算法和基于遗传禁忌搜索的贝叶斯网络结构学习算法,大大提高了贝叶斯网络结构学习的精度。文献[5]将贝叶斯网络参数学习算法和结构学习算法运用到维度高、运算量大的航班延误的预测领域,基于集成学习理论和改进后的贝叶斯结构算法提出一种带有自反馈的航班预测集成学习系统,实现对航班延误较为精准的预测。文献[6]则将机场繁忙程度对波及延误的影响考虑在内,构建到港延误对离港延误的波及贝叶斯网络预测模型,更准确预估航班延误波及状况。文献[7]运用K-means聚类方法对各变量划分区间,建立贝叶斯网络进行航班离港延误预测,达到81.7%的预测准确性。

2.2 决策树

作为数据挖掘技术中一种监督分类算法,决策树通过次序、无规则数据集中的信息熵构建分类模型,并通过对分类模型的简单查找来完成对未知信息的分类。常用决策树算法有ID3、C4.5、CART和CHAID。这些算法的主要差异在于不同的分裂度量和停机标准导致不同的属性选择倾向。决策树在分类回归问题上具有良好稳定性,但该算法不支持在线学习,且容易造成过拟合问题的产生。

文献[8]面向机场到港航班延误预测问题构建基于C4.5决策树的航班延误预测模型,采用十折交叉法对模型进行正确性检验,模型正确率接近80%,效果优于两种贝叶斯算法。考虑航班延误因素复杂多变,文献[9]提出基于CHAID决策树的航班延误预测模型,对机场繁忙程度聚类分析,精确机场属性值,提高预测精度。文献[10]考虑到上游机场航班延误对下游机场延误状态的影响,量化上游指标加入航班延误特征中,以梯度提升决策树GBDT为方法建立航班延误预测模型,结果表明,较之其他决策树算法、RF算法以及SVM分类算法,GBDT算法给出了最优预测性能。

2.3 随机森林

随机森林是一个包含多个决策树的分类器,通过将历史数据随机采样生成多棵相互独立的决策树,然后凭借集成学习的思想将多棵树集成一起而形成。其随机性体现在随机选取数据与分裂属性两方面,提升了系统的多样性与分类性能,有效避免过拟合现象的产生。但大量树的存在以及预测精度的要求导致预测速度变得缓慢,不适合处理实时性要求高的问题。

文献[11]建立随机森林模型预测未2~24小时的离港延误。文献[12]利用ATMAP算法对国内机场天气报文量化处理,对航班运行造成的影响深入分析,建立随机森林模型对航班运行预测。文献[13]做好航班到港时间影响因素的特征筛选工作,构建随机森林模型面向航班延误预测,使用网格搜索和交叉验证法优化模型,较之支持向量机回归、岭回归, 表现出更优的预测效果。文献[14]利用数据框将气象数据与航班数据融合,提出一种利用并行化方式进行随机森林的特征划分和树的生成,进而对航班延误进行快速预测的方法,实验表明,在Spark并行计算架构上利用并行化随机森林算法生成模型克服了海量高维数据的计算难度,模型中气象数据的添加提高了航班延误预测的查全率和正确率。

2.4 支持向量机

支持向量机方法(Support Vector Machines,SVM)是建立在VC维理论和结构风险最小原理基础上的统计学分类算法。根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。SVM最终转化为求解一个凸二次规划问题,在理论上可以得到全局最优解,具有很强的泛化能力。

SVR模型能够通过一个非线性映射将主成分映射到高维特征空间,并在此空间进行线性回归,非常适合对典型的非线性航班延误问题进行回归预测。文献[15]、[16]采用支持向量机回归方法分别建立航班延误预测模型,前者通过Grid-Search与交叉检验法对参数优化,后者以差分进化算法选择最优模型参数,预测性能明显优于单一因素预测模型、相关向量机预测模型。文献[17]则将支持向量回归与线性回归构造组合模型,克服传统单一模型易受随机因素影响的问题,延误预测精度得到有效提升。文献[18]提出了一种基于增量式排列支持向量机算法,有效凭借不断更新的航班数据及时进行航班延误预警,并在实验中取得80%及以上的预测准确率。文献[19]使用高斯过程隐变量模型(GP-LVM)与最小二乘支持向量机(LS-SVM)建立组合模型,对数据进行有效的降维处理,避免维度灾难的发生的同时大大提高了延误等级的预测准确率。文献[20]融合先验知识到支持向量机模型,增强分类面容错能力,最终构建出现一个多级航班延误预警模型,更准确预测未来延误状况。

2.5 神经网络

神经网络是一种通过模仿大脑神经突触联结,进行分布式并行信息处理的数学模型。通过多层神经网络可实现无限逼近真实对应函数,以此模拟数据之间的真实关系,是其具有强大预测能力的关键。常用于航班延误预测研究的神经网络算法有:BP神经网络、循环神经网络、长短期记忆网络。

文献[21]、[22]、[23]基于机场视角,分别利用时空长短记忆神经网络、BP循环神经网络、循环神经网络与长短记忆神经网络混合模型对航班延误进行预测。文献[24]分别引入新型多级输入层神经网络模型预测延误状况。文献[25]结合长短期记忆网络结构以及残差网络各自优势,提出了一种基于长短期记忆与残差网络的航班延误预测模型,大大提高模型特征表达能力。文献[26]在卷积神经网络基础上加入直通通道建立基于双通道卷积神经网络的航班延误预测模型,数据处理能力显著增强,准确率达到92.1%。

3 总结与讨论

在越来越多的航班历史数据的积累下,数据挖掘技术将注定以其自身优势提高航班延误预测精度。总结上节所述的几项数据挖掘经典算法,对比分析归纳得到各算法优缺点以及应用领域,具体内容如表2所示。

表2 数据挖掘部分算法的优缺点分析以及应用领域

航班延误预测研究的意义在于越精准的预测结果越有助于航空公司与机场提前决策,做好预案准备,为协调航班正常运行争取最大时间,以减少经济损失。为做到更高效精确的预测,势必要在数据处理和算法优选两方面下足功夫,就此展开以下讨论。

数据挖掘算法主要以统计推理和机器学习为主。传统的基于统计推理的数据挖掘技术以概率分析、聚类分析、相关性分析等统计学理论为基础展开运算,实现对数据的解析和理解。基于机器学习的数据挖掘技术则是由数据驱动,以海量航班数据为前提,在学习训练中发现规律,自动寻找并优化模型参数,深度挖掘数据价值得到预测模型,放在测试集中进行延误预测。从社会对数据处理的期望来看,传统的统计推理已不能满足人们对大规模数据的处理要求。因此,在未来一段时间内,机器学习将凭借先进高效的学习机理,成为深入挖掘数据潜在价值的重要手段。特别是,类似于航班延误预测研究,所需数据量极大,特征之间存在高度非线性或复杂的相关性时,机器学习方法往往能够给出更为显著的预测效果。

除了适当的算法能提高预测精度之外,数据处理也尤为关键,并且二者之间存在密不可分的关系。算法的选往往依据具体研究内容和所收集的数据特征而定。尤其对于机器学习而言,数据的优劣往往决定着预测结果的精度。由于航班统计信息极易受到天气、流控等随机因素的影响,收集获取的原始数据势必存在许多噪音,对挖掘隐藏规律造成极大干扰。因此,做好对异常数据、冗余特征、变量选择等方面的数据处理工作,是实现数据价值、保证预测效果的关键。

4 研究展望

4.1 基于组合模型的航班延误预测研究

目前航班延误预测相关研究大部分采用单一预测模型解决问题,往往受到天气、流量控制等某些随机因素的限制,进而影响结果的预测精度,造成较大的预测误差,且每种模型都存在一定局限性。因此,选择合适算法彼此组合、调整、优化,搭建组合预测模型以实现算法间优势互补,定量与定结合性分析的目的。组合预测模型势必将在一定程度上完善单一预测模型的弊端,提高预测精度,减缓航班延误的发生。

4.2 结合气象数据的航班延误预测研究

2017年[27]、2018年[28]、2019年[29]民航行业发展统计报告显示,天气原因在航班不正常原因分类统计中占比高达51.28%[27]、47.46%[28]、46.49%[29]。由于恶劣天气的严重程度、发生区域和持续时长均具有强烈的不确定性,经常导致航班延误状况的出现。气象数据获取和处理较为困难的导致融合气象数据进行航班延误的相关研究较少。因此,融合气象数据来研究天气与航班运行之间的关系有助于提高航班延误预测精确性和稳定性,是值得研究的方向。

4.3 基于稀疏模型的航班延误预测研究

由于航班数据存在高维和倾斜的特点,研究过程中往往会导致过拟合问题的出现,对预测结果产生严重影响。而稀疏模型可以通过去除冗余变量简化模型,达到降维效果,有效解决过拟合问题。因此,建立稀疏化航班延误预测模型对预测结果具有更好解释作用,有助于提高预测精度,值得进一步深入研究。

4.4 基于深度学习与大数据结合的航班延误预测模型

相比于传统机器学习浅层模型的有限学习能力,深度学习凭借超强的数据抽象与特征表达能力,深入学习数据本质,在数据分析和理解方面表现出更显著的优势。如今,航空公司、机场以及民航各大单位已经积累了海量航班历史数据,基于此,深度学习可以表现出更强的学习能力,从复杂的大数据内部探索和捕获规律。因此,深度学习与大数据的结合可以对航班延误实现预测的更高精度,是研究的重点方向。

猜你喜欢

贝叶斯决策树数据挖掘
改进支持向量机在特征数据挖掘中的智能应用
基于贝叶斯定理的证据推理研究
基于贝叶斯解释回应被告人讲述的故事
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
决策树和随机森林方法在管理决策中的应用
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究
决策树学习的剪枝方法
软件工程领域中的异常数据挖掘算法