APP下载

基于ABOD算法的机场容量包络曲线设计研究

2022-05-14沈笑云陈泰安吴世桂

计算机仿真 2022年4期
关键词:离群阈值容量

沈笑云,陈泰安,吴世桂,张 洁

(1. 中国民航大学天津市智能信号与图像处理重点实验室,天津 300300;2. 重庆机场集团有限公司航务管理部,重庆 400000)

1 引言

机场容量作为航空交通系统容量的瓶颈,对航空交通系统的运行效率有着重要影响[1]。科学准确地评估机场容量对于应对空中交通流量迅猛增长、缓解机场拥堵和延误具有重要作用。到目前为止,机场容量评估的主流方法有三种,分别是基于容量包络曲线分析评估[2-4],基于数学模型计算评估[5],基于仿真软件(Simmod, Arena)模拟评估[6]。基于容量包络曲线评估是通过分析机场航班历史运行数据,统计得到单位时间内的进离场架次,绘制容量包络曲线分析机场容量。机场航班历史运行数据包含机场高峰繁忙时段的运行数据信息,这些数据信息能够反映机场处于或者超出容量水平值的状态。机场容量包络曲线反映了机场抵港容量和离港容量的内在关系,以及不同抵离港比率下机场所能容纳的单位时间内航班架次的能力。基于数学模型评估是将航空器在机场的运作过程用数学公式表示,通过模拟它们的运作流程来确定容量。基于仿真软件模拟评估是用软件详细模拟飞行区运行的各个方面,通过精确仿真机场、滑行道以及空域系统评估容量。在以上三种方法中,实施容量包络曲线评估相对较易,因此,受到欧洲和美国一些主要机场的广泛采用[7]。基于容量包络曲线评估的关键是通过一定的方法获得准确的包络曲线,而划设包络曲线的关键是对离群值的处理,只有合理地剔除离群数据,才能依据留存的正常数据准确地划设容量包络曲线。

目前,容量包络曲线的划设方法有三种,分别是基于频率阈值划设[2]、分位数回归[3],以及将问题转化成机会约束规划问题,再用场景法求解[4]。这三种方法均存在以下不足:①容量包络曲线的形状取决于预设参数,不同的预设参数会出现不同的结果,而能够真实反映机场运行容量的包络曲线对应的参数如何设置,至今还没有准确的结论。②以不同的样本数据数量做分析,预设参数也不同,样本数据数量与参数的对应关系不明确。

针对以上划设容量包络曲线方法的不足,本文提出应用ABOD算法[8]来划设容量包络曲线,通过计算数据集中每个数据点的ABOF值,并返回根据ABOF值排序的数据点列表,依据ABOF值的波动情况确定离群值的范围,插值后经凸包算法勾划容量包络曲线轮廓。应用ABOD算法划设容量包络曲线无需考虑样本基数与预设参数的对应关系,有效降低了样本数据数量的差异对输出结果的影响,且无需设置参数避免了因参数设置过与不及而导致容量包络曲线失真的问题。该方法得到的容量包络曲线更稳定,能够更加真实地反映机场容纳单位时间内航班架次的能力,对于空管人员规划进离场航班、优化机场容量具有重要意义。

2 基于ABOD算法划设容量包络曲线

异常值也称离群值,是指与正常数据不一致、具有一定偏差的数据实例。本文基于历史航班运行数据统计得到单位时间进离场架次数据中的异常数据是指数据采集或记录过程产生错误的、或者某时段内超出机场容纳航班能力的偏离正常运行航班数据的离群值。ABOD算法是数据挖掘领域中的一种异常检测算法,大多数异常检测模型要求用户指定对输出结果有着重要影响的参数,在实际应用中,这种要求总是一个弊端。而基于ABOD算法检测进离场架次异常数据、划设容量包络曲线无需设置参数,不存在难以确定合适参数的问题[9]。

2.1 ABOD算法

ABOD算法通过比较不同位置数据点与其它任意两点连线所构成夹角大小的差异程度,以夹角的方差大小作为判断该数据点是否离群的依据。由于离群值与其它任意两点连线的夹角大小差异小,故其方差较小;而聚集区域内的点与其它任意两点连线的夹角大小差异大,故其夹角方差相对较大。夹角的方差大小程度用基于角度的离群系数(ABOF)表示,公式化表述如下。

(1)

通过式(1)的计算可对每个数据点赋予表征该点离群程度的ABOF值,ABOF值越小,表明该点为离群值的可能性越大。为直观描述该算法,用示意数据说明如下,根据式(1)对图1中每个示意数据点计算ABOF值,并对计算结果从小到大编号,如图1所示。

图1 计算示意数据点的ABOF值

图1中的每个数据点旁边的数字表示该点的编号,中间矩形框内标明了每个编号的ABOF值,其中,[1:1.80e-09]表明编号为1的数据点的ABOF值为1.80×10-9。从图1可以看出,数据点离聚集区域越远,ABOF值越小;离聚集区域中心越近, ABOF值越大。而且,编号为1的数据点的ABOF值远小于其它数据点的ABOF值(与编号为2的数据点的ABOF值相差105倍)。因此,可对ABOF值明显低于其它ABOF值的数据点作为离群值予以剔除。

2.2 离群值范围设定

实际上,并非所有给定的数据集中离群数据的ABOF值与聚集区域内正常数据的ABOF值差异都如此明显。例如,基于航班历史运行数据统计得到的单位时间进离场架次数据集中,ABOF值由小到大是逐步过渡的,仅根据ABOF数值的大小,较难确定离群数据的ABOF值。但是,当对所有的ABOF值从小到大排序后,ABOF值在由小到大的递增过程中,会经历离群数据到离群数据,离群数据到正常数据,正常数据到正常数据三个阶段的过渡,每个过渡阶段的ABOF值的变化波动均不一致,如图2所示。

图2 ABOF值的变动情况

图2的渐变色条标明了由离群值向正常值的过渡,也表示ABOF值由小到大的递增过程。从图2可以看出,由离群数据向离群数据过渡及由离群数据向正常数据过渡,这两种情况ABOF值波动较大,因为离群点在远离聚集区域的位置随意分布,量化数据点离群程度的ABOF值彼此差异较大。而由正常点向正常点过渡, ABOF值的波动较小,因为正常点都位于聚集区域内,彼此较为集中,量化离群程度的ABOF值彼此接近,ABOF值波动不明显。根据这个规律,可用ABOF值后者与前者的比值作为ABOF值波动的度量,可对ABOF值前后波动变化较大的数据点作为离群数据予以剔除。

2.3 凸包算法勾划容量包络曲线轮廓

基于以上分析,经ABOD算法剔除离群数据后,根据容量包络曲线的轮廓特征,本文设计凸包算法(Graham扫描法)勾划容量包络曲线轮廓。求解凸包的算法常用的有Graham扫描法,由于已有较多文献对Graham扫描法展开论述,故本文不做过多介绍。容量包络曲线反映了不同抵离港比率下机场所能容纳单位时间内航班架次的能力。一般认为,在首部和尾部部分的容量包络曲线平行于坐标轴,而直接应用凸包算法勾划得到的容量曲线与实际有偏差。根据机场容量包络曲线的特征,本文在应用凸包算法之前,先对数据点进行插值。首先,根据留存的正常数据,找出纵坐标最大的数据点和横坐标最大的数据点,记最大的纵坐标和最大的横坐标分别为ymax和xmax,然后插值(0,ymax)、(xmax,0)和(0,0)三个点,在插入这三个点后应用凸包算法可最终完成容量包络曲线的绘制,如图3所示。

图3 插值前后的凸包形状

图3用示意数据说明了插值前后应用凸包算法划设容量包络曲线的不同,图3(a)为插值前的凸包,不符合机场容量曲线形状,而图3(b)为插值后的凸包,符合机场容量曲线形状特征。

3 仿真研究

为验证本文提出方法的有效性,以重庆江北国际机场为例,根据历史航班运行时刻数据,统计得到六月份小时进离港架次样本数据,共720条,如表1所示。

表1 六月份小时进离港架次数据

表1记录了6月1号至6月30号每个小时段的抵港离港架次,以每小时段的抵港离港架次作为一个数据点(例如(24,5)、(22,1)…(28,18)),共720个数据点。根据式(1),计算ABOF值需要两点之间的距离作为分母,而重复数据点之间的距离为0,故先将720条数据中重复的数据剔除,剔除后仅留399个数据点。对399个数据点计算对应的ABOF值,计算结果如表2所示。

表2 数据点对应ABOF值的计算

图4 ABOF值波动梯形图

图4记录了398个ABOF比值,从图4可以看出,梯形图的前面小部分波动较大,后面大部分波动较小。根据2.2节的分析,基本可以判定前面小部分ABOF比值波动较大的数据点为离群值。剔除离群值后,对剩下的样本数据应用凸包算法绘制包络曲线,如图5所示。

图5 绘制六月份数据的容量包络曲线

图5中实心点为离群点,旁边的数字为对应的ABOF值(4.93E-06表示数值4.93×10-6),其大小反映了离群程度的大小。由于基于ABOD的异常检测算法可将内外部的离群值都检测,但是仅需要剔除外部的离群值,故图5仅标识了检测出的外部的离群值。

同理,本文对重庆江北国际机场7月1日至12月31日六个月份记录的历史航班运行时刻信息进行分析,统计得到6个月份的小时抵港离港架次,以一个月的数据量为一组,分别基于ABOD算法绘制容量包络曲线,如图6所示。

图6 绘制7-12月份数据的容量包络曲线

从图6可以看出,由不同月份绘制得到的容量包络曲线并不一致,因为每个月份的小时抵港离港架次样本数据不一致,剔除的离群值也不一致,如表3所示。

表3 不同月份的数据总量及剔除离群值的数量

表3标明了每个月份的数据总量及剔除离群值的数量,数据总量记录了剔除小时抵离港架次都为0的数据点后的数值。虽然不同月份的样本数据及剔除的数据都不一致,导致所得到的容量包络曲线也不一致,但对于一个机场而言,容量曲线反映了机场容纳航班架次的能力,一般是相对固定的。所以,由不同数据分析得到的不同容量包络曲线的差异程度,可作为容量包络曲线划设方法优劣的比较依据。如果容量包络曲线差异程度小,则表征容量包络曲线划设方法相对稳定可靠,鲁棒性高,由此得到的容量包络曲线能够更加真实的反映机场容纳航班架次的能力。

4 与基于频率阈值划设容量包络曲线对比分析

基于以上分析,为比较不同划设方法所得容量包络曲线的差异程度,将基于ABOD算法划设得到的不同月份的容量包络曲线绘制如下,如图7所示。

图7 基于ABOD算法绘制不同月份的容量包络曲线

图7所展示的六条不同线形的容量包络曲线代表由不同月份分析得到的。可以看出,容量包络曲线首部和尾部差异较大,这是因为以一个月的数据量为单位做分析,数据量较少导致出现在首部和尾部的数据点有一定程度的差异。

基于频率阈值划设容量包络曲线是根据出现频率一致的数据点绘制凸状的连续的容量曲线。Gilbo出于鲁棒性考虑,取频率阈值为3的包络线作为机场容量曲线[2],但是,频率阈值为3的包络线对应的样本数据数量是多少,并未给出明确的结论。赵征通过分析一年的小时进离场架次数据,得出频率阈值为3的容量曲线比较适合两个自然月的样本数据,共1464个样本基数[11]。综合两者的研究结论,本文基于重庆江北国际机场7月至12月六个月份的小时进离港架次数据,以每个月为单位取频率阈值为2的容量包络曲线绘制如下,如图8所示。

图8 基于频率阈值绘制不同月份的容量包络曲线

图8所展示的六条不同线形的容量包络曲线代表由不同月份分析得到的。从图8可以看出,7-11月份的容量曲线较为集中,而12月份的容量曲线偏离较大,故将12月份的频率阈值为2的容量包络曲线单独绘制如下,如图9所示。

图9 绘制12月份数据的散点密度图

图9是用色彩的深浅来表示数据点不同出现频率的散点密度图。由于以一个月的数据量为单位分析,外层低频率数据点出现的频率较为随机,偶然性比较大,导致基于频率阈值划设容量包络曲线差异较大,故以十二月份的样本数据取频率阈值为2的容量包络曲线与其它月份的容量包络曲线差异较大。直观比较图7和图8可知,与基于频率阈值划设容量曲线相比,基于ABOD算法划设的六条容量包络曲线更接近,表明该容量包络曲线划设方法相对稳定可靠,鲁棒性高,所得容量曲线能够更加真实的反映机场抵离港容量的内在关系。

5 结论

机场容量评估方法中,基于容量包络曲线评估由于实施相对较易,故受到了广泛采用。该方法的关键是准确地划设代表机场容纳航班架次能力的容量包络曲线。目前,几种划设方法均存在样本基数与参数设置不明确、容量包络曲线形状受预设参数影响较大的问题。本文提出基于ABOD算法的容量包络曲线划设方法,该方法划设容量包络曲线无需设置参数,能够有效降低样本数据的差异对容量包络曲线的影响,鲁棒性更好。与基于频率阈值划设容量包络曲线对比分析,发现通过该方法得到的容量包络曲线能够更加真实的反映机场实际运行容量,这对进一步评估、优化机场容量具有重要意义。

猜你喜欢

离群阈值容量
非平稳声信号下的小波变换去噪方法研究
基于相关子空间的高维离群数据检测算法
土石坝坝体失稳破坏降水阈值的确定方法
水瓶的容量
随感
近荷独坐
候鸟
小桶装水
鼹鼠牌游乐场