APP下载

基于聚类与SVR的地区支线航空客运市场需求预测

2019-12-05徐梦瑶赵鸣李洋安洋张友浩

智能计算机与应用 2019年5期
关键词:预测

徐梦瑶 赵鸣 李洋 安洋 张友浩

摘 要:针对支线航空客运市场需求预测问题,某些地区(如海南)缺少足够的历史数据,难以建立准确的预测模型。本文提出基于聚类与支持向量机回归(Support Vector Regression,SVR)预测此类地区航空客运市场需求的方法。首先,基于中国各个地区支线航空客运市场需求的分布比,找出与海南分布比相似的地区,再应用系统聚类法在这些地区中找出与海南聚为一类的地区,作为类比地区。然后,选择类比地区的数据样本,通过K-fold 交叉验证(K-fold Cross Validation,K-CV)寻优SVR 参数,得到预测模型。最后,预测了2018~2020年海南支線航空客运市场需求,从而为其建设支线机场提供一定的决策参考和可靠的理论依据,具有一定的现实意义和应用价值。

关键词: 支线航空;客运市场需求;预测;系统聚类;SVR

【Abstract】 For predicting the market demand of regional air transportation for passengers, some regions (such as Hainan) lack enough available data to establish accurate prediction models. This paper proposes a method based on Clustering and Support Vector Regression (SVR) to predict the market demand of air transportation for passengers in such regions. Firstly, the paper finds the similar regions to Hainan in distribution ratio of the market demand, then compares Hainan with these regions which were clustered together. Secondly, the paper selects the data samples of the similar regions and forms a prediction model after getting the SVR parameters by K-fold Cross Validation (K-CV). Finally, the paper predicts the market demand of Hainan air transportation for passengers from 2018 to 2020. The results could provide theoretical support and guidance for constructing new regional airports, which is realistic and practical value to some extent.

【Key words】  regional aviation; passenger market demand; prediction; hierarchical cluster; SVR

0 引 言

中国民航局的相关资料显示,从2011~2016 年,国内支线航线网络增加了27%,运力增加了116%。预计到2020 年,支线航空客运量将会突破1 亿人次,其发展速度约为干线航空的两倍[1]。国内支线机场在综合交通运输体系中发挥着越来越大的作用,因而为了抓住扩建支

线机场数量的最佳有利时机,并减少支线机场建设的盲目性,即需对地区支线航空客运市场需求做出预测,提高针对性,同时也将对地区的支线机场建设和实际生产有着积极的指导意义。但是对于某些地区,如果支线机场通航时间较短,几乎无可用的历史数据,就使得支线航

空客运市场需求的预测研究受到了一定的阻碍。

众多学者已经对这种缺少历史数据支撑的客货运需求预测问题展开了大量研究。张娜等人[2]提出了先通过快速聚类找出与新建机场相似的机场,再利用相似机场的航空分担率来预测新建机场客运量的方法。悦慧等人[3]运用动态聚类法找出与新建机场属于同类的机场,基于同类机场的历史数据构建多元回归模型,从而预测新建机场的客运量。但由于航空客运需求预测所受噪声和影响因素较多,并且各因素对支线航空客运市场需求的影响程度也不尽相同,这使得支线航空客运市场需求预测具有高度非线性的特点。故简单的多元线性回归模型已经不能满足预测需求。罗建锋等人[4]将机器学习的方法运用在新建机场货邮量预测上,即先利用相近周边机场航空货运量占社会总货运量的比例关系,并结合本地区GDP与航空货运量、旅客吞吐量与航空货邮量的比例关系进行校核,从而拟合出新建机场航空货邮量的历史数据,再将历史数据带入BP神经网络,预测新建机场的货邮量。BP神经网络方法虽然能很好地处理非线性问题,但对于航空客运量预测这种影响因素较多且样本量较小的预测问题仍具有较大局限性,其预测出的精度较低[5]。

支持向量机(Support Vector Machine,SVM)是VAPNIK提出的一种建立在统计学理论的VC维理论和结构风险最小化原理基础上的机器学习方法[6]。支持向量机回归(Support Vector Regression, SVR)是由SVM 衍生得到的,在解决小样本、非线性、高维度问题中显示出了绝对的优势[7-8]。在SVR的应用过程中,惩罚参数C与核函数参数g的选取对预测结果的影响很大,如何选取合适的参数成为问题的关键。赵静等人[9]采用了K-fold交叉验证(K-fold Cross Validation,K-CV)模型选择最优参数,提高了预测的精度。在前述研究的基础上,本文提出基于聚类与SVR预测支线航空客运市场需求的研究设计。

1 支持向量机回归(SVR)的基本原理

2 海南支线航空客运市场需求分析

2.1 研究方法与思路

本文对支线机场的界定需要满足2 个条件,对此可阐述为:

(1)年旅客吞吐量占全国旅客总吞吐量的比例小于0.2%。

(2) 机场处于非国家中心城市、非省会城市,属于非枢纽性机场[11]。

海南地区的支线机场现有琼海博鳌机场和三沙永兴机场,2 个支线机场都是2016 年通航,通航时间短,且缺乏历史数据。对数据样本缺乏或较少的通航地区,如海南的支线航空客运市场需求预測就转化为对旅客吞吐量的预测,以整体把握该地区支线航空客运市场未来的发展趋势。

本文研究思路是:首先,基于全国和各地区支线机场旅客吞吐量,提出各个地区支线航空客运市场需求的分布比。接着找出与海南分布比相似的地区,再应用系统聚类法在这些地区中求出与海南聚为一类的地区,作为类比地区。然后,将选定地区的历史值作为训练数据,代入SVR 预测模型,通过K-CV 寻优SVR 参数,确定预测模型。最后,对海南的支线航空旅客吞吐量进行预测,为其建设支线机场提供一定的决策参考。本文的技术研发路线如图1所示。

2.2 类比地区的选择

2.2.1 地区支线航空客运市场需求分布比

中国幅员辽阔、地形地貌差异较大,不同的地域条件导致了中国支线机场分布的不均衡,也影响着机场旅客吞吐量。本文引入分布比的概念[12],定义了某地区支线航空客运市场需求分布,即某地区支线机场旅客吞吐量与全国支线机场旅客吞吐量的比值。研究推得其数学公式可写为:

γ=T地区T全国×100%.(6)

其中,γ 表示某地区支线航空客运市场需求分布比; T地区表示某地区支线机场旅客吞吐量,单位为:人; T全国表示全国支线机场旅客吞吐量,单位为:人。

中国各个地区支线航空客运市场需求分布比如图2 所示。海南位于国内中南地区,由图2可知,中南地区与西南地区的支线航空客运需求基本处于相同水平,都在10%~23%之间。故从这2 个地区中选取贵州、四川、西藏、云南、重庆、广东、广西、海南、河南、湖北、湖南11 个省份作为类比样本。

2.2.2 分布比相似地区的系统聚类

从影响支线航空客运需求的人口、地区经济发展情况的角度来考虑,选择人口密度、人均GDP、城镇居民人均可支配收入、城镇居民人均消费支出4 个指标作为聚类的评价指标。选取2008~2017 年各地区指标值的平均值作为样本数据。用系统聚类法对样本数据进行聚类。由此得到的分布比相似地区的聚类树图即如图3 所示。

由图3可知,海南、广西、四川聚为一类。由于广西与海南同属于中南地区,且广西与海南地理位置靠近,与海南的人口密度、人均GDP、城镇居民人均可支配收入、城镇居民人均消费支出也非常相近。故最终选择广西作为海南的类比地区。

3 基于SVR的模型构建与预测

3.1 模型构建

因海南与广西同属一类,且广西数据充足,将广西的人口密度、人均GDP、城镇居民人均可支配收入、城镇居民人均消费支出4组数据作为输入特征值,年旅客吞吐总量作为输出特征值。选择广西2008~2016年的9组数据作为SVR模型的训练样本,2017年数据作为测试样本。研发设计步骤可剖析分述如下。

(1)用Matlab中的mapminmax函数来对10组样本数据进行归一化处理,防止特征值范围过大或过小,影响模型的精确度。其中,归一化的范围为[-1,1]。

(2)选择SVM的类型为ε-SVR,核函数选取精度较高的RBF函数[13-14]。设置ε-SVR中的损失函数p的值为0.1。

(3)采用K-CV(V=5,即将测试集分为5部分进行交叉验证)的参数优化方法选择一组最优参数(C=1 024,g=0.001 381 1),如图4所示。

(4)将最佳参数(C,g)和训练样本代入SVR中,并得到精度较高的SVR模型(MSE=0.007 745 6,R2=0.977 4)。运行结果详见图5。

(5)基于测试样本,对此模型进行精度比较,并与多元线性回归模型进行对比,运算对比结果见表1。

表1中展示了广西样本数据分别在SVR(RBF 核函数)模型与多元线性回归模型下的预测精度,由误差平均值可以看出SVR(RBF 核函数)模型的预测准确率高于多元线性回归模型,这也说明了SVR 模型在解决小样本、非线性问题上占有优势。

3.2 海南支线航空旅客吞吐量预测

因缺少2018~2020 年份影响海南支线航空客运市场需求因素的统计数据,将根据2008~2017年海南省支线航空客运市场需求影响因素统计数据,建立海南地区支线航空客运市场影响因素与年份间的一元线性关系,预测2018~2020 年影响因素的指标值,运算预测结果见表2。

将表2 中海南支线航空旅客吞吐量影响因素预测值作为输入特征值,即可得到海南旅客吞吐量的输出预测值,详见表3。表3 表明了在已确定的SVR(RBF 核函数)模型下海南2018~2020年支线航空旅客吞吐量预测值。

4 结束语

针对某些地区(如海南)缺少足够的历史数据,难以建立航空客运市场需求预测模型的问题,本文提出基于聚类与SVR预测支线航空客运市场需求的方法。根据类比法的思想,首先,选取与海南地区机场旅客吞吐量分布比相似的地区(如贵州、四川、西藏等)进行系统聚类,找出类比地区(广西)。然后,选择广西省2008~2017年的数据样本,通过K-CV寻优SVR参数(C=1 024,g=0.001 381 1),得到预测模型。将此模型与多元线性回归预测方法进行精度比较,证明SVR (RBF核函数)预测模型具有更好的预测效果。基于此模型,预测了2018~2020年海南支线航空旅客吞吐量,从而为其建设支线机场提供一定的决策参考和可靠的理论依据,具有一定的现实意义和应用价值。

參考文献

[1]张一琛.支线航企如何"叫好又叫座"[J].大飞机,2017(3):28-31.

[2]张娜,安然.基于快速聚类分析的航空分担率模型在新建机场客运量预测中的应用[J].交通与计算机,2008,26(4):116-119.

[3]悦慧,安然.多元回归模型在新建机场客运量预测中的应用研究-基于动态聚类分析[J].现代商贸工业,2010,22(20):13-15.

[4]罗建锋,周凌云,李伟.基于BP神经网络的新建支线机场货邮量综合预测[J].江苏商论,2012(2):47-49.

[5]曾鸣,林磊,程文明.基于LIBSVM和时间序列的区域货运量预测研究[J].计算机工程与应用,2013,49(21):6-10.

[6]VAPNIK V N. The nature of statistical learning theory[M]. New York: Springer, 2000.

[7]ABDI M J, GIVEKI D. Automatic detection of erythemato-squamous diseases using PSO-SVM based on association rules[J]. Engineering Applications of Artificial Intelligence, 2013 , 26(1):603-608.

[8]LIU Zhiwen, CAO Hongrui, CHEN Xuefeng, et al. Multi-fault classification based on wavelet SVM with PSO algorithm to analyze vibration signals from rolling element bearings[J]. Neurocomputing, 2013,99:399-410.

[9]赵静,王选仓,丁龙亭,等.基于灰色关联度分析和支持向量机回归的沥青路面使用性能预测[J].重庆大学学报,2019,42(4):72-81.

[10]张文雅,范雨强,韩华,等.基于交叉验证网格寻优支持向量机的产品销售预测[J].计算机系统应用,2019,28(5):1-9.

[11]李飞行,宋一鑫,张权.我国支线机场现状分析及对策研究[J].交通运输研究,2018,4(4):61-68.

[12]周明妮. 新建支线机场通航可行性论证方法研究[D]. 西安:长安大学,2011.

[13]AYDIN I, KARAKOSE M, AKIN E. A multi-objective artificial immune algorithm for parameter optimization in support vector machine[J]. Applied Soft Computing, 2011, 11(1):120-129.

[14]de CASTRO L N, von ZUBEN F J. Learning and optimization using the clonal selection principle[J]. IEEE Transactions on Evolutionary Computation, 2002,6(3): 239-251.

猜你喜欢

预测
选修2—2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
选修2—2期中考试预测卷(A卷)答案与提示
选修2—2期中考试预测卷(B卷)答案与提示
“预测”得准
2017年高考选修考点预测
2017年高考三角热点考向预测
电力系统短期负荷预测方法与预测精度
《福彩3D中奖公式》:提前一月预测号码的惊人技巧!
预测高考