APP下载

基于组合预测研究新冠疫情对民航客运量的影响

2023-05-30陈宗楠

电脑知识与技术 2023年3期
关键词:BP神经网络新冠疫情

陈宗楠

关键词:新冠疫情;民航客运量;组合预测;SARIMA预测模型;BP神经网络

中图分类号:G642 文献标识码:A

文章编号:1009-3044(2023)03-0016-03

1 引言

新冠病毒自2019年12月被发现以来,迅速蔓延至全球,给全世界的经济发展带来了不容小觑的影响,民航业是受疫情冲击最大的行业之一。吴婷婷等将新冠疫情与非典疫情作比较,提出新冠疫情短期内对交通运输行业会产生较大不利影响[1]。在新冠疫情的冲击下,我国民航市场受到了较大的损失,基于预测的角度研究疫情对民航业的影响,将为后疫情时代我国民航客运市场的恢复提供帮助。钱名军等运用GARCH模型对SARIMA预测模型的残差部分进行拟合,其构建的组合预测模型解决了残差的异方差性,预测精度更高[2]。Andreas K等比较了ARIMA模型与深度学习神经网络模型对民航需求预测的效果,研究结果显示航空客运量具有明显的季节趋势,神经网络模型进行的预测更全面[3]。本文选取SARIMA模型与BP神经网络模型构建并联式组合预测模型,追溯预测了疫情后的民航客运量,与实际数据进行比较,实现量化新冠疫情对民航客运市场影响的目标。

2.2 BP神经网络

BP神经网络由Rumelhart D.E.等在1986年提出,在各领域有广泛应用,它是一种有监督学习方式,主要包括:一是将输入的信号不断向前传递,以输入至输出的方向进行训练;二是以输出至输入的方向传递输出层与期望值的误差,实时调整网络结构的权重,不断迭代直至所有训练集的误差满足精度要求[5]。输入层、输出层与隐含层共同构成了BP神经网络,建模的关键是确定隐含层节点数,根据Robert H的研究理论,隐层数设置为1的网络可实现较好的拟合[6]。本文选择的神经网络拓扑结构见图1。

2.3 组合预测模型

SARIMA模型能够很好地表达出旅客运输量时间序列的上升趋势及季节波动,而BP神经网络对非线性特征部分的表达效果更好,本文选择这两种模型构建组合预测模型[7]。组合预测模型包括串联式与并联式,串联式组合模型的结构简单,但需要实际数据计算其中一个模型的残差作为神经网络的输入,模型泛化能力较差,同时本文要对客运量进行样本外预测,因此选择并联式组合模型,即:

式中ω1、ω2为权重系数,本文选用以下方法确定组合预测模型的权重[8]:

(1) 等权重法对各个模型赋予相同的权重,取模型总数的倒数。这种方法简单易操作,但是准确率较低,预测效果不是最优。

(2) 误差平方和最小法误差平方和最小法本质上是利用优化思想将权重的确定转化为求最值问题,根据最优准则构造目标函数,对目标函数极小化确定权重。

(3) 误差平方和倒数法对每个模型的误差平方和取倒数,每个误差平方和的倒数除以倒数和作为各模型的权重系数,即对误差小的模型赋予更大的权重。

选取均方误差(MSE)和平均绝对误差(MAE)两种评价指标对不同模型进行验证。MSE, MAE 计算公式如下:

3 实证分析

选取2009—2019年我国民航旅客运输量月度数据进行实证分析,共132组,取2009—2018年的数据作为训练集,2019年数据作为测试集。数据来源于中国民用航空局主要生产指标统计月报,本试验在RStudio及Matlab软件环境下编程实现。

3.1 SARIMA模型

首先通过时序图观察训练集数据,可以看出该时间序列整体呈现上升趋势并伴随着季节性波动,经adf.test函数进行ADF检验P=0.3325>0.05,说明该时间序列不平稳。先通过1阶差分(d=1)消除时间序列的上升趋势,差分后的时间序列ACF图显示在延迟12、24、36阶时有明显的突出,说明一阶差分处理后仍没有消除季节波动,因此再通过1次12步的季节差分(D=1, s=12)消除季节波动。平稳化处理后的时间序列ADF检验P<0.01,ACF、PACF图见图2。

由图2可知,延迟12 阶内ACF 图呈3阶截尾,PACF图呈3阶截尾,可以取q=3, p=2或3。季节部分两个图中延迟12阶的系数不为零,延迟24、36阶系数均为零,可以取P=1, Q=1。仅通过观察无法确定模型的最优参数,结合最小信息量准则通过forecast包对不同参数进行比较筛选,SARIMA(2, 1, 3) (1, 1, 1)12模型的AIC值最小,对该模型进行检验结果显示:残差相关性Ljung-Box P=0.7682>0.5,正态性检验Shapiro=0.97869,该模型可用。

3.2 BP神经网络模型

取SARIMA模型2009-2018年拟合值及相应客运量实际值作为训练样本对神经网络进行训练,该部分建模通过Matlab软件实现。首先对数据进行预处理,由于民航客运量样本数据为单一时间序列,选择输入层节点数为6,输出层节点数为1,依次将6 个月的SARIMA拟合值作为输入向量,后1个月的客运量实际数据作为输出滚动排列,归一化处理通過mapmin?max函数实现。

隐含层节点数的设定对神经网络的性能影响较大,通过经验公式只能大致确定隐层节点数的范围[9]。取不同节点数进行试验,当节点数>10 时可以达到10-4的目标精度,因此隐含层节点数取10。隐含层及输出层传递函数分别选择Log-sigmoid 型及Purelin 型,经过试验发现trainlm训练函数效果较好,学习速率取0.01。对2019年客运量进行预测结果见图3,该模型预测效果较好。

3.3 组合预测模型

依据三种不同的权重确定方法,以均方误差和平均绝对误差两种评价指标验证不同权重组合预测模型的效果,MSE和MAE两个指标取值越小越好,各组合模型的效果见表1:

由表1可知,组合预测模型的预测效果明显优于单一模型,由误差平方和最小法确定权重的组合预测模型MSE和MAE最小。最终确定组合预测模型如下:

3.4 样本外预测

用上文建立的组合预测模型对2020-2021年客运量做样本外预测,同时与真实数据作对比,结果如图4所示。

图4可见,2020~2021年民航客运量的实际数据与预测值相差甚远,客运量平均每月相差2500万人次,该结果表明新冠疫情对我国民航客运量的影响十分显著。受新冠疫情影响,民航客运量断崖式下降在2年内出现了3次:2020年2月最为明显,当月客运量仅为834万人,3~5月市场持续低迷,客运量实际值不及预测值的50%;第二次断崖发生在2021年2月,随着冬季本土疫情的反弹,民航市场再次受到较大影响,旅客实际运输量仅为预测值的40%;第三次发生在2021年末,因新冠病毒新变种奥密克戎,本土疫情再次出现较大反弹,民航旅客运输量降至3000万人次/月以下,仅为预测值的35%左右。

4 结论

本文基于预测的角度,实现了新冠疫情对民航客运量影响的量化,为后疫情时期民航客运市场的发展提供了参考。通过构建时间序列与神经网络的民航客运量组合预测模型,对新冠疫情后的2020~2021年客运量进行了样本外预测,试验结果表明,我国民航客运量受新冠疫情影响很大。2020、2021年民航全年客运量的预测值分别为70331.0万人次和73499.9万人次,而实际客运量仅为41763.7万人次和44048.3万人次,在新冠疫情的影响下,我国民航实际客运量相较于行业正常发展的情况下降了约40%,我国民航客运市场恢复到疫情前的规模还需要一些时间。

猜你喜欢

BP神经网络新冠疫情
新冠疫情视阈下感悟“四个自信”国家共识
“心理成长任务包”助力学生安度疫情