基于多元线性回归的飞机燃油消耗诱因分析
2021-11-17钱宇,张恒,杨俊
钱 宇,张 恒,杨 俊
(中国民用航空飞行学院飞行技术学院,四川 广汉 618307)
1 引言
燃油作为不可再生能源,一直是航空公司和相关领域人员潜心研究的重要指标之一[1]。据统计,绝大多数航空公司的燃油消耗成本约占到航空公司总运营成本的40%,成为航空公司最大的运营成本[2]。航班的燃油携带量直接决定了航空公司运营成本,但实际飞行过程环境多样,油耗影响因素复杂,各因素及其组合对油耗影响的贡献难以区别界定[3],进而对燃油加载量的准确判断造成影响。因此,进行燃油消耗诱因研究具有实际意义。
多元线性回归模型是一种常用的分析方法,马钰等[4]采用多元线性回归模型分析了2006-2016年的甘肃省民航数据,对甘肃省民航客运量的影响因素进行相关研究;王泽坤等[5]用多元线性回归法分析低空空域的利用现状和对军民航的影响因素,通过回归模型输出结果得出低空空域的可用性程度;石传华[6]通过建立回归方程,挖掘研究影响下降率的因素,最终得出了影响因素权重,为飞行品质监控提供了研究基础;陈斌等[7]在研究管制员疲劳时,应用多元回归预测模型分析疲劳和眼动指标,为管制员疲劳预警和检测提供了技术支持;程明等[8]建立多元线性回归模型,分析社会经济指标与民航安全的关联度;Bartel和Young[9]采用高度和马赫数构建了TSFC(Thrust-specific Fuel Consumption Model)模型,提出了一种推力油耗模型;Turgut和Rosen[10]研究了下降阶段低高度平飞过程影响燃油消耗的显著因素,然后采用遗传算法建立并优化了燃油消耗模型;T.Baklacioglu[11]使用多元回归模型,分析得出飞机爬升段高度、真空速与油耗的表达式。目前对燃油消耗诱因分析方面研究较少,多为定性研究或作为燃油消耗预测模型中次要部分进行简要分析[12]。
研究以落地剩余油量为对象,利用相关性分析和主成分分析对影响落地剩余油量的多个参数进行筛选和降维,建立了多元线性回归模型,得出各参数对落地剩余油量的影响程度。
2 燃油消耗影响参数选取
燃油消耗涉及多个变量,且变量间相关性明显,但变量数过大会对高效研究造成一定困难。为使研究问题得到简化,降低建立模型的难度和复杂性,并保证模型的合理性,需先进行研究参数的选取。根据飞机实际运行中燃油消耗的特性,从快速存取记录器 (Quick Access Recorder,QAR)中选取与落地剩余油量关联度较高的17个参数进行研究。所选参数分为飞行轨迹类、飞行操纵类、气象因素类和其它因素类等4类,具体分类情况见表1。
表1 燃油消耗影响参数的分类
3 诱因分析模型
3.1 相关性分析
相关性分析(Correlation Analysis, CA)指衡量不同变量间相互依赖、相互制约、相互影响程度的指标,主要用于实验数据处理、管理标准的测定和经验公式的建立等。相关性分析模型建立过程如下:
3.1.1 皮尔逊(Pearson)相关系数
用来判断不同变量间的相关关系,其计算公式如下
(1)
上式代表样本的相关系数,其中,n代表样本个数,xi,yi代表第i个样本值,特点如下:
1)r∈[-1,1],当0<|r|<1时,表明两个变量间存在相关关系,|r|值越大,相关性越强。若r>0,表明两个变量为正相关;若r<0,表明两个变量为负相关;
2)当r=0时,表明两个变量不是线性相关;
3)当|r|=1时,表明两个变量关系可由直线方程描述;当|r|>0.5时,表明X与Y属于中强相关。
3.1.2 相关系数的显著性检验
需对相关系数计算结果进行显著性检验,避免计算出的数值是由于抽样误差所导致的。具体检验步骤如下:
1)提出假设
原假设H0:β=0,两个变量间不存在相关关系;
备择假设H1:β≠0,两个变量间存在相关关系。
2)计算检验的统计量
(2)
其中n为样本数量,r为计算所得的皮尔逊相关系数。
3)进行决策。
根据给定的显著性水平α(一般默认为α=0.05)和自由度df=n-2查t分布表,得出显著性概率p值。若p>0.05,则接受原假设,即r值无统计学意义;若p≤0.05,则拒绝原假设,即两变量之间有相关性。
3.2 主成分分析
主成分分析(Principal Component Analysis, PCA)是考虑个指标之间的相互关系,使用降维的方法将多个变量转换为少数几个互不相关的主分量,从而达到简化研究的目的。主成分分析模型的建立过程如下:
1)原始数据的标准化处理。
在实际中,需对不同量纲的指标样本进行标准化处理,使每个指标属性均值为0,方差为1。处理公式如下
(3)
(4)
(5)
2)计算相关系数矩阵
(6)
(7)
3)计算特征值及单位特征向量。
首先解特征方程|λI-Rc=0,可用雅可比法(Jacobi)计算R的特征值λi(i=1,2,…,p)及其对应的单位特征向量ei,并将特征值按由大到小的排序,即λ1≥λ2≥…≥λp,此处求出的特征向量ei为主成分表达式的系数。
4)计算主成分的贡献率和累计贡献率。
主成分的贡献率
(8)
(9)
通常选取前m个主成分,使得累计贡献率≥80%(或选取特征值>1的前m个主成分)。
5)计算主成分得分
(10)
式中i,j=1,2,…,p,ej为相应主成分表达系数,主成分的得分可用于进一步的诱因分析研究。
3.3 多元线性回归模型
3.3.1 模型的建立
建立因变量y关于主成分z1,z2,…,zm的回归模型
y=b0+b1z1+b2z2+…+bkzk+ε
(11)
3.3.2 模型参数的检验
3.3.2.1 回归方程的显著性检验(F检验)
1)提出假设。
原假设H2:b1=…bk=0;
备择假设H3:b1,…,bk不全为0。
2)计算检验的统计量。
(12)
3)进行决策。
根据给定的显著性水平α(一般默认为α.05),检验的拒绝域为F>Fα(k,n-k-1)。
3.3.2.2 回归系数的显著性检验(t检验)
1)提出假设
原假设H4:bj=0;
备择假设H5:bj≠0(j=0,1,…,k)。
2)计算检验的统计量
(13)
式中,cjj是c=(xTx)-1对角线上第j(j=0,1,…,k)个元素。
3)进行决策。
根据给定的显著性水平α(一般默认为α=0.05),检验的拒绝域为|tj|>tα/2(n-k-1)。
3.3.3 多重共线性诊断
(14)
3.3.4 残差分析和异常值诊断
通过计算模型的标准化残差值,并结合残差直方图和残差正态概率图,判断残差是否服从正态分布。然后再通过标准化残差查找出异常值,并去除异常值。
3.3.5 输出回归表达式
去除存在异常值的数据组,重新建立回归模型,输入数据,得到回归模型输出结果。
3.4 算法框图
燃油消耗诱因分析模型算法框图见图1。
4 算例分析
4.1 相关性分析
研究选取某航空公司空客A320执飞“成都-三亚”航线的212组QAR数据作为样本。通过相关性分析处理样本数据,得出参数与落地剩余油量的相关系数和对应相关系数的显著性检验值,具体输出结果如表2。
表2 所选参数与落地剩余油量的相关性检验
通过对表2中得出的显著性值和相关系数进行决策,剔除掉不符合要求的参数,最终选择8个与落地剩余油量相关度高的参数做进一步研究,筛选后得到的参数如表3。
表3 燃油消耗诱因模型的相关性分析
图1 燃油消耗诱因分析模型算法框图
4.2 主成分分析
将筛选后的参数进行主成分分析处理,以便得到更具代表性的主成分,进而达到降低输入参数维度、简化诱因分析模型的整体结构。
4.2.1 KMO和巴特利特检验
主成分分析前,首先进行KMO(Kaiser-Meyer-Olkin)检验和巴特利特球体检验,考察变量间的偏相关性,判断主成分分析效果。若KMO检验系数>0.5、巴特利特球形检验的显著值<0.05时,证明主成分分析输出结果满足数据信度和效度要求,能对研究的燃油消耗诱因分析起代表性作用。
通过对参数样本数据进行KMO和巴特利特检验,判断得出研究中KMO和巴特利特检验均通过,具体KMO和巴特利特检验结果见表4。
表4 燃油消耗诱因模型的KMO和巴特利特检验
4.2.2 主成分提取
图2为主成分分析输入参数之间的相关系数矩阵图。图中椭圆块形状代表两个变量的线性相关度,值越接近1,椭圆越圆;值越接近0,椭圆越扁。从相关系数矩阵图来看,变量之间的相关性比较强,的确存在信息上的重叠,该结果进一步确认了信息浓缩的必要性。
图2 诱因模型输入参数相关系数矩阵图
通过对不同量纲的参数原始数据进行标准化处理,然后对处理后的标准化数据进行主成分分析,得到总方差解释表和主成分贡献图,具体结果见表5和图3。
图3 燃油消耗诱因模型的主成分贡献图
表5 燃油消耗诱因模型的主成分总方差解释
成分总计方差的%累积%总计方差的%累积%60.4015.00897.22470.2222.77599.99986.17E-50.001100.000
由总方差解释图和主成分贡献图输出结果知,前4个主成分的特征值大于1,并且前4个主成分的累计方差贡献率达到83.944%(大于80%),因此研究提取前4个主成分,相应的主成分系数矩阵见表6。
表6 燃油消耗诱因模型的主成分系数矩阵
4.2.3 计算主成分表达式
由表6中主成分系数矩阵的输出结果,可分别得出主成分的表达式,具体如下:
z1=0.965x4-0.963x7+0.891x14+0.231x17
z2=-0.889x2+0.871x10+0.230x16
z3=0.211x10+0.109x14+0.734x16+0.812x17
z4=-0.107x4+0.112x7-0.117x10+0.927x15-0.379x16+0.221x17
4.3 多元线性回归模型
将得到的主成分表达式作为多元线性回归模型的输入,进行建模研究。
4.3.1 模型的建立
在模型建立过程中,提取的主成分为自变量,落地剩余油量为因变量。采用“步进法”,即先算出每个自变量对因变量的影响值,把影响值最大的变量引入模型之中,然后重复此过程,直至引入所有变量为止。本研究中根据得到的非标准化系数B数值可知,逐步建立的四个回归模型如表7。
表7 燃油消耗诱因分析的回归模型系数
由表7可得知,得出回归模型表达式如下:
y=0.461z3+0.382z4-0.343z2-0.185z1
4.3.2 参数检验和共线性诊断
四个回归模型的方差分析见表8。
表8 燃油消耗诱因的回归模型方差分析
由表8中输出结果可知,F1,F2,F3,F4分别为56.715,58.430,63.068,53.957;p1, p2, p3, p4均小于0.001;回归方程显著性检验通过。
由表7中t检验输出结果可知,四个回归模型中,常量不满足显著性要求(剔除),四个主成分自变量的检验值均小于0.001,故回归系数显著性检验通过。
由表7中共线性统计结果可知,四个模型中各自变量VIF值均为1,远远小于5,故不存在共线性或共线性较弱。
4.3.3 残差分析和异常值诊断
建立多元燃油消耗诱因的回归模型残差直方图和残差正态概率图,如图4和图5,并且列出回归模型的个案诊断表,如表9。
图4 燃油消耗诱因的回归模型标准化残差直方图
图5 燃油消耗诱因的回归模型标准化残差正态概率图
表9 燃油消耗诱因的回归模型个案诊断表
由图4和图5结果可看出,残差基本服从正态分布;由表9可以看出,共有9组个案存在异常值。
4.3.4 输出回归表达式
剔除掉异常的9组个案数据,重新建立多元回归模型,重新进行参数检验和残差分析,分析得到优化后的回归模型满足参数检验和残差分析要求。将主成分表达式代入优化后的回归模型,得到模型的表达式如下:
y=0.476z3+0.412z4-0.354z2-0.196z1
=0.315x2-0.233x4+0.235x7-0.256x10-
0.123x14+0.382x15+0.112x16+0.432x17
4.4 分析
根据多元线性回归建模分析得到的表达式,可得到如下分析:
1)自变量(实际主高度层、航程距离偏差、计划起飞重量、实际起飞重量、起飞滑跑油量)在表达式式中系数均为正,表明因变量(落地剩余油量)随这些变量增加而增加,与这些自变量属于正相关关系。
2)实际航程距离、巡航平均空速、飞行时间等这三个变量与落地剩余油量成负相关关系。
3)这8个自变量中,起飞滑跑油量和计划起飞重量这两个变量对落地剩余油量的影响最大,而且都是正相关影响。
5 结束语
研究采用了相关性分析筛选出所需参数,再用主成分分析进行了数据降维,将主成分输出结果进行了多元线性回归建模研究,最终得出落地剩余油量与相应自变量参数的回归模型表达式。从最终输出结果得出了影响落地剩余油量的参数名称和具体的影响程度,为进一步的落地剩余油量的预测研究和航空公司的节油策略研究提供了算法支持。