多头注意力驱动的航空高速轴承故障诊断方法

2023-02-27朱家正林建波杜朝辉

振动与冲击 2023年4期

王兴，张晗，朱家正，林建波，杜朝辉

(1. 长安大学工程机械学院道路施工技术与装备教育部重点实验室，西安 710064；2. 西北工业大学航海学院，西安 710072)

航空发动机是飞机“心脏”，为飞机提供动力，保障飞机安全飞行。作为整个飞行系统的动力中心，航空发动机有着构造复杂且工作环境恶劣的特点[1]。发动机长期处于高温、高压、高转速以及高负荷的环境下，使得发动机轴承出现故障的频率越来越高。航空发动机轴承失效不但会引起灾难性事故，并且航空发动机轴承的维修费用已成为航空领域不可忽略的重要因素之一[2]。因此，航空发动机轴承的故障诊断研究对于保障飞机安全运行，避免发生灾难性事故和减少经济损失具有重要意义[3]。

目前针对航空轴承故障诊断方法主要分为基于模型驱动的诊断方法和基于数据驱动的诊断方法。基于模型驱动的故障诊断方法利用先验知识来构建模型从而对故障进行诊断。张晗等[4]提出了一种基于稀疏分解的逐级匹配形态分量分析(stagewise matching morphological component analysis,SMMCA)算法，通过对多分量信号交替稀疏解耦和降噪实现航空轴承微弱故障特征的识别。Rzadkowski等[5]采用叶尖定时技术，根据压缩机第7级转子叶片位移诊断双转子航空发动机中介轴承的故障。Zhang等[6]提出了一种新的非局部稀疏诊断模型(novel nonlocal sparse model,NLSM)及其算法框架，通过引入非局部相似正则，有效提升了航空发动机轴承弱特征信息的显著性水平。随后，Zhang等[7]提出了聚类低秩优化算法(AMS CluLR)及其诊断框架，实现了转速为25 000 r/min的大DN值航空轴承微弱特征辨识。上述基于模型的诊断方法不需要大量的训练样本，即可实现微弱特征的识别，然而模型的构建依赖系统的动力学先验和专家知识，因此难以实现复杂系统的高精度建模，尤其是航空发动机结构复杂，故障信号会经过复杂的非线性传递路径调制和非高斯噪声干扰，传统的建模理论基于系统的线性假设，无法精确描述航空轴承故障信号的产生机制，降低了该类方法在工程中的泛化能力。

近年来，数据驱动的故障诊断方法得到了快速发展。机器学习在故障诊断领域逐步表现出巨大的潜力[8]，使得机器故障诊断进入了人工智能时代[9]。这种技术可以有效快速地处理轴承的振动信号，并且可以不依赖于专家知识去提取信号的深层特征，进而获得精确的诊断结果。Zhao等[10]提出一种结合卷积神经网络和支持向量机的航空发动机轴承故障诊断方法，并验证该方法能够有效地完成故障诊断任务。Wang等[11]通过构造混合核函数并采用粒子群优化算法对核系数等参数进行优化，实现了转速为30 000 r/min的航空高速轴承早期微弱故障的定量智能诊断。王奉涛等[12]提出了一种基于信号灰度变换和卷积神经网络(convolutional neural networks,CNN)的诊断模型，实现了航空发动机中介轴承的健康状态识别。Lin等[13]采用堆叠自编码器网络(stacked auto-encoder,SAE)的深度学习方法，对不同种类、不同程度的轴承故障进行诊断和分类。张向阳等[14]利用小波尺度谱法将一维原始信号转换为图像信号，然后通过卷积神经网络进行故障识别，达到了较高故障识别率。以上基于深度学习的航空轴承故障诊断方法较少依赖专家知识即可完成诊断任务，但诊断过程存在对信号或特征缺乏注意力分配的问题，在面对故障特征信息和噪声干扰信号时，都给予了它们相同的关注度，显著降低了智能模型的诊断精度。受这一观点的启发，更多的学者[15]逐步将注意力机制的思想也引入到了故障诊断领域中。Li等[16]通过引入注意机制，帮助深度网络定位信息数据段，从而实现滚动轴承信号故障特征的可视化。Yang等[17]结合卷积神经网络、门控递归单元和注意机制，提出了一种基于带注意机制的多层双向门控递归单元的故障诊断方法，从而增强了神经网络的可解释性。由于轴承的故障特征往往不只是分布在一个时间尺度上，仅通过一个尺度来获取特征信息会造成信息丢失现象。因此，Xu等[18]将多尺度卷积神经网络与特征注意机制模型相结合，以解决经典神经网络模型在非平稳工况下性能较差的问题。Zhang等[19]提出了一种基于多尺度卷积神经网络和带注意机制的选通递归单元网络(multiscale convolutional neural network and gated recurrent unit network with attention mechanism,MCNN-AGRU)，有效地解决了滚动轴承运行状态监测和性能退化评估中的早期故障检测问题。Wang等[20]提出了多注意一维卷积神经网络(multi-attention one-dimensional convolutional neural network,MA1DCNN)，该方法可以自适应地校准每个层的特征，从而增强网络对故障冲击特征的学习能力。Hao等[21]提出了一种基于多尺度注意机制的卷积神经网络(multi-scale, attention-mechanism based-convolutional neural network,MSAM-CNN)来自动诊断滚动轴承的健康状态，该网络将原始振动信号在不同尺度上进行并行处理，进而融合不同尺度的互补特征以提升诊断能力。

然而，航空发动机运行速度高、工况变化大、结构复杂且干扰噪声强，航空轴承振动信号具有复杂的形态成分，进而微弱故障特征往往存在于多子空间中。然而，以上基于数据驱动的注意力诊断算法将信号的维度看作一个独立空间，并仅在该单一独立空间下去捕获轴承信号的特征信息，不足以融合多个子空间中的故障信息，因此降低了其在高速强噪声环境下航空轴承的故障诊断性能。针对该问题，受到多头注意力机制思想的启发，提出一种基于信号特征的多头注意力诊断方法(multi-head attention diagnosis method based on signal features,MADM)，可实现高速非平稳工况下航空轴承故障状态的识别和诊断。针对于航空发动机轴承信号，首先通过卷积模块对原始振动信号进行初步特征提取，再利用双向GRU模块提取卷积模块所忽略的长距离特征信息，然后引入多头注意力机制，对特征矩阵中不同子空间的信息进行自适应加权融合处理，以提高故障特征的显著性水平。最后，利用全连接模块和Softmax分类器对提取的特征进行分类，进而实现航空轴承的健康状态识别和诊断。试验证明，该方法具有良好的分类精度和稳定性。最后，通过与目前流行的诊断网络进行对比分析，验证了所提出的MADM的性能。

所提出的基于信号特征的多头注意力诊断方法的优点和新颖性总结如下：

(1)将卷积网络、门控单元网络和多头注意力层相结合，提出了一种航空高速轴承智能诊断方法-MADM，不仅可以区分不同类型的故障，而且可以区分相同故障模式的不同退化程度，实现了12 000 r/min以上、剥落面积最小为0.5 mm2的航空轴承高精度定量智能诊断；

(2)通过引入多头注意力机制，可以使得模型对特征矩阵中不同子空间的信息分配不同的注意权重，从而提高故障特征的显著性水平，实现多子空间中故障特征信息的融合；

(3)所提出的注意力机制可自适应的构造注意力机制中的查询矩阵Q、键矩阵K以及值矩阵V，以使得注意力机制对输入数据有较强的自适应性。

1 基础理论

1.1 MADM预备知识

1.1.1 卷积神经网络

卷积网络具备局部感知和权值共享两个重要特征，其不仅可以有效提取信号的特征，而且可减少网络的参数，避免了过拟合。卷积网络将多个滤波器与原始输入数据卷积并生成高级特征。输入原始信号x如式(1)所示

x=[x1，x2,x3,…，xi,…，xN]

(1)

式中，x∈N×1，由于轴承信号为一维信号所以仅用到一维卷积。对一维卷积而言，卷积过程如式(2)所示

Zi=g(WT*xi+b)

(2)

式中：Zi∈c;g(g)为非线性激活函数;*为卷积操作；WT,b分别为卷积核的权重和偏置；c为卷积特征映射维度。对于输入的原始信号x，其局部区域长度xj：j+k=[xj,xj+1,…,xj+k]，k为卷积核的大小，将卷积核从x中的第一个局部区域滑动到最后一个局部区域，可以获得i个卷积核的特征Zi。

1.1.2 GRU

常用的循环神经网络有RNN、LSTM、GRU三种结构。RNN存在梯度消失和梯度爆炸现象，LSTM引入了自适应选通机制可以解决RNN存在的问题。与LSTM相比，GRU的收敛速度更快，性能差异不大。GRU的原理是用门控机制控制输入、记忆等信息而在当前时间步做出预测。GRU单元内部结构图如图1所示，可通过式(3)计算。

图1 GRU单元内部结构图Fig.1 Internal structure of GRU unit

(3)

式中：σ为Sigmoid激活函数； tanh为双曲正切激活函数；⊕为元素相加；·为点乘；rt，yt和ht为复位门、扰乱门和隐藏状态的输出值；zt和ht-1分别为单元的输入和新存储器；W和b分别为权重矩阵和偏置项；下标t和t-1分别为当前时间和状态的前一时间。

1.1.3 MH-ATT

多头注意力(multi head attention，MH-ATT )是基于自注意力的缩放点积模型。MH-ATT 结构如图 2所示。给定输入H∈n×h，n为特征矩阵长度，h为特征矩阵维度。首先将输入H传入全连接层FC1并保证输入输出维度相同，可得到输出X1，再将X1根据维度h按顺序拆分为r个子空间即可得到r个注意力头S1,S2，…，Sr，每一个注意力头包含了h/r个维度。对每个注意力头进行Self-Attention运算，从而强化每个子空间的故障特征，可得到Y1,Y2,…,Yr。将Y1,Y2,…,Yr拼接后可得到X2，再将X2传入全连接层FC2并保证数据长度及维度不变化，从而将不同子空间所获取的高级表示信息自适应融合，即可得到输入数据的高级表示Y。上述操作可通过式(4)计算。

图2 MH-ATT结构图Fig.2 MH-ATT structure diagram

(4)

式中：Y∈n×h;FC1和FC2为全连层；WFC1，bFC1，WFC2，bFC2分别为两个全连接层的权重矩阵和偏置；spl为矩阵按维度拆分；con为将矩阵按维度拼接。自注意力结构如图3所示。自注意力输入Si∈n×(h/r)，其中:n为特征长度;h/r为单个注意力头的维度。首先对于输入Si的转置矩阵经过三个不同的线性变换后以自适应得到查询矩阵Qi、键矩阵Ki和值矩阵Vi，线性变换过程保证输入和输出大小相同。然后，对得到Qi,Ki,Vi的进行放缩点积注意运算，再将其输出矩阵转置即可获得加权输出Yi，上述操作可通过式(5)计算。

图3 自注意力结构图Fig.3 Self attention structure diagram

(5)

1.1.4 优化器

优化器用来更新和计算影响网络训练的网络参数，使其逼近或达到最优值，从而最小化(或最大化)损失函数，优化器的选择对于网络的最终精度和训练时间时都极为重要。以下将简要介绍几种常用优化器，包括SGD(stochastic gradient descent)，SGDM(SGD with momentum)，RMSprop以及Adam优化器。

SGD为批量梯度下降法，从一批训练样本随机选取一个样本，用它代表整体样本，即把它的值乘以N，就相当于获得了梯度的无偏估计值。SGDM是在SGD的基础上进行的改变，引入一个积攒历史梯度信息动量来加速SGD，所以具有加速梯度下降的作用。RMSProp可使得代价函数中梯度较大参数的学习率较大，代价函数中梯度较小参数的学习率较小，进而能自适应地调节学习率, 避免了学习率越来越低的的问题。

Adam对梯度的一阶矩估计和二阶矩估计进行综合考虑，计算出更新步长为不同的参数设计独立的自适应性学习率。

1.2 MADM

MADM由四部分组成，分别是卷积模块、双向GRU模块、MH-ATT模块以及全连接模块，其结构如图4所示。

图4 MADM结构图Fig.4 MADM structure diagram

1.2.1 卷积模块

卷积模块如图5所示，该模块包含了四个卷积层和一个MaxPooling层，图5中：N为输入的信号长度；C1,C2,C3,C4分别为每层的卷积核个数。卷积过程中采用Padding策略使得卷积前后输入与输出长度相同以保证不丢失信号的边缘特征信息。然后，在每一层的卷积之后对其进行批量归一化(BN层)操作，以防止过拟合和加快收敛。在BN层后，使用RELU激活函数以防止出现梯度消失现象。另外，在第二层卷积层后加入了MaxPooling层进行降维以减小参数。

图5 卷积模块结构图Fig.5 Convolution module structure

针对输入的信号x，将其进行上述卷积操作之后即可得到信号特征Z

Z=[z1，z2，z3，…，zN/2]

(6)

式中,Z∈N/2×C4,C4为第四层卷积中卷积核个数。

1.2.2 双向GRU模块

由于轴承信号为时间序列数据，仅使用卷积模块很难捕获长距离特征的联系。因此在卷积模块之后引入了循环神经网络用来加强提取CNN层中所忽略的信号长距离特征。单向GRU可以基于前一时间的信息预测当前时间的输出，但对于轴承信号故障波形和周期信息，当前状态的输出不仅与以前的状态有关，还与未来的状态有关，因此选用双向GRU以同时考虑以前和未来的信息。

(7)

图6 双向GRU结构图Fig.6 Structure diagram of BIGRU

1.2.3 MH-ATT模块

多头注意力可以使得网络对特征矩阵中不同子空间的信息分配不同的注意权重，从提高故障特征的显著性水平，实现多子空间中故障特征的融合。因此，使用多头注意力将GRU的输出特征矩阵中不同子空间的信息进行自适应加权融合处理，以提高故障特征的显著性水平。

1.2.4 全连接模块

全连接模块在整个网络中起到“分类器”的作用，MH-ATT层得到的特征加权分布Y，包含了轴承振动信号的高级表示，在MH-ATT层之后衔接一个神经元个数为s的全连接层再进行softmax即可完成诊断任务。全连接层计算如式(8)所示

P=f(WYY+b)

(8)

式中：WY为权重系数；b为偏置。

因此，给定信号输入x∈N×1,其中N为信号序列长度。可通过式(9)遍历整个网络

(9)

式中：Z∈(N/2)×C4,f1(·)为卷积模块运算，C4为第四层卷积中卷积核个数；H∈(N/2)×2k，f2(·)为双向GRU模块运算，2为GRU的层数，k为GRU中隐层神经元个数;Y∈(N/2)×2k,f3(·)为MH-ATT运算；P∈s×1，f4(·)为全连接模块运算。

经过以上运算即可得到输入信号的高级特征，最后使用Softmax来完成分类任务，如式(10)所示

M=softmax(WpP+b)

(10)

式中：WP为权重;b为偏置。此外，为了防止过拟合，在P上应用了dropout操作运算。网络参数设置如表1所示。

表1 MADM参数Tab.1 MADM parameters

2 试验验证

本章通过一组航空高速轴承故障试验来评估所提出的MADM的诊断能力。同时，采用四类主流的故障诊断网络进行对比分析。设计的MADM模型使用Pytorch深度学习框架，并在配备WIN10操作系统下的Intel Core i5-6300HQ CPU和NVIDIA GeForce GTX 960 m 4-GB GPU的PC端运行。

2.1 试验平台及数据采集

轴承试验机采用中国燃气涡轮研究院的某型号中等尺寸轴承试验器。该试验器由轴承试验头、驱动装置、液压加载系统、润滑系统、控制系统等部分组成，试验器结构简图及传感器布置如图7所示。测试轴承选用某型号航空发动机专用轴承，其主要尺寸参数如表2所示。

图7 航空轴承试验机主体结构简图及传感器测点布置Fig.7 Main structure diagram of aviation bearing testing machine and layout of sensor measuring points

表2 测试轴承尺寸和性能参数Tab.2 Test bearing dimensions and performance parameters

为模拟航空轴承早期剥落故障，试验轴承用电动研磨笔分别对轴承外圈，内圈和滚珠预制局部剥落故障如图8所示，剥落面积和剥落长度以及标签设置如表3所示。

图8 试验轴承及其局部剥落照片Fig.8 Photos of experimental bearing and its local spalling

试验运行中，轴承径向加载350 N，轴向加载1 000 N，振动传感器分别安装在1#测试轴承和4#陪试轴承的轴承座上，并设置试验器高速轴承两个运行转速分别为12 000 r/min和18 000 r/min。振动信号利用数据采集仪记录，采样频率为 50 kHz。

为使神经网络在训练时，梯度下降进行求解能较快的收敛，故对采集到的轴承信号进行[-1-1]归一化处理,处理过程如式(11)所示

(11)

为提升网络的泛化能力，向训练集中加入高斯噪声，如式(12)所示

(12)

式中：x为输入信号；n为服从高斯分布N(0，0.01)的噪声。

2.2 试验验证

本节首先对提出的MADM在航空轴承信号上进行试验分析，以优化所提出诊断网络的最优性能配置参数，包括了样本长度和优化器类型。然后验证网络在非平稳工况下的诊断能力，并且通过网络自身验证、t-SNE可视化及特征热力图验证了MADM各模块的有效性。最后，使用所提出的MADM与四种相关的故障诊断网络进行了对比验证。

2.2.1 样本长度验证

样本长度的大小会直接影响到网络的诊断精度，所以采用不同的输入长度加以综合考虑从而获得最优样本长度。试验选用在12 000 r/min测得的轴承数据，并按时间截取样本。为保证各组试验的公平性，将每组试验的训练集和测试集样本个数均固定为1 413和351。将输入到网络中的样本长度分别设置为64，128，256，384，512，对应的数据量分别为12 544，25 088，50 176，75 264，100 000。重复试验五次，每次试验迭代60 epochs得到最大精度作为单次试验精度，并以五次试验的平均精度、参数量大小以及平均训练时长的大小作为衡量指标。得到结果如表4所示。

表4 不同样本长度试验结果Tab.4 Experimental results of different sample lengths

由表4可知，随着样本长度的增加，诊断精度随之上升，但参数量以及训练时长也随之增加。由于fs/fc=81，fs为采样频率，fc为故障频率，所以当样本长度为64时，该序列中仅包含了部分特征信息，导致分类精度不高。由样本长度128～512的结果可知样本长度越长，包含的特征信息就越多，得到的精度也随之上升。在数据集的长度不同的条件下，样本长度越长，其包含的信息量越大，诊断精度精度随之升高，参数量以及试验时长有所上升，但参数量的增加以及时长的小幅度增加对于今天高度发达的计算机存储能力而言，影响微乎其微。为了让网络在分类故障时更少的出现错误，因此确定了512为最优样本长度。

2.2.2 优化器验证

为保证试验的公平性，设置的四组试验仅改变MADM的优化器，选取12 000 r/min测得的轴承数据，并按时间截取样本，样本长度为512。四组试验的训练集和测试集个数均固定为1 413和351。重复试验五次，每次试验迭代60 epochs得到最大精度作为单次试验精度，并以五次试验的平均精度作为衡量标准，试验结果如表5所示。

表5 不同优化器诊断精度

由表5可以看出，MADM采用SGD优化器时精度低于100%，而采用SGDM、RMSProp、Adam优化器时模型诊断精度均可达到100%。采用SGD优化器时，MADM精度可达到99.31%，SGDM在SGD的基础上加入momentum，使得网络在训练过程中，可以冲过鞍点以获得更小的损失值，精度可提升为100%。Adam 和 RMSprop 均属于自适应学习率优化算法，Adam在RMSprop的基础上增加了 bias-correction 和 momentum，但二者均可使MADM诊断精度达到100%。因此，MADM对几种主流优化器适应性较强，随机选取一种优化器SGDM作为MADM的优化器。

2.2.3 非平稳工况验证

航空发动机轴承在实际运行过程中不只工作在平稳工况下，经常会处于非平稳工况。为模拟轴承工作的非平稳状态，试验中选取12 000 r/min，18 000 r/min，25 000 r/min和30 000 r/min的数据并设置了四种工况，工况1为平稳工况，工况2～工况4为非平稳工况且非平稳程度逐渐增大，各工况速度组成如表6所示。试验中样本长度为512，训练集和测试集固定为1 413和351。重复试验五次，每次试验迭代60 epochs，以五次试验最大精度、最小精度及平均精度作为衡量指标，结果如图9所示。

表6 三种工况速度组成Tab.6 Speed composition under three working conditions 单位：s

由图9中四种工况试验结果可知，MADM在12 000 r/min平稳工况下精度均可达到100%，在工况2和工况3下精度略有下降，但诊断精度任然较高，当工况中包含四种转速时，精度下降为91.34%。虽然四种工况下训练集测试集数量相同，但由于在非平稳状态下，转速的不同导致信号的特征存在差异，所以导致网络对于不同工况的诊断能力有所差异。总体而言，MADM在以上四种工况下具备较强的诊断能力，可实现非平稳工况下航空轴承故障状态的识别和诊断。

图9 不同工况诊断精度Fig.9 Diagnostic accuracy under different working conditions

2.2.4 网络模块性能评估

为了验证提出MADM各模块的有效性，将MADM分别与CNN、CNN-GRU、Self-attention进行对比分析。CNN包含MADM中卷积模块和全连接模块；CNN-GRU包含MADM中卷积模块、双向GRU模块和全连接模块;Self-attention包含MADM中卷积模块、双向GRU模块，单头注意力模块和全连接模块，其中单头注意力模块即为注意力头数为1的MH-ATT。通过这四种网络得到的故障分类精度即可验证每个模块的有效性。试验中四种网络输入数据均为12 000 r/min和18 000 r/min的混合数据，样本长度为512。重复试验五次，每次试验迭代60 epochs得到最大精度作为单次试验精度，并以五次试验的平均精度作为衡量指标。试验结果如表7所示。

表7 网络自身对比结果Tab.7 Comparison results of network itself

由表7的对比分析由试验可知，CNN虽然具备较强的特征提取能力，但对于一维信号而言，卷积模块不能充分的考虑信号在时间序列上的特征，所以直接将提取到的特征用来分类会导致精度不高且仅为90.24%。由于双向GRU模块具备较强的序列信息提取能力，它可以充分的考虑不同时间段上信息的内部联系，因此在CNN模块基础上加入GRU模块后精度上升为96.01%。单头注意力层可提取信号自身特征间依赖关系，给予重要特征大权重，不重要特征小权重，以获得最终的融合特征。GRU模块得到的高级特征没有充分考虑特征间依赖关系，因此引入单头注意力层后，精度提升为98.69%。但单头注意力层只在一个子空间下学习到了信号特征的依赖关系，而航空轴承振动信号具有更为复杂的形态成分且背景噪声大，故障信号的特征信息往往存在于多个子空间中。从而将单头注意力层替换为MH-ATT模块后，网络可学习在不同子空间下的信号特征间的联系，因此分类精度可提升为99.54%。

2.2.5 可视化

(1)t-SNE可视化

t-SNE可视化用于研究网络隐藏单元序列的特征分布，可在二维空间中可视化信号特征。在t-SNE视化图中，对于不同种类的数据，其聚类越明显表示网络对不同状态的区分度越高。

将 MADM 测试精度为 99.71%的数据进行t-SNE 可视化以研究网络不同层的分类能力，可视化结果如图 10 所示。由图 10 可知，随着网络模块的堆积，九种不同状态的区分度愈加明显。进而表明该方法提取的特征具有更高的可分性，使得分类器更容易区分故障类别。由图 10 也可以可以看出，t-SNE 无法从原始数据输入中区分 9 种不同的信号状态，随着网络模块的堆叠，聚类效果越来越好，从可视化图中可看出所提出的 MH-ATT 模块有较强的聚类能力，也证明了 MH-ATT 模块的有效性。

图10 基于t-SNE的特征可视化Fig.10 Feature visualization based on t-SNE

(2)特征热力图

特征热力图用于分析MH-ATT模块提高航空信号故障特征显著性水平的能力，并依据图中各点数值的大小来确定各点的重要性。首先将MH-ATT模块输入矩阵的维度方向相加，再进行归一化操作后可通过特征热力图进行分析。结果表明MH-ATT模块具备强化与故障相关特征的能力。

MH-ATT模块的输入特征矩阵为H∈n×h，其中n为特征矩阵长度，h为特征矩阵维度，进行式(17)运算即可得到用于表示重要性序列V

(13)

图11 MH-ATT模块输入输出特征热力图Fig.11 Thermal diagram of input and output characteristics of MH-ATT module

2.2.6 深度诊断网络对比分析

为评估所提出的MADM的诊断性能，选择了目前流行的诊断网络进行对比分析，分别是WDCNN[22]、CNN、LSTM[23]、Q-Attention，并优化其参数，使其发挥最佳诊断性能作为对比模型。为了保证试验的公平性，采用2.2.3节中的四种工况作为数据集，样本长度设置为512。重复试验五次，每次试验迭代60 epochs得到最大精度作为单次试验精度，并以五次试验的平均精度作为衡量指标。其结果如图12所示。

图12 不同工况下深度诊断网络对比结果Fig.12 Comparison results of depth diagnosis network under different working conditions

由图12可知，在四种工况下MADM的诊断精度均高于其他四种诊断网络。在平稳工况下五种模型均可达到较高诊断精度，但随着非平稳程度逐渐增大，各个模型的诊断能力随之下降。尤其在非平稳程度较大的工况4条件下，相比于其他方法MADM诊断精度高出7%左右。总体而言MADM的诊断精度受非平稳程度影响较小，可实现非平稳工况下航空轴承故障状态的识别和诊断。此外，为了对比模型分类时的其他性能，选取工况2的数据来对比分析不同模型的性能。重复试验五次，每次试验迭代60 epochs得到最大精度作为单次试验精度，并以五次试验的最大精度、最小精度、标准差、训练时间、平均准确率、平均精确率、平均召回率、F1值。准确率、精确率、召回率和F1值的计算如式(18)所示

(14)

式中，TP，FP，TN和FN分别为真阳性样本、假阳性样本、真阴性样本和假阴性样本的数量。试验结果如图13、表8和表9所示。

图13 深度诊断网络对比结果Fig.13 Comparison results of deep diagnosis network

表8 深度诊断网络对比结果1Tab.8 Comparison results of deep diagnosis network 1

表9 深度诊断网络对比结果2Tab.9 Comparison results of deep diagnosis network 2 单位：%

从图13中可以看出，与Q-Attention、LSTM、CNN、WDCNN相比，所提出的MADM方法取得较好的诊断结果。由表8和表9可知，MADM平均预测平均准确率、平均精确率、平均召回率、F1值均高于其他方法，平均准确率高达99.54%。由于MADM子模块较多，使得训练模型的时间有所增加，但MADM的诊断精度指标都高于其他深度诊断网络且标准差低于其他网络，表明了MADM在诊断过程虽然牺牲了一些时间成本，但可保证高精度诊断并具备一定的稳定性。

图14给出了所提出MADM诊断方法精度为99.71%时的混淆矩阵。图14中行坐标代表预测标签，列坐标代表每个条件的实际标签。结果表明Health、Inner-1、Inner-2、Outer-1、Outer-3、Ball-1、Ball-2、Ball-3的准确率均为100%。Health、Outer-2均有一个样本预测错误，准确率均为97.36%。

图14 MADM结果的混淆矩阵Fig.14 Confusion matrix of MADM result

3 结论

为了解决航空发动机高速轴承早期故障诊断问题，提出了一种基于信号特征的多头注意力航空发动机轴承故障诊断方法。首先，通过卷积模块对原始振动信号进行初步特征提取。再利用双向GRU模块提取卷积模块所忽略的长距离特征信息，然后引入多头注意力机制，对特征矩阵中不同子空间的信息进行自适应加权处理，以提高故障特征的显著性水平。最后，利用全连接模块和Softmax分类器对提取的特征进行分类。试验证明该诊断方法可实现航空轴承的健康状态识别和诊断，并可得出以下结论：

(1)在诊断任务中，样本长度越长，其包含的信息量越大，会使得诊断精度越高的同时也会带来内存和时间上较多的消耗。MADM对数据迭代策略要求不高，使得SGDM，RMSprop及 Adam三种优化器均适用于MADM。

(2)MADM不仅可以识别不同类型的故障，而且可以区分相同故障模式的不同退化程度。此外在混合转速下也具备较高的诊断精度，可实现高速非平稳工况下航空轴承故障状态的可靠识别和诊断。

(3)通过t-SNE可视化及特征热力图可知，MADM每个模块对诊断任务均具有提升精度的作用。此外，MH-ATT模块可根据输入数据自适应的构造注意力机制中的查询矩阵Q、键矩阵K及值矩阵V，以将不同子空间的信息分配不同的注意权重进行故障信息融合，从而提高故障特征的显著性水平。

(4)相比于主流的深度诊断网络，面对非平稳工况时MADM诊断精度高且标准差较低，因此可以在保证诊断高精度的同时还具备优秀的稳定性。

然而，所提出的MADM方法对原始信号不同尺度上的特征信息没有充分考虑，因此未来工作将主要集中在将不同尺度与多头注意力进行融合，以提高网络对航空发动机轴承的诊断力。