APP下载

融合多注意力机制的卷积神经网络轴承故障诊断方法

2022-12-12康涛段蓉凯杨磊薛久涛廖与禾

西安交通大学学报 2022年12期
关键词:注意力轴承卷积

康涛,段蓉凯,杨磊,薛久涛,廖与禾

(1.西安交通大学现代设计及转子轴承系统教育部重点实验室,710049,西安;2.西安交通大学陕西省机械产品质量保障与诊断重点实验室,710049,西安)

滚动轴承作为机械传动系统的重要组成部分,其健康状态与主机的性能与效率紧密相关。受到恶劣环境和复杂工况的影响,轴承在服役期间极易出现故障,大量的统计分析结果表明:超过40%的设备故障与轴承相关[1]。因此,实现对轴承故障的及时发现和诊断,是确保主机安全平稳运行的关键。但是,在实际工作过程中轴承故障信号相对微弱,分析过程极易受到噪声干扰的影响[2]。因此,在强噪声干扰条件下准确提取信号中的故障特征,对轴承故障进行及时诊断、避免轴承故障的持续恶化,具有重要的科研和工程意义[3-4]。

振动信号对故障敏感且对轴承健康状态的反映直观,因此目前在故障诊断中应用最为广泛[5]。依据振动信号实施的滚动轴承故障诊断大致包括以下3个环节:信号获取、特征提取、故障诊断。传统基于信号处理的诊断方法由于需要复杂的信号分析算法来提取特征,且特征分析和故障诊断过程严重依赖专家经验,其应用受到了很大的限制[6]。

近年来,通过深层非线性结构学习数据内在规律、构建样本和结果之间映射关系的深度学习方法开始引起故障诊断领域的关注[7]。其中,卷积神经网络(CNN)利用卷积运算的思想,在大大减少模型参数量的同时增强了网络的能力,无需对信号进行预处理就可以实现端到端的智能诊断[8]。例如:Abdeljaber等[9]提出了一种CNN模型,对旋转机械的结构损伤进行了检测和定位;周奇才等[10]基于经典多尺度CNN模型AlexNet实现了旋转机械故障诊断。

在此基础上,有学者进一步通过对CNN进行改进,尝试对噪声干扰场景下的轴承故障诊断问题展开研究。Zhang等[11]提出将残差网络用于轴承故障诊断,并在信噪比为0~8 dB范围内实现了轴承故障诊断。董绍江等[12]提出了多层降噪技术与CNN相结合的方法,对信噪比范围在-6~10 dB的信号均有较好的诊断结果。张弘斌等[13]提出了一种新的多通道样本构造方法,结合深度CNN来提高轴承故障诊断的效果。这些工作提高了CNN在有噪声干扰下的诊断效果,也为后续的研究打下了基础。但是,在强噪声干扰场景下,CNN对没有预降噪的信号诊断准确率仍需提高,且工况变化对性能的影响亦不容忽视[14-15]。现有研究的不足主要有以下两点。

(1)传统CNN为了提高其特征表达能力,设置的通道数较大,这样的深度CNN虽然可以提高性能,但并不是所有通道都富含故障信息,一些通道中学习的甚至是噪声的分布特征[16]。对通道的无差别对待导致CNN结构复杂并造成算力的浪费。同时,由于整段信号中往往只有部分数据(如连续的脉冲信号段等)含有关键故障信息,其他与故障无关的数据对CNN的学习造成了干扰。上述原因使得目前大多的CNN优化方法往往只能通过复杂的模型结构来改善性能,而并没有提高CNN的学习效率,导致其性能易退化的同时限制了CNN在工况变化时的泛化能力。

(2)信号中对应于故障的特征频率成分与干扰分量分布在不同的信号尺度中,且工况变化会改变这种分布,因此不同尺度下的信息对故障诊断的价值并不等同。现有的多尺度CNN虽然通过设置多个卷积通路来分别获取不同尺度下的信息,但仍未能充分考虑不同尺度间信息差异,极易受到无关分量和冗余信息的干扰。

针对以上不足,本文提出一种多注意力卷积神经网络(multi-attention convolutional neural network,MACNN)自适应抗噪模型。通过融合通道注意力机制和时间注意力机制对卷积层进行增强,在抑制噪声等干扰信息的同时,有效挖掘了数据中的关键故障特征信息,从而优化了CNN的学习机制;再通过通道注意力机制融合多种不同尺度下提取的故障特征,使网络能够自适应地选择需要的特征。本文主要的贡献如下。

(1)从优化CNN的学习机制出发提高其学习效率。具体地,通过引入并改进多注意力机制来改善其可用性,使网络判别并有选择性地学习通道和信号中的关键故障特征。

(2)在多尺度CNN的基础上提高其对不同尺度下特征的提取能力。将多个尺度间的数据等效为多个大型通道,并使用通道注意力机制自适应融合不同尺度中的特征。

1 卷积神经网络

CNN通常由卷积层、池化层以及全连接层组成[17],如图1所示。

图1 卷积神经网络

卷积层通过卷积核的移动遍历整段数据,以此进行卷积运算,分别计算出数据点的权重与偏差。通过激活函数进行非线性变换来拟合复杂的映射关系,建立数据与其所属类别间的联系,运算式为

(1)

sigmoid激活函数在本文提出的网络中多次使用,其公式为

(2)

式中:σ(·)为sigmoid函数;X为输入矩阵。

卷积层运算后的数据会进入池化层,池化层主要是对卷积层中抽取出来的抽象特征进一步降维[18]。本文使用的方法是最大池化,即在一个区域内求出最大值来代替该区域的所有值,从而实现降低维度目的,即有

(3)

全连接层整合不同的特征,并通过分类函数给出网络的输出结果,其公式为

(4)

2 MACNN故障诊断方法

2.1 多注意力机制

注意力机制以权重的生成和分配重新调制网络参数[19],并通过训练最终使网络聚焦于关键特征,从而优化CNN的学习机制。在调制网络的同时不损失原有的故障特征、避免负优化的情况发生是使用注意力机制的前提。为此,本文分别引入并改进通道注意力机制以及时间注意力机制,通过从不同角度压缩特征生成通道和时间维度下数据的自适应权重,实现抑制干扰信息,保留并突出了关键故障特征的响应。

2.1.1 通道注意力机制

为解决卷积神经网络中大量通道间信息价值不等同造成网络难以训练并影响识别准确率的问题,本文引入文献[16]中提出的通道注意力机制方法并加以改进。该方法通过均值池化和最大池化,将全局信息压缩到信息通道维度,以此建立不同通道间的相互依存关系。为了进一步获取不同通道的关键程度,将池化后的向量分别送入瓶颈结构的挤压-激励网络,通过设置压缩比例r来迫使网络舍弃一些不重要的神经元的值。

设送入多注意力机制的矩阵为X∈H×1×W,其中,H为通道数,W为数据长度。有中间向量c∈H/r×1×1。两个挤压-激励网络的输出相加,获得一个新的特征向量c′∈H×1×1。最后,通道注意力机制的输出矩阵C为

C=Xσ(c′)

(5)

卷积神经网络的通道数很大,反复利用注意力机制重新校准网络参数易减少深度特征的响应,使网络无法学习潜在的故障信息。因此,本文在注意力机制生成并赋予权重后,额外引入了残差连接[20]的思想,在原始数据与注意力机制调校后的数据间建立映射,保留原始信息以提高优化的可行性。残差连接可表示为C′=X+C,用于防止网络性能的退化。通道注意力机制的结构如图2所示。

图2 通道注意力机制

2.1.2 时间注意力机制

通道注意力机制解决的是通道间信息差异性判别的问题,另一个值得注意的问题是如何确定信号中包含关键故障信息的信号段。这个问题主要涉及在不损失信号原有特征的条件下获取信号在时间维度上故障信息关键程度的分布,而池化方法难免会丢失特征,不适用于该问题。为此,本文提出采用参数为1×1×1的元卷积核遍历整段信号来获取权重分布的时间注意力机制。元卷积核在对信号进行卷积运算时,并不会改变原有数据的特征,而会压缩信息实现特征的升维,从而实现了将整段信号特征向高维度的非线性映射。所生成的权重向量t∈1×1×W在通道维度上已压缩,其神经元代表了时间维度上每个数据点的响应值,数值越大意味着信号在此处故障特征越为关键,反之信号在此处为干扰特征。与通道注意力机制相同,使用sigmoid函数生成调制的权重并与原始信号相乘来赋予权重

(6)

时间注意力机制同样使用残差连接的方式,即T′=C′+T。对应的结构如图3所示。

图3 时间注意力机制

在MACNN中,通道注意力机制和时间注意力机制先后布置,分别提取关键通道和关键信号段的特征,输出矩阵T′包含了多角度的关键故障信息并随着模型训练不断优化。

2.2 MACNN整体结构

在上述多注意力机制的基础上,本文构建了MACNN自适应抗噪网络模型,整体结构如图4所示。轴承振动数据输入模型先将整段数据随机采样,之后分为可供网络训练和测试的样本。样本先后通过特征预筛选层以及由特征提取子网络和多注意力模型交替布置组成的多尺度特征提取器,最终自适应融合所有提取的特征给出诊断结果。

图4 多注意力CNN结构

模型的第1层参数设置尤为关键,对网络整体的性能有较大的影响。轴承故障对应的特征分量往往位于低频段,而在步长相同的条件下,大卷积核提取低频信息的能力更强[21]。同时,轴承振动信号具有很强的周期性,大卷积核还提供了更大的感受野,可以使模型更为关注整段信号的全局性周期特征。基于以上考虑,在MACNN中设置了使用较大卷积核的卷积层进行特征预筛选。该层卷积运算后的信号依次通过最大池化层、BatchNorm层以及Dropout层。其中:BatchNorm层通过对模型参数的归一化可以有效地加快网络收敛速度并防止梯度爆炸或消失;Dropout层通过随机丢弃神经元参数可以有效地抑制过拟合。

在对数据中特征预筛选后,为了增强网络的泛化能力以及对不同尺度下特征的提取能力,本文沿用文献[16]中使用的多尺度CNN作为特征提取器,改进了网络结构并重新设置了所有参数。具体地,在每次卷积运算后使用BatchNorm函数来加快训练、防止过拟合。同时,为了防止多次池化造成特征丢失,仅第一个特征提取子网络使用了池化层。运算式为

Yk=δ(P(BN(Wk*Y+Bk)))

(7)

式中:Yk为特征提取子网络中卷积层输出的矩阵;Wk和Bk分别为每个尺度下的权重矩阵和偏差矩阵;BN为BatchNorm函数;P为最大池化函数;δ为ReLU激活函数,可以增加模型非线性表达能力,有

(8)

在多尺度特征提取器的框架下,多注意力机制模块化后布置在每个特征提取子网络后。通过内部权重生成网络生成自适应权重向量c′和t,并在训练过程中不断优化,再根据权重值逐层重新调制网络参数。交替布置的特征提取子网络和多注意力机制模块共同构建了多尺度特征提取器的一条通路。

更为关键的是,特征提取器提取到的不同尺度下的信息价值并不等同,过往研究中的简单拼接操作无法去除尺度间的冗余特征,无法增强其中关键尺度下的信息。为解决此问题,本文创新性地使用通道注意力机制关联不同尺度间的特征,将多个尺度的信息看作多个大型通道的信息。每个卷积通路对应为一个通道,分别生成α1,…,αk的尺度权重并进行自适应融合,根据不同尺度下特征的价值分配网络的关注度。

最终分类需要将信息融合后的特征矩阵展开排成一列。相比常用的全连接层,全局平均池化可以大大减少网络的参数,减轻过拟合现象[2]。因此,MACNN使用全局平均池化来获取分类所需的特征向量z。该向量节点数与所分类别数一致,每个节点的输出值表示该样本属于对应类别的概率。网络结构末尾输出层使用Softmax分类器,以概率最大的类别为模型诊断类别。设N为轴承健康状态类别数,则运算式为

(9)

式中q(n)表示最终输出的诊断类别为第n类。

2.3 MACNN训练过程

在构建MACNN整体结构后,为评价获取的深层特征结果,选择交叉熵损失函数来衡量输出值与真实值的差距,其公式为

(10)

式中p(n)为网络输出层预测样本属于第n类健康状态的概率。模型的训练目标是使损失函数L最小,从而使预测值接近真实值,并使用Adam优化算法来优化梯度下降的过程。为了防止模型收敛后继续训练导致过拟合,50轮内识别准确率提升值小于0.5%便提前结束训练,模型的训练流程如图5所示。

图5 MACNN训练流程

3 实验验证与分析

为了验证本文提出的MACNN模型在强噪声环境下的性能及泛化能力,采用课题组自研的轴承故障模拟实验台的测试数据进行实验验证。

3.1 实验参数设置

使用python语言在Keras深度学习框架上进行编程。计算机使用NVIDIA 3060Ti GPU以及16 GB内存硬件配置。训练模型时,数据批量大小选择为128,训练轮次为200,学习率设置为0.001。由于深度学习在训练样本数较少时结果较差,使用重采样的方法扩充数据集[22]。设置重采样步长为450,最终得到每类数据包括540个样本,每个样本的长度为2 048,每类数据按照8∶1的比例划分训练集与测试集。为使模型尽快收敛,对所有数据进行标准化处理,即

(11)

在网络参数的设置上:经过交叉验证实验对比和调整,通道注意力机制中挤压-激励网络的压缩比设置为4;Dropout层丢弃的概率为0.5;多尺度CNN中参数k取为3,3个尺度卷积核大小分别选择为3、5、9,对应卷积通路1、2、3,每个通路中的每个多尺度卷积层包括了3个内部的特征提取子网络;多注意力机制模块中,时间注意力机制根据其原理均需选择1×1×1的卷积核,不再单独列出,列出的核数为通道注意力机制中挤压-激励网络的神经元数,其他参数如表1所示。

表1 多注意力CNN参数

3.2 数据集描述

轴承实验台由电机、转速传感器、径向加载组件以及待测轴承等部分组成,其实物图如图6所示。

图6 实验室轴承实验台实物

测试轴承型号为SKF6308,包含正常、内圈故障、外圈故障、滚动体故障以及保持架故障共5种状态。其中,内圈、外圈通过激光加工出矩形缺陷,滚动体故障使用砂轮机磨削,保持架故障采用线切割。

数据采样频率为12 kHz,采样时长为10 s。分别在电机转速为500、1 000、1 500、2 000 r/min以及轴承径向负载为0.4、0.8、1.2 kN共12种工况组合下进行了数据采集。不同工况的数据样本数相同,每一个工况数据集描述如表2所示。其中:故障程度1、2、3分别代表轻微、中等、严重这3种故障程度,0则代表没有故障;每类数据均打上了对应的标签。

表2 轴承实验台数据集描述

3.3 模型训练过程分析

t-SNE降维方法通过对数据向二维空间线性投影,可以直观展示数据的分布。以转速为2 000 r/min、径向负载为1.2 kN的数据为例,对网络的训练过程进行了可视化,结果见图7。

图7(a)为数据输入网络前的分布,可以看出,此时10类数据间完全不可分。图7(b)、(c)分别为数据通过多注意力模块1中卷积通路1、融合多尺度的通道注意力机制的分布,可以看出,随着网络层次的深入,模型逐渐对不同类别的数据有了明显的分类边界。图7(d)为网络输出层数据的分布,可以看出,此时模型不仅可以对不同类型的数据有效地分类,且类别间的分布距离较大而类内数据距离较小。综上所述可知,可视化结果表明所提出的模型分类效果较好。

(a)原始分布 (b)多注意力模块1的分布

为了分析所提出的多注意力机制权重在模型训练时的变化情况,并验证权重优化过程的有效性,展示了模型刚开始训练5轮以及最终收敛时,多注意力机制模块1卷积通路1中通道和时间注意力机制权重的分布,如图8所示。此处,网络的通道数为64,数据点数为218。

(a)前期通道权重分布

从图8(a)可以看出,在模型刚开始训练时,各个通道的注意力权重值差距不超过0.2且集中在0.5附近;在图8(b)模型最终收敛时,通道间的权重已呈现明显的差异性分布,表明通道注意力机制已根据通道内信息的关键程度进行了参数调制。类似地,如图8(c)、8(d)所示,时间注意力机制早期各数据点权重比较接近,而收敛时权重存在明显的周期性分布。均匀周期性分布过程表明,时间注意力机制突出了包含周期性故障特征的数据点响应,其他无关数据点赋予了低权重来降低干扰。综上所述可知,多注意力机制通过训练可以有效调整权重值,从而有效地挖掘了关键故障特征并且抑制了对故障诊断无用的干扰。

3.4 模型自适应抗噪性能分析

为考察MACNN自适应抗噪模型在噪声下的性能,对轴承信号添加一定的噪声来模拟实际场景。图9以滚动体轻微故障数据为例,给出了原始测试信号与添加大量随机干扰后(信号信噪比为-25 dB)的对比。可以看出,加噪后信号中的故障冲击特征被噪声完全淹没。

(a)原始信号

为验证所提模型中多注意力机制对抗噪性能的提高能力,对比了无注意力机制(no attention mechanism,NAM)与多注意力机制(multi attention mechanism,MAM)两种网络结构在转速为2 000 r/min、强噪声环境(信噪比为-25 dB)下不同负载的故障诊断准确率。两种网络其他参数均一致,测试10次的实验结果如图10所示。

图10 多注意力机制对模型抗噪性能的影响

图10表明,多注意力机制对模型的自适应抗噪性有较好的改善,准确率平均提升12.46%。其中,在径向载荷为0.8 kN时,包含多注意力机制的模型MAM比不使用注意力机制的模型NAM的识别准确率提高了22.12%。分析结果同时表明,随着载荷的降低,两种模型的识别率都有不同程度的下降,但任意情况下MAM识别准确率都比NAM高。由此可见,添加多注意力机制的网络可有效抑制噪声干扰。分析结果验证了MACNN的性能和多注意力机制的有效性。

3.5 不同方法性能对比分析

为对比所提方法与其他方法的自适应抗噪性能,分别以信噪比为-16~-6 dB的轴承振动信号为分析对象进行方法验证。实验中用于对比分析的方法包括WDCNN[21]、CNN-LSTM[23]、MSCNN[24]以及ResNet[25]。WDCNN针对轴承信号特点改进了CNN的模型参数;CNN-LSTM中引入了长短时记忆网络结构,更易捕捉轴承信号中的特征;MSCNN使用了多卷积通路,有较强的特征提取能力;ResNet建立了残差连接,可以在提取深层特征信息的同时将浅层提取的特征信息保留下来。这些方法在轴承故障识别上已取得了较好的结果,被许多后续文献引用对比,本文取这4种经典方法进行性能对比验证。4种方法与MACNN的数据分析结果如图11所示。

图11 不同方法的自适应抗噪能力对比

可以看出,随着噪声强度增大(信噪比降低),4种对比方法的准确率明显下降。在信噪比为-16 dB时,WDCNN、MSCNN、CNN-LSTNM、ResNet的准确率分别为18.07%、54.30%、49.23%、83.85%。MACNN在所有噪声背景下的准确率稳定在98.5%以上,在信噪比为最低的-16 dB时,准确率为98.85%,远高于对比方法。

为进一步检验各方法在不同转速下的抗噪性能及稳定性,对4种不同转速下(径向负载为1.2 kN)的测试信号添加随机噪声(信号信噪比为-10 dB)进行10次测试,结果如表3所示,表中数据形式为10次测试的“平均值±标准差”。

表3 不同转速下各方法的测试结果

分析结果表明,转速变化对不同方法的诊断准确率均有影响。从故障激发响应的规律看,转速越低则信号中的故障特征越微弱。此时,对比方法的诊断准确率均明显下降且不稳定,WDCNN、ResNet、CNN-LSTM、MSCNN的准确率最大降幅分别为28.4%、44.43%、40.83%以及12.83%。MACNN在4种不同转速下,准确率始终保持在94%以上,准确率最大下降仅为2.62%,且多次测试的准确率波动值均小于对比方法,表明MACNN模型具有较好的抗噪性能和稳定性。

为考察负载变化的影响,继续在转速2 000 r/min下对实验轴承径向载荷分别为0.4、0.8、1.2 kN,信噪比为-10 dB的数据进行分析。为便于描述,分别以A、B、C代表上述3种载荷工况,以一种工况下的数据进行训练,其他两种工况下的数据进行测试。例如:A-B表示以0.4 kN径向载荷下的噪声数据进行训练、以0.8 kN径向载荷下的噪声数据进行测试。测试10次后的实验结果如图12所示,图中数据为10次测试的平均值。

图12 不同方法抗负载变化能力的对比

可以看出,WDCNN、ResNet、CNN-LSTM这3种模型在负载变化时,性能均发生了明显的退化。例如,负载变化时的C-A场景与负载未变化时的C-C场景相比,3个模型的准确率分别下降至58.40%、69.24%、68.70%。MSCNN和MACNN在所有负载变化场景下比其他方法的诊断准确率都要更高,但相比MSCNN,MACNN的抗负载变化能力更好。MACNN在所有变载荷场景的准确率均保持在88%以上,最低准确率为88.21%,最高准确率可达98.50%;MSCNN在各场景下的准确率均低于所提方法5%左右。分析结果表明,MACNN在噪声环境下仍有较好的抗负载变化能力。

4 结 论

本文以融合通道注意力机制和时间注意力机制的方案改进卷积神经网络,形成了一种具备自适应抗噪能力的多注意力卷积网络模型MACNN。主要结论如下。

(1)该网络利用通道和时间的复合注意力机制,从不同角度抑制噪声及无关信号分量等干扰信息的影响,并自适应地增强故障特征的响应,优化了CNN的学习机制。实验结果表明,在强噪声背景下,多注意力机制的引入使模型的识别准确率平均提升了22.12%,所提方法有效、可行。

(2)在不同信噪比下的对比实验中,MACNN在各噪声背景下的准确率均稳定在98.5%以上,验证了其自适应抗噪能力。

(3)跨载荷实验结果显示,MACNN的准确率均保持在88%以上,相比其他方法,其抗噪性能和稳定性更优。所提方法在跨工况条件下仍然具有更好的故障特征提取能力。

(4)由于多注意力机制的引入,计算量增加,模型训练需要更多的时间。此外,方法有效的前提是设备有大量标记数据。因此,缩短模型训练时间、降低模型训练过程对大量标记样本的依赖性是后续研究的重点。

猜你喜欢

注意力轴承卷积
轴承知识
轴承知识
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
轴承知识
轴承知识
卷积神经网络的分析与设计
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”