APP下载

一种基于双向长短期记忆结构与多尺度卷积结构融合的轴承智能故障诊断方法

2022-10-17欧阳励何水龙朱良玉胡超凡蒋占四

振动与冲击 2022年19期
关键词:轴承卷积故障诊断

欧阳励, 何水龙, 朱良玉, 胡超凡, 蒋占四

(桂林电子科技大学 机电工程学院, 广西 桂林 541004)

在产业现代化的浪潮中,数字化旋转机械成为主流。机械设备的正常运行直接关系着产业的生产发展,倘若无法及时判定机械故障类型并实施精准维修,最终将造成重大安全事故或经济损失[1]。因此,对机械故障进行精准识别是消除事故隐患、降低运维难度、提高生产质量的必要手段。轴承作为机械设备的基础零部件,是机械故障诊断的重点研究对象,其相关的诊断技术研究也引起广泛学者的关注[2-4]。

近年来,轴承故障诊断技术方法日新月异、层出叠见。起初,轴承故障诊断依赖于人员的专业知识和相关工作经验,使得识别准确度易受主观因素影响,进一步导致故障诊断模型缺乏智能性与实用性。此外,实际机械系统运行情况复杂多变,零部件之间相互耦合、互相干扰,误检漏检的情况也时有发生,现有的故障诊断模型存在一定的局限性。因此,轴承故障诊断智能化成为必然趋势。

深度学习作为当前实现智能故障诊断最有效的技术手段之一,其功能强大、性能优越、准确度高,能对大型数据进行分析处理[5-6],因此得到学者们青睐[7-9]。

采用深度学习进行轴承智能故障诊断研究主要需考虑的问题有:① 网络结构的特征提取能力;② 网络的实效性能与工作量;③ 网络的自适应性;④ 实际运用领域的数据特点;⑤ 网络结构的抗噪性能;等等。

鉴于上述考虑,由于卷积神经网络具有强大的特征提取能力,可对数据掩藏的信息进行深度挖掘,对于机械故障诊断而言是一种很好的诊断模型,薛妍等[10]利用一维卷积神经网络实现对滚动轴承的性能退化识别。曲建岭等[11]利用自适应一维卷积神经网络实现对轴承的智能故障诊断研究,结果表明,所提分类模型的准确度高、有较好的泛化性能。尽管卷积神经网络具有较强的特征提取能力,但其参数多、训练时间长,因此庞俊等[12]针对上述问题,提出一种改进非线性映射函数的卷积网络,并用以实现轴承的故障诊断研究。然而,机械故障信号具有时间特性,同时也易受噪音干扰,CNN(convolutional neural network)在挖掘噪音背景下的时序信号信息方面存在一定的局限性。为此,李自纳等[13]利用LSTM(long shortterm memory)网络的优良时序序列处理效能,将其用于塑料编织机的故障诊断中,研究结果证明了所提方法的有效性。池永为等[14]为提高故障分类准确率与减少训练样本量,提出一种多标签LSTM-RNN(recurrent neural network)故障诊断方法,并通过仿真信号与轴承故障信号验证了所提方法的优越性。虽然LSTM可解决长期记忆的问题,但其对信息挖掘的能力不足、特征提取效率不佳、参数选择繁琐。对此,张龙等[15]针对特征提取效率低且繁琐等问题,提出一种卷积门控循环网络,并成功应用于齿轮箱故障诊断研究。张立鹏等[16]针对自适应性及参数选择问题,搭建具有双向门控单元的循环神经网络,并通过柴油机故障试验数据 验证了所提方法的鲁棒性。郑直等[17]利用改进的鲸鱼算法优化LSTM,并实现对滚动轴承的故障诊断。鲁其东等[18]利用RNN的时序信号处理能力以及CNN的特征提取特点,提出将CNN与RNN进行有机结合,实现对轴承故障诊断的研究。

然而实际工程环境复杂多变,现有的轴承智能故障诊断模型大多无法同时兼顾如下几个方面:① 对已学习的相隔较远的记忆做出敏感响应;② 对后续的未知信息进行推演并充分利用;③ 能从多方位对数据掩藏的信息进行挖掘,避免信息片面化;④ 能去除噪音对模型任务的影响。如需有效地提高实际工程环境中轴承故障的识别准确度、保证模型可泛化性,研究并提出一种准确率高且实用性强的智能故障诊断模型是必经之路。

针对工程环境下轴承故障数据的非平稳、非线性、高噪音等特点,本文提出一种基于双向长短期记忆结构与多尺度卷积结构融合的深度学习网络模型(bidirectional long short-term memory-multi-scale Convolution,BLSTM-MSC)融合模型,从而更大程度地适用于工程环境下的轴承智能故障诊断。BLSTM结构将LSTM的隐藏层设计成双向隐藏层,与原始的LSTM结构相比,其不仅具备预知能力,保证数据特征具有对称性、信息之间具有充分交流、减少网络对前后记忆紊乱的现象,还能解决长期依赖问题。MSC可在同一时间内从多个角度对数据进行不同程度的信息挖掘、整合,既能保证信息的完整性,又可解决噪音干扰问题。本文所提的BLSTM-MSC融合模型分别通过深沟球轴承与圆柱滚子轴承的故障信号对模型的鲁棒性与实用性进行检测。① 为了增强模型的分类性能以及提高模型对实际工程环境的贴合度,测试数据集中各类故障数据的数据量为非等量;② 将测试数据集输入到具有BLSTM结构与MSC结构的深度学习网络模型中进行处理;③ 通过全连接神经网络输出最终识别结果。结果表明,本文所提的BLSTM-MSC融合模型具有较高的识别准确度与实用性。

1 理论背景

1.1 循环神经网络(RNN)

RNN的输出与隐藏层输出之间的函数关系如式(1)所示。与传统神经网络相比,不同之处在于循环神经网络当前时刻隐藏层的输出由上一时刻的隐藏层输出及当前时刻的输入共同决定,如式(2)所示。因此,循环神经网络比其他网络结构更适用于处理具有序列特性的数据。其单元结构如图1所示。

图1 循环神经网络单元结构图Fig.1 Structure diagram of recurrent neural network unit

yt=g(V·ht)

(1)

ht=f(U·xt+w·ht-1)

(2)

式中:U为连接输入层与隐藏层之间的权重矩阵;V为连接隐藏层与输出层之间的权重矩阵;w为不同时间点的隐藏层之间的权重矩阵,在整个训练过程中保持不变;xt为输入层的值;ht为隐藏层的值;yt为输出层的值;f、g均为激活函数。

1.2 长短期记忆网络

RNN的记忆单元对短期获取的记忆敏感,但随着时间间隔逐渐变长,网络对前期记忆将逐渐淡化,出现梯度消失的现象。于是,LSTM网络应运而生[19]。

LSTM在RNN的基础上增加了门限控制概念,其将不利于学习的前期信息进行遗忘,留下有效的信息,解决了长期信息依赖问题,因此可用于长时复杂数据的处理。LSTM网络单元结构如图2所示。

图2 LSTM网络单元结构图Fig.2 LSTM network unit structure diagram

图3 LSTM网络单元结构的核心路径Fig.3 The core path of the LSTM network unit structure

(3)

在控制LSTM单元的神经元状态中,第一部分的计算路径如图4所示,该门限的作用是选择遗忘。其将上一时刻t-1的输出Ot-1,即短期记忆,与当前时刻t的输入Xt通过sigmoid神经网络层作用后得ft进入核心路径,其值介于[0,1],1为保留,0为舍弃。

图4 LSTM网络单元结构的遗忘门计算路径Fig.4 The calculation path of the forget gate of the LSTM network unit structure

ft=σ(Wf·[Ot-1,Xt]+bf)

(4)

式中,Wf与bf为sigmoid神经网络层参数。

图5 LSTM网络单元结构的输入门及候选态的计算路径Fig.5 The input gate of the LSTM network unit structure and the calculation path of the candidate state

it=σ(Wi·[Ot-1,Xt]+bi)

(5)

(6)

式中:Wi与bi为输入门神经网络参数;WG与bG为tanh神经网络层参数。

第三部分控制短期记忆Ot的输出,如图6路径所示。ot表示输出门限控制。当进行下一次的学习时,当前网络中的记忆中不可能将之前所有的学习内容全部记住,只可能是当前时刻之前记忆的一部分。因此运用sigmoid神经网络层确定需要输出的单元状态信息,然后将当前需要输出的单元状态信息对过往留下的记忆进行控制输出得到短期记忆Ot,这里的tanh为激活函数。

图6 LSTM网络单元结构的输出门及短期记忆体的计算路径Fig.6 The output gate of the LSTM network unit structure and the calculation path of the short-term memory

ot=σ(Wo·[Ot-1,Xt]+bo)

(7)

Ot=ot*tanh(Gt)

(8)

式中:Wo与bo为sigmoid神经网络层参数。

1.3 卷积结构

随着网络规模的不断扩展,网络的训练参数相应地成倍增加,这将带来一个隐患,即待优化参数过多易使网络模型出现过拟合现象。而卷积核的不变性正好可以解决这一问题,其在每一轮的计算中以参数共享的形式来实现减少待优化参数的目的。图7为一个卷积核示例,其宽度为3,高度为3,深度为1。

图7 3*3*1的卷积核Fig.7 Schematic diagram of 3*3*1 convolution kernel

在卷积计算中,固定不变的卷积核通过对输入数据的 “映射”及一定长度的步幅滑动获取数据的内在特征规律,这个过程称之为特征提取。卷积核的深度(即几层卷积核)取决于输入数据的通道数量。数据越复杂,所需卷积核的数量越多,得到的数据特征越丰富、“纯度”越高。

2 双向长短期记忆结构与多尺度卷积(BLSTM-MSC)结构融合的深度学习网络

① 轴承故障诊断模型的智能化不仅要求其对相隔较远的记忆敏感,还要求其对后续未知信息进行推演与利用;② 仅从单一尺度对数据进行挖掘难免存在片面性,导致很多有效信息被忽略,加上环境噪声及零部件的耦合干扰,模型的准确率将大大降低,因此,本文提出利用BLSTM-MSC融合模型,以其出色的性能解决上述问题。BLSTM结构可使数据特征具有对称性、保证数据内在的特征信息之间具有充分交流,从而减少网络对前后记忆的紊乱。MSC结构可从不同角度对数据进行解剖、学习。

2.1 双向长短期记忆(BLSTM)网络

BLSTM结构不仅具备了LSTM结构对较远记忆敏感的优良性能,且能充分考虑过去与未来时刻的特征信息。其的核心计算如式(9)至式(11)所示

(9)

(10)

(11)

将BLSTM结构一分为二进行理解。其一,数据在路径1传递中通过式9不断地将信息传递下去,直到t=N(N为数据长度);其二,数据在路径2中通过式(10)进行信息传递,直到t=0。此处的路径1与路径2的方向完全相反。最后,将正向与反向路径进行加权,二者有效交流后得到输出。需要注意的是,实际上路径1与路径2是同时进行的,二者互不干扰且又能进行信息共享与交流,从而使输出结果包含完整的特征信息又不冗余。

2.2 多尺度卷积(MSC)结构

MSC结构包含三个卷积尺度,其优势在于:① 保证从全局到局部地进行数据认识与学习,从而获得不同的细节信息,同时相异的数据特征之间能更好、更充分地交流;② 在一定程度上降低噪声对模型任务的影响,提高模型的识别准确率。多尺度卷积的操作过程如图8所示。

图8 多尺度卷积的操作过程图Fig.8 Operation process diagram of multi-scale convolution

由图8可知,① 特征数据分别经过不同程度的卷积操作后,其表达的特征抽象程度将不断提升;抽象的特征表达在一定程度上丢弃了部分信息,得到非冗余特征数据;在经过卷积操作后,为避免特征损失采用了平均池化操作,保证后续读入的数据完整性。② 将数据进行拼接得到新的特征数据,以弥补各自尺度下对数据认识的片面性。本文所使用的一维卷积的卷积核大小为11*1,每次卷积操作的卷积核的数量为64或128。

2.3 注意力机制

注意力机制[20]可以使模型对“重点关注”部分进行更多的权重分配,因此,将其运用到轴承智能故障诊断中可使网络对故障特征分配更多的关注,更有利于智能故障诊断的实现。

本文在BLSTM-MSC融合模型搭建中,为强调有效特征信息,弱化无关特征信息,增加了注意力机制。从时间维度看,注意力机制可以增强模型的表达能力以及提高模型的计算性能、效率;从处理信息性能方面而言,注意力机制增强网络模型的“记忆”性能,避免因时间距离过长而遗忘信息。特别地,当输入与输出的数据类型均属于时序序列时,注意力机制获取的权重信息可很好地体现出二者相对应位置上数据点的重要性程度。

2.4 模型搭建

本文所构建的深度学习网络模型主要包含七个步骤,现以一组数据的流向为例进行介绍:

(1) 首先将数据输入一个BLSTM结构中进行处理。

(2) 将经过BLSTM计算之后得到的两组向量进行相加得到具有时序表达的特征向量,该向量从正反两个方向上对故障信息进行记忆,使数据特征之间有充分交流,增强了模型对信息的推演与利用,从而减少网络对前期记忆与后期记忆之间的紊乱。

(3) 接着将特征向量输入到64通道与128通道的卷积结构中获取新的特征空间。将单通道的信息拓展到更多通道,其目的不仅在于获取更多的数据特征,增强模型的特征表达能力,而且还能使时序之间具有关联性,使不同特征之间具有信息交流。

(4) 设计一个MSC结构,使模型可以从更多尺度对数据特征进行理解,避免网络对数据的片面理解,并且降低了数据之中的噪声干扰。

(5) 然后将经过三个尺度计算后的数据分别进行平均池化,而后再集中拼接。平均池化的目的在于避免特征损失。

(6) 为判断特征数据中每一个值的重要性程度,将拼接后的数据通过两层相同的卷积层,再用sigmoid函数进行归一化后得到一个重要性权重矩阵。

(7) 接着将拼接后的特征数据与重要性权重矩阵进行相乘、展平。最后进入全连接神经网络,输出最后的分类结果。

整体网络结构图与数据流向示意图如图9、图10所示。

图9 整体网络结构图Fig.9 Overall network structure diagram

图10 数据流向Fig.10 Schematic diagram of data flow

3 试验验证

为验证基于BLSTM-MSC融合模型具有良好的鲁棒性能,现分别采用深沟球轴承故障数据及圆柱滚子轴承故障数据进行试验验证。

在网络模型的构建中,采用了Python进行编程,学习率lr设置为1×10-4,选取Adam优化方法,损失函数为交叉熵函数,以Google推出的GPU服务器Colab平台进行代码的运行。

由于深沟球轴承与圆柱滚子轴承所属系统并不一致,因此深沟球轴承测试采用的是深沟球轴承故障数据训练的网络,圆柱滚子轴承测试采用的是圆柱滚子轴承故障数据训练的网络。训练数据集与测试数据集分别包含了内圈故障、外圈故障、滚动体故障等三类故障数据。为了保证模型能充分、均衡地学习到不同故障的特征信息,训练集中所包含的各类样本数据量相等;而测试数据集中为了提高模型对实际工程环境的贴合度,各类样本数据量为不等。本文中所运用到的训练数据量是测试数据量的四倍。

3.1 深沟球轴承试验

深沟球轴承6205-2RS故障数据来源于凯斯西储大学轴承故障试验台,如图11所示。轴承故障类型分为三类:内圈故障、外圈故障、滚动体故障。测试数据集中样本量为2 919,训练数据集样本量为11 676。

图11 凯斯西储大学轴承故障试验台Fig.11 Bearing failure test bed of Case Western Reserve University

考虑到实际工程环境中各类故障随机发生的情况,为更好地贴合实际,采用不平衡数量的故障数据进行测试,测试数据集的数据量分布如表1所示。

表1 深沟球轴承测试数据集Tab.1 Deep groove ball bearing test data set

将上述数据集不经任何处理直接输入本文所提的BLSTM-MSC融合模型中,并将分类结果以混淆矩阵的形式呈现,如图12(a)所示。由于实际更注重模型对故障数据的识别能力,因此以ROC曲线对模型的整体性能进行评价如图12(b)所示。

(a) 混淆矩阵

(b) ROC曲线图12 BLSTM-MSC模型对凯斯西储大学轴承故障数据的 分类结果Fig.12 Classification results of bearing fault data of Case Western Reserve University by BLSTM-MSC model

观察图12(a)可知,对角线上的深色方形数据为智能故障诊断模型对每种类型故障的识别结果,每种故障的识别率高达98%及以上,因此,所提模型有较理想的鲁棒性。1%~2%的误差符合客观现实的规律,在容忍范围内。模型准确度未能达到100%是因为实际的机械系统中所采集的数据会受到来自外界各种客、主观因素的影响,如:各种噪声的混杂干扰、采集数据不准确等,都会造成模型对其识别不准确的现象。

从图12(b)可知,智能诊断模型对每种故障类型识别的灵敏度以及特异度进行综合评价的,每一种故障类别的曲线下所涵盖的面积均能达到1,证明该模型对每种故障的识别准确率高。

从该智能诊断模型的精确率以及召回率的角度而言,F1-Score同样达到了0.98~0.99,如表2所示。从准确率的角度而言,该模型对故障的识别准确率已经达到98%;宏平均指模型针对每一种类别故障数据的精确率(或灵敏度、或F1-Score)平均值,从而对模型进行综合评价,该模型的精确率宏平均、灵敏度宏平均以及F1-Score宏平均都达到了0.98。

表2 BLSTM-MSC模型分类结果报告(凯斯西储大学故障轴承数据)Tab.2 The classification result report of the BLSTM-MSC modelin this article (Bearing data of Case Western Reserve University)

为进一步突出本文所提模型性能的优越性,在同等前提条件下,将LSTM结构、GRU结构、BLSTM结构、MSC结构等情况下的模型分类结果与BLSTM-MSC融合模型下的分类结果进行对比,如表3所示。从F1-Score看,LSTM与GRU的结果相差不大,BLSTM结构、MSC结构对轴承故障的识别能力比BLSTM-MSC融合模型的识别能力要低5%~10%,可见BLSTM-MSC融合模型的智能诊断模型对轴承故障有较好的区分能力,该试验结果也验证了模型的实用性。

表3 几种模型对深沟球轴承故障的分类结果比较Tab.3 Classification accuracy of deep groove ball bearing faults by several models

3.2 圆柱滚子轴承试验

为进一步验证所提模型优越的分类性能及其泛化性,现采用双馈风力发电机模拟试验平台中采集的圆柱滚子轴承故障数据进行验证。轴承实验台如图13所示。轴承型号及尺寸如表4所示。测试数据集中样本量为480,训练数据集中样本量为1 920,其中测试数据集中圆柱滚子轴承的各类故障数据量如表5所示。

图13 双馈风力发电机模拟试验平台轴承故障试验部分Fig.13 The bearing failure experiment part of the doubly-fed wind turbine simulation experiment platform

表4 轴承相关参数Tab.4 Bearing related parameters

表5 圆柱滚子轴承测试数据集Tab.5 Cylindrical roller bearing test data set

将圆柱滚子轴承测试数据集不经过任何处理直接输入BLSTM-MSC融合模型。模型的性能优良与否同样采用混淆矩阵进行可视化,同时辅用ROC曲线对模型的性能进行总体评价。

模型对三种轴承故障的识别率达到了97%及以上,如图14(a)所示。从严格意义上来说,如果智能诊断模型的识别率为100%就意味着该模型同时考虑到了现实中数据采集过程可能发生的所有情况,而这样的智能诊断模型是不存在的。因此,圆柱滚子轴承的故障数据同样验证了本文所提的智能故障诊断模型的有效性。同样地,每一类别的ROC曲线下的面积达到了0.99或1,如图14(b)所示。

(a) 混淆矩阵

(b) ROC曲线图14 BLSTM-MSC模型对双馈风力发电机模拟试验平台 轴承故障数据的分类结果Fig.14 The classification result of the BLSTM-MSC model proposed in this paper on the bearing fault data of the doubly-fed wind turbine simulation experiment platform

该智能诊断模型对每一种故障类别的F1-Score均达到了0.98、准确率也为98%、宏平均以及加权平均(在宏平均的基础上,进一步考虑了故障样本占总故障样本的比率)同样达到了0.98,如表6所示。

表6 BLSTM-MSC模型分类结果报告(双馈风力发电机轴承数据)Tab.6 The classification results report of the BLSTM-MSC models mentioned in this article (data of double-fed wind turbine bearings)

此外,将LSTM结构、GRU结构、BLSTM结构、MSC结构的模型分类结果与BLSTM-MSC融合模型下的分类结果进行对比,如表7所示。显然,所提的BLSTM-MSC融合模型的智能故障诊断模型的效果仍是最优的。

表7 几种模型对圆柱滚子轴承故障的分类结果比较Tab.7 Classification accuracy rate of several models for cylindrical roller bearing failure

综上两个试验可以证明。BLSTM-MSC融合的智能故障诊断模型具备优良的鲁棒性与实用性。

4 结 论

本文针对现代化机械系统的智能故障诊断问题,提出了一种BLSTM-MSC融合的轴承智能故障诊断方法。在这个模型中,BLSTM结构可加强模型对数据有效信息的长时记忆,避免因时间相隔过远而遗忘相关特征信息,此外,BLSTM结构还能推演未知信息,使模型具备预知能力;MSC结构能避免单一卷积尺度下的模型对数据理解的片面性问题,增强数据之间的交流,降低噪音对模型分类任务的影响,从而提高最终模型的识别准确率。最后,通过两种不同实验台下不同类型的轴承对所提的智能故障诊断模型的性能进行了评价,结果表明,本文所提的智能故障诊断模型对轴承故障的分类能力优良,有较好的实用性与鲁棒性。

猜你喜欢

轴承卷积故障诊断
基于全卷积神经网络的猪背膘厚快速准确测定
比亚迪秦EV充电系统故障诊断与排除
基于神经网络的船舶电力系统故障诊断方法
迈腾B81.8T起动机无法启动故障诊断分析
基于图像处理与卷积神经网络的零件识别
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
接触式密封在大功率半直驱永磁风力发电机应用探讨123
斯凯孚展示用于电动汽车的先进轴承产品
一种轴承拆卸装置的实用设计