基于特征扩展CapsNet的轴承故障诊断模型

2023-02-13周益天孔军伟张新良

测控技术 2023年1期

周益天，孔军伟，张新良*

(1.舟山洋旺纳新科技有限公司，浙江舟山 316000；2.河南理工大学电气工程与自动化学院河南省煤矿装备智能检测与控制重点实验室，河南焦作 454003)

卷积神经网络可以同时利用目标的低层次和高层次特征来完成目标识别任务，非常适用于时序振动信号的轴承故障诊断研究[1-3]。Zhuang等[4]基于特征和时域数据之间分布概率的一致性，给出了一种用于多尺度聚合上下文的离散卷积，保证了在提取轴承故障特征时，不降低分辨率且得到了较好的预测性能。冯浩楠等[5]构建了并行通道的一维卷积网络，同时获取轴承振动信号的时-频域信息。实验结果证明，相比单通道的一维卷积神经网络，并行的模型具有更强的泛化能力，提高了特征信息的利用率。对于轴承故障诊断模型应用时面临的多工况和噪声干扰的问题，Shenfield等[6]提出了一种结合循环神经网络和卷积网络的RNN-WDCNN模型，用于诊断机械系统中重复出现的振动信号，采用宽卷积核捕获时间序列的距离相关性，抑制输入信号中的高频噪声。Chen等[7]使用不同尺寸卷积核，从原始数据中提取不同频率的信号特征，利用长短时记忆网络(Long Short-Term Memory,LSTM)识别故障类型，使模型对噪声环境具有适应性。Zhao等[8]使用软阈值收缩函数实现深层网络的非线性转换，消除噪声的相关特征，有效提高了高噪声振动信号中识别故障特征的能力。

然而，传统的卷积神经网络诊断模型需要大量训练数据，且在结构上其卷积层之后采用下采样操作来降低参数量，对于含有噪声的小样本故障数据，往往会导致有效故障特征提取不完备，影响故障诊断精度[9]。胶囊网络(Capsule Network,CapsNet)利用以胶囊形式体现的特征向量，通过线性组合生成预测向量，使用动态路由机制筛选与目标最接近的预测输出，摒弃了传统卷积神经网络的深层次结构和池化层，因此非常适合小样本学习，为基于图像的故障诊断提供了新的研究思路[10-12]。Zhu等[13]使用短时傅里叶变换将轴承振动信号转换为二维图像，通过在初级胶囊层并联多尺度卷积核实现特征扩展，实验结果表明，该模型具有良好的泛化性能，可以适应不同负载下的轴承故障诊断需求，且具有较高的运行效率。为了弥补噪声干扰造成的特征损失，Liang等[14]将门结构和空洞卷积引入CapsNet网络中，通过增强网络的全局特征提取能力，抑制噪声的影响。

本文考虑CapsNet处理小样本数据集的优势，结合轴承故障诊断在实时性和抗噪性方面的应用需求，通过扩展多尺度故障特征和改进数字胶囊迭代条件，提高模型的预测性能。

1 初级胶囊故障特征扩展网络

CapsNet将多组卷积层提取到的特征向量按通道、位置点索引，构造用于数字胶囊故障诊断的初级胶囊，如图1所示。因此，初级胶囊中故障特征的完备程度直接决定了整个故障诊断模型的预测精度，本文通过将通道内约束改进为通道内-通道间混合约束，扩展胶囊特征向量，为数字胶囊层预测网络提供更完备的故障特征。

图1 胶囊网络轴承故障诊断模型

设初级胶囊层的输入特征图为F，大小为M×M×C，M为特征图的宽度和高度，C为特征图的通道数。通过并行c个多尺度通道的L个卷积块，生成特征映射f为

f=[f1,f2,…,fi,…，fL]

(1)

式中：fi为每其中每个卷积块的特征映射输出，大小是N×N×c。初级胶囊u通过遍历f中的特征图fi的所有元素生成，可得：

u=[u1,u2,…，uj,…,uS]T

(2)

式中：S=N×N×L。每个初级胶囊元素uj描述为

u(i-1)N2+(m-1)N+n=Conc(fi(m,n))

(3)

式中：m=1,2,…，N；n=1,2,…，N；i=1,2,…，L；(m,n)为像素在fi中水平和垂直方向上的位置；函数Conc(·)实现将特征图中的像素fi重排为向量形式。

同一通道内的元素点组成的初级胶囊层内约束为uI，即

(4)

(5)

不同通道间、相同位置特征元素组成的层间约束uC为

(6)

(7)

式中：mC=1,2,…，NC；nC=1,2,…，NC；jC=1,2,…，cC；l1=1,2,…，S1；i1=1,2,…，LC；uC大小为S1×cC。

初级胶囊由层内-层间构成的混合约束共同构造：

u=uC⊗uI

(8)

层内约束补充了网络对目标局部信息的提取，即以少数的层数，采用多维向量参与计算的方式，完成深层网络提取目标特征的任务。层间约束对目标全局信息进行补充，对于具有时序特征的故障数据，尤其在噪声干扰下，网络具有了更强的捕捉目标全局特征的能力。

2 余弦相似度度量的数字胶囊层动态路由

对于CapsNet的故障分类实现，数字胶囊层输出胶囊向量的方向描述预测的类别，向量的模值描述类别的概率。经典的CapsNet以向量的内积作为当前胶囊向量和目标胶囊的度量，会导致同一投影，有两种不同方向和不同模值的向量与之对应，如图2所示。

图2 向量投影示意图

从图2中可以看出，向量u1在向量v上的投影与向量u2在向量v上的投影所存在关系为

‖u1‖cos(u1,v)=‖u2‖cos(u2,v)

(9)

向量u1、u2与v的夹角不同，即cos(u1,v)≠cos(u2,v)。

若仅使用向量模值度量当前预测胶囊和目标胶囊的接近程度并作为动态路由的依据，面对足够大的向量模值时，向量夹角余弦值贡献度变小，此时判别器会将本不属于同类别的u1、u2判定为同一类别，造成误判。误判会影响故障分类的准确度，尤其在诊断模型处于收敛的平缓阶段，导致模型训练过程出现振荡。

为此，在数字胶囊层，使用向量的余弦相似度代替向量的内积来描述胶囊向量的相似性，即

(10)

(11)

vj为目标胶囊，其向量模表征故障类型存在的概率：

(12)

(13)

(14)

进而，利用向量夹角作为衡量向量相似性的标准，并将其应用到预测胶囊的迭代筛选依据中。数字胶囊层的动态路由过程描述为

(15)

3 胶囊网络轴承故障诊断模型

带有混合通道约束和余弦相似度迭代依据的轴承故障诊断模型iCapsNet如图3所示。在CapsNet模型的卷积层，采用宽卷积核的空洞卷积与常规卷积，多尺度并联提取特征。特征向量送至初级胶囊层构造具有混合约束关系的初级胶囊，为数字胶囊层提供特征向量。胶囊的输出通过转换矩阵W加权后，以相同的向量维度拼接，在数字胶囊层动态路由到高维胶囊。路由过程通过余弦相似度描述预测胶囊和目标胶囊的相似性，输出每个数字胶囊向量的模值，判定输入数据的类别。

图3 iCapsNet诊断模型的网络架构

训练模型的损失函数定义为数字胶囊输出标签与目标实际标签偏差的泛函，即

λ(1-Tk)(max(0,‖vk‖-m-))2

(16)

式中：Lk为单个数字胶囊的边缘损失，描述为预测准确与预测不准确的加权组合；λ为权重参数；Tk为标签系数，即

(17)

式中：函数label(·)为通过数字胶囊vk给出的预测输出标签；符号“LABEL”为输入样本的实际标签。

因数字胶囊vk的模值‖vk‖为预测的概率，此处设置胶囊之间连接强度的上限和下限分别为m+和m-。在m-<‖vk‖m+以确保其属于该故障类型；vk模值足够小时，‖vk‖

4 实验结果分析

4.1 实验参数设置

在凯斯西储大学(Case Western Reserve University,CWRU)的轴承数据集中对提出的胶囊网络轴承故障诊断模型的有效性进行验证。实验使用PyThon 3.5编程语言和PyTorch深度学习框架编写网络模型代码，并在Ubuntu 16.04操作系统、torch 1.2.0版本机器学习框架和带有GTX 1080Ti×2 GPU的Intel i7-8700K CPU上进行。

考虑到输入尺寸的设置对网络模型诊断的准确性影响不大，以及目前用于故障诊断的网络模型常用的输入大小为32×32，在本文实验中选择输入大小为32×32，并通过实验确定网络模型各层的参数，卷积核大小设置为23×23，空洞卷积核大小设置为13×13(空洞率为2)，CapsNet模型参数设置如表1所示。时序数据样本长度为1024，将其重排为32×32的矩阵送入网络模型，两种卷积核大小分别设置为23×23和12×12(空洞率为2)，步长为1。特征提取网络生成两个分支特征图，输出通道数设置为128，即两分支输出特征图大小均为10×10×128(M= 10和C= 128)。

表1 CapsNet模型参数设置

初级胶囊层中，特征图的两个分支进行8组卷积，卷积核大小为4×4，步长为2，通道数为9，即产生的特征图大小为4×4×9×8。遍历特征图的元素生成初级胶囊，其中层间约束初级胶囊大小为2×8×16×9，层内约束的初级胶囊为2×8×8×16，维度为16。两种初级胶囊的权重矩阵Wk1、Wk2大小分别设置为9×16、16×16。数字胶囊层输出10个胶囊，即vk(k=1,2,…,10)，维度为16。利用式(16)描述的损失函数误差反传训练网络模型。

4.2 实验过程与分析

在凯斯西储大学轴承数据集中选择10种故障类型进行实验，包括正常轴承的振动信号、损伤尺寸分别为0.007、0.014和0.021的滚动体振动信号、发生内圈(Inner Ring,IR)和外圈(Outer Ring,OR)故障的轴承振动信号。选取4600个矩阵样本，其中3600个用于模型训练，每种故障类型对应360个训练样本；1000个用于模型测试，每种故障类型对应100个测试样本。

为了对比模型的故障诊断性能，实验中同时采用了常用的其他4种故障诊断模型,即CNN、ResNet18[15]、LSTM和经典CapsNet[11],进行了故障诊断实验。各个诊断模型的训练误差变化曲线如图4所示。

图4 CWRU数据集上诊断模型的误差损失曲线

卷积层空洞卷积的添加不仅可以作为补充提取特征，并且相比常规卷积核，其利用少量的参数，引导着模型向收敛方向学习；其次，采用余弦相似度作为路由的迭代依据，使模型更加客观地、准确地输出高维数字胶囊。二者的结合，为模型决策提供了完备的特征向量。从实验结果来看，本文所提出的模型可在短时间内收敛，且相对稳定，克服了胶囊网络在训练计算方面的不足。

从图4中可以看出，CNN模型、LSTM模型、ResNet18模型分别在第12000次、22000次和27000次迭代训练后达到稳定的训练损失，而经典CapsNet模型及本文提出的iCapsNet在1000次迭代后达到稳定，其网络收敛能力具有突出优势。

所得5种轴承诊断模型在1000个测试样本上的分类精度如图5所示。可以看出，CNN在30个训练周期后达到稳定值，分类精度约为97.2%；LSTM模型在60个训练周期后达到稳定值，分类精度为99.2%；ResNet18模型预测精度曲线波动较大，在第100个训练周期时分类精度为99.1%。对比可见，基于胶囊网络故障分类模型精度最高，精度值最稳定。其中经典CapsNet模型在15个训练周期后达到稳定值，分类精度为99.5%；而iCapsNet在35个训练周期后达到稳定值，分类精度为99.7%，所提出的iCapsNet诊断模型比其他4个模型具有更高的预测精度。

图5 CWRU数据集上诊断模型的精度曲线图

在测试数据中添加不同信噪比的噪声信号，测试5种轴承诊断模型在噪声环境下的预测能力，如表2所示。可以看出，随着信噪比逐渐变小，原始轴承振动数据受干扰情况逐渐加重，上述5种诊断模型的分类精度都有所下降。其中，CNN模型在SNR<8 dB时，模型的故障分类能力近乎失效。从SNR= 10 dB到SNR=0 dB，其故障分类精度下降了55.1%。ResNet18模型的分类精度同样下降明显，在SNR=10 dB时，预测精度为52.7%，模型对噪声干扰十分敏感，噪声环境下泛化能力差。

表2 CWRU数据集不同信噪比下诊断模型精度

与之形成鲜明对比的是，经典CapsNet模型以较浅的网络层数，在信噪比4 dB的噪声干扰下，仍达到了79.3%的分类精度，相比较于CNN模型和ResNet18模型，具有更好的泛化性。但是当噪声信号与振动信号能量相当时，即SNR=0 dB的噪声干扰情况下，精度下降至46.1%，失去故障分类能力。同等实验条件下，表现较好的是LSTM模型和本文所提出的iCapsNet模型。LSTM模型从SNR=10 dB到SNR=0 dB，模型的分类精度下降了17.7%，在信噪比为4 dB的时候精度仍保持在93%以上。而iCapsNet模型从SNR=10 dB到SNR=0 dB网络的分类精度仅下降8.7%；其中，信噪比为0 dB的情况下，精度为90.9%，保持了较高的预测能力；信噪比为10 dB和8 dB下的分类精度分别为99.6%和99.4%，与无噪声干扰下的分类精度99.7%相差无几。综上，在不同信噪比噪声干扰情况下，iCapsNet故障诊断模型均显示出了较高的故障预测精度，未出现预测性能失效的情况，模型对噪声环境具有良好的泛化性能。

图6为iCapsNet模型在不同信噪比下故障分类的混淆矩阵。同时，iCapsNet各故障类型的预测结果如表3所示。混淆矩阵包括10种轴承故障类型，每种类型100个测试样本，直观地给出了误判的故障类型和误判个数。

图6 iCapsNet模型在不同信噪比下诊断结果混淆矩阵

表3 iCapsNet各故障类型预测表单位：%

由图6和表3可以看出，所提出的iCapsNet故障诊断模型可以有效地诊断10种故障状态的存在，所产生的误判仅存在于不同的故障类型中。当噪声影响较大时，可观察到预测精度的下降主要出现在OR_014故障类型中，例如SNR=0 dB。

综合5种模型在CWRU数据集上的诊断结果可以看出，ResNet18模型作为残差网络的代表，其网络结构中包括可用于筛选故障特征的注意力机制，因此，在一定程度上适用于噪声条件下的故障诊断。CNN模型和CapsNet模型本质上都是通过增加网络的深度来增强故障特征的提取能力，进而保证故障诊断模型的泛化性，因此这两种模型的预测性能变化规律一致，但CapsNet模型由于本身的结构特点，能够以少量的隐藏层捕捉故障目标特征，在故障诊断应用中具有时效性优势。LSTM模型作为一种循环神经网络，其内部含有具有记忆功能的门结构，在样本充足的条件下具有抑制噪声的优势，但其模型训练依赖离散信号片段的时间序列或频谱，忽略了局部片段的连接即准周期性特性，因此在处理含有噪声影响的故障诊断任务时，虽未出现模型失效的情况，但LSTM模型的预测性能不足以与其他4种网络模型相比。与CNN、ResNet18、LSTM和经典CapsNet模型相比，iCapsNet 模型表现出了更好的故障预测性能，模型对噪声条件下的故障诊断具有良好的适应性和泛化性能。

5 结束语

针对轴承故障诊断模型在噪声环境泛化性方面的应用需求，提出了一种基于混合通道约束特征扩展的胶囊网络诊断模型iCapsNet，用于噪声干扰环境下的轴承故障诊断。在胶囊网络的初级胶囊层采用通道内-通道间混合约束，有效提取故障信号特征，为数字胶囊层提供更完备的特征向量。同时，采用余弦相似度度量预测胶囊和目标胶囊的相似性，并作为迭代依据筛选预测胶囊，克服经典CapsNet网络动态路由机制中使用内积相似度度量的不足，使得模型在噪声干扰下仍能准确地对轴承故障进行决策分类。实验结果表明，提出的iCapsNet模型具有良好的抗噪声能力和泛化性能。