APP下载

利用DCNN融合多传感器特征的故障诊断方法∗

2021-04-28吴耀春赵荣珍靳伍银何天经

振动、测试与诊断 2021年2期
关键词:故障诊断卷积准确率

吴耀春,赵荣珍,靳伍银,何天经,武 杰

(1.兰州理工大学机电工程学院 兰州,730050)(2.安阳工学院机械工程学院 安阳,455000)

引言

在机械领域,航空发动机、大型风电装备、高档数控机床等重大装备正在朝着高速、高效、高精度方向发展,装备的安全可靠运行必须依靠故障诊断技术保驾护航[1]。然而,由于设备结构复杂、需要诊断的零部件数量多,多年来仅使用单个传感器采集局部振动信号去解决机械系统故障辨识,发展至今已呈现难以为继的困境。对此,充分利用布置在机械装备关键截面处的系列传感器,采集尽量多信息的集合实施智能故障决策技术,这种观点已获得工业大数据技术研究展望的共识[2]。用多个传感器在多个测点对复杂设备进行监测,能够扩展获取故障信息的物理属性、空间范围或时间范围,融合多传感器信号特征能够增加故障信息的多样性和完整性,提高故障诊断鲁棒性与辨识率[3-4]。传统的数据融合算法[5]多是基于BP神经网络(back propagation neural work,简称BPNN)、支持向量机(support vector machine,简称SVM)等浅层网络模型,它们的非线性映射能力与对复杂数据的特征表示能力相对来说较弱,直接影响了数据融合的效果。与之相比,深层模型能够更好地逼近复杂函数,数据特征表示能力和泛化能力更强,但是其非凸损失函数使其训练容易造成局部最优,这使得深层模型的使用受到较大制约[6]。

Hinton等[7]指出,可通过“逐层预训练”来有效克服深层神经网络在训练上的困难,首次提出了深度学习理论,开启了深度学习在学术界和工业界的浪潮。许多领域[8-11]开始尝试利用深度学习解决本领域的一些问题。

作为一种重要的深度学习模型,DCNN[12]采用局部连接、权值共享及池化等独特结构,有效降低网络的复杂度,减少训练参数的个数,使模型对噪声、平移、扭曲、缩放具有一定程度的不变性,并具有较强的鲁棒性和容错能力,且易于训练和优化。基于这些优越性,它在故障诊断领域的信号与信息处理中也开始受到关注。文献[13]将DCNN应用于电机故障诊断中,提高了电机故障的辨识率。文献[14]将滚动轴承振动信号由一维时间序列转化为二维平面图,利用DCNN实现了滚动轴承的故障分类。文献[15-16]利用一维DCNN直接对滚动轴承的振动信号进行故障识别,并取得了优异的辨识率。文献[17]将加速度传感器、麦克风、电流传感器和光学编码器4种不同传感器监测的信号经预处理后拼成一维长序列,利用DCNN对多传感器数据融合实现了对齿轮箱的故障诊断。

上述基于DCNN的故障诊断方法都取得了优异的诊断效果,但对于网络的设计均采用单通道输入。为了充分利用多传感器采集的信号来实施更有效的故障决策,笔者欲对利用DCNN融合多通道信号特征的机械故障诊断方法进行研究,该方法的不同之处是网络采用多通道输入,为科学发展复杂机械设备故障诊断技术提供理论参考依据。

1 深度卷积神经网络的结构与原理

1.1 DCNN的典型结构

深度学习是通过建立一种类似人脑分层的模型结构,对输入信息逐层进行特征融合提取,层级越深,提取的特征越抽象复杂。DCNN作为深度学习的主要模型之一,是一种多层神经网络结构。模型的典型结构如图1所示。

图1 DCNN典型结构Fig.1 The typical structure of DCNN

卷积层由多个特征面组成,每个特征面由多个神经元组成。卷积层中每一个节点的输入只是上一层神经网络的一小块,这个小块的长和宽都是人为指定,叫做卷积核。在卷积层中,卷积核对前一层输出的特征面进行卷积操作,利用非线性激活函数构建输出特征面,数学模型描述为

其中:l为当前层;k为卷积核;b为当前层的偏置;Mj为第j个卷积核对应的卷积窗口为 第l层 输 出,为第l层输入。

在DCNN中,非线性激活函数f通常选用修正线性单元(rectified linear unit,简称ReLU),其优势在于使一部分神经元的输出为0,增加了网络的稀疏性,减少参数间相互依存关系,缓解过拟合问题的发生。ReLU函数的表达式为

池化层由多个特征面组成,它的特征面与卷积层的特征面一一对应。池化不改变特征面的个数,但缩小特征面的大小。通常使用的最大值池化在减少模型训练参数,防止过拟合的同时,提高系统鲁棒性。最大值池化层模型为

其 中:max为 次抽样函数;β为网络乘性参数;b为偏置。

全连接层位于DCNN模型最后位置,输出网络最终结果。分类任务中,在这一层训练一个softmax回归分类器。假设训练数据中输入样本为x,对应标签为y,则将样本判定为类别j的概率为p(y=j|x)。因此,对于一个C类分类器,输出的将是C维的向量(向量元素的和为1)。计算公式为

其中:θ1,θ2,…,θC∈Rn+1为模型参数为归一化系数,对概率分布进行归一化,使得所有概率之和为1。

1.2 DCNN的训练

DCNN模型的训练过程主要包括前向传播和反向传播两个阶段。前向传播,进行样本从输入层到输出层的特征学习,得到预测值;反向传播,依据损失函数计算出预测值与期望值之间的误差,并根据误差来矫正模型参数。

深度卷积神经网络的前向传播与普通神经网络相似,具体形式见式(1)。文中激活函数选择ReLU函数。

DCNN的反向传播算法与BPNN一样。为了评价模型的预测值与期望值的一致性,采用交叉熵作为损失函数,定义为

其中:m为输入样本的批量大小;C为训练集样本的种类;q为softmax输出的预测值;p为样本的标签。

DCNN反向传播算法根据定义的损失函数优化模型中的参数取值,从而使模型在训练数据集上的损失函数值最小。

权值系数与偏置量优化的方向为

其中:η为模型的学习率,用来控制损失值反向传播的强度。

2 融合多传感器信号特征的诊断模型构建

2.1 模型设计

DCNN起初广泛应用于图像处理中,网络的输入大多是图片等二维矩阵,如图1所示,卷积核、特征图等网络的内部结构也是二维的。机械状态多传感器监测振动信号为多通道一维时间序列,若将其直接转换为二维形式,则原始序列中时间与空间的关联性将遭到破坏,导致部分故障相关的信息可能流失。因此,本研究设计融合多传感器信号特征诊断模型采用一维DCNN,网络的输入采用一维向量、多通道,卷积核和特征面也是一维的,如图2所示。该模型融合多传感器信号特征的机械故障诊断过程可以分成3个阶段,构造多通道一维特征面集合、特征融合与故障诊断。

图2 融合多传感器信号特征的诊断模型Fig.2 Diagnostic model based on fusion of multi-sensor signal characteristics

多通道一维特征面集合的构造,输入层将n个通道的信号分别按长度s进行截取,预处理后构建m×(s×n)的样本集,其中m为样本个数。特征层对输入样本按照不同通道根据特征指标进行特征提取,将得到特征向量作为一个特征面,组成一个包含n个一维特征面的集合。m个样本可以生成m个一维特征面集合。依靠交替的多个卷积与池化层实现对多通道输入信号非线性特征的层级式融合提取。诊断结果由两个全连接层输出,其中第1个全连接层作用是对特征面的“展平”,即将所有的一维特征面首尾相连组成一维向量。第2个全连接层的神经元个数与故障类别的种类相同,利用softmax回归分类器实现目标的多分类输出。

模型参数设计主要是卷积核个数及大小的确定。文献[18]中指出,在设置深度学习隐层神经元数目时,遵循后一层神经元数目不超过前一层神经元数目一半的规律,文中采纳该建议将两层卷积层的神经元数目分别设为32和16。卷积核均采用3×1的小卷积核设计,这样卷积核参数较少,有利于网络加深,同时可以抑制过拟合,每层卷积后进行2×1的最大值池化。

模型训练的效果还受训练参数的影响。批次设置过小,模型的损失函数振荡严重,在最大迭代次数下难以收敛;批次设置过大,影响模型泛化能力。经过反复调试,模型的批次大小设为64,最大迭代次数设为30。对于深度卷积神经网络,由于参数和超参数多,本模型选用学习率自适应、对超参数选择具有鲁棒性的Adam算法进行优化,学习率为0.001。模型的结构及参数如图2所示。

2.2 诊断方法与流程

DCNN融合多传感器信号特征的机械故障诊断方法,通过布置在复杂设备不同监测点上的传感器获取多通道振动信号,利用获取的信号对图2所示的模型进行有监督训练,将训练好的模型用于机械故障的诊断。具体诊断过程步骤如下:

1)机械设备多通道振动信号的采集;

2)将每一个通道的振动信号预处理后按特征指标提取特征向量,即一维特征面,构造多通道一维特征面集合;

3)初始化模型的权值和偏置参数;

4)将样本输入到模型,通过前向传播求得预测值与目标值的误差;

5)判断网络是否收敛,若收敛,则跳转执行步骤7,否则执行步骤6;

6)反向传播和权值更新,利用BP算法将步骤4得到的误差反向逐层传播到每个节点,并根据式(6)更新权值与偏置,重复执行步骤4~6,直到网络收敛;

7)测试样本输入到训练好的模型进行测试,判断精度是否满足实际要求,如果满足则执行步骤8,否则跳转到步骤3;

8)输出网络用于机械故障诊断。

所提方法的具体诊断流程如图3所示。

2.3 采用的评价指标

实验中采用混淆矩阵和平均准确率作为模型的评价指标,混淆矩阵的行为测试样本的模型预测结果,列为测试样本的标签,对角线表示模型预测值和样本标签一致的样本数目。平均准确率为

其中:Ai为第i次实验的准确率;N为实验次数。

图3 所提方法的诊断流程图Fig.3 Diagnosis flow chart of the proposed method

3 实验与分析

本研究实验对象为文献[19]中的一套双跨转子实验台。选取6个关键截面以相互垂直的方位安装12路电涡流传感器用于监测转子系统运行状态,在靠近电机端安装的第13路传感器用于检测转速。

实验中,模拟转子系统的动静碰磨、轴系不对中、转子不平衡、支承松动和正常5种运行状态。在采样频率5 000 Hz,转速2 800 r/min的条件下以1 024点随机选取各通道每种运行状态振动信号800组,其中500组作为训练样本,300组作为测试样本。为从多角度全面分析转子运行状态,从振动信号的时域、频域提取不同特征量构造一维特征面,如表1所示为第i通道的特征参数。拓展至多通道建立12个通道的一维特征面(22×1)集合,作为深度卷积神经网络的输入。实验将从以下5个方面验证本研究方法的有效性。

3.1 多传感器信号特征融合实验

将训练集12个通道信号输入到2.1中建立的模型中进行多次迭代训练,文中设定最大迭代次数为30次,为了防止深度学习的过拟合现象,采用Early-stopping机制,当损失函数在一定步数内不再显著变化时即停止模型训练。训练集和测试集损失函数值和准确率如图4所示。可以看出,通过Early-stopping机制,建立的模型经过10次迭代后达到终止条件,停止训练,同时模型在测试集上的准确率达到99.93%,没有发生过拟合现象,表明模型训练效果良好。

表1 第i通道振动信号选用的特征指标Tab.1 Characteristic indicators of vibration signal for the ith channel

为了更清楚地说明模型对测试集各故障类别的识别效果,通过混淆矩阵对测试结果进行详细分析,如图5所示。除支承松动状态有1个测试样本被错误分类为正常外,其他4种状态分类准确率都达到100%,表明本方法具有较高的故障识别准确率。

图4 训练集与测试集损失函数与准确率曲线Fig.4 Loss function and accuracy curve of training set and test set

图5 测试集识别结果Fig.5 Recognition results of test set

图6 各层级的可视化结果Fig.6 Visualization results of each layer

为了更清晰地展示模型卷积池化层对多通道信号特征融合的过程和效果,引入主成分分析(principle component analysis,简称PCA)维数约简算法对模型各层的输出特征进行维数为2的约简并可视化,结果如图6所示。图6(a)为原始信号的状态分布情况,由于振动信号本身存在噪声和冗余,各个类别难以区分。输入信号经特征层的时、频域特征提取后,各类别样本分布有所改善,但仍难以区分,如图6(b)所示。经过第1个卷积池化层的特征融合学习后,转子不平衡和轴系不对中两类样本基本分开,但其他3类依然难以区分,如图6(c)所示。经过第2个卷积池化层进一步特征融合学习,转子不平衡、轴系不对中两类样本分的更好,同时剩余三类聚集情况有明显改善,如图6(d)所示。本研究设计的模型中有2个全连接层,其中第2个全连接层是用于分类的,因此仅对第1个全连接层的特征融合结果进行可视化,结果如图6(e)所示,可见测试集的5类样本已完全聚集在自己的区域,与图5的混淆矩阵结果相符。最终模型在测试集上分类的整体准确率为99.93%。

3.2 训练样本集对模型性能的影响

运用重叠采样的样本增强技术[15]扩充样本集,分别选用样本总量为100,200,300,400,500,2 000组的训练样本训练文中建立的模型,观察训练集大小对模型诊断能力的影响。由于神经网络的权值初值是随机生成的,为了验证模型的稳定性,每个实验重复20次,实验结果如图7所示。

由图7可以看出,当训练样本增加时,准确率逐渐上升,20次实验标准差逐渐下降,即模型诊断的稳定性增加。当训练样本数为2 000时,准确率为100%,标准差为0.01%,当训练样本数为100时,准确率仅为83.5%。这说明模型的诊断性能受训练样本个数影响较大。当训练样本数为500,识别率达到99%以上,模型在使用较少训练数据情况下,也能达到很高的准确率,模型抑制过拟合能力较强。

图7 不同训练样本数目下模型诊断准确率Fig.7 Model diagnosis accuracy under different training sample

3.3 与单传感器信号诊断对比实验

为了验证融合多传感器信号特征能够更全面、更完整的表征机械设备的运行状态,提供更精确的故障识别率,将每一个通道的信号以相同的方式输入模型作为一种方法,共12种方法(方法1~方法12)与文中方法进行对比实验,每种方法重复进行20次,求每种状态识别率的平均值和准确率的平均值,结果如表2所示。

表2 融合多传感器信号特征与单传感器信号诊断结果对比Tab.2 Comparison of diagnostic results between fusion multi‑sensor signal characteristics and single‑sensor signal

实验结果表明,单传感器信号在相同模型上测试的平均准确率最高为95.46%,如方法7所示,最低为60.07%,如方法9所示,均低于本方法的平均准确率99.85%,并且本方法识别准确率波动较小。因此,融合多传感器信号特征能够为机械故障诊断提供更全面更准确的信息。

3.4 与其他诊断方法的比较

为了验证本算法相较于目前常用机械故障诊断算法在识别性能上具有一定优势,将PCA+SVM,BPNN作为对比算法进行实验,其中SVM的核函数选择高斯核函数,BPNN隐含层结构为(32,16),实验结果如图8所示。采用PCA+SVM算法,测试样本中正常状态有19个样本被错误分类成支承松动,支承松动有15个样本错误分类成正常,分类准确率为97.73%,如图8(a)所示;采用BPNN算法,测试样本中支承松动状态有68个样本分别被错误分为正常和碰磨状态,不平衡有1个样本错误分为正常,分类准确率为95.4%,如图8(b)所示;采用本算法,只有1个支承状态的测试样本被错误分为正常,分类准确率为99.93%,如图5所示。本算法具有一定的优势。

图8 不同算法的性能比较Fig.8 Performance comparison of different algorithms

4 结束语

多个传感器多测点对复杂设备进行监测,能够扩展获取信息的物理属性、空间范围或时间范围,有效融合多传感器信号特征能够增加信息的多样性和完整性。笔者提出的利用深度卷积神经网络融合多传感器特征的机械故障诊断方法,可完整地利用多传感器采集的原始信号的特征进行故障诊断,提高了故障辨识准确率。与传统的浅层模型算法相比,由于卷积神经网络的深度结构与强大的非线性特征学习能力,该算法具有较好的鲁棒性和环境自适应性。同时,由于多通道信号及特征层增加了算法的计算量,下一步考虑如何提高算法的运算效率。

猜你喜欢

故障诊断卷积准确率
基于包络解调原理的低转速滚动轴承故障诊断
基于3D-Winograd的快速卷积算法设计及FPGA实现
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
从滤波器理解卷积
高速公路车牌识别标识站准确率验证法
数控机床电气系统的故障诊断与维修
基于傅里叶域卷积表示的目标跟踪算法
因果图定性分析法及其在故障诊断中的应用