基于多尺度极差熵和专家森林的轴承故障诊断*

2022-01-27张书锋陈雪勤

机电工程 2022年1期

张书锋,陈雪勤

(1.苏州工业园区服务外包职业学院信息工程学院,江苏苏州 215123;2.苏州大学电子信息学院,江苏苏州 215006)

0 引言

目前,旋转设备在军工、能源、航空航天等领域已经得到了广泛应用。由于滚动轴承是旋转设备的关键部件,其健康状况对设备平稳运行、生产安全具有重要影响。然而由于自身结构的复杂性和运行环境的恶劣性,滚动轴承容易发生腐蚀、磨损等损坏,从而影响生产安全[1]。因此,研究轴承故障诊断方法具有重要的意义。

当滚动轴承发生故障时,常会伴随振动、温度、声音等物理量的变化,因此,滚动轴承故障诊断手段也包括声学检验、油膜检验、电流分析与振动分析等[2]。由于传感器具有便宜、安装简单、可在线高效诊断等优势,基于振动分析的故障诊断方法得到了广泛关注和应用[3,4]。

就方法而言,故障诊断主要包括故障提取和模式识别两个方面,有些学者使用深度神经网络将特征提取和模式识别一体化实现,这种方法提取的特征参数一般不具有实际物理意义[5]。多数研究中将故障提取与模式识别分开实现,提取的故障参数包括时域、频域和时频域参数等,模式识别方法包括支持向量机、神经网络、随机森林等。

文献[6]针对特征提取和降维过程复杂的问题,提出了一种基于卷积神经网络的故障智能诊断方法,有效地提高了轴承故障诊断的准确率。文献[7]以原始信号的时域指标和小波包能量作为特征参数,并使用最小二乘支持向量机实现了故障模式识别,实现了轴承故障的较高精度诊断。文献[8]提出了一种云特征与时域特征融合的故障特征提取方法,并使用改进人工鱼群算法优化了支持向量机参数,经验证,通过该方法可以获得更高的识别准确率。以上研究成果在各自轴承故障诊断上取得了较好成果,但是不同使用环境下不同类型轴承的敏感特征差别较大、故障诊断准确率差别也很大,因此不同使用背景下轴承的故障特征提取和诊断方法仍是当前研究热点。

笔者对滚动轴承故障特征提取与诊断技术进行研究,对极差熵进行改进,提取轴承振动信号的多尺度极差熵特征;笔者以随机森林算法思想为基础,给出基于专家森林算法的故障诊断方法,以达到提高轴承故障诊断精度的目的。

1 轴承多尺度极差熵特征提取

1.1 轴承故障分析

滚动轴承主要由内圈、外圈、滚动体和保持架等结构部件构成,其结构和主要参数如图1所示。

图1 滚动轴承结构及主要参数α—接触角;d—滚动体直径;D—轴承节径,即滚动体中心间距离

当轴承发生内圈故障、外圈故障或滚动体故障时,轴承故障的特征频率[9]如表1所示。

表1 轴承故障特征频率

fIR—内圈故障特征频率;Z—滚动体数量;fr—旋转频率;fB—滚动体故障特征频率;fOR—外圈故障特征频率

由表1中数据可知:当轴承内圈、外圈和滚动体等不同位置发生故障时,其特征频率不同,也即故障信号的规律性不同。

轴承的特征频率越大,则信号规律性越强,信号的熵值就越小;特征频率越小,则信号规律性越弱,信号的熵值也就越大,因此,可以通过提取其信号的熵值特征,以此作为轴承的故障特征。

1.2 极差熵

极差熵对信号长度和信号幅值不敏感,具有较强的稳定性,因此,可以使用极差熵来度量信号的复杂度。

对于长度为N的时间序列x={x1,x2,…xN},极差熵的计算步骤如下[10]:

(1)

式中:m—数据长度,个;t—延迟时间,s。

(2)在重构相空间中搜索匹配样本数量。根据熵与信号自相似的关系,借鉴重标极差分析思想,可以定义样本距离为:

(2)

(3)

式中:r—相似容限;Ψ()—Heaviside函数。

(4)

(5)

1.3 多尺度极差熵

由于极差熵只是在一个维度上对信号复杂度进行度量,并提取出该信号的特征,其无法全面提取数据序列中的有用信息。

为了解决这一问题,笔者提出了能够全面反映信号特征的多尺度极差熵的概念,即借助粗粒化思想,在不同尺度上将给定信号进行分解,而后计算信号在各尺度的极差熵。

粗粒化方法为:

(6)

以τ=3为例,序列的粗粒化过程如图2所示。

图2 信号粗粒化方法

原始数据序列按照式(6)进行粗粒化后,按照极差熵的计算步骤得到信号在各尺度下的极差熵,从而得到多尺度极差熵。

1.4 特征参数降维

从原始信号中提取的多尺度极差熵对轴承故障的敏感程度不同,不敏感参数的存在不仅会增加特征向量维度,而且会降低故障识别准确率,因此,笔者使用主成分分析法[11,12]提取其高敏感特征。

笔者将提取的多尺度极差熵记为Y={yq1,yq2,…yqd}。其中:d为特征参数维度;q为特征参数数量，q=1,2,…,n。

首先，计算特征向量组成矩阵的协方差矩阵:

(7)

式中:Ry—协方差矩阵;

求协方差矩阵的特征值βq和特征向量vq,按照特征值降序将特征向量进行重新排序,得到新特征向量矩阵记为vq(new),将多尺度极差熵yq在新特征矩阵vq(new)中进行投影:

(8)

特征值βq越大代表相应的特征向量的贡献率越大,则对轴承故障也就越敏感。因此,笔者选择前若干个累积贡献率足够大的特征向量用于故障诊断,这样就实现了特征向量降维。

2 专家树森林故障模式识别

2.1 随机森林算法

随机森林算法原理如图3所示[13,14]。

图3 随机森林算法

笔者使用Bagging随机抽样法从训练集中随机、有放回地选择训练样本,从所选训练样本中随机挑选特征属性对决策树进行训练,得到训练完毕的随机森林决策树[15];将测试集导入到决策树中,得到各个决策树的分类结果(即投票结果),得票数量最多的类别为随机森林辨识的类别。

2.2 专家树森林算法

分析随机森林算法原理可知,森林中决策树的投票权是无差别的,但是决策权重却是一致的。为了解决这一问题,笔者提出了专家树和专家森林的概念,即根据决策树的决策能力为不同决策树赋予专家属性,依据决策树的专家属性为其赋予不同的决策权重。笔者将这种具有专家属性的决策树命名为专家树,由专家树组成的森林命名为专家树森林。

笔者将训练样本分为训练组和预测试组两类,其中,训练组用于决策树的训练,预测试组用于对决策树的决策精度进行测试,从而为其赋予不同的专家属性。

将预测试组的样本数量记为C,则专家树k在预测试中的决策准确率Rk为:

(9)

式中:Ck—专家树k在预测试中决策正确的次数。

根据预测试的决策准确率,为专家树k赋予的专家权值wk为:

(10)

式中:wk—专家树k的专家属性,即决策权值;K—专家树数量。

则专家森林的决策结果为加权和取最大值的类别,即:

(11)

式中:fEF(x)—专家森林算法决策结果;Bk(i)—标识函数,当决策树k识别结果为i时Bk(i)=1,当决策树k识别结果不为i时Bk(i)=0。

2.3 专家森林算法流程

根据专家树森林算法的构造方法,笔者设计的专家树森林算法流程如下:

(1)初始化算法参数,包括决策树数量、训练组样本数量、测试组样本数量;

(2)将测试样本随机分为训练组和预测试组;

(3)使用训练组样本对专家森林的决策树进行训练,并使用预测试组对决策树的决策准确率进行评价,为决策树赋予专家属性得到专家树;

(4)将测试样本输入到专家森林中,得到专家投票的加权和,加权和最大的类别为决策类别。

3 实验及结果分析

3.1 数据获取与特征降维

笔者使用美国凯斯西储大学的滚动轴承故障数据进行实验[16]。其中的测试轴承型号为6205—2RS深沟球轴承,转速为1 797 r/min,数据采样频率为12 kHz。

轴承分为正常状态、内圈故障、外圈故障和滚动体故障4种状态,每种故障状态下根据故障深度分为0.007 inch、0.014 inch、0.021 inch 3类,因此共有10类故障状态,如表2所示。

表2 轴承10种状态

在每一种轴承故障状态下,笔者截取2 048个数据点,原始振动数据如图4所示。

图4 原始振动数据x—振幅;t—时间

取数据长度m=2,相似容限r=0.2SD,通过计算可得到不同尺度下轴承各状态的极差熵值,如图5所示。

图5 不同尺度极差熵

由图5可以看出:在轴承信号不同尺度的极差熵特征值中,一些极差熵(如1尺度、2尺度)对轴承故障敏感性好,状态之间区分明显;也有一些极差熵(如3尺度、4尺度)对轴承故障敏感性较差,故障状态之间区分不明显。因此,还要从特征参数中提取出对轴承故障状态敏感的特征参数。

笔者使用主成分分析法计算上述多尺度极差熵的贡献率,其结果如表3所示(按贡献率降序排列)。

表3 主成分分析结果

由表3可以看出:上述25个多尺度极差熵的贡献率相差较大,也即对轴承故障状态的敏感度相差较大;选取贡献率大于1%的前7个特征值组成特征向量,前7个特征值的累积贡献率为96.24%,能够较好地表征轴承的故障特征。

3.2 故障诊断及结果分析

为了对基于降维方法和专家树森林算法的轴承故障诊断效果进行验证,笔者设置了3组对比实验。实验一使用降维前的25个特征参数组成特征向量,依据随机森林算法进行故障诊断;实验二使用降维后的7个特征参数组成特征向量,依据随机森林算法进行故障诊断;实验三使用降维后的7个特征参数组成特征向量,依据专家树森林算法进行故障诊断。

笔者从轴承每种状态的振动信号中随机截取102 400个点,并平均、非重叠地分为50个样本,10种状态下共得到500组样本。每种状态下随机选择10个样本作为训练组样本,共100个训练组样本;再随机选取10组样本作为预测试组样本,共100个预测试组样本;每个状态剩余30组样本为测试样本,共300组测试样本。

3组实验中针对300组样本的诊断结果如图6所示。

图6 3组实验诊断结果n—样本编号

实验一、实验二和实验三的故障诊断准确率如表4所示。

表4 故障诊断准确率

对比实验一和实验二可知:实验二的故障诊断准确率比实验一高17.07%,这是因为实验二以降维后的高敏感特征参数作为特征向量,这也证明了基于主成分分析法的降维方法是有效的;

对比实验二和实验三可知:实验三的故障诊断准确率比实验二高3.47%,两组实验均以降维后的7个特征参数作为特征向量,实验二使用随机森林算法进行故障识别,实验三使用专家森林算法进行故障识别,两组实验结果说明专家森林算法的识别准确率高于随机森林算法。这是因为专家森林算法中依据决策树的决策能力,为决策树赋予了不同的专家属性,使专家树具有不同的决策权。

由此可见,基于专家森林算法方法的识别准确率高于基于随机森林算法方法。