APP下载

基于奇异样本熵和随机森林的某电机故障诊断研究

2020-02-28仇满意陈雪娇赵文涛

关键词:决策树分类器故障诊断

仇满意,陈雪娇,赵文涛

(1.中铁磁浮科技(成都)有限公司,四川 成都,610000; 2.西安工业大学 机电工程学院,陕西 西安,710021)

广泛应用于工业部门的各种电机一旦发生故障,就可能引起部分构件甚至整个系统的损坏或停产,并可能造成严重的生产事故,使人们生命和财产安全遭受巨大威胁。因此,保证电机的可靠运行,受到人们广泛和高度重视,对其进行有效的故障监测诊断具有十分重要的意义[1]。

目前,电机诊断领域较为主流的方案是通过监测电机部分运行信号来进行电机故障检测,如电机红外辐射信号、振动信号、噪声信号、中心电压以及电流运行信号。其中非侵入式的电流信号分析法[2](MCSA)是目前使用最多的电机故障检测方法。文献[3]通过对电机定子电流的频率谱分析检测电机转子的断条故障或轴承运行故障。但当电机稳态运转时,电机转差率较小且故障频谱分量与基频信号频谱分量过于接近,幅值较小的故障频谱分量易与基频混淆或被环境噪声所覆盖,故难以突出故障特性并使检测的可靠性降低。文献[4]通过希尔伯特变换把信号基频成分转换成了直流信号,凸显了故障特性但同样存在两者交叉重合项问题。

为了更高效地利用电流信号信息并实现最高的故障诊断率这两个问题,运用Hankel矩阵排列的奇异值分解和基于局部搜索决策树棵数的随机森林算法。奇异值分解对于相关性强的信号分解出的效果最佳,而对于相关性较弱信号分解效果不明显,而基于Hankel矩阵的奇异值分解算法可以增强倾斜同相轴信号的自相关性,从而改善奇异值分解对于倾斜同相轴信号的分解效果[5]。随机森林算法[6]由Leo Breiman 和 Adele Cutler提出,其实质是一个包含多个决策树的分类器,这些决策树之间是相互独立的。当待检数据进入随机森林时,其实就是让每一棵决策树进行判断,最后取所有决策树中判断类型最多的那类为最终的检测结果。

1 Hankel矩阵与奇异值分解

1.1 Hankel矩阵

Hankel矩阵[7]是指矩阵中逆对角线上的元素相等以及从左下到右上平行于逆对角线上的元素都相等的一种矩阵,其对一具体信号矩阵构造如下:

(1)

式中:信号矩阵Di的序列长度为N;行数为m(1

1)若N为偶数,则可利用此信号序列构造的Hankel 矩阵的行数为m=N/2+1,列数为n=N/2。

2)若N为奇数,则可利用此信号序列构造的Hankel 矩阵的行数和列数都为m=(N+1)/2。

1.2 奇异值分解

奇异值是将时频信号矩阵经过奇异值分解后得到的一系列子矩阵。该子矩阵反映了其包含信号时频信息量,在一定程度上代表时频信号矩阵固有的特征形式并降低信号的特征维数。当时频信号矩阵的元素发生失真或受到干扰时,其信号矩阵奇异值变化额的平方和不超过干扰矩阵的范数,奇异值变化额较小,稳定性较好。同时矩阵奇异值还具有比例和旋转不变性,符合模式分类中特征选择所要求的稳定性及旋转、比例不变性等特征。故在模式分类中,信号矩阵奇异值常被用于表达信号的特征类型。

奇异值分解[8-9](singular value decomposition,SVD)是线性代数中一种重要的矩阵分解形式,其基本原理如下:

A=UΣVT

(2)

其中:VT(即V的转置矩阵)是n×n阶矩阵;Σ是半正定m×n阶对角矩阵,反映样本之间距离的连续关系,每一列代表一个样本;U是m×m阶矩阵,反映统计特征参数之间的关系,每一行代表一个参数量;A是一个m×n阶奇异值矩阵,奇异值从大到小排列,反映各个统计参数特征的重要性。

2 随机森林分类器

近年来大量应用于多个工程实践领域的随机森林(random forest,RF)是一种由多决策树{h(x,θi),i=1,2,…,k}组成的集成识别分类器算法。其中,θi是相互独立且同分布的随机向量参数,其决定单棵决策树的形成流程,最终标签集的确定由所有决策树综合衡量输入数据向量决定。单棵决策树的分类能力和各决策树之间的关联程度决定了随机森林算法的泛化差,其算法的计算流程主要包括以下2个部分:决策树的生成和投票决定结果[10-11]。

2.1 决策树的生成

随机森林使用自助重采样技术来生成单棵决策树,其单棵决策树的形成流程如下:

1)从总量为N的原始数据样本集中采用有放回抽样方案随机抽取样本,重复k(树的个数ntree值为k)次形成一组新的自主样本集。

2)每一组自主样本集是单棵分类树的全部训练数据集并生长为1棵分类树。设有M个输入特性,则在树的每个节点处,从M个特性中随机选择N(N

3)分类树不进行剪枝操作,这样可以使低偏差和高差异同时充分生长,使得每个节点的不纯度目标达到最小。

2.2 投票决定结果

多棵分类树集成为随机森林,新测试数据的识别与分类由随机森林判别,其最终结果由随机森林所有的决策树投票数确定。即对于1个测试数据X,1个决策树预测标签类别为C,随机森林所有的决策树预测出多个结果,则得票数最多的那个类别就是测试数据最终标签类别,其中随机森林的投票过程公式如下:

(3)

式中:ntree是随机森林中决策树的数量;I(*)是示性函数;nhi,c是树hi对类C的分类结果;nhi是树hi的叶子结点数。在投票得出结果后,可根据结果生成混淆矩阵M,混淆矩阵单元M(i,j)代表类型i被分类为类型j的次数。当i=j时,则表示分类正确,否则为不正确,其中i,j=1,2,…,c。从而可得出随机森林分类错误率R如下所示:

(4)

其中:nc表示类别的个数。

3 实验研究

3.1 实验准备

实验电机为某型号的永磁直流电机,转速为6 000 r/min。在电机在额定载荷情况下,分别测取正常和故障两种状态下的定子电流信号,其中采样频率为20 000 Hz,采样时间为5 s。由于实系列信号的周期共轭对称,故只给出前10 000 Hz之前的频率进行时频分析,另一半可以根据对称性质推出。1个采样周期内2种状态的时域及频谱图如图1所示。

(a)电机正常状态时域信号

(b)电机故障状态时域信号

(c)电机正常状态频域信号

(d)电机故障状态频域信号

由图1(a)和1(b)时域图可以看出正常状态相比故障状态其幅值波动变小;由图1(c)和1(d)频域图可知故障状态相比正常状态的500~9 000 Hz主要能量集中频段变更为3 000~8 000 Hz主要能量集中频段,其频率范围扩大且能量分布更趋于均匀。

3.2 Hankel矩阵分析

通过对正常、故障2种状态实验信号,每类随机选择40组共组成80组数据,其中每组数据随机选取1 024个信号点,按公式(1)组成513行512列Hankel矩阵。由公式(2)可知,将每个Hankel矩阵进行奇异值分解后可以得到512个奇异值。为了解决分解后的奇异值数目较多、运算量较大且不能完整表达实验信号整体特征与内部差异本质的问题,在分解出的Hankel矩阵奇异值基础上,提出了奇异能量值与奇异样本熵的概念。根据Parseval原理,奇异能量值定义为奇异值矩阵傅里叶变换模的平方,即单位频率范围内包含的奇异值信号能量,其如公式(5)所示。

(5)

式中:S(i)为第i个奇异值;N为奇异值总数目。样本熵[12-13]是衡量时间序列复杂度的一种新型方法,它具有抗噪声干扰能力强、所需的数据量小且在参数变化较大的情形下仍具有良好的稳定性等优点。为了表示Hankel矩阵奇异值整体的不规则性与复杂度,由此引入奇异样本熵概念,其计算过程如公式(6)所示。奇异样本熵大,表示奇异值信号复杂度较高,信号序列相似性较低;反之,表示复杂度较低,信号序列相似性较高。

(6)

式中:N为奇异值信号样本点的个数;m为新组成的奇异值矩阵维数;r为给定的阈值;i为奇异值信号序号且i=1~(N-m)。

3.3 3种分类器比较分析与决策树棵数确定

为了验证文章新提出的奇异能量值、奇异样本熵和随机森林算法的有效性,首先将上文计算的最大奇异值作为基础特征矩阵,分别与添加奇异能量值、奇异样本熵的新特征向量矩阵依次输入到支持向量机[14]、概率神经网络[15]和随机森林分类器中进行结果分析,最终的故障诊断率结果如表1所示。

表1 不同特征类型下三种分类器故障诊断率

Table 1 Fault diagnosis rate of three classifiers under different feature types %

随机森林分类器中包含的决策树棵数的不同,对最终诊断结果泛化性能有较大影响。为了减少随机性的影响,采用局部搜索决策树棵数法并以最高故障诊断率作为最佳决策树棵数判断标准。以每种状态的最大奇异值、奇异能量值和奇异样本熵作为不变特征样本,决策树棵数从50到1 000棵中依次选取,其中步长为50棵。每轮决策树棵数确定后,随机森林分类器随机创建100个随机森林模型,然后求其故障诊断率的平均值作为当前决策树棵数情形下的最终故障诊断率。图2所示为决策树棵数影响最终故障诊断率结果。从计算量和准确率考虑,确定决策树棵数选择200组,此时随机森林分类器故障诊断率即为表1中的70%。

图2 随机森林决策树棵数对故障诊断率影响图Fig.2 Influences of RF decision trees on fault diagnosis rate

由表1可知:3种分类器无论添加奇异能量值或奇异样本熵的一种或全部,都可以在一定程度上提高算法的故障诊断率。其中,在二分类电机故障诊断条件下,随机森林相比支持向量机和概率神经网络分类器,其故障诊断率最高。

3.4 奇异值个数选取与结果分析

奇异值包含了大量信息,故奇异值个数也可能会对最终故障诊断率产生一定的影响。以奇异能量值、奇异样本熵和最大奇异值作为初始特征样本,依次增加一个相对较小的奇异值后对最终的故障诊断率影响效果如图3(a)所示。由图3(a)可知:增加的前4组奇异值不仅没有提高故障诊断率,有时反而会降低故障诊断率。故障诊断率从第4组开始快速上升到最高点96.7%,此时故障识别结果如图3(b)所示。从图3(b)可见:30组数据中被错误识别1组且被错误分类的样本靠近中间,在这种情况下,输出类型为正确、错误的决策树棵数相当,认为样本被错分是可以接受的,即随机森林的泛化性能是可以接受的。由图3可知,最终对电机的故障诊断率达到96.7%。

(a)奇异值个数对随机森林故障诊断率影响图

(b)最高故障诊断率时样本分类效果图

4 结论

以随机森林分类器为例,提出的奇异能量值和奇异样本熵与无这2种算法的特征矩阵相比,最终电机故障诊断率分别提升了6.6%和30%,两者结合提升了33.3%。证明新提出的奇异能量值和奇异样本熵的算法能较好完整表达奇异值矩阵整体特征与内部差异本质。此外,相比概率神经网络和支持向量机,基于随机森林分类器决策树棵数和奇异值个数的局部搜索选取,电机的故障诊断率进一步提升到96.7%。综上可知,将奇异能量值、奇异样本熵以及随机森林融合的新方法引入电机故障诊断领域取得了显著效果,对于现场实际生产和使用也具有一定的参考价值。

猜你喜欢

决策树分类器故障诊断
基于包络解调原理的低转速滚动轴承故障诊断
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
数控机床电气系统的故障诊断与维修
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
基于决策树的出租车乘客出行目的识别
因果图定性分析法及其在故障诊断中的应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于层次化分类器的遥感图像飞机目标检测