APP下载

基于RFECV-RF特征选择的W-SVM齿轮故障诊断与优化

2023-10-18侠,柏莹,李红*

湖北理工学院学报 2023年5期
关键词:特征选择齿轮故障诊断

张 侠,柏 莹,李 红*

(1.合肥学院 人工智能与大数据学院,安徽 合肥 230601;2.安徽奇智科技有限公司,安徽 合肥 230601)

0 引言

齿轮长期处于交变载荷、摩擦等作用下,极易出现故障与损坏。同时,由于实际工况的复杂性,齿轮转速易发生波动,收集到的振动信号对故障比较敏感,往往呈现非线性且伴有大量的噪声,容易造成信号耦合,难以提取齿轮箱内部故障的有效信号[1]。

支持向量机(Support Vector Machines,SVM)广泛应用于齿轮故障诊断[2-3]。王二化等[4]使用主成分分析法对齿轮箱振动信号进行降维处理,并引入粒子群算法优化SVM及其核函数的关键参数。饶雷等[5]通过卷积神经网络完成了特征的自适应提取,并且在特征级上将各传感器的特征进行融合,有效地提取特征变量。黄丽丽等[6]通过相对误差指标值的大小选择形态谱最优参数提取故障特征,并采用SVM完成行星齿轮箱故障识别。递归特征消除(Recursive Feature Elimination,RFE)[7]和随机森林(Random Forest,RF)[8]特征提取方法广泛应用在生物、医学、机械工业等领域。张媛媛等[9]使用以Lasso为底层算法的RFE递归特征消除方法去除样本数据集中的无关特征和冗余特征,应用于旋转机械故障预测识别。然而,RFE特征提取存在一定的盲目性,无法精确判断特征变量选择的个数,导致故障识别精度下降。

鉴于此,本文结合重采样技术[10]、交叉验证(Cross Validation,CV)及RF进行特征提取,通过对比RFE和RF特征选择方法,验证本文所提出的特征提取方法的有效性,并且使用网格搜索法对SVM及其核函数参数进行超参数优化,最后将提取的特征子集输入到W-SVM分类器中实现齿轮故障诊断。

1 算法原理

1.1 RFECV-RF算法的构建与原理

RFE是一种贪婪的算法,工作原理是根据建立的算法模型通过递归的方式删除数据集的特征变量,然后对新的特征变量子集进行训练并选择。RFE需要先设置特征变量的个数,过程存在一定的盲目性:设置过大,会造成特征冗余;设置过小,会造成信息丢失。因此,本文将结合重复的折交叉验证和RF模型中特征重要度排序技术。

设训练集为x,交叉验证次数为k,准确率为Accuracy,那么,RFECV-RF算法具体可分为以下8个主要步骤:

1)将训练集划分为k个子集;

2)选取其中1个训练子集,在RFE阶段,使用当前训练子集建立RF模型;

4)删除不重要的特征变量,更新特征子集;

5)重复步骤(3)和(4)的操作,直到完成所有特征变量的排序;

6)重复步骤(2)、(3)、(4)和(5),直到完成所有训练子集的特征变量的重要度评估;

7)综合步骤(6)中所有特征变量的重要度,依次采用不同数量的特征子集建立模型,并且使用Accuracy评估特征子集调整对整体性能的影响;

8)给出最优特征子集组合。

1.2 SVM原理

SVM算法的基本思想是根据样本点寻找分类器的决策边界,再根据多个决策变量建立最优超平面,使得位于最优超平面两侧样本点的间隔最大,由此实现分类。对于线性可分的样本,SVM的求解目标为:

(1)

s,t,yi(wTxi+b)≥1

(2)

针对线性不可分问题,比如数据中存在噪声,SVM通过核的思想把低维不可分的样本点转化到一个三维空间,使用平面进行分割,并且引入软间隔最大化,使间隔出现一些弹性变化。此时,SVM的求解目标为:

(3)

s,t,yi(wTxi+b)≥1-ζi

(4)

式(1)~(4)中,w和b为决策平面参数;n为样本的数量;i的取值从1到n;xi为输入;yi为标签;ζi为松弛变量;C为惩罚因子。

1.3 SVM算法改进

1.3.1增加权重

使用加权处理数据类别不平衡问题,以提高某个或者某些类别样本的权重,降低比重较大类对边缘可能产生的过度影响,进而提高分类器整体的准确率。实验中,设置所有样本类别的初始比重为1,以准确率为标准进行评价,使用SVM建立模型,查看每一种样本类别的准确率。对于准确率较低的样本,根据经验法适当调整SVM权重值,数值跨度范围设置为0.1~1。重复上述过程,寻找最优权重。

1.3.2参数优化

针对SVM算法极易受参数影响这一特性,使用网格搜索优化SVM及其核函数中的关键参数cost和gamma。gamma是惩罚系数,是SVM核函数带的一个参数,作用是对低维的样本进行高维映射。这2个参数的大小会影响模型的鲁棒性。网格搜索是指给定1个区间范围,在此区间范围内划分网格,使得cost和gamma遍历所有网格,记录每1个网格点模型表现的准确率,返回模型表现最好时cost和gamma值。针对数据不平衡和SVM算法容易受参数影响等问题,将参数优化与W-SVM结合,提高齿轮故障检出率。改进SVM算法的完整流程算法如下。

Input:Data setx;

Output:Optimal set of weightsWn=(w1,w2,…,wn) and Hyperparameters (cost,gamma).

1:Initializex:

3:repeat

4:Training Model:MC=[mi,j]n×n;

5:for (iandj) do

6:Optimizing model hyperparameters, updating (cost,gamma);

8:Adjusting the weight ofmi,j,updatingWn=(w1,w2,…,wn);

9:end for

10:UntilWnand (cost,gamma)converge

11:returnWnand (cost,gamma)

2 评价指标

采用准确率、F1值和一致性系数Kappa进行评价。准确率能够反应样本分类正确性,表示为:

(5)

F1值是准确率和召回率的调和平均,召回率(Recall)是针对原始数据的一种覆盖面的度量。当仅凭准确率和召回率不足以判断模型时,可以采用F1值进行判断,表示为:

(6)

Kappa系数用来衡量随机方法和模型化方法之间的一致性程度。其值越接近1,表明分类精度越高。若某个样本属于负类的概率90%,而正类的样本概率10%,则样本类别倾向性非常显著。对于越不平衡的混淆矩阵,Kappa值越低,能够给“偏向性”强的模型打低分。Kappa系数可表示为:

(7)

式(5)~(7)中,Mcorrect表示正确分类的样本量;Ntotal表示样本的总量;po是指正确分类的样本数量占全部样本数量的比例,也就是Accuracy。假设每一类别中实际样本个数为x1,x2,…,xm,结果预测中对应的样本个数为y1,y2,…,ym,样本全部数量为N,则

(8)

3 实验与结果分析

实验齿轮数据集来自于东南大学,研究了2种不同工作条件下的齿轮数据,数据集命名为Data1和Data2,工作条件的旋转速度系统的负载设置为20 HZ-0 V和30 HZ-2 V。为了验证改进W-SVM的性能,选择加拿大渥太华大学轴承数据集进行实验,数据集命名为Data3。数据集特征信息见表1。

表1 数据集特征信息

3.1 数据预处理与特征提取

以东南大学齿轮数据集Data1为例,每种类型选择几百个样本进行分析,其中V5表示健康齿轮,V1、V2、V3和V4分别表示不同类型的故障。对数据集的特征变量做相关性分析,特征变量间的相关性如图1所示。

图1 特征变量间的相关性

由图1可知,数据集两两特征变量之间几乎不相关。使用皮尔逊相关系数衡量变量间的相关性,定义为两个变量X和Y的协方差与两个变量的标准差的比值,计算公式为:

(9)

式(9)中,μX和μY分别表示X和Y的均值;σX和σY分别表示X和Y的方差。

为了验证RFECV-RF特征选择的有效性,分别使用RFE、RF和RFECV-RF进行特征变量的选择和提取,为了避免实验的随机性,实验重复运行2次,计算平均准确率。3种特征选择方法的准确率如图2所示。由图2可以看出,使用RFECV-RF特征提取,可以得到最高的准确率,结合RF特征重要性排序,可以得到最优的5个特征变量为s1、s6、s5、s8和s7。综合上述图1对数据集中特征变量间相关性的分析可知,符合Peng等[11]提出的最大相关和最小冗余(Max-Relevance and Min-Redundancy,mRMR),即在原始数据集中找到有限个能够表示数据集特征的变量,且特征变量之间的相关性较小。

图2 3种特征选择方法的准确率

以齿轮数据集Data1为例,采用t-SNE算法对原始输入数据和RFECV-RF提取的特征进行可视化分析。RFECV-RF特征选择结果可视化如图3所示。由图3可以看出,在原始数据特征中,V5与V1和V4类别的重叠度很高,经过RFECV-RF特征提取之后,各类别的重叠度有了明显下降。综上可知,使用RFECV-RF特征选择可以得到最优的特征子集,能够有效地识别齿轮故障,提高故障诊断准确率。

(a) 特征选择之前

3.2 基于改进W-SVM的齿轮故障诊断

为了提高W-SVM算法故障诊断的准确率,采用网格搜索对SVM及其核函数参数进行优化,将经过RFECV-RF特征筛选之后的5个特征变量输入到改进的SVM模型中进行故障诊断。实验中样本数量为950,训练集数据占70%,测试集数据占30%,实验结果的原始混淆矩阵如图4所示。由图4可知,基于SVM算法的故障诊断结果,V4和V5类故障识别率较低,识别准确率分别为73.9%和85.7%,其中V5类故障容易被诊断为V1类和V4类,与图3特征选择可视化结果一致。W-SVM算法的故障诊断结果中,V1和V3类的故障识别准确率均达到92%以上,V2类的故障诊断准确率达到100%。对比图4(a)和图4(b)可以看出,V4和V5这两类故障识别的精度有较明显的提升,并且V5类故障识别准确率从85.7%提高到96.6%。

(a) SVM混淆矩阵 (b) W-SVM混淆矩阵 (c) Opt W-SVM混淆矩阵

基于改进W-SVM的齿轮故障诊断结果如图5所示。由图5可知,相对于传统SVM模型,使用特征筛选之后的变量进行建模分析,W-SVM和Opt W-SVM在准确率、F1值和一致性系数Kappa上的表现更优。对于齿轮数据集Data1, W-SVM的故障识别准确率比SVM高4.2%,Opt W-SVM的故障识别准确率比传统SVM高6.6%,且故障识别准确率、F1值和Kappa系数均在95%以上。对于齿轮数据集Data2, W-SVM的齿轮故障识别准确率比SVM高8.3%,Opt W-SVM的故障识别准确率、F1值和一致性系数Kappa均达到了99.9%。结果表明,改进的SVM模型能够明显提高齿轮故障识别的准确率。为了验证改进SVM模型的泛化能力,选择轴承数据集Data3进行实验。实验中设置故障样本大小为200。改进W-SVM的轴承故障诊断结果如图6所示。从图6可以看出,W-SVM的轴承故障识别准确率比SVM高10.6%,且故障识别的F1值从65%上升到86.1%。一致性系数Kappa值从48.3%上升到73.3%,提升了25%,改进的算法模型明显降低了原始模型的偏向性,表明改进的SVM模型具有较强的泛化能力。

(a) Data1

图6 改进W-SVM的轴承故障诊断结果

4 结论

针对RFE特征选择个数的盲目性,采用RFECV-RF进行特征提取,并验证了其有效性。采用多个特征选择方法进行对比,选择皮尔逊相关系数评价了特征筛选的有效性。实验表明,相比其他特征选择方法,使用RFECV-RF特征选择准确率最高,有效解决了数据特征冗余问题。

对SVM进行加权改进,根据经验法设置SVM不同的权重,同时融合网格搜索对SVM及其核函数进行超参数寻优,解决数据不平衡问题。结果表明,与传统SVM算法相比,改进的SVM模型齿轮故障诊断准确率提高了6.4%,并且故障识别准确率、F1值和Kappa系数均达到了94%以上,实现了对齿轮故障类型的准确诊断,验证了该改进算法具有较强的泛化能力。

猜你喜欢

特征选择齿轮故障诊断
东升齿轮
你找到齿轮了吗?
异性齿轮大赏
齿轮传动
Kmeans 应用与特征选择
联合互信息水下目标特征选择算法
因果图定性分析法及其在故障诊断中的应用
基于特征选择和RRVPMCD的滚动轴承故障诊断方法
基于LCD和排列熵的滚动轴承故障诊断
基于WPD-HHT的滚动轴承故障诊断