APP下载

结合S变换和mRMR特征选择的电缆早期故障识别方法

2022-01-28杨晓梅

计算机应用与软件 2022年1期
关键词:子集特征选择分类器

王 森 龚 俊 杨晓梅*

1(四川大学电气工程学院 四川 成都 610065) 2(成都市产品质量监督检察院 四川 成都 610100)

0 引 言

电缆故障过程是一种渐进过程,并非不可避免。文献[1]中把电缆故障划分为三种,分别为电缆缺陷[2]、电缆早期故障[3]和电缆永久性故障。在机械应力和环境应力等因素条件下造成的电缆缺陷,它会伴随着局部放电的增强而逐步演变成早期故障,早期故障的多次发生进而最终演变成永久性故障。电缆早期故障通常表现成过电流的现象,而变压器激磁、电容投切和恒定阻抗等故障产生时,这三种扰动信号同样表现为过电流现象进而导致电缆早期故障难以识别,若能及时辨别出电缆早期故障,并进行针对性检修,则可避免永久性故障的发生[4-5]。因此,在这三种表现成过电流现象的扰动信号中,准确地把电缆早期故障信号识别出来将具有十分重要的现实意义。

目前针对电力电缆早期故障识别这一问题,国内外已有不少研究,其方法主要为3个环节:(1)特征提取;(2)特征选择;(3)故障识别。短时傅里叶变换(STFT)[6]法、希尔伯特-黄变换(HHT)法[7]、小波变换(WT)法[8]和S变换(ST)法[9]等几种方法是目前较为普遍使用的信号处理方法。ST具有可变的时-频分辨率,其具有良好的抗噪性,可提取丰富的时-频特征用于分类电缆早期故障信号。若需要对特征分类能力进行深入的分析,在时频分析结果中获取的大量时频特征的方法还远远不够。特征选择,即从初始特征集中选出最优特征子集是模式识别领域的关键问题。电缆早期故障和表现为过电流现象的扰动信号的初始特征集中包含大量的不相关信息和冗余信息,这样容易使分类器出现过拟合从而降低分类准确率和效率等问题,因此,选择一个好的特征选择算法对初始特征集进行特征选择是非常有必要的[10]。文献[11]基于关联规则的特征选择算法(CFS)以特征和类别之间的相关性以及特征与特征之间的冗余度为衡量标准,虽然具有较好的降维能力,但其所得到的解不一定是全局最优解。基于特征权重(ReliefF)算法,对分类效果越好的特征赋予更高的权重进而使特征选择的效率大大的提高,但同时也忽略掉特征与特征之间存在的冗余性,导致选择出的特征子集分类效果较差[12-13]。

本文在对电缆早期故障和其他过电流扰动信号的研究[5]基础上,为了提高电缆早期故障的识别准确率,提出一种基于S-变换-mRMR-SVM模型的故障识别方法。首先基于S变换(ST)法提取出81种特征,构建81维初始特征集;其次采用mRMR算法进行特征选择,得到分类效果最优的特征子集;最后在正常信号和一样表现为过电流现象的扰动信号中,采用SVM作为分类器,将电缆早期故障信号识别出。文中提到的mRMR特征选择算法与基于关联规则的特征选择算法CFS和ReliefF进行比较,分别采用这3种特征选择方法选择出最优特征子集作为分类器的输入,再利用SVM分类器进行分类。实验结果表明,在不同的噪声情况下,本文方法所选择出的特征子集在识别准确率和抗噪性等方面的效果更佳。

1 基于S变换提取初始特征集

S变换具有可变的时频分辨率且不易受噪声干扰,能准确地提取出非平稳电缆早期故障和其他过电流扰动信号的时频域特征,非常适合对电缆早期故障和其他过电流扰动信号进行分析。

1.1 S变换

S变换[9]是由Stockwell等提出的一种可逆的时频分析方法,其采用高斯窗函数,适用于非平稳电缆早期故障和其他过电流扰动信号的分析。

(1)

式中:T为采样间隔;N为总采样点数;k,m=0,1,…,N-1和n=1,2,…,N-1。

信号进行S变换后,生成一个行和列分别对应时间和频率的复时频矩阵,再次对复时频矩阵进行取模处理后得到模时频矩阵,模时频矩阵中的各元素代表对应时间和频率的信号幅值大小。

1.2 特征提取

利用S变换模时-频矩阵,从中获得表征信号特征的基频幅值曲线和2~7整数倍基频幅值曲线,在统计量、熵和能量等方面对以上曲线进行计算,一共得到9个特征量。这里统计量包括均值、标准差、偏度、峭度、均方根值和复杂度系数;熵包括香农熵、对数能量熵。根据以上曲线来构建特征指标的表达式,如表1所示,其中:Si(k)表示整数倍的基频幅值序列,i=1,2,…,7,k=0,1,…,N-1。

表1 特征表达式

通过计算,每条整数倍的基频幅值曲线可获得9个特征,7条总共提取出63个特征,记为TF1-TF63。

时频信号特征是指通过扩展时域或频域特征来定义联合(t,f)域特征,采用时频信号特征和时频统计特征这两种特征集对脑电信号分类,最后得到分类效果很好[14]。考虑到脑电信号与电缆早期故障和其他过电流的扰动信号实质上都是类似信号且都具有非平稳性,因此,将此方法应用在本文中。令S变换模时频矩阵为N×M阶矩阵S,第n行第k列个元素记为S[n,k],其中:N是信号长度;M是频率的样本总数;n代表时间;k代表频率。基于以上描述,本文考虑以下几种特征进行计算。

时-频通量可测量(t,f)域中信号能量的变化率,其计算式表示为:

(2)

式中:l和m确定(t,f)域中信号能量的方向,0≤l≤N-1,0≤m≤M-1。t轴(l=0,m=0)记为TF64,f轴(l=1,m=0)记为TF65,对角轴(l=1,m=1)记为TF66。

时-频熵和能量集中度可以将能量集中在(t,f)域中的信号与能量分散(t,f)域中的信号区分开。本文选取以下五个特征。

时-频平坦度TF67为(t,f)域几何平均值与其算术平均值的比值,计算式表示为:

(3)

时-频能量集中度TF68确定了(t,f)域中能量的稀疏性,计算式表示为:

(4)

归一化任意熵TF69量化了(t,f)域中信号能量分布的随机性,计算式表示为:

(5)

香农熵TF70量化了(t,f)域中信号能量分布的不确定性,计算式表示为:

(6)

对数能量熵TF71表示了(t,f)域中信号的复杂度,计算式表示为:

(7)

在实际应用中,IF通常是表征非平稳信号的关键特征[15-16]。因此,考虑基于IF的特征进行分类是合乎逻辑的。在时-频域中,通过每个时刻沿频率轴的主峰的频率位置估算单分量信号的IF[15]。可以表示为:

(8)

式(8)中取每个频点的最大值。IF不能直接用作分类的特征,因此本文直接提取了它们的均值、方差、偏度和峰度四个特征[14],并记为TF72、TF73、TF74和TF75。

时-频统计特征是通过将一维统计特征扩展到联合时-频域而获得的特征。本文选取了五个统计时频特征:均值、标准差、偏度、峰度和复杂度系数[14]。记为TF76、TF77、TF78、TF79和TF80。

对S变换模时-频矩阵进行奇异值分解,并利用奇异值构建特征量进行扰动识别已经是一种成熟可行的思路[1]。矩阵S的分解位置获得基于矩阵分解的特征。奇异值分解(SVD)可以在N×M矩阵S上执行。其奇异值可分解为:

S=UΛVH

(9)

式中:U和Λ分别为N×N实矩阵和N×M对角矩阵,对角线上有非负实数(Λi,i=1,2,…,N),而VH为一个M×M实数矩阵。Λ矩阵的对角线称为S的奇异值,从矩阵S的奇异值中提取基于SVD的特征。它表示非零奇异值的大小和数量TFD的值表示为:

(10)

综上所述,本文总共提取了81维初始特征集。

2 基于最大相关最小冗余的最佳分类特征子集的获取

2.1 互信息概念

互信息是因衡量两个变量之间的约束程度而引入的一个相互共有信息量的概念,若这里给出两个随机变量x和y,根据其概率密度函数p(x)、p(y)和p(x,y),它们之间的互信息定义为:

(11)

2.2 mRMR特征选择法

已获取的时频特征集中包含着极其重要的分类信息,但同时会不可避免地产生大量的不相关和冗余信息,这些不相关和冗余信息将轻易导致分类器出现过拟合问题,从而进一步地使分类器的识别准确率和效率低下,因此很有必要对初始特征集中的特征进行选择,以获得分类能力更好的特征子集来成为最后分类器的输入。

现常用的特征选择方法基本是由子集搜索和子集评价准则这两个部分构成。mRMR法是基于互信息为子集评价准则的一种特征选择方法,衡量特征与类别之间的相关性和特征集内部之间的冗余度,可以将具有最大分类能力信息的最优分类特征子集保留,并同时能够把冗余和不相关信息消除到最小程度,使其具有更好的分类能力。详细的mRMR算法如下。

步骤1计算最大相关性和最小冗余度。首先,得到包含特征|S|的特征集S,并最大化所有特征与类别[17]的相关性。此外,得到包含|S|的特征集S,并使该特征集内部之间的冗余度最小化。最大相关和最小冗余的定义为:

(12)

(13)

式中:S表示具体特征集;C={c1,c2,…,cn}是目标类别变量;xi、xj分别是第i、j个特征;I(xi,C)为单一特征i与目标类别变量C之间的互信息;I(xi,xj)为i与j这两个特征之间的互信息。

(14)

步骤3根据mRMR评估的结果,对特征集中每个特征进行打分,依次从高到低进行排序,从特征集中选择出最优的特征子集。

3 基于SVM的分类模型

SVM是一种基于结构风险最小化原理的机器学习算法,基本思想是将训练样本映射到高维空间以获得一个最优分离超平面,把两类样本正确分开,使错误率最小且分离间隔最大[18]。

假定训练样本集D={(x1,y1),(x2,y2),…,(xn,yn)},yi∈{-1,1},i=1,2,…,n,其中:xi是输入;yi是对应的输出。SVM满足式(15)[19]。

(15)

s.t.yi(wTΨ(xi)+b)≥1-ζi

ζi≥0

式中:w表示权值向量;b表示偏移向量;ζi表示松弛因子;Ψ(xi)函数将xi映射到一个更高维的空间。

本文采用多项式核函数,其定义为:

K(xi·xj)=[(xi·xj)+C]qq>0

(16)

式中:q是多项式核函数的幂指数;C≥0是一个常数,在实际的应用中通常C=1。

本文通过采用电缆早期故障分类模型,将电缆早期故障信号从多种电缆过电流扰动信号中识别出,具体的故障识别分类模型如图1所示。

图1 电缆早期故障分类模型

电缆早期故障分类模型具体可归纳为以下三个步骤:

1)原始信号进行S变换后可获得模时频矩阵,对其进行分析计算后可得到初始特征集。

2)基于mRMR法对初始特征集进行选择和优化,得到最优分类特征子集,并将其按一定比例随机选择划分为训练集和测试集。

3)采用训练集对SVM模型进行训练,利用步骤2随机划分后得到的待识别测试最佳分类特征子集,将其作为输入送入已训练好的SVM模型,最终得到待识别测试样本的目标类别。

4 实 验

4.1 实验数据集的构造

为了充分地验证本文方法,本文在PSCAD/EMTDC中搭建出电缆早期故障的系统仿真模型,此模型是由25 kV无支路电缆线路模型且采用频率为10 kHz[4]。电缆线路模型如图2所示。

图2 电缆线路模型

为了能够最大程度地模拟出实际电网系统的故障情形,实验中除仿真得到的半周期(Sub-cycle)和多周期(Multi-cycle)两类早期故障外,还考虑到其他三种一样表现为过电流现象的扰动信号,它们作为干扰信号分别是电容器投切(Capacitor)、恒定阻抗(Constant)和变压器激磁涌流(Inrush)。此外,实验中还加入了正常电流(Normal)信号一起作为原始数据样本,波形如图3所示,其与文献[20]中现场记录的电缆早期故障波形一致。

图3 电缆故障电流波形图

通过图2模型仿真六类信号共采集样本仿真数据16 800个,其中每一类数据均为2 800个。在实际数据采集过程中,为最大程度地保证数据的随机不确定性,各表现为过电流现象信号的故障发生时间也需保证随机不确定。此外,针对多周波过电流信号,并非截取完整的多周波过电流信号进行S变换提取初级特征。在电缆早期故障分类模型中,将六类样本数据按比例3∶1随机划分成训练集和测试集。为了与模拟实际故障情况下作对照,实验过程中在信号里加入[20,30,40,50] dB白噪声。

4.2 性能评价指标

准确率反映的是实际预测类别与实际类别一致的样本占总样本的比例。本文采用准确率ACC作为评价指标来评估文中分类模型的性能。ACC计算表达式如下:

(17)

式中:TP表示实际是早期故障的样本且模型预测也为早期故障的样本数量;FN表示实际是早期故障的样本但模型预测却为其他类别的样本数量;FP表示实际为其他类别的样本被正确分类的样本数;TN表示为实际是其他类别的样本被错误分类的样本数量。

4.3 利用S变换提取特征的优点

采用本文特征选择方法分别对原始数据和基于S变换后提取的初始特征集进行特征选择,分别获得分类的特征子集作为SVM分类器的输入。本文特征提取方法最大的优点是使输入数据的维数降低和减少了辨识时间,结果如表2所示。

表2 提取特征与原始时域数据的比较结果

可以看出,利用本文方法先对原始样本提取初始特征集后再对其进行特征选择得到的特征子集与直接对原始数据样本进行特征选择后得到的特征子集相比,前者在分类准确率与分类效率方面都明显优于后者,因此证明了本文方法的可行性和有效性。

4.4 mRMR算法与其他特征选择算法的对比

采用现有的故障分类中常用的两种特征选择方法CFS[11]和ReliefF[12-13],将这两种特征选择方法与本文特征选择方法进行对比实验。本文针对不同噪声情况下的3种特征选择方法,对同一初始特征集分别进行特征选择,将各自已获得的特征子集统一利用本文方法中的SVM作为分类器进行电缆早期故障分类。此外,为了进一步证明本文特征选择方法的有效性,采用未进行特征选择的初始特征集作为SVM分类器的输入,分类结果如表3所示。

表3 全部特征、CFS、ReliefF和mRMR特征选择法结果对比

可以看出,不同噪声情况下,直接利用初始特征集与采用mRMR算法对其进行特征选择后得到的特征子集进行对比,后者分类能力效果更佳。此外,本文针对同一初始特征集,将提出的mRMR特征选择方法所选择出的特征子集与ReliefF、CFS选择出的特征子集相比,在不同噪声情况下进行对比,mRMR的分类效果均明显优于CFS与ReliefF,进一步证明了mRMR方法的有效性。同时在40 dB噪声情况下,本文方法分类准确率高达95.5%,在20 dB强噪声情况下仍高达92.5%,也说明了mRMR具有较好的抗噪能力。

4.5 与其他分类器的对比

为了验证本文方法在电缆早期故障识别中的有效性,本文采用相同的训练和测试样本,将决策树(DT)法[21]、K近邻(KNN)算法[22]、朴素贝叶斯(NB)[23]法与本文方法进行了比较,并采用交叉验证法进行测试。为模拟实际工况下电缆故障情况,对比为模拟实际工况下电缆故障识别情况,对比实验均对正常电流、半周期/全周期早期故障过电流、变压器励磁过电流等六类信号进行识别,从而实现在实际应用中除检测出电缆早期故障也能够对其他过电流扰动信号进行识别。

表4给出了SVM与DT、KNN和NB等三种常见分类器对六类信号进行识别的整体识别准确率。在不同噪声情况下,针对同一初始特征集进行标准化后,采用本文特征选择方法mRMR进行特征选择,最终得出特征选择前后各分类器分类准确率的结果对比。具体实验结果如表4所示。

表4 不同分类器的对比结果

可以看出,在不同的噪声环境下,SVM的识别准确率都明显高于KNN、NB和DT等分类方法,表明了SVM具有较强的分类能力。此外,在特征选择后各种分类器的分类准确率也均具有明显上升,更进一步地表明了本文方法不仅可以降低特征计算量,同时也能够较大幅度地提高信号的分类准确率。

5 结 语

本文针对现有电缆早期故障识别方法中电缆信号维数大和信息量复杂、选择出的特征子集分类准确率较低等问题,提出一种基于S变换特征提取与mRMR特征选择相结合的电缆早期识别方法。通过大量实验表明,本文方法不仅有效地解决了电缆早期故障信号维数大和信息量复杂等问题,同时也大大提高了特征子集的分类准确率,进一步为实现电缆早期故障信号的智能分类提供了有效保障。本文基于仿真信号进行分析,为使本文方法在实际中得到应用,仍需使用大量实测波形数据进行分析验证。

猜你喜欢

子集特征选择分类器
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
学贯中西(6):阐述ML分类器的工作流程
高一上学年期末综合演练
K5;5; p 的点可区别的 IE-全染色(p ?2 028)
基于AdaBoost算法的在线连续极限学习机集成算法
基于智能优化算法选择特征的网络入侵检测
故障诊断中的数据建模与特征选择
reliefF算法在数据发布隐私保护中的应用研究
一种多特征融合的中文微博评价对象提取方法
集合的运算