APP下载

基于随机森林的局部放电特征提取和优选研究

2021-08-09武奇生

关键词:特征参数特征选择正确率

姚 锐,惠 萌,李 俊,白 璘,武奇生

(1.长安大学,陕西 西安 710064;2.国网陕西省电力公司电力科学研究院,陕西 西安 710049)

0 引 言

通过不同的特征提取方法得到的局部放电模式识别所需的特征空间,或者称为特征集,不同特征集的特征参数之间既有差异性,又有互补性,因此将不同特征集进行组合,得到组合特征集。由于组合特征集的维度较高,相应的样本量也会增大,需要的存储空间和计算量也随之增大;特征参数中存在有与类别相关度较小的特征,特征参数相互之间可能包含有冗余信息。为了节省存储空间,减少计算所需时间,获取本质特征,降低分类模型的难度。因此,需要对特征集进行最优特征子集选择[1-4]。

需要移除的特征通常分为两类:一类是冗余特征,即特征出现重复;另一类是不相关特征。这种从d维特征到d’维特征的子集变换称为特征选择,最终使用这些d’维的特征进行模型训练。常见的特征选择方法大致分为三类:滤波方法(Filter approach)、包装方法(Wrapper approach)和嵌入方法(Embedding approach)。这些特征选择方法已被应用于多种领域并取得了较好的识别结果。文献[5]对基于局部放电灰度图像分解通过二维主成分分析提取的水平和垂直方向上的9个具有代表性的特征参数,为了进一步提高识别性能,基于非支配排序遗传算法的特征选择技术被用于降低特征维数。文献[6]提出了一种基于随机森林的局放特征优选新方法用于高压电缆局部放电特征构建与优化。文献[7]为了降低局部放电识别参量的维度,定义了特征向量可分性评估准则,并使用浮动前向搜索算法选取了可分性最优的9组特征参量。文献[8]使用基于改进的最大相关最小冗余算法进行局部放电最优特征子集的选择。

随机森林(Random Forest,简称RF)是一种非线性模型,它以决策树作为基学习器使用装袋(Bagging)原理,又称自助聚集(Bootstrap Aggregating)来处理训练数据集[9]。目前,由于其计算复杂度低,以及样本和特征选择的随机性,使其应用于多种领域均取得了较好的识别结果。

随机森林模型通过特征划分过程来计算评估各个因子特征的重要性。对于某个特征,如果用另外一个随机值替代它之后的表现比之前更差,则表明该特征比较重要,所占的权重应该较大,不能用一个随机值替代。相反,如果随机值替代后的表现没有太大差别,则表明该特征不那么重要,可有可无。所以,通过比较某特征被随机值替代前后的表现,就能推断出该特征的权重和重要性。对于随机森林中的随机值选择较常使用的方法是通过随机排序测试的方式,即在计算第i个特征的重要性的时候,将原来的所有N个样本的第i个特征值重新打乱分布,然后比较排序前和排序后的特征表现的差异性。如果差异很大,则表面第i个特征是重要的。而对于如何衡量排序前和排序后的特征表现的差异性,为了简化计算复杂度,把随机排序测试操作从原来的训练集数据移到了袋外数据验证集特征向量上。

本文针对现有随机森林特征选择算法中,使用袋外数据对特征向量进行重要性度量的方法实现特征排序时,特征在袋外数据样本上的排列方式是随机的,不能保证与类标号关联性强的特征重要性得分取较高的值。为了解决该问题,本文提出了基于方差分析的随机森林前向特征选择方法用于组合电器局放特征优选,并通过实验室数据进行了验证。结果表明,该方法能够获得较好的特征子集,有效提高了局部放电缺陷类型识别率。

1 数据获取

1.1 试验装置及缺陷物理模型

本文在西安高压开关有限公司的一段实际220 kV GIS母线上,通过超高频测试系统进行数据采集。实验装置如图1所示。

图1 220 kV GIS试验段Fig.1 220 kV GIS test sample

4种绝缘缺陷分别是悬浮电极缺陷、高压导体上金属突出物缺陷、绝缘盆子上金属颗粒污秽缺陷、绝缘子内部气隙缺陷,如图2所示。

图2 典型绝缘缺陷的物理模型Fig.2 Physical model of typical insulation defects

1.2 试验方案

本文采用逐步升高电压的加压方式。该方法是对试品从较低电压升至较高电压,直到试品闪络击穿。通过这种方式经过多次试验可确定该缺陷的起始放电电压和击穿电压。逐步升高电压法能够在较短的时间内获得缺陷从发生起始放电至击穿过程的数据。通过多次实验得到每种缺陷同一试验电压水平下25个样本,6种电压水平共150个样本。局部放电数据记录格式为局部放电脉冲序列qs(ts,u(ts))。它是在测量时间tm内,具有放电幅值为qs,放电脉冲发生的时间ts,试验电压为u(ts)的M个PD脉冲[10,11],其中s=1,…M。这样的数据称为相位相关脉冲序列(Phase Resolved Pulse Sequence,简称PRPS)数据。通过PRPS数据可以得到每种缺陷的多种局部放电谱图。

2 GIS典型绝缘缺陷的局部放电谱图获取

对局部放电进行有效的模式识别,首先要通过采集到的局部放电原始数据,获取表征局部放电特征的局部放电各种分析谱图。本文以120 kV试验电压,绝缘盆子上金属颗粒污秽缺陷为例,绘制脉冲序列相位分布分析谱图(Phase Resolved Pulse Sequence Analysis,PRPSA)[12,13],局部放电相位分布谱图(Phase Resolved Partial Discharge,PRPD),极坐标相位分布局部放电分析谱图(Ploar Coordinate Phase Resolved Analysis,PCPRA)[14,15],如图3所示。

图3 120 kV时绝缘盆子上金属颗粒污秽缺陷三种放电谱图Fig.3 Three discharge patterns of metal particle contamination defect on insulated basin with applied voltage at 120 kV

3 基于局部放电谱图的特征提取

为了实现局部放电绝缘缺陷类型的识别,在获取的局部放电谱图的基础上,要提取有辨识力的特征参数。特征参数作为分类模型的输入是确保成功识别缺陷的前提和基础。因此,本文针对脉冲序列相位分布分析谱图、局部放电相位分布谱图、极坐标相位分布局部放电分析谱图,基于不同局部放电谱图的特征参数提取方法,分别获取了用于表征缺陷的特征参数,为局部放电绝缘缺陷类型识别奠定了基础。

3.1 基于PRPSA谱图的特征提取

本文基于PRPSA谱图提取出来的基本特征参数包括放电起始相位、放电相位重心、放电宽度、两个连续放电脉冲的时间间隔的平均值、两个连续放电脉冲的时间间隔的标准偏差、两个连续放电脉冲的时间间隔的数量、放电幅值重心、放电幅值的平均值、放电幅值的标准偏差、放电脉冲数量、相邻局部放电脉冲幅值最大比率和放电幅值平方率。

3.2 基于PRPD谱图的统计特征提取

通过统计该谱图在φ-q平面上100个工频周期里各个窗口内的放电次数N,即得到Hn(φ,q)分布。由此可以得到最大放电脉冲高度-相位分布Hqmax(φ);平均脉冲高度-相位分布Hqn(φ);脉冲数量-相位分布Hn(φ);放电功率-相位分布Hp(φ)。另外还可以得到放电幅值分布H(q)。这四种分布对应试验电压正负半周都被分为两种。为了分析这些特征分布本文选择33个统计特征参数。

3.3 基于PCPRA的特征提取

基于PCPRA谱图提取特征参数有:每一个放电簇的质心,放电宽度,放电数量,相位中值,相位四分位数,幅值四分位数,如图4所示。再计算出基于象限的参数,包括质心向量余弦相似度,幅值四分位数的比值Aratio1和Aratio1,以及基于统计理论的特征参数[11]。

图4 极坐标相位分布局部放电分析谱图特征参数示例Fig.4 Characteristic parameters examples of PCPRA pattern

4 基于方差分析的随机森林前向特征优选

4.1 随机森林特征选择算法原理及算法流程

随机森林(Random Forest,简称RF)是以决策树作为基学习器使用装袋(Bagging)原理,又称自助聚集(Bootstrap Aggregating)来处理训练数据集。具体做法是:随机地从原训练集中有放回地选取N个样本。即对于这N个样本,随机抽取N次,每次抽取都是从N个样本中选一个,然后“复制”出来,在下一次抽样时,样本集仍为N个。由于抽样过程是有放回的,则一些样本可能被多次选中并在同一训练集中多次出现,而其它一些却可能一次也没有被选中。而被忽略的样本称为“袋外数据(Out of Bag,OOB)”[16,17]。

本文将随机森林用于特征选择,是通过采用对特征向量进行重要性度量的方法,根据得到的该特征集的排序结果进行特征选择的。本文在构建决策树时使用的是分类回归树(Classification and Regression Tree,简称CART)算法[18]。

随机森林的构建步骤如下。原始样本数目为N,特征维度为m。

输入:一组训练样本集{(x1,y1′),…,(xN,yN)}。

步骤1:生成一个大小为N的自助样本集Dt。

步骤2:在自助样本集Dt上通过分类回归树CART算法得到gt。

步骤4:判断当前树的数目t是否满足t≤ntree,如果满足则重复步骤1~3;不满足则停止循环。

输出:G=Uniform({gt})。

4.2 特征重要度测量方法

随机森林算法中对特征重要度测量有两种方式:一种是使用基尼指数(Gini Index)作为划分函数,计算特征的“Gini Importance”表明特征的重要性程度[19,20]。定义为

(1)

式中:D为样本集合;pi为样本集合D中属于第i类的概率;C为样本类别集合。在已知特征A的条件下集合D基尼指数定义为

(2)

式中:V为特征A取值个数,即根据特征A取值将D划分成了V个子集{D1,D2,…,DV},每个子集中的样本在A上取值相同。在选择属性时,选择使得划分后基尼指数最小的属性作为最优划分属性。当一个结点中所有样本都是一个类时,基尼指数为零。

另一种是使用袋外数据观测量对特征向量进行重要性度量。自助样本聚集之后没有被选中的样本称为“袋外数据(Out of Bag,简称OOB)”。OOB具有验证集的特性,因此OOB误差被用作验证随机森林G的泛化误差。如下式所示:

(3)

(4)

最后每个特征的重要性分数是所有树的平均值:

(5)

4.3 基于方差分析的随机森林前向特征选择算法

现有随机森林特征选择算法中,随机排列重要性“Permutaion Importance”是以每一棵决策树为出发点。为了计算每一棵决策树对一个特征的重要性度量结果,需要保证在其它特征不发生变化的前提下,对该决策树的OOB样本在该特征上的取值分布进行重排。通过随机排列OOB样本中特征变量xj,它与标签y的原始关联被破坏。排列后的变量xj和剩下的没有排列的变量一起被用于估计OOB样本的误差。针对特征xj,决策树分别对原OOB样本和重排后OOB样本进行预测,两个预测误差的差值就是该决策树对特征xj重要性的度量结果。特征的最终得分是所有决策树共同作用的结果。

4.3.1 基于方差分析的排列置换方案改进

如果原变量xj与y无关联,在新的OOB样本上的错误率不会发生变化,理论上VI(xj)=0 。如果原变量xj与y相关联,并且xj是具有区分度的好特征,重新排列之后使得区分度下降,OOB误差上升,那么VI(xj)<0;若xj是不好的特征,重新排列之后有可能使得区分度增大,OOB误差下降,则VI(xj)>0。重新排列的方式决定了OOB误差,如果采用现有随机森林特征选择算法中的随机排列方式,没有使具有区分度的好特征排在前面。对于如何排列或者置换才能保证好的特征(与类标号关联性强)的重要性得分取较高的值,相应的不好的特征(与类标号关联性弱)的重要性得分取较低的值的这个问题,本文提出一种基于方差分析的方法度量特征在不同类别上的差异性,得到了修改之后的排列置换方案,用来指导某一个特征在OOB样本上的取值顺序的重新排列。

方差分析又称变异数分析,由英国统计学家R.A.Fisher提出,特征xj在不同类别上的差异通过方差分析度量:

(6)

对于具有区分度的特征,其在不同类别中存在显著性差异,其取值顺序是不可“交换”的;相反,对于不相关或冗余特征,其取值顺序是可以“交换”的。基于该思想,可以得到修改后的排列置换方案来检验特征的区分能力。

将F(xj)的值与给定的显著性水平α(选取α=0.05)的临界值Fα(K-1,n-K)(通过F分布表查得)进行比较,做出某一个特征在OOB样本上置换方式的指导。F(xj)值越大(F(xj)>Fα),特征在不同类别不同样本的差异越大,而在相同类别不同样本的差异越小,则该特征越重要,那么特征xj在OOB样本上重排采用类间置换方式。如果F(xj) 值较小(F(xj)

图5 对于决策树gt的OOB样本示意图Fig.5 OOB sample diagram for decision tree gt

4.3.2 基于迭代特征评估分数的特征优选

现有随机森林算法在得到特征按其重要性降序排序之后,本文采用序列前向搜索方法(Sequential Forward Selection,简称SFS),进行特征选择,得到迭代的特征评估结果,用来解决现有算法决定特征子集大小的随意性及结果的不稳定性问题。即依据特征重要性降序排序的结果,从位于第一位的特征开始加入下一个特征,然后对于每一个特征向量组合输入到分类器,计算分类误差概率,直到所有的特征都用于得到分类模型的分类误差概率,选择具有最小误差概率的组合作为最终特征选择结果。本文使用栅栏法分组策略把原始特征数据集划分为训练集和测试集,每隔4个样本取为测试集样本,剩余部分为训练集样本,即训练集和测试集样本比例为4∶1。采用10折算法 进行交叉验证,其中训练集中的数据被分成10组,其中9组作为用来训练模型,剩下的一组为用来验证模型,每次更换测试数据直至每一组数据都被测试过。交叉验证的过程依次重复10次,所得到的结果的平均值作为最后的分类结果。

4.3.3 基于方差分析的随机森林前向特征选择算法流程

本文所采用的的分类器为使用高斯核函数的支持向量机。本文在使用基于方差分析的随机森林前向特征选择方法中设置ntree=500。原始样本数目为N,特征维度为m。基于方差分析的随机森林前向特征选择算法流程如下:

输入:一组训练样本集{(x1,y1′),…,(xN,yN)}

步骤1:初始化参数,t=1,ntree=500,显著性水平α=0.05,最大分类正确率Accmax=0。

步骤2:生成一个大小为N的自助样本集Dt。

步骤3:在自助样本集Dt上通过分类回归树CART算法得到gt。

步骤5:计算决策树gt的原OOB样本上的误差Eoob(G)。

步骤6:通过计算特征xj在OOB样本上的方差分析F(xj)度量其在不同类别上的差异。

步骤9:对于决策树gt得到特征变量xj的重要性。

步骤10:判断树的棵树是否满足t≤ntree,满足则重复步骤2~9;不满足则结束循环。

步骤11:计算每个特征的重要性分数VI(xj):

步骤12:对特征按重要性排序,得到FeaSort。

步骤13:从FeaSort中取出位于第一位的特征,得到Fnew,通过使用高斯核函数的支持向量机得到分类正确率Acc。

步骤14:判断当前Acc是否满足Accmax≤Acc,满足则Accmax=Acc,FinalFea=Fnew。

步骤15:判断当前循环变量是否小于等于特征维度m,满足则在Fnew中加入FeaSort中位于下一位的特征,重复步骤13~14;不满足则停止循环。

输出:测试集上的最高分类正确率和对应的特征集FeaSort。

4.3.4 算法分析

首先,本文提出的特征选择算法通过测量特征向量的重要性来对特征向量进行排序。通过随机森林算法获得重要性从高到低的特征后,使用顺序前向选择生成候选特征子集,用于解决现有算法在确定特征子集大小的随意性和不稳定性方面的问题。然后,将支持向量机用作分类器,分类器的分类准确率被用作特征子集的评估标准。

在特征筛选过程中,基于重要性度量和序列前向选择方法训练分类器以形成特征优选子集,并基于分类器在测试集上的性能,评估特征集。此方法是包裹式选择策略。它的速度比过滤式慢,但是它选择的优化特征子集维度相对较低,这非常有利于关键特征的识别。但是其泛化能力较差,时间复杂度较高。因此,本文提出的算法适用于需要高精度的场合。

(7)

从等式(8)可以看出本文提出的算法的时间复杂度与特征维数具有近似平方关系,与数据集中的样本数具有近似立方关系。

5 实验结果与分析

5.1 实验结果

对单一特征集F1(600×15)、F2(600×33)和F3(600×34),分别使用现有随机森林和基于方差分析的随机森林前向特征选择方法进行特征选择,为了得到分类正确率和特征向量个数的关系,对现有随机森林特征选择方法在得到特征重要性排序后,同样使用序列前向搜索法进行特征选择。结果如图6、图7和图8所示。三种单一特征集分别是基于脉冲序列相位分布分析谱图提取特征参数构成的F1(600×15)、基于局部放电相位分布谱图提取特征参数构成的F2(600×33)和基于极坐标相位分布局部放电分析谱图提取的特征参数构成的F3(600×34)。从图中可以看出,对于现有随机森林特征选择方法,当分类正确率到达最高值84.58%、75%和84.58%时对应的特征维度分别是12、21、14。对于基于方差分析的随机森林前向特征选择方法,当分类正确率到达最高值85.00%、76.25%和85.00%时对应的特征维度分别是10、20和12。可以看出,对于单一特征集F1(600×15)、F2(600×33)和F3(600×34),本文提出的特征选择方法在分类正确率保持较高的条件下对应的特征维度比现有随机森林特征选择方法低。这说明了基于方差分析的随机森林前向特征选择方法可以获得较好的分类性能和较低维度的特征子集,基于方差分析的排列置换方案优于完全随机的方式。

图6 对于F1(600×15)特征集的分类正确率与特征维数之间的关系Fig.6 Relationship between classification accuracy and feature dimension for F1(600×15)

图7 对于F2(600×33)特征集的分类正确率与特征维数之间的关系Fig.7 Relationship between classification accuracy and feature dimension for F2(600×33)

图8 对于F3(600×34)特征集的分类正确率与特征维数之间的关系Fig.8 Relationship between classification accuracy and feature dimension for F3(600×34)

如表1所示,将单一特征集使用现有随机森林特征选择方法得到的降维结果输入到分类器,与使用基于方差分析的随机森林前向特征选择方法的降维结果输入到分类器相比较。试验结果表明,基于方差分析的随机森林前向特征选择方法,用于局部放电单一特征集的特征降维,能够获得较高的分类正确率。

表1 单一特征集降维结果及对应的分类正确率Tab.1 Dimension reduction results and corresponding classification accuracy of single feature set

如表2所示,将三种单一特征集两两组合或三种联用得到组合特征集(F1,F2)、(F1,F3)、(F2,F3)和(F1,F2,F3)。对组合特征集使用现有随机森林特征选择方法、基于方差分析的随机森林前向特征选择方法进行降维。对于现有随机森林特征选择方法,当分类正确率到达最高值85.00%、85.00%、84.17%和88.33%时对应的特征维度分别是17、18、14和20。对于基于方差分析的随机森林前向特征选择方法,当分类正确率到达最高值85.42%、86.25%、84.17%和88.33%时对应的特征维度分别是13、13、11和15。在选用组合特征集(F1,F2,F3) 得到的最高准确率相应的特征维度为15维,这15维特征分别为:基于PRPSA谱图的放电起始相位、正半周放电相位重心、负半周放电相位重心、正半周放电宽度、两个连续放电脉冲的时间间隔的数量、负半周放电幅值重心、放电幅值平均值、正负半周放电数量,平均脉冲高度-相位分布Hqn(φ)谱图负半周的偏斜度、正半周的峰度、负半周的局部峰值个数,放电功率-相位分布Hp(φ)谱图负半周的峰度,放电幅值分布H(q)谱图的局部峰值个数,以及基于PCPRA谱图提取的质心的相角和质心的幅值。

表2 组合特征集降维结果及对应的分类正确率Tab.2 Dimension reduction results and corresponding classification accuracy of combined feature set

与现有随机森林特征选择方法相比,基于方差分析的随机森林前向特征选择方法,在分类正确率保持较高的条件下对应的特征维度比现有随机森林特征选择方法低。

5.2 实验结果分析

从实验结果来看,对于单个特征集F1(600×15)、F2(600×33)和F3(600×34),所提出的基于方差分析的随机森林前向特征选择方法获得的分类精度高的特征维度分别降低了16%,5%和14%。对于组合的特征集(F1,F2)、(F1,F3)、(F2,F3)和(F1,F2,F3),将特征维度减小了20%以上。这表明,对于高维特征变量,基于方差分析的随机森林前向特征选择方法的效果比现有的随机森林特征选择方法的效果要好,这表明基于方差分析的置换和替换方案优于完全随机方法。

当基于方差分析的随机森林前向特征选择算法使用袋外数据观测值来度量特征向量的重要性时,方差分析用于度量不同类别中特征的差异性。本文算法的思想是:对于具有区分度的特征,不同类别之间存在显着差异,并且其取值顺序不能“交换”。相反,对于不相关或多余的特征变量,可以“交换”其取值的顺序。基于该思想,可以获得改进的置换方案以检验特征的区分度。

通过本文提出的方法可以获取改进的置换方案来测试特征的区分度。如图8所示,为两种特征选择方法在组合特征集(F1,F2,F3)上的重要性得分结果,它表明方差分析使与类别标签具有强相关性的特征的重要性得分获得了更高的值,与类别标签相关性较弱的相应特征的重要性得分将获得较低的值。在图中虚线和曲线的交点处,特征维度减小了25%。

图9 使用两种特征选择方法的组合特征集的重要性得分结果对比Fig.9 Variable importance of combined feature set by two feature selection mehod

6 结 论

由于在评估电气设备局部放电的绝缘状态时,通过超高频方法收集的原始局部放电数据量非常大,很难直接确定放电类型并评估其严重性。为了有效地实现局部放电识别,需要将原始数据转换以获得各种放电谱图。而每种类型的局部放电谱图都有其不同的特征,因此,本文研究了适用于不同局部放电谱图的特征集生成方法。不仅可以充分利用放电数据信息,而且可以从不同方面获得多种类型的特征集来表征局部放电,这也为保证获取具有辨识力的特征集提供了保证;本文针对局部放电绝缘缺陷谱图识别中特征维数降低的问题,提出了一种基于方差分析的随机森林前向特征选择方法。该方法从两个方面进行了改进:一是提出一种基于方差分析的方法度量特征在不同类别上的差异性,得到了修改之后的排列置换方案,用来指导某一个特征在袋外数据样本上的取值顺序的重新排列;二是采用序列前向搜索方法得到迭代的特征评估结果,解决了现有算法决定特征子集大小的随意性及结果的不稳定性问题。

根据绝缘缺陷的特点和现场工作人员丰富的经验,本文设计了四种人工绝缘缺陷。通过局部放电超高频检测系统,在不同的测试电压下放电稳定时,获得了每个缺陷的相位相关脉冲序列数据集。并以此为基础,研究有效的特征参数提取方法和特征选择算法。通过将现有随机森林特征选择方法和和本文提出的基于方差分析的随机森林前向特征选择方法,对单一特征集和组合特征集进行降维的结果,输入到分类器得到的结果相比,本文提出的特征选择方法可用于降低特征维数,从而有效提高局部放电缺陷类型的识别率。

本文提出的基于方差分析的随机森林前向特征选择方法被用于优化局部放电特征集,并实现GIS中的局部放电识别。它以更高的识别率显示了其有效性。而且,这是解决不同单个特征集下识别结果冲突的有效解决方案。对于没有足够先验知识的现场应用情况,即使它们在原始数据集中没有得到充分的训练,这也是一种识别未知缺陷的有前景的方法。

猜你喜欢

特征参数特征选择正确率
基于视频图像序列的船用雷达目标检测和目标特征参数提取
个性化护理干预对提高住院患者留取痰标本正确率的影响
课程设置对大学生近视认知的影响
基于智能优化算法选择特征的网络入侵检测
生意
说话人识别特征参数MFCC的提取与分析
故障诊断中的数据建模与特征选择
民用飞机预测与健康管理技术与系统特征参数研究
生意
reliefF算法在数据发布隐私保护中的应用研究