APP下载

邻域粗糙集与相关向量机相结合的变压器故障综合诊断模型

2016-12-06陈嘉霖段家华张明宇

电力系统及其自动化学报 2016年11期
关键词:约简粗糙集邻域

陈嘉霖,段家华,张明宇,2

(1.云南省能源投资集团有限公司,昆明 650021;2.云南能投能源产业发展研究院,昆明 650021)

邻域粗糙集与相关向量机相结合的变压器故障综合诊断模型

陈嘉霖1,段家华1,张明宇1,2

(1.云南省能源投资集团有限公司,昆明 650021;2.云南能投能源产业发展研究院,昆明 650021)

针对变压器相关向量机故障诊断模型中冗余信息影响泛化能力的问题,提出了邻域粗糙集与相关向量机相结合的变压器故障综合诊断模型。首先采用领域知识和快速约简算法进行属性约简;其次利用条件属性对决策属性的依赖性度量进行属性加权;然后将约简后和数值化后形成的特征向量集输入相关向量机进行训练;最后用测试集进行测试。实例显示所提方法的测试确诊率均高于单独相关向量机模型,说明邻域粗糙集提升了相关向量机的实用性和准确性。

邻域粗糙集;相关向量机;变压器;故障诊断;诊断精度

变压器是电力系统的重要设备,其运行状态直接影响电网的安全经济运行。电力变压器结构复杂,其故障诊断和变压器状态的监测一直受到国内外学术界的广泛重视[1]。

油浸式变压器油中溶解气体的含量及比值在很大程度上与变压器的运行状态直接相关,油中溶解气体分析DGA(dissolved gas analysis)法[2]是油浸式变压器故障诊断的经典方法。在此基础上,很多学者和组织机构提出了新的诊断方法,如国际电工委员会IEC(international electrotechnical commis⁃sion)推荐使用的三比值法、Rogers法和Dornerburg法等传统方法[1-2];近年来,针对传统方法中存在的编码缺失、编码界限过于绝对以及诊断精度不高等问题,粗糙集RS(rough set)[3]、人工神经网络ANN(artificial neural network)[4]、贝叶斯网络BN(Bayes⁃ian networks)[1]和支持向量机SVM(support vector machine)[5-6]等人工智能算法被广泛地应用于变压器故障诊断。但在实际的诊断过程中发现,传统方法只能对变压器运行状态的单一特征信息做出诊断,无法很好地处理多种不确定因素同时影响变压器运行状态的情况,使诊断和预测结果较为粗糙。虽然人工神经网络能够解决这个问题,但人工神经网络采用经验风险最小化原理,不能使期望风险最小化,过学习与欠学习、局部极小点等问题较为突出[7],致使变压器诊断模型精度不高;而贝叶斯网络则需要海量样本数据,才能保证诊断精度[8];有研究表明[9],SVM克服了人工神经网络的理论缺陷,具备处理小样本、数据非线性及高维度模式识别问题的能力,但SVM在变压器诊断过程中,存在规则化系数难以确定、核函数Mercer条件难以满足的问题[5],影响了支持向量机在变压器故障诊断中的推广。

相关向量机RVM(relevance vector machine)[9-10]作为一种基于稀疏Bayesian学习理论的机器学习算法,融合了Bayesian理论、Markov性质、极大似然估计MLE(maximum likelihood estimation)以及自动相关决定先验等理论,不仅保留了SVM的全部优势,而且克服了SVM一些固有缺陷,例如,RVM的核函数摆脱了Mercer条件的限制,具有更好的泛化性能;可以输出后验概率分布,对于不确定性问题具备更强的分析能力[11]。

当前,已有学者将RVM模型应用于变压器的故障诊断[11],取得了比SVM诊断模型更理想的诊断效果。受高温、高能电压等因素的影响,油中溶解气体的原始色谱特征数据存在大量的异常数据,且蕴含着变压器运行状态的多种复杂特征信息,致使RVM算法的复杂程度大幅度提高,分类精度和学习速度不理想。因此,从实用性和准确性出发,在使用原始色谱特征数据前有必要对其进行属性简约,消除样本数据中的冗余信息。由于邻域粗糙集NRS(neighborhood rough set)利用原始色谱特征数据信息,无需任何先验知识进行属性约简,保证了属性约简的客观性[12-13]。

因此,在对样本进行训练前,本文采用领域粗糙集对样本数据进行混淆度分析,剔除那些异常样本或噪声数据,提升RVM的实用性和诊断的准确性。鉴于此,本文提出了邻域粗糙集与相关向量机相结合的变压器故障综合诊断模型,简称NRSRVM模型。该模型发挥了邻域粗糙集处理不完备信息、异常数据信息的能力,同时融合了RVM处理高维数据信息和异常数据的优异性能,保证了模型的实用性和准确性。

1 相关原理介绍

1.1 基于邻域粗糙集的属性简约

邻域粗糙集模型是胡清华等[12]基于T.Y.Lin邻域模型对经典粗糙集理论的一种拓展。

称信息系统IS=〈U,A,V,f〉为一个决策表,如果A=C∪D={a1,a2,…,am}为属性集合,条件属性集合C与决策属性集合D的交集为空集,V为值域,U={x1,x2,…,xn}为论域,f:U×A→V为信息函数。若对于任意的xi∈U,条件属性子集B⊆C,则定义xi的邻域为

式中:δB(xi)为B产生的邻域信息粒。ΔB(xi,xj)为距离函数,通常以p范数表示;δ为邻域半径。

给定一邻域决策系统NDT=〈U,C∪D,N,f〉,∀B⊆C,D将U划为分别具有决策1,2,…,N的N个对象子集:X1,X2,…,XN,则定义D关于B的下近似为

式中:|·|表示集合的基数。

1.2 基于RVM的分类模型

设x1,x2,…,xN为N个输入向量,t=(t1,t2,…,tN)′为目标向量,目标值ti=0或ti=1,w=(w1,w2,…,wn)′为可调整的权值向量,K(x,xi)为核函数,x为某一输入,则基于RVM的分类模型[11]的输出为

定义式(4)中每个权值wi的先验概率分布密度函数为

式中:αi为决定权值wi先验分布的超参数。则权值向量w的先验概率分布密度函数为

式中:α为决定w先验分布的n+1维超参数向量,α=(α0,α1,…,αn)′;f(·)为正态分布的分布密度函数。

式中:Φ=[Φ(x1),Φ(x2),…Φ(xN)]′,对于Φ的各个分量Φ(xi)=[1,K(xi,x1),K(xi,x2),…,K(xi,xN)]′,i=1,2,…,N。在二元分类问题中,给定输入x,输出y(x,w)属于某一类t的隶属后验概率p(t|w),通过将Logistic Sigmoid函数应用于输出y(x,w)而将线性模型进行泛化。设p(t|x)服从Bernoulli分布,则训练样本集合的似然函数为

式中:σ(·)为Logistic Sigmoid函数。

设x∗为新输入,t∗为相应目标值,p(w|t,α)为权重向量后验概率分布密度函数;p(α|t)为边缘似然函数[11],则给定输入向量x*,目标值tg的概率p(t∗|w,α)预测式为

由于无法通过积分解出权重向量后验概率分布密度函数p(w|t,α)和边缘似然函数p(α|t),因此采用如下基于Laplace方法的逼近过程。

(1)固定初始的超参数向量α=(α0,α1,…,αN)′,给定后验分布形式,采用最大化权重向量后验概率分布函数p(w|t,α)的方法来估计“最可能”权重向量wMP.由于 p(w|t,α)∝p(t|w)p(w|α),因此等价于最大化一个正则化的Logistic对数似然函数,即

式中:Q为对角矩阵,Q=diag(α1,α2,…,αn) 。采用二次Newton算法求最大值。

①式(10)关于w的梯度向量为

式中:β=diag(β1,β2,…,βN);βi=Y(i1-Y)i;Y=(Y1,Y2,…,Yn)′;Yi=σ[y(xi;w)]。

②式(10)关于w的Hessian矩阵为

③经迭代重加权最小二乘法求解wMP,即

(2)高斯近似权重向量的后验概率分布密度函数为

式中:wMP为权重向量的后验均值向量;Σ为权重向量的后验协方差矩阵,

(3)利用Mackay[14]方法最大化边缘似然函数p(α|t),对超参数向量α进行更新,即

式中:Σii为Σ中第i项对角线元素;wMPi为权重向量wMP的第i个元素。

重复上述步骤直至满足收敛条件。实际过程中,大部分αi接近于无穷大,其对应的权重wi=0,其他趋近于有限值。与非零wi相对应的学习样本xi的集合称为相关向量RV(relevance vector)。

2 构建变压器故障诊断模型

给定一个变压器故障诊断的信息系统,单一的相关向量机本身在训练过程中,矩阵运算空间复杂度达到o(N2),总的时间复杂度达到o(N3),冗余信息和冲突对象往往也会影响到相关向量机的泛化能力,必然导致了变压器故障诊断系统的分类确诊率的下降,因此有必要进行属性约简;同时,忽视不同属性对相关向量机的影响差异也会对相关向量机的分类结果造成失真的不良后果,因此对约简后的训练样本集合进行属性加权处理。本文采用邻域粗糙集技术来弥补相关向量机应用于变压器故障诊断的不足。

首先,本文采用快速约简算法进行属性约简;其次利用条件属性对决策属性的依赖性度量,对各属性进行加权处理;然后,将约简后和数值化后形成的特征向量集作为训练样本输入相关向量机进行训练;最后,用测试样本集合对训练结果进行测试,输出分类结果。具体诊断模型如图1所示,具体算法如下。

图1 变压器故障诊断模型Fig.1 Fault diagnosis model of transformers

输入:决策表 U,C⋃D,V,f;

输出:变压器故障类别。

步骤1 将训练样本和待分类样本进行补齐和离散化。

步骤2 如果进行训练任务,那么转至步骤3;否则转至步骤6。

步骤3 属性约简

(1)初始化特征子集和待验样本集合,即令red=ϕ,sample=U;

(2)属性约简程序

(3)return red

步骤4 属性加权,即对约简后的训练样本集合,分别乘以相应的属性重要度γi。

步骤5 对相关向量机分类器训练获得权重向量w=(w1,w2,…,wn)。

(1)对超参数向量α=(α1,α2,…,αn)进行初始化。

(2)保持超参数向量不变,给定其后验分布形式,采用二次Newton法求得wMP。

(3)基于Laplace方法对对数后验概率分布密度函数在其峰值附近进行二次逼近,得到权值后验概率分布密度函数在wMP时高斯逼近的协方差矩阵

(4)给定α,重新计算wMP。

(6)若收敛,则转至步骤6;否则转至(3)。

步骤7为了进一步验证模型诊断变压器的有效性,采用Wilcoxon提出的符号秩检验RVM和NRSRVM模型进行符号秩检验,验证模型的有效性。

3 仿真实验的结果与分析

当变压器发生故障时,绝缘油中会产生化学反应,分解出H2、CH4、C2H4、C2H6、C2H2、CO等气体。因此,变压器的故障类型与气体的含量和组成密切相关,但并非明确的映射关系[8,11]。云南省昆明市供电公司收集到的变压器故障数据共292组,编制以H2、CH4、C2H4、C2H6、C2H2为主的气体含量数据,如表1所示。

表1 气体组成及含量Tab.1 Composition and content of the gas %

3.1 基于邻域粗糙集的数据预处理

由于在高温、高能放电等各种因素的综合作用,原始色谱特征数据常常包含异常数据。按照步骤3和步骤4对样本数据进行预处理。本文采用Shin Hyunjung等[16]定义的邻域匹配算子对得到的交界部分样本进行评估,具体表示为

式中:kNN(x′)是x′的k阶最近邻集合。Neighbors-Match(x′,k)的值越小,说明x′与其最近邻样本点的分布不一致,它越可能是异常样本。通过判断Neighbors-Match(x′,k)与阈值ε大小关系以确定样本是否异常:当Neighbors-Match(x′,k)小于阈值ε时,样本x′为异常样本,需进行删除。反之,正常。取阶数k=3,阈值ε=0.5[13],借助Matlab7.0编程对292组样本数据进行预处理,结果发现有6组数据为异常数据,得到Neighbors-Match(x′,k)的评估值如表2所示。

3.2 基于NRS-RVM的变压器故障诊断

预处理后的数据共286组,将样本数据中的200例作为训练集合,剩余的86例作为测试集合,通过分别采用二叉树的分类方法将多分类问题转化为多个二类别分类问题,从而建立NRS-RVM变压器故障诊断方法(如图1所示)。选取5种特征气体H2、CH4、C2H4、C2H6、C2H2的体积分数作为分类器的输入;为保证核函数K(x,xi)定义域处于[-1,1]之内,本文对5种特征气体处理为

式中:mi为5种特征气体的体积分数。采用4个分类器来辨识变压器正常、低能放电、高温放电、中低温过热、高温过热5种状态,若分类器的输出值为1,则判断变压器处于一种故障状态;若分类器的输出值为-1,则判断变压器处于另一种故障状态。相关向量机的核函数均采用径向基函数RBF为

表2 样本数据预处理结果Tab.2 Pretreatment results of sample data

核函数的宽度系数ξ均取0.5[11]。同时,依托原始数据建立基于RVM的变压器故障诊断模型。两种诊断方法在训练时间、测试时间和确诊率方面的对比情况如表3所示。

表3 2种变压器故障诊断模型的比较Tab.3 Comparison between two fault diagnosis models of transformers

由表3可知,经过领域粗糙集预测处理后的样本数据后,相关向量机的学习时间较为明显得缩短,准确率也大幅提升。基于NST和RVM的变压器故障诊断模型的4个分类器的诊断精度分别为92.55%、93.87%、93.44%和92.28%。为了考察两诊断方法预测精度是否具有显著性差异,对两诊断方法进行了Wilcoxon符号秩检验,检验结果如表4所示。表中N为本模型的平均绝对误差小于单一RVM模型的个数。

表4 Wilcoxon符号秩检验结果Tab.4 Results of Wilcoxon signed rank test

由表4可知,两诊断方法的预测精度有显著性差异(P=0<0.01),即表明通过NRS预处理后,有助于提升相关向量机对变压器故障诊断的精度,改善和提升了RVM模型的预测精度。

4 结语

变压器故障的原因繁杂,利用单一方法难以全面而准确地描述。本文提出了领域粗糙集与相关向量机相结合的变压器故障综合诊断新方法,该方法充分考虑了相关向量机优异的分类性能,同时使用邻域粗糙集技术弥补相关向量机处理异常数据的不足,使得混合算法具备了良好的鲁棒性和推广能力。仿真实验结果显示基于本模型的4个分类器的测试确诊率分别为92.55%、93.87%、93.44%和92.28%,均高于基于RVM模型的4个分类器的测试确诊率,表明该方法行之有效,并且具有良好的诊断精度。

[1]宋功益,郭清滔,涂福荣,等(Song Gongyi,Guo Qingtao,Tu Furong,et al).模糊贝叶斯网的变压器故障诊断(Novel method for transformer faults diagnosis based on theory of fuzzy Bayesian networks)[J].电力系统及其自动化学报(Proceedings of the CSU-EPSA),2012,24(2):102-106.

[2]Sun H C,Huang Y C,Huang C M.A review of dissolved gas analysis in power transformers[J].Energy Procedia,2012,14(1):1220-1225.

[3]袁保奎,郭基伟,唐国庆,等(Yuan Baokui,Guo Jiwei,Tang Guoqing,et al).基于粗糙集理论的变压器故障分类(The transformers fault classification based on rough set)[J].电力系统及其自动化学报(Proceedings of the CSU-EPSA),2001,13(5):1-4.

[4]Bhalla D,Bansai R K,Gupta H O.Function analysis based rule extraction from artificial neural networks for transformer incipient fault diagnosis[J].International Jour⁃nal of Electrical Power&Energy Systems,2012,43(1):1196-1203.

[5]Bacha K,Souahlia S,Gossa M.Power transformer fault di⁃agnosis based on dissolved gas analysis by support vector machine[J].Electric Power Systems Research,2012,83(1):73-79.

[6]吕干云,程浩忠,董立新,等(Lü Ganyun,Cheng Hao⁃zhong,Dong Lixin,et al).基于多级支持向量机分类器的电力变压器故障识别(Fault diagnosis of power trans⁃former based on multi-layer SVM classifier)[J].电力系统及其自动化学报(Proceedings of the CSU-EPSA),2005,17(1):19-22,52.

[7]李红娟,王建军,王华,等(Li Hongjuan,Wang Jianjun,Wang Hua,et al).建立PNN-HP-ENN-LSSVM模型预测钢铁企业高炉煤气发生量(Prediction of blast furnace gas output in a steel complex based on PNN-HP-ENNLSSVM model)[J].过程工程学报(The Chinese Journal of Process Engineering),2013,13(3):451-457.

[8]赵文清,朱永利,王晓辉(Zhao Wenqing,Zhu Yongli,Wang Xiaohui).基于组合贝叶斯网络的电力变压器故障诊断(Combinatorial Bayes network in fault diagnosis of power transformer)[J].电力自动化设备(Electric Pow⁃er Automation Equipment),2009,29(11):6-9.

[9]An Senjian,Liu Wanquan,Venkatesh S.Fast cross-valida⁃tion algorithms for least squares support vector machine and kernel ridge regression[J].Pattern Recognition,2007,40(8):2154-2162.

[10]Tipping M E.The relevance vector machine[C]//13th An⁃nual Neural Information Processing Systems Conference.Denver,USA,1999:653-658.

[11]尹金良,朱永利,俞国勤(Yin Jinliang,Zhu Yongli,Yu Guoqin).相关向量机及其在变压器故障诊断中的应用(Relevance vector machine and its application in trans⁃former fault diagnosis)[J].电力自动化设备(Electric Power Automation Equipment),2012,32(8):130-134.

[12]Hu Q H,Yu D R,Xie Z X.Neighborhood classifiers[J].Ex⁃pert System with Applications,2008,34(2):866-876.

[13]韩虎,党建武,任恩恩(Han Hu,Dang Jianwu,Ren En⁃en).基于邻域粗糙集的支持向量机分类方法研究(Re⁃search of support vector classifier based on neighborhood rough set)[J].计算机科学(Computer Science),2010,37(2):229-231,285.

[14]Mackay D J C.The evidence framework applied to classifi⁃cation networks[J].Neural Computation,1992,4(5):720-736.

[15]尹金良,刘玲玲(Yin Jinliang,Liu Lingling).代价敏感相关向量机的研究及其在变压器故障诊断中的应用(CSRVM and its application in fault diagnosis of power trans⁃formers)[J].电力自动化设备(Electric Power Automa⁃tion Equipment),2014,34(5):111-115.

[16]Shin Hyunjung,Cho Sungzoon.Invariance of neighbor⁃hood relation under input space to feature space mapping [J].Pattern Recognition Letters,2005,26(6):707-718.

[17]李小方,彭敏放,罗翊君,等(Li Xiaofang,Peng Minfang,Luo Yijun,et al).变电站接地网的信息融合故障诊断(Fault diagnosis of substation grounding grid based on in⁃formation fusion)[J].电力系统及其自动化学报(Pro⁃ceedings of the CSU-EPSA),2015,27(12):36-41.

[18]张庆磊,王宝华,陈祥睿(Zhang Qinglei,Wang Baohua,Chen Xiangrui).运用多分类多核参数SVM的变压器故障诊断算法(Research of transformer fault diagnosis based on multiclass multiple parameters SVM)[J].电力系统及其自动化学报(Proceedings of the CSU-EPSA),2015,27(9):97-102.

[19]吴立帅,葛玻,宋书中(Wu Lishuai,Ge Bo,Song Shu⁃zhong).基于粗糙集与支持向量机的变压器故障诊断(Fault diagnosis of transformer based on rough set and support vector machine)[J].电源技术(Chinese Journal of Power Sources),2014,38(4):768-770.

Comprehensive Fault Diagnosis Model of Transformers Based on Combination of Neighborhood Rough Set and Relevance Vector Machine

CHEN Jialin1,DUAN Jiahua1,ZHANG Mingyu1,2
(1.Yunnan Provincial Energy Investment Group Co.,Ltd,Kunming 650021,China;2.Energy Industry Development Institute,Yunnan Provincial Energy Investment Group Co.,Ltd,Kunming 650021,China)

To deal with the issue of generalization ability affected by redundant information in the relevance vector ma⁃chine(RVM)based fault diagnosis model of transformers,this paper proposes a comprehensive fault diagnosis model based on the combination of neighborhood rough set(NRS)and RVM.First,neighborhood information and quick re⁃duction algorithm are employed to reduce the attribute reduction.Then,the dependence of conditional attribute on deci⁃sion attribute is used to acquire the attribute weight.Next,the feature vector set obtained after reduction and numeral⁃ization is input into the RVM for training.Finally,tests are conducted with test set.A case study shows that the diagno⁃sis rate with the proposed method is higher than the RVM model,which further indicates that NRS enhances the practi⁃cability and accuracy of RVM.

neighborhood rough set(NBS);relevance vector machine(RVM);transformer;fault diagnosis;diagnosis accuracy

TM411

A

1003-8930(2016)11-0117-06

10.3969/j.issn.1003-8930.2016.11.020

2014-09-11;

2016-04-25

陈嘉霖(1973—),男,硕士,高级工程师,研究方向为能源产业研究、能源经济周期理论研究和管理。Email:475025627@qq.com

段家华(1981—),男,本科,高级工程师,研究方向为电力电气自动化技术。Email:duahua126@126.com

张明宇(1980—),男,通信作者,博士,高级工程师,研究方向为环境调和型能源新技术、能源产业政策。Email:1460480393@qq.com

猜你喜欢

约简粗糙集邻域
基于混合变邻域的自动化滴灌轮灌分组算法
基于粗糙集不确定度的特定类属性约简
基于Pawlak粗糙集模型的集合运算关系
稀疏图平方图的染色数上界
基于二进制链表的粗糙集属性约简
基于邻域竞赛的多目标优化算法
优势直觉模糊粗糙集决策方法及其应用
实值多变量维数约简:综述
广义分布保持属性约简研究
多粒化粗糙集性质的几个充分条件