APP下载

数据挖掘技术在风电机组故障诊断中的应用

2017-01-09孙鹤旭孙泽贤

关键词:决策表约简风电

孙鹤旭,孙泽贤,林 涛

(河北工业大学 控制科学与工程学院,天津 300130)

数据挖掘技术在风电机组故障诊断中的应用

孙鹤旭,孙泽贤*,林 涛

(河北工业大学 控制科学与工程学院,天津 300130)

针对传统的故障诊断方式已经不能满足风电故障系统实时性、准确性的要求,提出了基于Hadoop框架,并结合粗糙集属性约简以及Apriori算法共同处理分析风电机组监测数据,进而实现快速、准确地诊断风机故障的方法:首先利用属性约简减小数据规模,剔除冗余属性项;之后通过MapReduce框架改进Apriori算法,提高数据挖掘效率,降低时间和空间复杂度.实验表明:该算法在保证诊断准确率的前提下,具有良好的性能,也证明了该算法的有效性和可行性.

故障诊断;Hadoop框架;属性约简;Apriori算法

近年来,风能作为清洁能源在改善中国能源结构方面发挥着越来越重要的作用[1].由于风电场自身的特殊性及负荷的不稳定性,对风电场的安全性和经济效益都产生了极大影响.因此,对风电机组故障诊断的实时性、准确性提出了很高的要求.然而,不同厂商的风机所采集的数据类型、位数、存储格式有较大差异,这就形成了海量、异构、多源的风电机组状态监测大数据.文献[2]结合遗传算法和FP-Growth算法,通过MapReduce并行计算框架,大大提高了频繁项集挖掘算法的运行效率.文献[3]利用粗糙集的属性约简以及改进的C4.5算法实现了对掘进机的故障诊断,然而由于风电监控数据自身具有属性项繁多,存在大量的冗余数据的缺陷,并且C4.5算法在构建树的过程中,需要重复扫描数据集.因此,C4.5算法并不适合用于风电机组的故障诊断.文献[4]首先通过属性约简降低数据维度,进而在MapReduce框架下实现对汽轮机组运行性能的优化;然而,由于其仍采用传统的串行属性约简方法,导致在面对海量数据时会降低算法的整体运行性能.文献[5]通过属性约简和值约简自动提取电网报警规则,但其只是实现了报警信息处理的初步智能化,并没有挖掘多维数据隐藏的内在关联关系.文献[6]采用K邻近度异常检测技术,提取故障诊断信息.文献[7]提出一种基于导数分析的的定子单相电流故障特征分析方法,此方法能够有效地判断不平衡故障的程度.

针对以上问题,本文提出了结合粗糙集理论的属性约简和Apriori的组合思想,减小了挖掘数据的维度,降低了时间和空间复杂度,提高了算法整体性能;同时,利用MapReduce并行计算框架,对属性约简和Apriori算法各个步骤并行化,不仅提高了挖掘效率,而且减少了内存消耗.

1 MpApriori算法及实现

1.1 Apriori算法的不足及改进措施

目前,关于风机的整体运行状态的监测多采用风电机组数据采集与监视控制(SCADA)系统,多传感器对风机的各特征量(电流、电压、温度等)进行数据采集,构成了风机运行大数据,属性项的数量很大;传统的Apriori算法面对海量数据时存在两方面的不足,一方面,Apriori算法在运行时会产生大量的候选集及多次扫描事务数据库.并且挖掘出的关联规则结果仅包含若干个属性项,由此可知,只有少数的属性项参与到核心的挖掘工作.由于无效属性的存在,运行Apriori算法会生成大量的冗余候选集,进而造成了极大的资源浪费.另一方面,传统的Apriori算法是单节点上的串行计算,面对海量数据会存在着内存不足等导致的运行速率较慢的情况;针对规模和数量呈现指数级增长的数据,如何对层次化的故障原因、故障影响展开快速分析,获得较为全面的故障知识信息库已经成为风机故障诊断领域亟待解决的问题.

针对这两点不足,本文结合云计算环境下的Hadoop平台,基于MapReduce并行化结构改进Apriori算法,使之满足并行化计算要求;并引入粗糙集理论中的属性约简理念,筛选出与关联规则无关的属性项并将之删除,减小事务数据库规模.经过以上改进,形成了一个基于Hadoop平台的高效关联规则算法:MpApriori算法.相较于传统的Apriori算法,MpApriori算法减少了属性项的数量,避免了多次重复检索数据库,降低了关联规则挖掘的时间和空间复杂度,提高了挖掘效率.

1.2 粗糙集及属性约简

定义1 设风机故障决策信息表S=(U,A,V,f)为一个故障知识表达系统,其中U为数据对象的非空有限集合,即论域;A表示属性的非空有限集合,A=C∪D,C∩D=Ø,C为条件属性,D称为决策属性;V表示属性值的集合,且V1是属性Ai的值域;f表示信息函数,又称CD决策表.

定义2 若非空属性子集C⊆A时,称C的不可区分关系IND(C)是U上的等价关系,其中:

IND(C)={(x,y)∈U2|∀a∈C,f(x,a)=

f(y,a)}.

(1)

定义3 设S=(U,A,V,f)是一个信息系统,a∈A是一个属性,如果属性集A-{a}与属性集A的区分能力相同,则称属性a是不必要的,否则称a是必要的.如果任意a∈A都是必要的,则称A是独立的,否则称A是依赖的.A中所有必要的属性集合称为A的核,即为CORE(A).

定义4 设S=(U,A,V,f)是一个决策表,D的C正域记作POSC(D),定义为:

(2)

1.3 MpApriori算法工作流程

MpAriori算法划分为两大部分:第1部分,基于MapReduce技术的风电大数据属性约简;第2部分,Apriori算法的并行化处理.本文首先利用Hadoop平台实现了风电大数据属性约简,通过结合MapReduce并行处理框架,不仅能够高效的进行属性约简计算,而且具有良好的可扩展性;对事务数据库进行属性约简之后,实现Apriori算法的并行化;相对于传统的Apriori算法,MpApriori算法减少了数据库的属性数量,避免了重复检索数据库,降低了算法运行的时间、空间复杂度,提高了挖掘效率.

1.3.1 基于MapReduce技术的风电大数据属性约简

假设将风场的海量数据集中报警信息视为一个知识表达系统,将遥信信号作为条件属性集合C,利用MapReduce和可辨识矩阵进行属性约简,去掉无用的、冗余的属性,进而可以得到更有利于决策的规则.MapReduce作为一种并行计算模式,使属性约简能够满足并行化计算要求,算法流程图如图1所示.

图1 属性约简流程图Fig.1 Flowchart of the attribute reduction

对于给定的决策表S=(U,A,V,f),通过结合MapReduce和可辨识矩阵进行属性约简的步骤如下.

(1)构建可辨识矩阵.将决策表数据分为m部分,Hadoop为每一个部分构建一个map任务.定义每一个矩阵元素的值,map输出,其中,key为矩阵元素的值,value记录元素所处位置.

(2)筛选核属性集.在reduce阶段判断key值包含元素个数,筛选出只包含一个元素的key值,并将其作为结果的key值输出,输出结果即为决策表的核属性集,表示为C0;value值即为map阶段构建的可辨识矩阵.

(4)提取核属性集合的补集.将第(1)步得到的可辨识矩阵横向分割为m个部分,每一个Mi(i=1,2,…,m)对应一个map任务,找出与核属性集合c0相交为空的集合Ei,即Ei∩c0=Ø,map输出,其中,key为Ei集合.

(3)

(6)得到属性约简结果.首先对P和L进行合取运算得到P′,其中P′=P∧L;之后提取P′析取范式:P′=∨Q,即P′=Q1∨Q2∨Q3……∨Qk;其中,Qi中包含的条件属性就是决策表属性约简后的一个结果.

1.3.2Apriori算法的并行化实现

在对事务数据库进行属性约简之后,再将Apriori算法结合MapReduce并行计算框架,形成一个基于云计算的高效关联规则算法.算法的整体流程图如图2所示.

图2 Apriori算法并行化流程图Fig.2 Flowchart of the parallel Apriori algorithm

(1)将事务数据库转换成决策集的形式,进行属性约简计算,减小数据规模,形成新的数据集.

(2)分解新的数据集为N个规模大致相同的子集,并随机分配到Hadoop的工作节点上.

(3)Map阶段,借鉴MapReduce实现的经典wordCount算法,在每一个节点处扫描对应的数据库子集,运行Apriori算法得到部分k项候选集,输出键值对,其中key代表属性项及对应的属性值,value代表属性项出现的次数.

(4)Reduce阶段,接收Map阶段生成的键值对,累加key相同的项得到每个候选项的支持度,构成全局k项候选集.

(5)比较全局k项候选集的支持度和最小支持度阈值,筛选出k项频繁项集.

(6)重复(3)~(5)步,通过k项频繁项集筛选(k+1)项频繁项集.

(7)多次迭代计算后,得到最终频繁项集,并计算其置信度与最小置信度比较得到最强关联规则.

2 风电机组故障诊断过程

融合粗糙集和Apriori算法,主要是利用粗糙集的属性约简算法和Apriori算法挖掘信息内在规律的特点,并结合MapReduce并行计算框架以提高整体故障规则挖掘效率,节省了带宽、内存等资源的消耗,步骤如图3所示.

图3 风电机组故障诊断过程Fig.3 the process of malfunction diagnosis on the wind turbogenerator

2.1 数据预处理

风电机组的负荷、运行参数、性能指标隐藏着复杂的内在关系,这些关系包含着大量的信息,挖掘这些关系并将其定量化,进而进行准确、实时的风电机组故障诊断.论文研究基于某风场的历史数据,通过风机上传的遥信信号作为条件属性构成条件属性集合C={A,B,C,D,E,F,G},其中条件属性A表示发电机定子温度,B表示母线电压越限,C表示母线电压越限回复,D表示风机变频器开关跳闸,E表示风机变频器开关闭合,F表示刀闸变位开,G表示刀闸变位合.假设将风电机组报警类型作为决策属性集合D={d},决策属性d的属性值如下:

1:发电机定子温度告警

2:电压越限报警

3:开关变位报警

4:开关变位,电压越限报警

5:开关拒动报警

6:无报警

收集某风场部分报警信息实例组成对象集合U={E1,E2,…,E20},形成表1所示的决策表系统.

表1 决策表系统

依据本文介绍的属性约简步骤,计算决策表的可辨识矩阵,由于可辨识矩阵是对角线对称矩阵;因此,在属性约简的过程中,本文将可辨识矩阵转换为上三角矩阵,如式(4)所示:

(4)

在式(4)中包含的条件属性组成的组成核属性集合为C0={A,B,C,D,E},再利用MapReduce框架进行合取、析取运算,进而得到约简后的条件属性集为{A,B,C,D,E},其他的属性为冗余属性.去除冗余属性后,约简后的决策表如表2所示.

表2 属性约简后的决策表

2.2 算法应用及结果

采用改进的Apriori算法对所选的数据进行数据挖掘工作,数据预处理之后,选取的7个条件属性约简为5个,减小了数据规模.在Hadoop平台上,设置最小支持度为20%,最小置信度为80%,依据MPApriori算法流程对所选故障数据进行挖掘工作,以寻求强关联规则,进而得到更加准确的故障诊断结果.

本文随机选择GE、联合动力、远景的3种型号风机,选取2014年2月1日至2015年2月1日的部分连续数据进行试验.所要诊断的故障主要分为4个故障状态,即发电机定子故障、开关变位故障、开关拒动故障、电压越限故障,以及一个正常状态,分别编号为C1至C5;实验分别在单机环境和并行化环境同时进行,多次实验取平均值进行对比.总的来说,采用传统的Apriori算法进行串行执行的故障诊断和并行化的结果基本一致,但在运行效率上,并行化取得了很大的提高.整体运行结果如表3、表4所示.

表3 诊断结果

表4 测试时间对比

由表4可知,由于Hadoop框架需要多次重复迭代的特点,在面对小数据集的情况下,算法执行效率反而不及单机运行;在面对大数据集时,传统串行算法产生的候选集数量过大,造成了运行效率的大大降低;然而,借助于MapReduce框架的并行计算优势,Hadoop集群使得算法的运行效率得到了极大的提高.

3 结语

针对大数据环境下风电机组故障诊断的准确性和实时性的要求,本文设计了基于当前主流大数据技术的风机故障诊断算法—MPApriori算法,利用MapReduce并行计算框架,结合粗糙集的属性约简和Apriori算法,加速风电机组故障诊断的过程和数据处理的效率,降低了时间和空间复杂度.实验证明,本文提出的方法在充分保证故障诊断正确率的基础上,显示出了较高的运算性能,满足海量监测数据下,可以满足风电机组故障诊断对实时性和准确性的要求.

[1] 张少敏,毛 冬,王保义.大数据处理技术在风电机组齿轮箱故障诊断与预警中的应用[J].电力系统自动化,2016(14):129-134.

[2] 孙鹤旭,孙泽贤,林 涛.基于云计算的最大频繁项集挖掘算法[J].中南民族大学学报(自然科学版),2016(03):102-106.

[3] 张天瑞,于天彪,赵海峰,等.数据挖掘技术在全断面掘进机故障诊断中的应用[J].东北大学学报(自然科学版),2015(04):527-531+541.

[4] 万 祥,胡念苏,韩鹏飞,等.大数据挖掘技术应用于汽轮机组运行性能优化的研究[J].中国电机工程学报,2016(02):459-467.

[5] 晁 进,刘文颖,刘勇智,等.基于粗糙集理论的电网报警规则自动提取与应用[J].电力系统保护与控制,2011(08):95-99.

[6] 顾煜炯,宋 磊,徐天金,等.变工况条件下的风电机组齿轮箱故障预警方法[J].中国机械工程,2014(10):1346-1351+1405.

[7] 李 辉,杨 东,杨 超,等.基于定子电流特征分析的双馈风电机组叶轮不平衡故障诊断[J].电力系统自动化,2015(13):32-37.

Application of Data Mining Technology in Fault Diagnosis of Wind Turbogenerator

Sun Hexu,Sun Zexian,Lin Tao

(Institute of Control Science and Engineering , Hebei University of Technology , Tianjin 300130, China)

The traditional fault diagnosis method can not meet the requirements of the real-time and accuracy of the system. To solve this problem ,the paper introduced the attribute reduction in rough set theory, and then improved the classical Apriori association rules on the MapReduce framework. The algorithm improved the efficiency of data mining, reduced the complexity of time and space. Experimental results show that the algorithm has good performance and speedup ratio, and it also proves the validity and feasibility of the algorithm.

fault diagnosis ;Hadoop ; attribute reduction ;Apriori

2016-06-30 *通讯作者 孙泽贤, 研究方向:数据挖掘、云计算, E-mail:1249226957@qq.com

孙鹤旭(1956-),男,教授,博导,研究方向:自动化领域,E-mail:shx13682168380@sina.com

天津市科技支撑项目(14ZCDZGX00818).

TP3

A

1672-4321(2016)04-0081-05

猜你喜欢

决策表约简风电
基于决策表相容度和属性重要度的连续属性离散化算法*
基于混合增量式属性约简的中医甲状腺结节诊疗规律分析
带权决策表的变精度约简算法
海上风电跃进隐忧
分散式风电破“局”
近似边界精度信息熵的属性约简
风电:弃风限电明显改善 海上风电如火如荼
广义分布保持属性约简研究
电力稳控系统在石化企业的应用
基于决策等价性的决策表属性集分解研究*