APP下载

基于数据挖掘的分布式系统孤岛检测方法①

2011-10-28董晓峰陆于平刘玉欢

电力系统及其自动化学报 2011年2期
关键词:孤岛决策树分布式

林 霞, 董晓峰, 陆于平, 刘玉欢

(1.河海大学能源与电气学院, 南京 210098; 2.苏州供电公司, 苏州 215004;3.东南大学电气工程学院, 南京 210096; 4.华东电力调度中心, 上海 200002)

基于数据挖掘的分布式系统孤岛检测方法①

林 霞1, 董晓峰2, 陆于平3, 刘玉欢4

(1.河海大学能源与电气学院, 南京 210098; 2.苏州供电公司, 苏州 215004;3.东南大学电气工程学院, 南京 210096; 4.华东电力调度中心, 上海 200002)

分布式发电系统并网运行时处于孤岛状态影响电力系统安全正常运行,反孤岛设备必须在可以接受的时限内把孤岛检测出来。该文主要采用数据挖掘技术中的C4.5决策树来作为分布式发电系统的孤岛检测方法。首先离线建立精确的系统运行模型,然后用该模型建立C4.5决策树,最后采用建好的C4.5决策树来进行在线的孤岛检测。在整个孤岛检测过程中C4.5决策树有能力进行自完善,而且可以最小化检测区域。文中使用Matlab仿真验证了C4.5决策树进行孤岛检测的可行性。

数据挖掘; C4.5; 分布式发电; 孤岛检测

随着可再生能源的推广,分布式发电DG(distributed generation)已成为一种重要的电力电源形式。DG接入后,配电系统不再是单电源网络,大量的发电机和负荷同时存在,配电系统中的潮流方向理论上可以是任意的,这势必要影响配电网保护的灵敏性、选择性[1,2]。当带部分负荷的DG与电力系统断开时,DG将有可能继续向孤立运行的电力系统供电,形成孤立系统即孤岛。一般情况下,基于对设备、运行人员的安全以及孤岛系统中电能质量方面的考虑,应该避免DG运行在孤岛状态。因此,研究孤岛检测方法及保护措施,将孤岛产生的危害降低到最小,具有重要的现实意义。

现有的分布式发电系统孤岛检测的基本方法有3大类:基于通信技术、同步分布式发电机本地检测和基于逆变器的分布式发电系统本地检测[3]。

基于通信的孤岛检测是依靠无线电通讯传输孤岛状态信号,信号发生器发出的孤岛检测信号可能干扰其他电力线路载波通信;孤岛的本地检测方法一般检测DG的输出电压和电流信号。其中,无源检测方法对干扰而不是对孤岛更敏感,并且确定孤岛动作阈值也很难。有源检测方法较为复杂,并且此方法还可能造成某些负面影响,如电能质量变差和转子振动等;基于逆变器的分布式发电系统本地检测方式比较多,根据DG系统中的电源采用不同的逆变器与电网连接,而采取不同的检测方式,很难适应系统拓扑结构的改变[4~9]。

数据挖掘技术不仅能对过去的电力系统运行数据进行查询,而且能找出过去数据之间的潜在联系,进行更高层次的分析,以便更好地解决决策、预测等问题。学会一个分类模型,该模型能把检测出的DG运行电气量映射到给定类别中的某一个分类,即能对测量到的DG运行电气量进行孤岛状态预测。本文用数据挖掘技术中的C4.5分类方法,并抽取部分Matlab7.01仿真得到的数据作为样本,建立分类模型,运用其余数据对C4.5决策树进行验证,通过再学习可以对C4.5决策树进行完善[10~13]。用得到的C4.5决策树来进行孤岛检测,用检测结果再次完善C4.5决策树,这是一个周而复始,不断对孤岛检测方法完善的过程。

1 建立孤岛检测的数学模型

分类在数据挖掘中是一项非常重要的任务。C4.5算法是从ID3演变而来,除了拥有ID3算法的功能外,还能处理属性连续值和属性缺省值[3]。所以C4.5算法对电力系统中的数据是一种比较好的分类方法。

1.1 样本空间选取

随机给定n组DG运行电气量作为样本:

S={s1,s2,…,sn}

(1)

(2)

{(si,yi),i=1,2,…,n}

(3)

其中:S是n个数据样本的集合;i是组编号;fi是频率值属性;Vi是电压标幺值属性;(Δf/Δt)i频率改变率属性;(ΔP/Δt)i有功功率改变率属性;yi是类标号属性;当DG在孤岛运行情况下,yi=1;当DG不在孤岛运行情况下,yi=0。

1.2 信息增益计算

一个属性的熵越大,它蕴含的不确定信息越大,越有利于数据的分类。

S是n组数据样本的集合,每组数据具有4个属性。类标号属性具有2个不同值,即0和1。对一个给定的样本分类所需的期望信息由下式给出:

(4)

其中pi是任意样本属于yi的概率,一般可用si/s来估计。

设属性A具有v个不同值{a1,a2,…,av}。可以用属性A将S划分为v个子集{S1,S2,…,Sv},其中Sj包含S中这样一些样本:它们在A上具有值aj。设sij是子集Sj中类yi的样本数。熵值越小,子集划分的纯度越高。根据由A划分成子集的熵由下式给出:

I(s1j,s2j,…,snj)

(5)

由期望信息和熵值可以得到对应的信息增益:

Gain(A)=I(s1,s2,…,sn)-E(A)

(6)

1.3 信息增益比例的计算

一个属性的信息增益比例用下面的公式给出:

(7)

其中

1.4 合并具有连续值的属性

对于检测得到的电气量,绝大部分是连续属性值,C4.5处理过程如下:

1)根据属性的值,对数据集排序;

2)用不同的阈值将数据集动态地进行划分;

3)当输出改变时确定一个阈值;

4)取两个实际值中的中点作为一个阈值;

5)取两个划分,所有样本都在这两个划分中;

6)得到所有可能的阈值、增益及增益比;

7)在每一个属性会变为两个取值,即小于阈值或大于阈值。

针对属性有连续值的情况,则在训练集中可以按升序方式排列a1,a2,…,an(n为训练集的个数),计算每个划分的增益比率,选择增益比率合适的划分来对相应的属性进行离散化。

1.5 规则的产生

一旦树被建立,就可以把树转换成if-then规则。规则存储于一个二维数组中,每一行代表树中的一个规则,即从根到叶之间的一个路径。表中的每列存放着树中的结点。建立好的决策树不仅可以查询过去的DG系统运行数据,而且能对未来检测到的DG运行的电气量进行孤岛检测。建立好的决策树添加新的正确数据重复以上的工作,可以通过再学习不断进行自我完善。用于孤岛检测的C4.5决策树建立过程可以归纳为图1。

图1 建立C4.5决策树流程图Fig.1 Flow chart of constructing C4.5 decision-tree

2 用于建立C4.5决策树的典型DG模型

典型的DG接入模型,如图2。S代表等效系统,DR代表分布式电源,T代表电力变压器,L代表负载,cb代表三相断路器,PCC代表起连接作用的母线,LV代表低压,HV代表高压。

图2 典型DG拓扑结构Fig.2 Typical distributed generation

DG接入后,配电系统的运行模式很多,要选取尽可能多的运行方式来建立分类方法。选取有代表性的三类运行模式:系统负载的不同模式;全部DG负载的不同模式;单独一个DG负载的不同模式。按上述选取方式,共有七种运行模式:1)HVTL负载85%;2)HVTL负载50%;3)HVTL负载100%;4)DG负载50%;5)DG负载100%;6)DG1负载50%;7)DG1负载100%。

假设故障发生后系统的三相断路器正确断开,把故障线路和负载从系统中切除。为了比较全面覆盖故障类型,对于图1系统断路器假设八种断开方式:1)cb1断开;2)cb3断开;3)cb-DR2断开;4)母线PCC-LV发生三相短路,cb1,cb3和cb4断开;5)线路TL1发生三相短路,cb3,cb-DR1和cb-DR2断开;6)cb-L3断开;7)线路TL4发生三相短路,cb4断开;8)负载HVTL发生三相短路,cb-HVLT断开。

一个多DG的系统拓扑中,选取一个分布式电源作为检测对象。在图1中,选取分布式电源DR1作为检测对象。上述的断路器八种断开方式中,1,2,4,5使DR1运行在孤岛状态,3,6,7,8使DR1不是运行在孤岛状态。

3 在Matlab下建立仿真模型

利用Matlab仿真软件对算法进行仿真验证,利用Simulink工具,按照图2电路拓扑建立电力系统仿真模型,如图3所示。

图3 Matlab中典型分布式发电模型仿真结构图Fig.3 Configuration of typical distributed generation in Matlab

3.1 具体参数设置

1)S数据: rated short-circuit VA=1000,f=50 Hz,rated kV=69,Vbase=69 kV。

2)分布式电源DR1,DR2和DR3数据:

rated MVA=10,f=50 Hz,54poles,Yn,

rated kV=13.8,Vbase=13.8 kV,

Inertia constantH=3.0,

R0=0.0025 p.u.,X0=0.113 p.u.,

R1=0.001 p.u.,X1=0.15 p.u.,

Xd=1.028 p.u.,Xq=0.654 p.u.,

3)电力变压器T1数据:

rated MVA=25,f=50 Hz,

rated kV=69/13.8,Dyn1,Vbase=13.8 kV,

R1=0.00375 p.u.,X1=0.01 p.u.,

Rm=500 p.u.,Xm=500 p.u.

4)电力变压器T2,T3和T4数据:

rated MVA=10,f=50 Hz,

rated kV=13.8/13.8,Ynd1,

Vbase=13.8 kV,R1=0.00375 p.u.,

X1=0.01p.u.,

Rm=500 p.u.,Xm=500 p.u.

5)传输线数据:rated MVA=20,f=50 Hz,

Vbase=13.8 kV,rated kV=13.8,

R0L=0.0414 ohms/km,

R1L=0.0138 ohms/km,

X0L=0.0534 ohms/km,

X1L=0.0178 ohms/km,X0CL=5.1 nF/km,

X1CL=17 nF/km,

Line1=20 km,Line2=10 km,

Line3=10 km,Line4=20 km,

Line5= Line6= Line7=10 km

6)负载85%数据:

Rated kV=13.8,

L1=10 MW,3.5 MVAR,

L2=L3=L4=L8=5.0 MW,2.0 MVAR,

L5=L6=L7=3.0 MW,1.0 MVAR

3.2 仿真结果

以分布式电源DR1为考察对象,分别仿真56次,得出cb-DR1处的56组状态信息。表1为用于建立C4.5决策树的14组数据,表2为用于C4.5决策树检验和C4.5决策树再学习的42组数据。

表1 用于建立C4.5决策树的14组数据 (已对第三列数据降序排序)Tab.1 14 groups of data to construct C4.5 decision-tree (The third column of data has been arrangedin a descending order)

表2 C4.5决策树检验和C4.5决策树再学习的42组数据Tab.2 42 groups of data to test C4.5 decision-tree and reinstitute it

4 具体算例

4.1 初步分类

按第三个属性值对表1的数据进行初步分类,根据表1计算得到的分类期望:

把连续的属性离散化,对比三种离散方法。

在第8组和第9组中间把数据分两组,按本文1.3介绍的方法,得到分组阈值为0.161:

E=1,Gain=0,GainRatio=0

在第9组和第10组中间把数据分两组,按本文1.3介绍的方法,得到分组阈值为0.126:

I(C10,C11)= 0.971

I(C20,C21)= 0.991

E=0.984,Gain=0.0163,SplitI=0.940,GainRatio=0.0173

在第5组和第6组中间,第9组和第10组中间把数据分三组,按本文1.3介绍的方法,得到分组阈值分别为0.544和0.126:

I(C20,C21)=0;

E=0.6933,Gain=0.3067,SplitI=1.577,GainRatio=0.1945

综合对比三种分类方法,第三种的增益比最大,选取第三种分类方法。得到数据表3、4、5。

表3 df/dt>0.544的数据Tab.3 Data at df/dt>0.544

表4 0.126

表5 df/dt≤0.126的数据Tab.5 Data at df/dt≤0.126

4.2 继续分类

按第四个属性值对表3、表4、表5的数据继续分类,依据本文4.1的分类方法,最终得到C4.5决策树见图4。

由于本文采用的模型规模比较小,C4.5决策树最终只用到了两个属性,随着系统规模的不断扩大,会用到所有的四个属性值。也可以在表3,表4和表5中选取不同的属性值进行分类,得到的C4.5决策树将不同。

表2中42组数据用来验证决策树的正确性,第8组数据,即当系统负载HVTL工作在50%的情况下,断路器cb3断开时,cb-DR1处测得的频率改变率为1.967 Hz/s,有功功率的改变率为1974.419 MW/s,决策树判断出错。初次建立的C4.5决策树判断正确率为98.2%。

图4 C4.5决策树Fig.4 C4.5 Decision-tree

4.3 完善C4.5决策树

用表2中的第8组数据完善C4.5决策树,把表2中第8组数据插入到表1第2、3组数据之间,并重新计算分类期望得到:

仍然按分组阈值0.544和0.126进行分组,并计算信息增益比:

E=0.3235,Gain=0.6732,SplitI=1.5656,GainRatio=0.4299

图5 最终完善的C4.5决策树Fig.5 Final perfect C4.5 decision-tree

计算结果显示,加入一组数据后,增益比明显变大。

最终完善的C4.5决策树如图5,通过决策树的再学习,可以正确分类56组孤岛检测数据。注意最右边分支阈值的改变。

4.4C4.5决策树优缺点

决策树方法检测孤岛的优点在于:1)系统可以在不同的工作模式下;2)系统的网络拓扑可以改变;3)通过决策树的再学习,可以改变决策树的if-then规则;4)最小化检测区域。

但是决策树方法也有自身的缺点:1)当系统规模比较大时,建立规则的时间比较长;2)用于建立规则的样本空间对最终的if-then规则有影响,但是影响可以控制在有限范围内;3)C4.5算法得到的决策树不一定是最优的。

另外可以使用决策树的优化方法,如决策树修剪算法来改善建立好的决策树。

5 结语

本文结合数据挖掘技术,提出了新的基于C4.5决策树的孤岛检测算法。C4.5决策树特别适用于挖掘数据量多,且对效率和性能要求高的场合。本文详细介绍了如何用过去的分布式发电系统运行数据建立C4.5决策树,并通过建立的C4.5决策树进行分布式发电孤岛检测的方法,最后用Matlab进行仿真验证。通过实例的应用,实验证明C4.5决策树算法是有效的,能避免DG运行在孤岛状态,将孤岛产生的危害降低到最小,并且可以提高孤岛检测的性能以及避免对电能质量产生影响。

[1] 吴罡,陆于平(Wu Gang, Lu Yuping). 分布式发电采用故障限流器对继电保护性能的影响(Impact of fault current limiter to the performance of relay protection in distributed generation)[J].江苏电机工程(Jiangsu Electrical Engineering),2007,26(2):1-4.

[2] 王志群, 朱守真, 周双喜,等(Wang Zhiqun , Zhu Shouzhen, Zhou Shuangxi,etal).分布式发电接入位置和注入容量限制的研究(Study on location and penetration of distributed generations)[J].电力系统及其自动化学报( Proceedings of the CSU-EPSA),2005,17(1): 53-58.

[3] 曾议, 吴政球, 刘杨华,等(Zeng Yi, Wu Zhengqiu, Liu Yanghua,etal).分布式发电系统孤岛检测技术

(Islanding detection method for distributed generation systems)[J].电力系统及其自动化学报(Proceedings of the CSU-EPSA),2009,21(3): 106-110.

[4] 殷桂梁,孙美玲,肖丽萍(Yin Guiliang, Sun Meiling, Xiao Liping).分布式发电系统孤岛检测方法研究(Review of island detection methods of distributed generation)[J].电子测量技术(Electronic Measurement Technology),2007,30(1): 1-6.

[5] 毛国军,段立娟,王实,等.数据挖掘原理与算法(第二版)[M].北京:清华大学出版社,2007.

[6] El-Arroudi Khalil, Joos Geza.Data mining approach to threshold settings of islanding relays in distributed generation[J].IEEE Trans on Power Systems,2007,22(3): 1112-1119.

[7] 吴天明,谢小竹,彭彬.MATLAB电力系统设计与分析[M].北京:国防工业出版社,2004.

[8] 孙亚男(Sun Yanan).分布式发电孤岛检测判据研究(Islanding Detection Method for the DG System)[D].济南:山东大学电气工程学院(College of Electrical Engineering of Shandong University),2006.

[9] IEEE Std 1547-2003, IEEE standard for interconnecting distributed resources with electric power system[S].

[10]Safavian S Rasoul, Landgrebe David. A survey of decision tree classifier methodology[J].IEEE Trans on Systems, Man and Cybernetics, 1991, 21(3): 660-674.

[11]屈志毅,周海波(Qu Zhiyi,Zhou Haibo). 决策树算法的一种改进算法(Improved algorithm based on decision tree)[J]. 计算机应用(Journal of Computer Applications),2008,28(S1): 141-143.

[12]王桂芹,黄道(Wang Guiqin, Huang Dao). 决策树算法研究及应用(Study and application in decision tree algorithm)[J]. 电脑应用技术(Microcomputer Application Technology),2008,(1):1-7.

[13]Mori Hiroyuki. State-of-the-art overview on data mining in power systems[C]∥IEEE Power Engineering Society General Meeting, Montreal, Canada: 2006.

ApplicationofDataMininginIslandDectectionofDistributedGeneration

LIN Xia1, DONG Xiao-feng2, LU Yu-ping3, LIU Yu-huan4

(1.College of Electrical Engineering, Hehai University, Nanjing 210098, China;2.Jiangsu Suzhou Power Supply Company, Suzhou 215004, China;3.School of Electronic Engineering, Southeast University, Nanjing 210096, China;4.East China Electric Control Centre, Shanghai 200002, China)

Distributed generation system operating in connection with grid under the island state will impact the normal operation of power system security.Anti-islanding unit must detect out island under the acceptable time limit.This paper uses C4.5 decision tree in the data mining technology as a distributed generation system islanding detection method.First,setting up a accurate system off-line model,which is used to build the C4.5 decision tree to detect the island on line.During the island detecting process,the C4.5 decision tree have the ability to self-improve,and can minimize the detection area.Simulation result using C4.5 decision tree for islanding detection is proved to be feasible.

data mining; C4.5; distributed generation(DG); island detection

2010-02-04

2010-06-21

河海大学自然科学基金项目(2009424511)

TM615

A

1003-8930(2011)02-0038-07

林 霞(1975-),女,博士,讲师,研究方向为分布式发电系统保护及控制。Email:boulevard2@seu.edu.cn

董晓峰(1984-),男,硕士研究生,研究方向为分布式发电系统的保护和控制。Email:dong_xiaofeng@qq.com

陆于平(1962-),男,博士,教授,博士生导师,主要从事电力系统继电保护分布式发电系统的保护与控制等方面的教学和研究工作。Email:yupinglu@seu.edu.cn

猜你喜欢

孤岛决策树分布式
不再是孤岛
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
没有人是一座孤岛
分布式光伏热钱汹涌
分布式光伏:爆发还是徘徊
孤岛求生记
基于决策树的出租车乘客出行目的识别
基于DDS的分布式三维协同仿真研究
基于肺癌CT的决策树模型在肺癌诊断中的应用