APP下载

基于分布式聚类模型的电力负荷特性分析

2018-03-12许元斌罗义旺刘燕秋

现代电力 2018年1期
关键词:个数用电聚类

曾 楠,许元斌,罗义旺,刘 青,刘燕秋,张 欢

(1.国家电网公司,北京 100000;2.国网信通亿力科技有限责任公司智能电网大数据实验室,福建福州 350003)

0 引 言

电力系统负荷是整个电力系统安全稳定运行中较活跃的一部分。负荷模型是决定现代电力系统可靠性的重要因素之一,它的建立对电力系统规划、设计和运行等诸方面均有十分重要的意义。

近些年,电力系统负荷特性的聚类方法研究是诸多学者关注的热点,如支持向量聚类[1-3]、模糊免疫网络[4-5]、峰群优化算法[6-7]、蚁群优化算法[8-10]、分布一致性算法[11]、迭代细化聚类算法[12]、迭代自组织数据分析算法[13-14]等。1979年美国耶鲁大学J. A. Hartigan[15]提出一种将m个点在n维空间划分为K个簇的K-means聚类算法,使集群内点在簇间移动过程中的平方和更小。美国天睿公司学者Carlos Ordonez[16]在K-means算法基础上,提出一种不用采样,不同均值初始化和聚类方式的改进K-means算法,并成功应用于数据库管理系统。进而台湾国立中山大学Ming Chao Chiang提出一种简约K-mean算法[17],对人群数据进行实验,验证了简约算法运行时间的快速性。加拿大圣玛丽大学Pawan Lingras[18]在Hartigan的基础上,提出一种基于粗糙集理论应用于Web数据的K-means聚类算法。Francesco Camastra在经典K-means的启发下,提出一种基于支持向量聚类[19]的集群迭代细化算法。Tung Shou Chen在文献[19]的基础上,利用分层聚类算法缩短集群合并时间,改善了原始数据阵列的聚类效率[20]。印度马德拉斯大学S. Kalyani通过K-means聚类算法对电力系统的可靠性进行评估[21],对于IEEE 30节点和IEEE 57节点测试数据可行性已得到验证。合肥工业大学杨善林和周开乐对电力系统负荷特性中不良数据的识别和校正进行讨论,并通过负荷特性曲线进行负荷特征预测[22]。文献[23]利用K-means算法构建负荷峰谷时段模型,反映了划分结果时段的负荷差异。

本文在前人经验的基础上,将Canopy算法与K-means算法有效地结合建立了分布式聚类模型,以福建省用户用电负荷信息为例进行实验,对聚类结果中的各类用户的负荷曲线和相应的聚类中心分布进行分析,确定了影响算法运行时间的关键因素,并通过聚类结果预测了用户负荷特征。

1 算法理论基础

1.1 K-means算法

K-means算法是以欧式距离进行样本的相似性区分,即认为彼此间距离值越小,其相似性越大[16],欧氏距离为

(1)

基本思想是给定含有N个数据的样本集合P{p1,p2,…,pN}, 选取聚类划分目标簇的个数K,每个簇有一个中心,分别计算其余各样本与该簇中心的欧式距离,将该样本归类到距离最小的簇中,并以平方误差准则对聚类中心进行调整,该准则的函数形式为

(2)

式中:nj为样本个数(第j类);mj为样本均值(第j类)表示数据集合中心。

在迭代计算过程中,若相邻两次的聚类中心未变化,则说明J0收敛、聚类完成,最后所有的数据对象存放在相应的类中[15-17]。其算法过程如图1所示,具体实现步骤:

输入:样本集合和目标簇个数K;

输出:K个分类簇,并满足J0小于某设定值。

步骤:

①从样本集合中随机选取K个对象作为初始聚类中心;

②迭代计算样本集中余下的点到选定的K聚类中心的距离;

③根据距离进行归类划分;

④反复计算并更新K个聚类中心,直到J0收敛。

1.2 Canopy算法

K-Means算法的一个不足之处是必须预先指定簇数K,在许多实际应用中要设定一个合理的K值不是一件容易的事。此时,借助Canopy算法可以完成簇数K及初始簇中心的估计[24]。Canopy是一种聚类算法,依据参数T1和T2实现对象的粗略划分。图2显示一个典型的Canopy聚类过程。

图2 Canopy算法过程

图2中的实线圈为距离阈值T1,虚线圈为距离阈值T2,其中T1和T2的值采用交叉校验确定。Canopy算法首先将所有对象加入候选集。然后,每次从候选集中取出一个对象,计算它的所有Canopy的距离(第一个对象自动成为Canopy),若它与某个Canopy的距离小于T1,则将其加入该Canopy(图中实线圈)。若它与某个Canopy的距离还小于T2,则认为它们太接近了,不再考虑其作为Canopy的可能性,从候选集中删除这个对象(图中虚线圈)。算法迭代运行至所有对象都加入某个Canopy。最后,计算Canopy的数量即为簇数K的估计值,而每个Canopy中对象的均值即为初始簇中心。

Canopy算法虽然运行速度较快,但是聚类过程精度较低,因此本文使用Cannopy算法对数据初步并行聚类,获取K个簇。然后把获得的K个簇作为初始聚类个数利用用K-means进行进一步聚类。也就是说Canopy算法主要把聚类分为两个阶段。第一阶段为数据预处理阶段,使用简便计算方法将相似对象放入一个叫做Canopy的子集中。第二阶段为聚类计算阶段,在各个子集中使用K-Mean算法计算同一子集中所有数据向量的距离。

2 分布式聚类模型构建

2.1 负荷模型构建

负荷模型的描述方程[25-26]为

(3)

式中:P为负荷有功功率;Q为无功功率;U为母线电压;ω为频率;下标0表示在其基准点稳态运行时的值;pU为负荷有功电压特性指数;qU为无功电压特性指数;pω为负荷有功频率特性指数;qω为负荷无功频率特性指数。

理论量测式

(4)

只计及负荷电压特性而忽略频率特性时,对式(3)进行泰勒展开,可得动态过程负荷计算模型的简化式

(5)

2.2 构建流程

聚类是指将抽象对象集合重新组成相类似对象多个簇的过程,同一簇中对象相似,不同簇中对象相异。电力系统中的海量数据处理问题是众多学者较为关注热点问题,如何深入挖掘有价值、可以指导实际应用的信息是解决这一问题的核心。本文利用分布式框架Mahout的MapReduce设计出应用于电力系统负荷特性的高效数据模型挖掘算法,在提高聚类算法处理数据性能的同时,解决并行挖掘的问题,其构建总体流程如图3所示。

图3 模型构建总体流程

基于Mahout的分布式聚类模型构建过程主要包括以下几个步骤:

①输入历史一年中全省负荷值最大的当天用户整点负荷数据,针对负荷数据进行预处理,并进行数据归一化处理;

②执行并行聚类算法,确定是否自动确定聚类簇数,如果选择人工确定簇数,则直接输入聚类簇数,如果选择自动确定聚类簇数,则采用并行Conopy算法计算簇数值和初始簇中心;

③执行并行K-Means算法,输出聚类结果,进行聚类结果评估。

2.3 数据归一化

原始数据不同特征的值域可能存在较大差异。如果直接在原始数据上分析,数值大的特征将湮没数值小的特征,使值域较小的特征无法得到有效利用。因此,需要对原始数据做区间规范化。

原始数据分类总个数为n,每一类的所属行业用电数为m,xij为第i个分类中第j个所属行业的基本负荷特征。

n类的第j个所属行业特征的平均值

(6)

n类的第j个所属行业特征的标准差

(7)

所属行业规范化值

(8)

数据归一化至[0,1]区间

(9)

式中:xjmin和xjmax为第j个所属行业用电的最小值。

如果某个特征的取值全为0,将导致规范化公式的分母为0。此时,不对该特征规范化,即保持原始值0。

3 工程实例应用

样本数据为福建省2015年5月23日用户整点负荷数据,为反映负荷样本本质特性,需从中提取特征量。可考虑的特征量包括:样本模型参数、负荷功率、动态特征、时间因素等。在实际分类过程中,首先对时间特征进行初步划分,然后再以其他特征进行细分。

可供选取的历史负荷数据共包括708 000条,其数据类型如表1所示。在进行聚类操作时,采用24个整点负荷参与聚类分析。由于原始数据通常存在缺失或错漏,故为保证后续算法的正常分析,对缺失值采用填充、相邻负荷均值的方式进行数据填充。若相邻负荷也是空值,则继续向前向后查找非空负荷值。如果直至第1项负荷(或最末1项负荷)仍为空值,则默认其为0后再计算均值。异常值的负荷允许为负数,不作处理[27]。

表1 关键对象类型数据表

另外,由于原始数据中存在同一个用户对应多条记录的情况,故需在分析前进行数据过滤。处理方法是将同一个用户的所有记录同一时刻的负荷值进行累加,然后合并成一条记录[28]。针对记录中相邻多个负荷值连续为空的情况,设置一个最大允许值为连续的空特征数参数,如果连续为空的负荷特征的数量超过该值时就删除该记录。

根据簇的不同设置3组方案,分别对3组方案进行自动聚类算法和人工聚类算法的数据分析,其方案设计对照结果统计如表2所示。

表2 聚类实验结果表

由表2可知,参数T2对聚类结果有显著影响。当T2值较小时,由于太接近某个Canopy而被删除的对象较少,因此生成的初始簇较多,系统运行时间也较长。相反地,当T2值较大时,较多对象会被删除,因此生成的初始簇较少,系统运行速度较快。整个系统运行过程中,比较耗时的是Canopy算法的运行及将结果写入数据库。Canopy算法受参数T1和T2影响,运行时间会有较大波动。随着簇数的增多,聚类算法运行总时间增加,自动聚类算法的时间增加缓慢,变化不明显;人工聚类算法的时间在簇个数较小时,具有快速性的优势,但簇个数由4变7时,运行总时间骤然增大,是自动聚类算法时间的1.4倍。

图4 方案1聚类中心分布

图4为方案1的聚类中心分布图,由图可以看出:簇数为2时的自动聚类算法与人工聚类算法的负荷规范化区间曲线差别不大,经进一步计算可得系列1的自动、人工总体标准差分别为0.018 4和0.018 7,系列2的自动、人工总体标准差为0.144 9和0.144 5,各自的均值偏差均不到1%。系列1负荷规范化区间曲线波动范围较小,表现出稳定的特点,可以判定该用电负荷为一些无大功率负荷的行业。系列2的曲线具有中间低、两头更低的趋势,该用电负荷为农业生产用电,判断依据是农业工作时间大部分位于阳光较佳的白天,而中午短暂的负荷降低与人们的作息规律具有直接关系,也可以推测有相当一部分工作者在午间休息。

图5为自动4个簇时的聚类中心分布图,系列1和系列3曲线与农业生产用电日负荷曲线趋势一致。系列2曲线的用电负荷峰值集中在7:00、12:00及20:00附近,这是因为在居民就餐及休闲时间内家用电器使用率增加的原因,因此系列2为普通居民生活用电负荷。系列4曲线与居民用电负荷曲线截然不同,其夜间用电负荷较高,具有避峰用户的特征,特征为夜间用电成本较低,规避了白天用电的高峰期。

图5 方案2自动聚类中心分布

图6为自动7个簇时的聚类中心分布图,系列1与普通居民生活用电负荷的变化趋势接近,系列2同无大功率用电负荷行业的用电负荷曲线波动形式一致,系列3具有避峰用户行业的特征,系列4、系列5和系列7具有农业生产用电负荷的特点,系列6负荷规范化区间曲线波动范围较小,表现出稳定的特点,且数值比大部分行业用户大,可以判定该用电负荷为大工业用电。

图6 方案3自动聚类中心分布

图7和图8分别为2个簇和7个簇时的人工聚类中心分布,人工聚类中心的分布形式与自动聚类中心一致,故人工聚类算法的用电负荷特征与自动聚类算法相同。

图7 方案2人工聚类中心分布

图8 方案3人工聚类中心分布

图9为4个簇聚类中心误差棒柱形图,从图中看出聚类中心分布的显著性明显,系列2、3、4的人工聚类算法均值较高,系列1、3两种聚类算法显著性均较大。

图9 方案2聚类中心error bar

图10是7个簇聚类中心误差棒柱状图,由图可知系列1、4的人工聚类算法均值较高,系列5、7的自动聚类算法均值较大,系列1、3、4、7的两种算法显著性均较明显,其中系列7的显著性最为明显。

图10 方案3聚类中心error bar

4 结束语

通过对福建省用户相关用电采集数据的获取,采用分布式聚类算法实现对用户的用电负荷特性归类分析,得出如下结论:

①人工聚类算法的运行时间随着簇个数的增加而增加。簇个数较少时,运行时间较短,簇个数增大到一定程度后,运行时间成倍增加。

②自动聚类算法的运行时间随着簇个数的增加而缓慢增加,变化不明显。簇个数越多,其算法的快速运行的优势越明显。

③距离阈值T2越小,初始簇越多,系统运行时间越长,它的值越大,初始簇越少,系统运行速度越短。

④簇个数较少时,人工和自动聚类算法的聚类中心负荷区间规范化曲线非常接近,标准差和均值的偏差均不到1%。

⑤簇个数较大时,无大功率负荷用电行业和大工业用电行业的负荷规范化区间曲线稳定,显著性不明显;农业生产用电行业的负荷规范化区间曲线呈中间低、临测高和两侧低的趋势,显著性明显,为预测用户负荷特征及用电特性提供思路借鉴,对不同负荷特征用户的移峰填谷提供理论支持。

需要说明的是,分布式聚类模型在运算过程中一旦对象与簇中心集合就不能被撤销,从而不能纠正运算过程中存在的错误,电力负荷聚类模型的自适应问题将是下一阶段要研究的核心,本文的研究为其打下理论基础。

[1] Chicco G, Ilie I S. Support vector clustering of electrical load pattern data[J]. IEEE Transactions on Power Systems, 2009, 24(3): 1619-1628.

[2] 杨再鹤, 向铁元, 郑丹. 基于小波变换和SVM算法的微电网短期负荷预测研究[J]. 现代电力, 2014, 31(3): 74-79.

[3] 王林川, 白波, 于奉振, 等. 基于QPSO参数优化的WLS-SVM短期负荷预测[J]. 现代电力, 2010, 27(5):49-52.

[4] Gu D, Ai Q, Chen C. The application of artificial immune network in load classification[C]//International Conference on Electric Utility Deregulation and Restructuring and Power Technologies, IEEE, 2008: 1394-1398.

[5] 顾丹珍, 艾芊, 陈陈. 一种基于免疫网络理论的负荷分类方法[J]. 电网技术, 2007, 31(S1):6-9.

[6] Gavrilas M, Gavrilas G, Sfintes C V. Application of honey bee mating optimization algorithm to load profile clustering[C]//2010 IEEE International Conference on Computational Intelligence for Measurement Systems and Applications. IEEE, 2010: 113-118.

[7] 任新新, 周玲, 赵峰, 等. 基于人工蜂群算法的配电网无功优化[J]. 现代电力, 2012, 29(4) :41-45.

[8] 孙雅明, 王晨力, 张智晟, 等. 基于蚁群优化算法的电力系统负荷序列的聚类分析[J]. 中国电机工程学报, 2005, 25(18): 40-45.

[9] 李如琦, 杨立成, 苏媛媛, 等. 基于相似日和蚁群优化LS-SVM的短期电力负荷预测[J]. 现代电力, 2008, 25(2): 33-37.

[10]方涛, 刘俊勇, 胡灿, 等. 计及动态负荷投载的最优恢复策略[J]. 现代电力, 2009, 26(6): 30-34.

[11]Chicco G, Napoli R, Piglione F, et al. Load pattern-based classification of electricity customers[J]. IEEE Transactions on Power Systems, 2004, 19(2): 1232-1239.

[12]Batrinu F, Chicco G, Napoli R, et al. Efficient iterative refinement clustering for electricity customer classification[C]//Power Tech., 2005 IEEE Russia. IEEE, 2005: 1-7.

[13]Mutanen A, Ruska M, Repo S, et al. Customer classification and load profiling method for distribution systems[J]. IEEE Transactions on Power Delivery, 2011, 26(3): 1755-1763.

[14]王华芳, 卫志农, 杨博, 等. 利用基于模糊划分的ISODATA模糊聚类方法识别电力系统同调机群[J]. 电网技术, 2005, 29(2): 19-22.

[15]Hartigan J A, Wong M A. Algorithm AS 136: A k-means clustering algorithm[J]. Journal of the Royal Statistical Society. Series C (Applied Statistics), 1979, 28(1): 100-108.

[16]Ordonez C,Omiecinski E. Efficient disk based k-means clustering for relational databases [J] . IEEE Transactions on Knowledge and Data Engineering, 2004, 16(8): 909-921.

[17]Chiang M C, Tsai C W, Yang C S. A time-efficient pattern reduction algorithm for k-means clustering[J]. Information Sciences, 2011, 181(4): 716-731.

[18]Lingras P, West C. Interval set clustering of web users with rough k-means[J]. Journal of Intelligent Information Systems, 2004, 23(1): 5-16.

[19]Camastra F, Verri A. A novel kernel method for clustering[J]. IEEE Transactions on Pattern Analy-

sis and Machine Intelligence, 2005, 27(5): 801-805.

[20]Chen T S, Tsai T H, Chen Y T, et al. A combined K-means and hierarchical clustering method for improving the clustering efficiency of microarray[C]//2005 International Symposium on Intelligent Signal Processing and Communication Systems. IEEE, 2005: 405-408.

[21]Kalyani S, Swarup K S. Particle swarm optimization based K-means clustering approach for security assessment in power systems[J]. Expert systems with applications, 2011, 38(9): 10839-10846.

[22]Zhou K L, Yang S L,Shen C. A review of electric load classification in smart grid environment[J]. Renewable and Sustainable Energy Reviews, 2013, 24: 103-110.

[23]李娜, 王磊, 张文月, 等. 基于高维数据优化聚类的长周期峰谷时段划分模型研究[J]. 现代电力, 2016, 33(4): 67-71.

[24]Zhang T, Ramakrishnan R, Livny M. BIRCH: A new data clustering algorithm and its applications[J]. Data Mining and Knowledge Discovery, 1997, 1(2): 141-182.

[25]Shi J H, Renmu H. Measurement-based load modeling-model structure[C]//Power Tech Conference proceedings, 2003 IEEE Bologna. IEEE, 2003.

[26]倪以信, 陈寿孙, 张宝霖. 动态电力系统理论和分析[M]. 北京: 清华大学出版社, 2002: 81-82.

[27]贺仁睦, 王卫国, 蒋德斌. 广东电网动态负荷实测建模及模型有效性的研究 [J]. 中国电机工程学报, 2002, 22(3): 78-82.

[28]赵勇, 胡剑琛, 俞悦,等. 海南电网与南方电网主网联网的特性研究[J]. 中国电力, 2010, 43(2): 7-10.

猜你喜欢

个数用电聚类
怎样数出小正方体的个数
安全用电知识多
等腰三角形个数探索
基于K-means聚类的车-地无线通信场强研究
怎样数出小木块的个数
对输配电及用电工程的自动化运行的几点思考
为生活用电加“保险”
用电安全要注意
怎样数出小正方体的个数
基于高斯混合聚类的阵列干涉SAR三维成像