APP下载

基于聚类算法的大用户用电模式识别研究

2017-10-21赵志宇肖颖婷任莹

中国管理信息化 2017年19期
关键词:means算法聚类分析

赵志宇++肖颖婷++任莹

[摘 要] 针对电力企业中大用户用电模式识别手工为主的问题,提出了一种基于K-means和HAC算法的用电负荷二次聚类的方法,并进行了实例应用分析,结果表明,该方法是一种对用户用电模式快速识别的有效方法,能够减少人力物力的投入,为今后业务领域进一步分析提供了重要的手段。

[关键词] 电力负荷;K-means算法;HAC算法;用电模式;聚类分析

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 19. 076

[中图分类号] TP311 [文献标识码] A [文章编号] 1673 - 0194(2017)19- 0177- 03

0 前 言

电力负荷特性分析的研究一直是电力企业中的一项重要的内容,对于电网的规划和发展有着重要的指导意义。同时,随着国民经济的发展,产业结构的不断调整变化,不同类型的电力负荷也随着在不断变化中。为此,及时准确掌握电力用户负荷特性的变化,对用户用电模式进行识别和跟踪,有着重要的价值。

1 负荷现状分析

本文所用电力数据来源云南某市电网,见表1,可知,该市2016年的电力负荷主要是大工业为主,占比为60.55%,其次为居民用电,占比为21.49%,为典型的工业城市。

进一步分析该市的日负荷曲线(见图1)。日负荷曲线较为平稳,周期性比较明显,用电高峰都在白天出现,局部存在突变。

2 聚类算法选择

聚类算法是根据数据样本之间的相似度来进行归属和分类的一种方法, 样本之间相似度高,就优先归为一类, 不同类之间的样本相似度尽可能的低。目前应用较广泛的主要包括距离划分、层次划分、密度划分、网格划分4种方法。

而电力负荷曲线具有多样性和复杂性,不同于普通的数据样本,不能按照单一的原则进行硬划分。本文通过混合基于距离的K-means和基于层次的HAC算法进行综合分类。

2.1 基于距离的K-means算法

算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。数据与各簇中心的距离定位为:E= |p-mi|2。这里E是数据库中所有对象的平方误差的总和,p是空间中的点,mi是簇Ci的平均值。该目标函数使生成的簇尽可能紧凑独立,使用的距离度量是欧几里得距离,当然也可以用其他距离度量。

2.2 基于层次的HAC算法

层次聚类的策略是先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有对象都在一个簇中,或者某个终结条件被满足。各簇之间距离的定位为:darg(ci,cj)= p?奂Ci, p′?奂Ci,|p-p′|。这里|p-p′|是两个对象p和p′之间的距离,mi是簇ci的平均值,ni是簇ci中对象的数目。

首先使用 K-means算法,输入所有数据进行一次聚类,生成相对紧凑的簇。再使用层次聚类HAC算法,输入为第一次聚类后的中心点数据。另外,聚类的时候,还需要考虑负荷曲线数据的性质相似性,比较两两时序负荷曲线的距离。

3 负荷数据预处理

分析的数据取自云南电网计量自动化系统15分钟一个采集周期的负荷数据。由于原始数据中存在一些缺失、重复、异常等问题,所以需要对原始数据进行清洗,预处理的过程包括如图2所示几个步骤:

3.1 数据清洗

首先从原始系统抽取大工业用户及用户每天96点的计量数据,缺失率和重复率>50%的直接去掉,采集值超过理论上下限的也直接去掉,针对保留下的数据用该用户最近3个月同期数据的平均值替换。

3.2 数据降维

根据之前的观察,负荷数据具有一定的周期性,尤其是在工作日。为此将周一至周五的数据抽取出来,计算1天内96个点标签(00:00:00-23:45:00)的所有数据的平均值,这样就可将一个月的所有数据降维到96。

3.3 数据归一化

这里采用min-max标准化方法,计算方法为x*=,这样就把数据映射到[0~1]范围之内,避免了量纲大小的影响。

4 用电模式识别分析

通过以上的预处理,得到了96维度的负荷数据,其中每一行对应一个表 ID,每一列对应一天内每小时的值,基于聚类算法的分析步骤如下:

4.1 相似性方法

数据样本在簇内和簇间比较相似性的方法有很多,常用的有欧几里德距离、马氏距离、闵可夫斯基距离、余弦距离等。考虑的数据的分布特点不明确,选择Pearson系数作为相似性度量指标。

4.2 一次聚類分析

首先,利用K-means算法来做第一次数据的聚类。由于K-means 需要预先提供初始中心点,选取一些比较特殊的实例再加一些随机选择的实例作为初始中心点,簇个数 k 设定为比最佳簇个数大许多的一个值,初设为70(因为 k值越大,得到的簇会越紧凑),并不断优化调整。

4.3 二次聚类分析

第二步,利用层次HAC 聚类方法,输入为第一步得到的中心点。在聚类的每一层都会利用前一层的结果作为输入。如果某一簇中有一些错误匹配,这里需要用户将其从原始簇中去除,并且由用户指定到其它簇中。经过调整后,新的结果需要再作检查直到它达到令人满意的效果,只到最后一层。

图3是通过二次聚类方法得到的大工业用户用电模式曲线图。

5 结 论

本文提出的多次聚类方法能够使对电力用户用电模式的识别上摆脱人工分析的传统方法,减少人力物力的投入,为今后业务领域进一步开展用户分析提供了一项重要的参考依据和手段。

主要参考文献

[1]张忠华.电力系统负荷分类研究[D].天津:天津大学,2007.

[2]鞠平,谢会玲,陈谦.电力负荷建模的发展趋势[J].电力系统自动化,2007,31(2):1-4.

[3]丁麒,王光增.地区电力用户负荷模式聚类分析应用[J].机电工程,2008,25(9):31-33.

[4]伍育红. 聚类算法综述[J]. 计算机科学,2015(z1).

[5]陈晓,赵晶玲. 大数据处理中混合型聚类算法的研究与实现[J]. 信息网络安全,2015(4).

猜你喜欢

means算法聚类分析
新媒体用户行为模式分析
农村居民家庭人均生活消费支出分析
SIFT算法在木材纹理分类上的应用
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
基于K—Means聚类算法入侵检测系统研究
基于Weka的Apriori算法在原油产量预测中的应用
“县级供电企业生产经营统计一套”表辅助决策模式研究
基于HSI颜色空间的小麦粉精度自动识别研究
基于数据抽样的自动k⁃means聚类算法