APP下载

基于改进FCM的不良负荷数据辨识

2020-09-04杨冰芳徐友刚

电力与能源 2020年4期
关键词:离群分化聚类

杨冰芳,徐友刚,董 玥,孙 进

(国网上海市电力公司青浦供电公司,上海 201700)

电力不良负荷的辨识和剔除是电力系统实时分析的重要组成部分,可为电力系统稳定运行提供实时依据,有利于电力实时评估与分析[1-3]。简单的不良数据辨识方法容易对数据进行漏判或者误判,导致数据库失真,不仅不利于精确地进行负荷预测,同时也对电力系统的调度造成了困扰[4]。因此,对不良数据的辨识和剔除具有重要的意义。

传统的不良数据辨识主要采用神经网络法和聚类分析法等。文献[5]在云集群环境下,利用基于 Spark 的并行 K-means 算法对负荷数据进行聚类分析出日特征曲线,并将其作为基准值辨识和处理不良数据,缩短了计算时间,在海量数据下具有明显优势,但是在数据量不足时无法得出有效的特征值曲线。文献[6]通过GSA肘形判据对量测数据进行最优聚类,获得一组唯一确定正确的数据组,拟合负荷变化,但是在简单的日负荷不良数据辨识的实际应用中得不到较好的效果。文献[7]利用ARMA模型拟合电力数据,将具有较大拟合残差的数据作为不良数据剔除,但是该方法具有较大的随机性,不利于电力系统的稳定运行。文献[8]利用新息图法,能够单个量测坏数据和参数错误同时存在的情况进行辨识,但在多不良数据情况下辨识效果较差。文献[9]利用图论的方法推导所给系统中量测值之间的数学关系,并且充分考虑其相互校验作用,提高不良数据辨识的可靠性,但算法耗时较长。这些算法都通过大量的数据频繁迭代来实现不良数据的辨识,算法的复杂度高,在多不良数据情况下无法有效辨识不良数据。本文基于多不良数据情况,对模糊C均值聚类(Fuzzy c-means, 简称FCM)算法进行基于分化距离作为判据的改进分析。

FCM方法是一种基于模糊隶属度,根据有效性指标聚类的无监督学习算法,可以对数据库进行有效分类处理。在不良负荷数据辨识中可以将具有孤立特征的数据点分离,但在海量数据情况下计算量大,且容易模糊不良数据的类别,无法在多不良数据状态下进行有效地辨识和剔除。为了减少误判漏判,准确地识别出不良数据,构建一个更加完备优秀的数据库,本文提出一种分化距离改进的FCM用于不良数据辨识。结果表明,该方法能够有效识别不良数据,所得数据库对于提高负荷预测精度具有工程实用性。

1 数据预处理

对于电力负荷而言,有诸多影响因素如温度、国民经济等。这些因素,通常具有较大的不确定性,例如国民经济发展水平、气候条件;除此之外,用电单位和设备的特性以及用电方式变化,这些都是变化且难以预测的,并且对负荷的大小具有决定性意义。因此,综合考虑影响负荷因素在不良数据辨识中尤为重要。

在进行数据分析时,首先考虑温度和气候这些不可控因素。日最高温、最低温采集自中国天气网。气候因素如日照强度,湿度影响人体舒适度,部分参与影响人的用电行为,参考文献[10],量化天气类型如表1所示。考虑到本文针对日负荷不良数据辨识,一日中天气类型并不单一的特点,细化两两气象间关联性关系量化天气类型,量化特征指数如表2所示。根据量化出的天气特征值表示日照强度、湿度等气候因素对负荷的影响指数。

表1 天气类型及其对应的量化值

表2 天气特征值数值表

除了这些影响因素外,还有一些其他因素如人均消费水平、项目经费指标等也对负荷的大小具有影响。对于日负荷来说,这些因素变化缓慢。对于长时间范围的负荷大小记录分析发现,负荷的变化总体呈现稳定的增长趋势;而对日负荷影响因素而言,受这些因素影响变化趋势基本为零,故忽略不计。

2 改进的FCM算法

2.1 FCM算法

FCM算法是一种基于划分的聚类算法,通过对数据对象之间的欧几里德距离迭代计算,使得具有相似特征的数据聚成一类。它的主要思想使得划分到同一类别中数据对象之间具有最大的相似度,而不同类之间具有差异性。相对于传统K-means算法,FCM一种柔性的模糊划分[11-12]。

2.1.1 模糊集基本知识

隶属度函数表示一个对象x从属于数据集合A的程度函数,记做μA(x),对象x为集合A所在空间包含的所有数据对象,隶属度取值范围[0,1],即0<=μA(x)<=1。μA(x)=1表示x∈A,即x完全从属于A。定义在空间X={x}上的隶属度函数等价于定义了一个模糊集合A,即定义在论域X={x}上的模糊子集A。对于有限个对象x1,x2,……,xn模糊集合A可以表示为

A={μA(xi),xi} |xi∈X}

(1)

每个数据点隶属于某类的隶属度用[0,1]区间内的值表示。

2.1.2 FCM算法及其缺点

FCM算法流程图如图1所示。FCM也称作模糊ISODATA,通过隶属度确定每个数据点属于某个类的程度,从而划分数据点类别。FCM把n个向量xi(i=1,2,…,n)划分为c个模糊组,求取使得非相似性指标的价值函数达到最小时的每组聚类中心,从而得到最佳聚类。相较传统聚类而言,FCM用模糊划分类别,即样本数据点对各个类别的隶属矩阵U用[0,1]内的值模糊定义。由于进行归一化处理,则一个数据集的隶属度的和总等于1。

图1 FCM算法流程图

(2)

则FCM的价值函数如下:

(3)

构造如下新的目标函数:

(4)

式(4)中,λj(j=1,2,…,n),n个约束式的拉格朗日乘子,通过对所有输入参量求导,得到使价值函数达到最小的必要条件:

(5)

(6)

由这两个必要条件可知,FCM是一个简单的迭代算法。在进行数据批处理时,FCM通过以下步骤确定聚类中心ci和隶属矩阵U:

步骤1:用 [0,1]内的随机数初始化隶属矩阵U,使其满足式(4)等式约束。

步骤2:计算c个聚类中心ci,i=1,…,c。

步骤3:计算价值函数。当满足价值函数小于设定的阈值或所求价值函数相对上次值变化量小于某个阈值,则算法停止。

步骤4:计算新的U矩阵。返回步骤2。

本文通过Matlab实现FCM算法程序,流程图如图1所示。

单一的FCM算法无法准确有效地剔除不良负荷数据,在数据量不足的情况下,电力负荷的孤立点容易被作为离群数据剔除,真正的离群数据和优秀的负荷数据容易由于特征值的选取被聚到同一类当中。所谓的孤立点,即没有足够多的相似输入的点。在后续离群点剔除中,由于没有相似输入,容易会被判定为错误数据,其实是由于数据量不足造成的不具备有足够的相似输入。因此本文提出了基于分化距离改进的FCM算法。

2.2 考虑分化距离的FCM算法

基于两极分化的思想,综合考虑对象之间的密度和距离,本文提出了分化距离改进的FCM算法,在聚类的基础上能够精准快速地发现离群点。双重不良数据辨识屏障有利于构建一个更加优秀的电力负荷数据库。

2.2.1 分化距离

经过FCM处理后,分别计算各类别中任意俩个数据点xi和xj之间的实际欧式距离D(i,j)和最大距离Dmax,选取一个 [0,1]内的数值作为分化度μ,对全部D(i,j)进行分化计算[13-14], 即放大数据对象之间的距离,得到处理后xi和xj之间的分化距离为r(i,j),其关系式:

(7)

分化距离的思想实质是比较分化度μ与D(i,j)与Dmax的比值,若比值小于μ,则会缩小比值使得分化距离小于实际距离;反之,分化距离会被放大。比值和μ的差值与分化距离呈现斜率增大的反比趋势,即差值越大,其分化距离就会越小;差值越小,其分化距离反而越大。通过分化处理,聚类中关联性大的数据更加紧密,同时分离具有差异性的数据,使得离群点距离正常值更远,从而达到两极分化的目的。

2.2.2 算法流程

基于分化距离改进的FCM不良数据检测算法的基础是基于数据密度和距离的离群点检测算法。通过讨论数据对象邻居密度来判定其是不是不良数据点。

假设数据集质心到所有数据点距离的平均距离为Adistance,定义R,代表数据对象周围的距离大。

(8)

则对象周围的邻居密度即该对象R范围内其他数据点的个数。当友邻居密度即邻居点个数小于设定数目Knum,则被认为是离群数据,即不良数据点。通过比较r(i,j)和R的关系,不用计算最大距离,即可判断对象邻居点的个数,简化算法流程,提高了算法的效率。

算法步骤如下。

(1)输入聚类所得数据集,分化度μ,最少邻居数Knum。

(2)计算聚类各类别中质心及Adistance。

(3)计算数据集距离R1和数据对象xi的分化距离r1(i,j)。

R1=μ·Adistance

(9)

(10)

(4)比较r1(i,j)与R1的关系。若r1(i,j)Knum,中断该数据对象进入下一个数据对象的K计算,否则遍历所有邻居点数目。

(5)不满足K>Knum的数据对象作为不良数据剔除。

3 算例分析

本文采用华南地区某大学126日负荷作为历史数据库分析。首先将负荷影响因素按聚类原则将负荷类型分类。在同类数据中,通过分化距离判断数据是否异常,对该大学数据进行不良负荷数据辨识,结果如图2所示。圆点表示优秀数据,正方形表示不良数据,不良数据如表3所示。

图2 不良数据辨识

表3 聚类不良数据分析

由表3可知,用电量493.6 kWh和用电量292.0 kWh具有相似的特征值输入,输出均偏离该输入下应有的输出,电量值具有离群特性,可作为不良数据剔除。通过查阅相关信息,用电量为493.6 kWh当天,某试验室通宵开放使用大功率实验仪器;用电量为292.0 kWh当天,某试验室人员由于集体活动未在实验室工作,因此出现用电量异常。因此本方法能够识别出异常数据。

进一步采用预测算法对原数据、简单聚类不良数据剔除后的数据、分化距离剔除不良数据后的数据,基于分化距离改进FCM不量数据剔除后的数据库分别进行预测校验,预测结果见表4。

由表4结果表明,通过本文所用方法不良数据个数为6,能在传统聚类方法的基础上,结合分化距离的优点,准确地辨识出隐藏的不良数据点,有效地提高了不良数据的辨识效果。所得历史数据在预测校验中的预测精度为7.91%,有利于负荷预测数据库的构建。从表4分析得出,本文提出的算法执行速度优于单方面考虑两种算法,在改善辨识精度的同时提高了算法效率。

表4 算法结果比较分析

4 结语

本文在对普通FCM应用于不良负荷数据辨识的研究基础上提出了一种以分化距离作为判据识别不良数据,并将其与FCM相结合形成基于分化距离改进的FCM算法。

本文将该方法应用于某大学的不良负荷数据辨识,通过仿真对不同方法进行简化处理后的数据库仿真可以发现,与传统的FCM方法相比,该方法可以寻找出隐藏的不良数据点,可以有效避免数据淹没。与分化距离方法相比,该方法基于聚类,细分数据类别,客观准确地识别不良数据,并且相对原方法,简化了算法运算范围,提高了计算速度。在海量数据情况下,该方法能够有效辨识多不良数据,具有很好的应用前景。

猜你喜欢

离群分化聚类
一种傅里叶域海量数据高速谱聚类方法
基于相关子空间的高维离群数据检测算法
两次中美货币政策分化的比较及启示
一种改进K-means聚类的近邻传播最大最小距离算法
分化型甲状腺癌切除术后多发骨转移一例
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
鲁政委:房地产同城市场初现分化
新兴市场货币:内部分化持续
随感
近荷独坐