APP下载

基于改进FCM的多源异构能源数据预处理与去噪

2023-11-09李坚杨峰吴佳李平舟陈乐然付金凤

微型电脑应用 2023年10期
关键词:参数估计异构均值

李坚, 杨峰, 吴佳, 李平舟, 陈乐然, 付金凤

(国网冀北电力有限公司,北京 100052; 北京博望华科科技有限公司,北京 100045)

0 引言

电力调度系统中存在大量多源异构数据,其数据来源复杂且过于分散,导致数据共享度低、数据集成和融合性较差,无法对整体数据进行调控。同时,在电力调度控制系统进行数据采集时,受到环境、噪声等外部因素的干扰,使得数据出现缺失,严重影响后期调度效果。因此,对多源异构数据进行缺失填补,往往是保证电力正常运行的基本要求。陈娜等[1]采用跨模态聚合算法对该系统中的多源异构数据进行缺失数据填补,此方法只针对单一数据进行处理,但整体性较弱;张人上等[2]基于改进混沌系统的加密算法对通信中的多源异构数据进行扩频,在一定程度上提升了数据融合效果;王维嘉等[3]提出了FCM算法和MCMC算法等多种数据处理算法,然后利用多目标优化方法对多源异构数据进行识别和最优目标提取,以此完成多源数据的分类。但多源异构数据缺失仍是影响异构数据预处理的难题,且FCM算法本身也存在问题。因此,本研究尝试对缺失数据进行估计,通过FCM算法对数据进行去噪,以更好地实现多源异构数据的快速收敛,提升多源异构数据全局调控能力。

1 多源异构能源数据预处理

1.1 缺失数据填补

由于多源异构数据缺失严重影响了数据的完整性和稳定性,不利于后续关键数据的分析利用,因此,分别采用改进的混沌遗传算法(CGA)和马尔科夫蒙特卡罗(MCMC)算法估计多源异构数据中不完整数据集参数和缺失数据,加快更新速度,实现快速收敛,并提高参数估计精度,减小误差[4]。

1.1.1 数据参数估计

(1) 优化估计参数模型

若多源异构缺失数据集Y中含有k个属性,且Y=(Yobs,Ymis);参数φ=(μ,Σ)为不确定参数,μ、Σ分别表示数据集Y的均值向量和协方差矩阵。为更好地估计数据集参数,将采用极大似然估计算法和正态分别规律特性,构建包括μ和Σ的对数似然函数[5]:

(1)

式(1)中,μ=(μ1,μ2,…,μk)表示均值向量,为隶属数据各属性的均值,Σ=(σij)为属性(X1,X2,…,Xk)的协方差矩阵,表示数据各属性间的相关性,μ、Σ初始值取决于数据集Yobs[6],xi为数据记录i(i=1,2,…,n)对应属性的向量,缺失值数据用估计相应均值取代,n表示数据记录个数。

在估计数据集参数过程中,f(φ)的函数值越大,所估计的参数φ越准确[7]。基于此,可对估计函数值进行优化处理,确定缺失数据的目标函数,具体表示为

(2)

式(2)中,参数φ的适应函数为f(φ),其迭代过程中寻优概率取决于参数适应函数大小[8]。

(2) 参数迭代寻优

在参数种群中,可能存在大量的参数,通常选用遗传算法对参数进化寻优,但此方法存在局部最优问题,无法满足全局优化需求。为解决此问题,通过CGA算法加快收敛,进行混沌干扰操作,以快速找出最优解,实现全局最优。

(3)

(4)

式(4)中,ε主要通过寻优参数精度得到,表示为标准参数值。

1.1.2 缺失值估计方法

完成数据参数估计后,采用改进的MCMC方法缩小估计值误差值,具体步骤如下。

(1) 对参数φ(0)进行初始化处理。

(2) 对采集数据进行多次迭代,并利用MCMC对缺失数据进行估计,通过对数据进行随机抽样和缺失值填补后求得参数φ(t+1)。

(3) 迭代完成后,得到一条MCMC链,根据迭代结束条件将此链大小设置在合理区间内。

(4) 最后从该链中选出一个扩充链,利用该链扩充缺失值,从而获得多个估计参数值。之后为选出误差最小的估计值,选用均值方法对多个参数值进行拟合,从而实现缺失值估计。

2 基于FCM的多源异构数据去噪处理

2.1 FCM算法简介

模糊C均值聚类算法(FCM),属于一种柔性的模糊划分算法,在数据处理、图像识别分类等方面均取得较好的应用效果。算法流程如图1所示。

图1 FCM算法流程图

FCM算法受人为干预的影响较小,该算法在数据集过大或过多时,算法计算过程复杂,实时性较差。因此,为提高FCM算法的聚类准确性和实时性,对该算法进行改进。

2.2 相似性度量

相似性度量的基本原理判别2个数据间的相似性,常用方法为欧氏距离、余弦相似度、相关系数法等[9]。

其中,欧氏距离通过设置一个距离阈值,如式(5),并将此阈值作为评价标准进行评估:

(5)

余弦相似度在相似性度量中应用较多,其通过样本间的余弦值作为评判标准,以判别相似度大小,表达式为

(6)

该参数的区间为[-1,1],通过余弦值大小对相似度进行判断,两者呈反比关系。

2.3 基于FCM算法改进的去噪算法

(7)

得到改进算法为

(8)

若存在一个欧氏距离r,并将其设置为阈值,r取簇内全部样本点到聚类中心的加权欧氏距离的均匀值l,目标去噪数据完成聚类后,当dv(xt,vj)>r时表明此样本点是噪声点并进行删除,dv(xt,vj)

针对聚类中心个数k的取值,通常采用肘部法则(Elbow Method)进行表示。k与代价函数呈反比关系,代价函数随着k的增大而不断减小。两者的关系如图2所示。

图2 肘部法则

根据以上改进,得到改进后的FCM步骤如图3所示。

图3 去噪算法流程

当FCM进行计算时,数据量的增加可能增加计算量,使得计算过程更为复杂,为简化计算步骤,可对数据进行预处理。具体方法为通过K-均值聚类分割数据,并将其作为算法的初始聚类中心,从而实现快速收敛,迭代数和计算量减少,进一步提升实时性。

3 实验验证与分析

3.1 数据填补实验

3.1.1 实验环境和数据来源

为验证以上方案,在MATLAB和SAS环境下进行仿真实验,从配网调控系统数据库中选择多源异构数据报表作为实验数据。配网调控系统数据采集时存在大量干扰信息,导致数据缺失严重,采用本文填补方法对缺失数据进行填补。

3.1.2 实验对比结果

为验证提出的CGA数据填补方法的有效性,将CGA填补方法与最大期望算法(EM)和遗传算法(GA)进行对比实验,得到3种算法的参数估计过程如图4所示。

图4 3种算法参数估计过程

从图4可以看出,3种算法迭代在15时取得了目标函数,但CGA算法的目标函数最大,且提出的算法迭代次数更快,迭代至37时实现最优解,而EM算法和GA算法在120和80时才达到最优,由此说明本算法性能更为优越。

为进一步验证CGA算法对参数估计的准确性,将3种算法估计的绝对误差和相对误差进行对比,得到估计过程如图5所示。

图5 3种算法参数估计误差曲线

由图5可知,3种算法中,本文算法的误差最小,GA算法的误差最大,EM算法的误差位居第二。由此说明,本文算法对多源异构数据的估计准确率更高,明显优于另外2种算法。

以上述多源异构缺失数据为实验参数,将本文算法与EM算法和GA算法进行估计正确性对比,得到对比结果如图6所示。

图6 3种算法所得估计值误差曲线

从图6可以看出,本文算法的误差值均低于另外2种算法,特别在缺失数据5、6和8处的误差最大,说明采用本算法能够完成对估计值误差进行精准估计。

为了验证本算法在缺失率为10%、20%和30%下的性能,将其与EM算法和GA算法的均方根误差进行对比,结果如表1所示。

表1 3种缺失率下3种算法的填充数据精度对比

从表1可以看出,在不同的缺失率下,本文算法的估计缺失值误差依旧为最小,均优于另外2种算法,说明本算法对多源异构数据处理具有一定的有效性和稳定性。

3.2 数据去噪验证

3.2.1 实验数据和参数设置

同样选择电力调控系统中的700条数据进行验证,其中正常数据500条、异常数据200条,异常数据中的噪声数据30条。数据集中的kmin=10,kmax=30。

3.3.2 实验结果与分析

为验证改进的FCM算法的优越性,将该算法与经典FCM算法、K-均值算法和自组织映射算法(SOM)进行检出率和运行时间对比,结果如表2、图7所示。

表2 BCW数据集上的运行时间

图7 BCW数据集检出率对比

综合表2和图7得出,在聚类中心为30时,改进FCM算法的检出均高于另外3种算法,最高为94.51%,且运行时间均低于其他算法,说明改进的FCM算法具有较好的去噪效果,算法性能更佳。

4 总结

综上,本文提出的数据融合方法具备可行性和有效性,可实现对多源异构数据的有效处理,数据可靠性和稳定性显著提升,且采用的改进FCM去噪算法和CGA和CMCM填补方法均能取得较好的数据处理效果。实验结果表明:本文提出的缺失值数据填补方法对多源异构数据的填补效果较好,参数估计误差较小;改进的FCM算法在BCW数据集中的检出率最高为94.51%,算法性能优越。综上,以上方法可实现多源异构数据的有效处理。

猜你喜欢

参数估计异构均值
试论同课异构之“同”与“异”
基于新型DFrFT的LFM信号参数估计算法
异构醇醚在超浓缩洗衣液中的应用探索
Logistic回归模型的几乎无偏两参数估计
overlay SDN实现异构兼容的关键技术
基于向前方程的平稳分布参数估计
均值不等式失效时的解决方法
LTE异构网技术与组网研究
基于竞争失效数据的Lindley分布参数估计
均值与方差在生活中的应用