基于电力大数据的多源异构数据融合技术研究与应用

2020-02-05毛先胤马晓红

电力大数据 2020年8期

毛先胤，文屹，马晓红，黄欢，张辉，余容

（1.贵州电网有限责任公司电力科学研究院，贵州贵阳 550002；2.中国电建集团贵州电力设计研究院有限公司，贵州贵阳 550000）

随着我国电力系统发展的规模不断扩大，通信技术、互联网技术、传感器等新科技的不断发展，电网数据的数量及种类已开始呈现出爆炸式的增长趋势，电网发展已经逐步迈入大数据时代。由大量监测设备采集、各监测分析系统以及计算机系统分析产生了的海量形式结构不同的数据，这些数据从全方位反映着智能电网的运行环境与运行状态，已成为非常珍贵的资源。而如何迅速筛选并充分利用海量数据堆中的有用信息，是目前电力系统建设面临的巨大挑战［1］。因此对多源信息进行融合已大势所趋。它可以把来自多方面的数据融合在一起，实现对杂乱无章的电网数据整理并得出关于研究对象更详细、全面的分析［2-3］。

1 电力大数据

1.1 电力大数据的应用需求分析

随着电力企业朝着集约化、经济化的发展，整合电力大数据挖掘电力大数据的潜能，实现电力企业的可靠、安全、高效、经济化运营成为一个亟需解决的难题。一个高维复杂的电力系统包含有电力流、业务流、故障流、信息流和气象流等不同的数据流。电力系统内部各类数据的流向以及电力大数据的应用架构如图1所示。电力大数据的应用架构包括各个环节，主要由电力数据的采集、MIS系统、电能计量系统、存储系统、大数据处理系统以及数据检测系统、预测系统数据、电网运维监测管理系统等构成。

电力大数据在电力企业中的应用前景十分广阔，在单独的电网应用系统中，通过单独应用实现其使用的价值，如电网运维监测中的输电线路覆冰监测系统直接应用电网覆冰监测，实现对输电线路覆冰厚度的估算预警。同时也可以通过打通与各个系统之间的通道实现系统之间数据融合及共享使用，如输电线路山火监测系统、输电线路覆冰监测系统、输电线路地质灾害监测系统，输电线路用户管理系统构建一个大数据平台。基于此进行数据挖掘与分析，构建电力输电线路安全风险综合评估系统，实现对输电线路状态的风险评估，及时下达输电线路运维任务，并制定输电线路运维管理策略，发掘出以往不可能实现的应用［4-5］。

1.2 电力大数据存在的问题

1.2.1 电力大数据缺乏统一的标准

随着电网信息化、数字化建设的不断加快，电网信息化程度逐年呈上升态势，与电力相关的各个企业对电网信息化建设的投资也逐年增大，但是不同省级电网企业的信息化建设相对独立，缺乏统一的标准与规范；而且同一个电力企业内部，会根据不同部门的实际需求，开发出的系统仅仅是针对某方面的应用，可扩展性比较差。它们在开发的语言、开发的框架、开发的标准、数据的存储格式、系统的结构上存在比较大的差异，系统之间难以打通形成共享，造成信息利用的连贯性比较差，同时造成资源的浪费，在整个电网中，形成了多个“信息孤岛”，进而影响了整个南方电网甚至是国家电网的的电力发展战略［6］。在电网企业中，内部的调度中心运行方式与电力自动化控制、继电保护等电力管理部门各自根据业务的需求建立了不同的数据库和数据模型，不同的数据库的数据编码格式与存储模式都有所不同，导致多元电网运行参数不一致，无法共享参数信息，互相辨识数据，缺乏彼此协同机制与一致性，进而使得数据在电网企业内部也不能实现数据的共享，各系统之间的数据的协同作用无法发挥出来，在企业的内部电网中就形成了“一个电网，多套数据”的问题，对电网建设的可持续发展十分不利。

1.2.2 电网企业协作比较困难

在现代电网企业的发展中，特别是智能电网企业发展中，只有电网企业内部各个部门以及电网企业之间相互协调、相互协作，才能够有效地完成电网自动化调动；统一协调管理、运营等，只有在电力大数据统一运行与管理的情况下才能够实现。现代电网中，尤其是智能电网的发展，企业中各个部门之间、各企业之间相互协调协作才能更好的完成电力业务的自动化调度、运营以及管理。例如电力数据需要按照业务的流传模式从一个部门转移到另一个部门时，或者数据从上级发送到下级以及不同的部门在数据共享时，当数据的格式、标准不同，需要通过数据的转换才能实现数据的共享，进而造成部门之间、电力企业之间协作繁琐、数据共享效率低。

1.2.3 电力大数据发展与电力企业的发展不一致

电网逐步向智能化迈进的过程中，电网的高效安全可靠的运营需要依赖数据的交换。在电力企业设备建设的过程中，不同区域因各自的区域特点往往会采用不同的电力设备，在不同的区域与地点，就会产生大量的结构化与半结构化的数据，如何有效实现这些电力大数据的融合，实现数据的统一与共享，成为电力企业在发展过程中面临的主要问题。因此，在电力企业发展的过程中，需要解决电力大数据与电力企业统一管理的标准，将多源异构的电力大数据融合在一起，形成一个统一的数据标准，以便于实现电力大数据的互联互通、交换共享。

因此，亟需一套行之有效的多源异构融合算法使得多源异构的电力大数据融合。实现电力大数据的互联互通、交换共享，以便实现各企业、各系统的协同，充分发掘电力大数据的潜在价值［7］。

1.3 数据融合

数据融合是一项新兴技术。它能够在设计好的一套完整的算法结构内对所采集的数据按照预定规律进行自动的关联和特征提取，能够更迅速的进行研究对象的状态评估和决策任务的信息处理。

信息融合可从以下三个层次进行描述，如图2所示。

数据融合的作用主要有以下三种。

（1）电力系统中信息采集点在一定范围内感知到的数据可能会存在数据冗余性，在一定程度上占用了有限的带宽。

（2）在数据传输中，多个数据采集点的数据利用单通道影响数据传输速度，造成数据拥塞，增大数据处理时延。

（3）单一的数据监测系统当遇到故障时，如果仅仅依赖故障监测系统采集的数据会造成错误数据的蔓延，造成整个线路状态分析不准确，扩大电网线路故障范围。

传统数据融合算法主要利用反向传播（back propagation，BP）网络。传统的BP神经网络从性能方面看，收敛速度慢，在BP网络中，BP算法决定收敛速度关键的两个因素就在于学习率参数和相关传递函数导数数值的大小；局部极小点有待改进。BP算法下降沿着负梯度方向时，其误差函数达到了梯度0状态时，阈值、权值的更新就会停止。当误差函数是严格的凹函数，存在着唯一极小点，也就是全局最小点，最终得到最优权值、阈值。当误差函数不是严格凹函数的时候，此时的局部极小点在全局来看并不一定是最小点；从结构上看，其网络结构不确定、学习率难以选取。网络结构的确定主要关键在于两个数值，即网络隐含层数目和神经元个数。通常来说，这两者的数目的变化都会直接造成网络结构的改变，网络隐含层数目过大会出现过拟合现象，隐含层数目过小，网络学习和逼近性能就会变差。一个性能良好的网络结构离不开准确的隐含层数目和和神经元数的选取。只是目前还没有一套完整的理论体系适用于如何来确定网络结构中最合适的网络隐含层数目及神经元个数，只能凭经验和实验探索。

2 基于MapReduce的Hermite正交基前向神经网络融合算法

2.1 Hermite正交基前向神经网络算法

Hermite正交基前向神经网络从多项式插值和逼近理论出发，是一种以正交多项式作为隐含层神经元的激励函数直接确定权值的神经网络算法。本算法省略掉繁琐的迭代训练过程，极大的节约了网络训练时间。Hermite正交多项式激励的前向神经网络模型如图3所示。Hermite正交基神经网络采用三层前向结构，该前向神经网络采用了一组Hermite正交多项式函数为隐含层神经元的激励函数，而其输入层和输出层神经元使用线性激励函数并巧妙固定其权阈值［8-9］。

2.2 MapReduce模型

Hermite正交基前向神经网络算法本身设计是适用于少量严格样本数据，并不适合处理大数据样本。在处理大数据时存在耗时长、I／O操作频繁甚至计算不出权值的问题，从而导致内存不足。况且在目前智能电网的日常监测与检测中时时刻刻都在采集数据，所获得到的数据量并不是只依靠算法这一种工具能够有效处理的。而MapReduce（分布式处理框架）可在集群上并发处理大数据集。MapReduce一共包含两个部分，一个是“Map”对应“映射 ”，一个是 “Reduce”对应 “归约 ”［10］。MapReduce可以将大数据样本集自动地被分为很多个数据块，每一个数据块对应一个计算任务，并自动调度计算节点来处理相应的数据块。作业和任务调度功能主要负责分配和调度计算Map节点或Reduce节点。同时负责监控这些节点的执行状态，并负责Map节点执行的同步控制。为了减少数据通信开销，中间结果数据进入Reduce节点前会进行一定的合并处理。一个Reduce节点所处理的数据可能会来自多个Map节点，为了避免Reduce计算阶段发生数据相关性，Map节点输出的中间结果使用一定的策略进行适当的划分处理，保证相关性数据发送到同一个Reduce节点；此外，MapReduce还进行一些计算性能优化处理，如对最慢的计算任务采用多备份执行、选最快完成者作为结果，提高处理速度从而达到系统优化的目的。同时节点硬件（主机、磁盘、内存等）出错和软件出错，MapReduce能检测并隔离出错节点，并调度分配新的节点接管出错节点的计算任务［11］。

MapReduce从客户的任务提交到任务完成的全过程主要依靠 Client、Job Tracker、Task Tracker、HDFS四个独立部分。Client（客户端）主要任务是编写调制程序以及程序任务的提交。Job Tracker协调作业的运行，对并行处理进行管理，负责整个节点群的资源配置及任务规划。Task Tracker运行作业划分后的任务，一个是从Job Tracker接受并执行命令，一个是将工作完成状态依靠心跳机制向 Job Tracker进行反馈。HDFS（分布式文件系统）用来在实体间共享作业文件，主要使用其数据高吞吐量优势对访问程序进行保存，并且HDFS可以实现流动数据的形式访问数据中心。

2.3 基于MapReduce模型算法的并行化

将一个大样本分解为多个小样本并且由多个处理器分别计算的并行计算，其与传统串行计算相比，明显提高了运行效率。基于MapReduce模型的Hermite正交基前向神经网络算法的并行处理流程图如图4。

在Hermite正交基前向神经网络方法在作业时，具备数据块分别处理时各自独立的特点，因此可以将Hermite正交基前向神经网络方法结合MapReduce对其并行化处理。在样本数据集融合起初使用Map映射机制可将样本数据集等分为子数据集1、子数据集2…子数据集n，然后根据任务分配节点分配到各任务执行节点，最后结合本文融合算法按照规定的指标进行数据融合，并通过多个Reduce函数把每一个节点计算处理的子集进行汇总。

2.4 基于MapReduce并行化模式下的数据融合

在当前电力大数据背景下，基于分布式系统基础架构Hadoop平台，利用HDFS进行海量数据存储，利用MapReduce为电力大数据分析提供快速处理能力［12］。本文使用风力发电厂的发电功率预测为目标，其数据并行处理的步骤如图5。

基于MapReduce并行化模式下的数据融合关键步骤如下。

（1）数据离散化。根据本文的目标，需要采集的数据多为历史发电功率、温度，风速，气温，湿度等。数据的离散化处理目前仅仅需要针对连续变化的数据进行处理，其中开关量、枚举量均为离散变量，无需离散化，现阶段的数据离散化方法主要是等距、等频以及基于聚类的方法。根据本文处理的数据有温度、湿度、发电量、历史发电功率、气温等等，因此采用了等距离散方法。

（2）数据矩阵化处理。假设向量N是某一时刻采集到的数据，N＝（n1，n2，…，nm，t）。其中 m表示维数，ni表示第i维样本数据取值，t表示采集时刻。某一个风机某一时刻采集到的数据矩阵为Nq：

则在某一时间段内多个设备所收集到的数据为矩阵M：

（3）根据基于MapReduce并行化算法进行训练预测。

3 实验

3.1 实验环境

本文在分布式系统基础架构Hadoop平台上结合风电场采集的数据，对海量数据进行融合分析，发现其关联关系，对输出功率进行预测［13］。HDFS采用了主从（Master／Slave）结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件的访问操作；集群中的DataNode管理存储的数据［14-15］。根据前文所提到的MapReduce数据处理过程特点，构建10台电脑配置相同的节点组成整个实验平台建立基础，其中1台机器作为Name Node和Job Tracker服务节点，另外9台作为Date Node和Task Tracker服务节点，在Eclipse开发环境上实现。

本实验中分布式系统基础架构Hadoop集群平台各节点机器的配置如表1。

表1 各机器配置Tab.1 Configuration of each machine

3.2 实验数据及评价指标

实验采用某风电场2019年8月风机的历史监测数据，其大小为5GB，并选取相电流（A）、有功功率（kw）、无功功率（kw）、齿轮油温温度（℃）、齿轮箱轴承温度（℃）、发电机温度（℃）、相电压（V）、机舱温度（℃）、环境温度（℃）、风向角（°）、总电量（kW·h）、风速（m／s）状态参数作为数据输入，对风电场发电功率进行预测分析。

针对风电场发电功率预测目标本实验采用标准误差（RMSE）、平均绝对百分误差（MAPE）两个评价标准当作最终结果的评价标准。标准误差的公式如下：

式中Yt表示预测值，yt表示实际值，n为预测点的个数（n＞1），根据标准误差的计算结果，标准误差越小则说明预测效果越精确。

平均绝对百分误差 MAPE（mean absolute percentage error），表示误差整体的情况即预测数据整体上和实际数据的匹配程度，其表达式为：

其中Yt表示预测值，yt表示实际值，n为预测点的个数。对于MAPE值大小代表预测的准确度，当MAPE值越小时，其预测越准确。

3.3 实验分析

本实验将BP网络算法、本文算法进行比较，在通过上文的误差分析求得两种算法的标准误差（RMSE）和平均绝对百分误差（MAPE），从表2可以看出，无论是标准误差还是平均绝对百分误差，本文算法相对于传统BP算法在误差值上均有所降低，且平均绝对百分误差的波动更小，本文算法的结果相比于BP神经网络算法更接近于真实值。精度更准确的原因在于Hermite神经网络算法以正交多项式作为隐含层神经元的激励函数，且仅需一步就可以计算出网络连接的最优权值，在对变量进行选择训练时不仅能实现数据融合，还能保留原始数据的特征信息，这样才使结果更逼近于真实结果。

表2 两种算法标准误差对比Tab.2 Standard error comparison of two algorithms

为了全方位及准确地验证本文算法的优势，下面从计算时效性方面考虑，下面从计算时效性方面考虑，本实验将数据分为四组，将数据扩充后分别取5GB、10GB、40GB、120GB，分别记录其在传统单处理系统的时间及在本文中MapReduce系统处理的时间，分别采用传统方法与本文算法进行实验对比。以处理时间为衡量标准，四组数据下两种算法分别用时如表3。

表3 两种算法并行运算消耗时间对比结果Tab.3 Comparison results of parallel operation time of two algorithms

由表3可以看出，当数据集较小时，两种算法数据处理效率差异不显著，随着数据量逐渐增多，分布式系统基础架构Hadoop平台表现出高效的处理速率。与传统算法比较而言更适合于电力大数据的处理。集群相对传统处理速度接近2.5倍。

4 结论

本文介绍了Hermite正交基前向神经网络的数据融合方法，同时为了应对大数据海量的特点，结合了MapReduce并行化模式将本文算法进行并行化。通过借助分布式系统基础架构Hadoop搭建大数据处理平台，以风电场发电功率预测为例，并与传统BP网络算法数据融合效果进行比对。发现本文算法较BP算法不仅在功率预测精度上有明显效果更有效的缩短数据处理的时间，从而在时效性上更能满足电力系统的要求。给智能电网大数据分析与处理理论提供了有益的研究价值。