APP下载

电力大数据的多数据流实时处理技术研究

2022-11-25国网信息通信产业集团有限公司刘才华稂龙亚国网湖北送变电工程有限公司王思奇国网湖南输电检修公司

电力设备管理 2022年4期
关键词:数据流滑动数据处理

国网信息通信产业集团有限公司 刘才华 稂龙亚 国网湖北送变电工程有限公司 王思奇 国网湖南输电检修公司 姜 胜

近些年来,随着大数据的不断发展,实时计算已经成为各个行业发展中重点关注的问题。基于大数据背景下,各个行业每天都在产生海量的数据,但海量的数据在处理方面也有一定的难度,特别对于电网输电设备来说,由于每天所产生的数据可能会达到上千万条,为加强对电力大数据的处理,有必要加强多数据流实时处理技术的深入研究,并发挥出多数据流实时处理技术的优势,全面提升数据处理的效率,进而有效的解决电力数据处理缓慢与存储困难等问题,以便更好的促进电力行业的良好发展。

1 电力大数据流计算服务体系

电力大数据流计算服务体系的主要目的就是对分布式多数据流处理的底层技术细节进行屏蔽,并利用性能较高的数据流计算能力、在线分析能力、关联分析能力等进行封装,并结合应用请求以及用户行为,设计与提供不同的流计算服务,以便打造基于不同用户的高层次概念模型。

1.1 电力业务人员的应该服务

从电力业务的应用特征出发,常见的数据流典型处理问题大多分为以下几种,分别是异常检测、时间窗口统计、在线转换清洗以及模型训练等等。而在电力系统的运行性,电力业务工作人员需要主动承担系统的相关系列任务,来实现数据流的有序、有效处理,借助相关的服务接口,将数据处理需求传达到计算、分析、资源监控等不同的层面,让广大的用户可以使用完成封装的处理模型,并进行相关的应用部署[1]。

1.2 电力数据分析的分析服务

数据分析是电力大数据处理中的重点,借助相关的运算可以围绕数据进行算法计算、模型评估以及系统管理等,借此来实现数据的处理。其中分析算法主要包含两部分内容,分别是单数据流以及多数据流的算法分析;模型构建评估则指的是经过训练获取数据挖掘模型,而模型评估能够加强数据挖掘模型准确度的深入分析,广大的用户也可以根据评估的结果对有关参数进行优化配置;模型流程发布,指的是发布数据挖掘模型的流程,从而为电力业务系统提供流式数据实时处理的功能;模型流程管理则主要包括版本管理、停用预测等,其主要目的就是对数据挖掘模型流程服务进行管理。

1.3 电力应用开发人员的编程服务

在大数据处理方面,电力开发方面的工作人员需进行编程处理,通过为其提供多种编程接口,如分布式消息队列输入、流处理初始化、数据转化等编程接口,开发人员结合实际应用,在相应的编程接口,对相应的电力业务实时逻辑进行编写,并利用参数调整,如计算模式、监听源地址等,将编写的程序等发送到电力数据实时流计算处理平台中,以便促使计算任务实现全面的部署。

1.4 电力运维管理人员的监控服务

电力大数据实时流计算处理平台,可以统一提供实时监督方面的服务,同时还能将有关的信息反馈定期的反馈到分级资源管理器,如数据规模、处理进度、资源占用等信息,然后分级资源管理器将监控信息反馈给中心资源管理器,实现分支信息与主干信息的有机联系,并以图、表等方式将流式计算任务的层级处理状态展示给电力运维管理人员。

2 电力大数据流计算技术框架

电力大数据流计算服务体系,需对先进技术进行综合应用,借此构建电力大数据实时流计算处理的平台,该平台的核心功能主要分为三个部分:数据即时采集、数据实时计算以及数据高效存储。

2.1 数据即时采集

电力大数据分析计算的重要前提就是数据采集,数据的实时采集能够为数据处理、建立模型提供良好的基础,但是数据采集与处理之间在同步方面还存在一定的问题,无法保证可以二者可以实现同步,这样一来就会产生一定的误差。对此,就需要建立数据缓存区,来加强对数据的处理,一般来说缓存区建立的方法有两种,分别是内存缓存、文件缓存,而二者的结合应用,可以有效的对性能以及数据安全问题进行科学的处理,从而保证了数据处理的安全和效率。

2.2 数据实时计算

处理采集到的数据,是电力大数据实时流计算处理平台中的重要环节,而数据的有效处理需要借助计算平台,利用滑动窗口的方式输入多电网数据流,并借助多数据流协同计算的方法,对数据流进行异步优化,从而有效的加强对多数据流的实时处理[2]。

2.3 高效数据存储

一般来说,当计算将结果与存储数据比较大的情况下,这时候就需要进行数据分流处理,当多数据处理结果比较小,且重要性不高时,可以将其存储到分布式列式数据库;但使用该方法进行存储,也有一定的缺点,即数据存储的稳定性不足,甚至可能会出现数据丢失问题。相反,当多数据处理结果比较大且重要性比较高,这时候可以选择分布式消息队列Kafka,然后将其存储到分布式列式数据库内,该方式发挥了Kafka 缓存机制的优势,保证了数据的稳定性,还能避免数据的不安全。

3 多数据流相关系数的计算

3.1 多数据流的挖掘与监测

通过对多个厂站不同时间点的设备进行数据监测,并对其进行分析,在此基础上提出有效的改进措施。借助这样的方式,电力系统能够采集到相关的大数据流,借助监测功能,能够确定工作状态等重要参数,每秒都可以对1min 内的数据实时采集和监测,但是由于监测的数据流比较大,会占用较大的存储空间,这就需要对使用空间进行压缩,使用滑动窗口来对电力大数据流处理步骤进行设计。如果滑动窗口的时间是1s,这时滑动窗口可以分为60个基本滑动小窗口,并对其阈值进行分析,借此对数据进行并行判断,在计算完基本视窗,并将60个基本视窗的离群值进行计算,而计算出的离群值就是需要挖掘的数据流[3]。

3.2 多数据流相关系数精确并行算法

为保证可以得到更准确的多数据流系数,可先设置a 条数据流,并将相关的数据流组成,使其成为矩阵,在此基础上得到a 阵阶数。而所得到的任意数据流的相关系数为,其中λa指的是滑动窗口数据的内积;Wa 指的是相关系数方阵的空间转换系数,λa的计算开销是最大的,从而可以起到促使存储空间的扩展,将a 阵阶数抽象到计算网络内,并为其配置相关的系数,来获得特定滑动窗口。并设置线程块索引方式,对数据流相关系数进行方阵索引,在所有的线程块中,使用2×104个线程进行并行计算,而其对应窗口中的2×105个数据位积,则使用协议算对其位积之和进行计算,并进行分段累加,如此得到λa,根据任意数据流中的有关系数来获取最终的数值。当行索引≤列索引时,线程块将不在下三角数组中。

4 数据流实时处理的计算方法

4.1 跨总线四层时序空间模型

滑动窗模型的最突出优势就是对不同粒度的时间单元进行了定义,即数据采集以及基本窗口滑动,在此基础上正式提出跨总线四层时序空间模型:第一层时序,该层的主要目的就是缓冲IO 数据,保证任意数据在采样时间内具有相同的安全标识符,并将所有的标识符相加,判断是否达到了相关的数据,如果没有达到,这时候可以选择使用线性插值的方法进行处理;第二层时序,该层设置了缓冲层,可以有效的减少设备间的数据交换次数,并缩短交换时间,从而提高数据并行计算的密度。数据缓冲层是大规模数据流并行处理方式中的最小单元,可以起到缓冲普通子窗口并更新其他窗口,促进缓冲层内部数据的实时更新;第三层时序,主要任务就是借助缓冲层将新的滑动窗口交换到GPU 设备存储器内,对数据流增量进行维护,汇总后将其传输到信息库中;第四层时序,可以存储截面矩阵的数据,并对复杂数据流进行挖掘。

4.2 空间复杂度降载

使用数据处理器对跨总线四层时序空间模型进行复杂度降载,设置存放计算结果的数组容量为a(a-1)/2,但由于多数据流相关系数的所处环境比较复杂,直接影响了计算效率,所以在处理相关问题的过程中,需要降低空间维度,从而提高大数据的处理效率[4]。

4.3 多数据流协同计算

多数据流协同计算,通过利用体系以及并行处理算法,并借助数据缓存层来进行任务的分析与合并,具体步骤如下:第一,建立数据流协同计算模型;第二,构建全部函数;第三,结合Worker 建立本地函数。通过全局更新,并建立和实施多数据流处理方案,可以将广域分布的读数据流,划分成若干数据块,并块数据块分别设置一名工作人员。而业务人员、分析人员、开发人员以及管理人员在具体的操作中会涉及到较多种类的服务器,主要就是对模型进行负责,而且模型的参数也分别存储在多个主服务器上,并根据水平进行划分。

5 仿真试验

5.1 试验配置及参数

以某省份地区为例,电力大数据量包含所有居民的实际用电情况,数据采集时间的间隔为一天,一天内居民用电数据大多是十几亿项,从中选取部分数据进行仿真试验,对所提方法的性能进行验证。使用三台配置相同的PC 主机展开试验。以110kV 变压器为例,并从绕组光纤测温属性数据中选择部分试验数据,并将滑动窗口时间设置为1min,对不同集群环境中的平均处理延时集群节点进行分析[5]。

5.2 平均处理延时测试

设置不同的数据量,测试处理延时。设置4个全局工作流,并对簇节点数以及滑动窗口处理的结果进行观察,对接收到处理的元组平均处理延迟进行统计。根据结果可知,数据量越少,数据处理的时间也越短,如当数据量在250GB 时,但由于群集的扩展,任务分配以及数据传输也会消耗一定的资源与时间,在拓扑模型处理数据时也会有一定的延迟,但随着资料规模的增大,系统处理能力也会逐渐显现,自然平均处理延时也会减少。

5.3 CPU占用率测试

为验证所提方法的空间压缩能力,可以结合CPU 占用量来进行分析,在系统内上传75-85MB大小的电力数据文件,并对所提技术应用后的耗能进行检验,结果显示应用后文件大小上升了,而CPU 占比也由5%下降到0.5%,可见在压缩数据的同时,大大的提高了系统的实际运行效率[6]。

6 结语

综上所述,如今电力大数据已经得到了广泛应用,为保证可以更好的满足大数据实时处理方面的需求,就需要加强多数据流实时处理技术的分析和应用。通过构建真实的环境进行试验,发现使用数据处理器可以大大的提升数据流的信息数据处理,同时也能有效的减少计算量,可以更快速、实时的对数据流进行有效的处理,让电力数据处理缓慢以及存储难的问题有效的得到解决。

猜你喜欢

数据流滑动数据处理
用于弯管机的钢管自动上料装置
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
基于低频功率数据处理的负荷分解方法
无人机测绘数据处理关键技术及运用
汽车维修数据流基础(上)
汽车维修数据流基础(下)
基于XML的数据流转换在民航离港系统中应用
针对移动端设计的基于滑动响应方式的验证码研究
Big Little lies: No One Is Perfect
AADL端对端数据流一致性验证方法