APP下载

基于Hadoop生态系统的电网量测数据共享技术研究

2022-03-24王新柱赵杰

电气传动自动化 2022年1期
关键词:数据管理架构电网

王新柱,赵杰

(江苏瑞中数据股份有限公司,江苏 南京 210000)

随着智能电网建设的逐步推进,智能电网的业务应用也在不断地完善和升级,这对于数据的接入和数据的共享提出了更高的要求。而目前电网量测数据从接入、存储到访问和应用开发,均未有相关标准进行规范化要求,不利于电网量测数据的深化应用和高效管理[1-2]。由于各个系统的接入方式、存储模型和访问模式没有进行规范化处理,这就导致了无法对数据进行高效的利用。因此,需要对接口访问规范和采集量测数据共享技术进行深入研究,提出科学、有效的解决方案,为智能电网的构建提供有力的技术支持[3]。

1 电网量测数据共享问题分析

由于电网量测数据的种类繁多,数据来源具有异源性和异构性,并涉及到电力系统的方方面面,因此在数据共享方面普遍存在以下问题:

(1)数据异构现象严重。在智能电网构建过程中,由于系统构建的阶段性、技术性及其他一些人为因素影响,导致了业务种类繁多和存储方式、数据格式、数据编码等不规范、不一致,并造成了数据无法进行有效共享[4]。

(2)数据存储效率低下。由于部署在智能电网中的业务系统功能复杂,多个业务系统产生的数据包括实时数据、历史数据、日志数据、多媒体数据等多种门类的数据,数据分布也比较杂散,使得数据资源不便于进行统一的访问和管理。此外,急剧增长的电网量测数据也对数据存储提出了更高的要求[5-6]。

(3)缺乏规范化、统一化的体系。数据共享平台虽然是依据公共信息模型为基础进行构建的,但是在实际的设计过程中存在数据粒度不一、存储标准多样、执行效率低下、数据规范多样的问题,严重影响了数据共享工作的顺利展开和推进[7-8]。

(4)智能电网的运行中会积累海量的量测数据,其中涵盖了很多有价值的信息,如何将这些数据转换为实际价值意义重大。基于数据共享构建大数据平台,采用数据挖掘技术等能够有效提取量测数据的内在价值,将潜在的数据价值挖掘出来,发挥其重要作用。

目前,电力系统数据共享模式是基于统一的数据中心为基础实现的,数据共享普遍采用的是传统的方法进行数据的提取、转换,基于传统的关系型数据库进行数据存储,这就造成了异构数据的不易存储性、低扩展性、低吞吐性[9]。本文基于Hadoop生态系统为出发点进行研究,实际上是一种分布式数据处理和存储方法,对电网量测数据进行深度处理、挖掘,从根本上实现了电网量测数据的高度共享,实现了数据资源的优化配置,便于智能电网对大数据进行高效的、科学的管理。

2 Hadoop生态系统

Hadoop生态系统在大数据分析处理领域占据主流地位[10],其基本框架如图1所示。最关键的部分是底层的Hadoop分布式文件系统(HDFS)和MapReduce框架,此外还包括了的HBase数据库集群和ZooKeeper集群,二者都与HDFS文件系统和MapReduce框架紧密关联。Hadoop生态系统具有完整性、多样性、开放性的特点,为大数据提供了科学、有效、合理的解决方案[11]。

图1 Hadoop生态系统架构

3 基于Hadoop生态系统的量测数据共享平台

3.1 电网量测数据共享架构

基于本文所研究的电网量测数据共享平台,其在技术承载上主要包括标准体系、服务管理、接口服务和共享功能等四个模块[12],其具体的组织架构如图2所示。

图2 电网量测数据共享架构

(1)标准体系:即构建采集量测数据从接入、存储到访问和开发的一整套标准化体系,支撑采集量测数据全过程的规范管理。

(2)服务管理:包括提供采集量测数据接入和访问接口的监控,采集量测数据接入和访问的安全认证,采集量测数据相关元数据管理。

(3)接口服务:即对外提供的接口服务。包括提供支撑原有海量平台应用迁移的UAPI接口服务,提供服务化的Restful接口。

(4)共享功能:主要包括连接管理、数据接入、数据查询、数据统计、模型管理和跨库查询等功能。

3.2 数据集成方法

根据智能电网全业务统一数据中心建设要求,以大数据平台作为基础,逐步推进电网量测数据的接入,再利用大数据平台的计算资源和存储资源,为业务应用提供采集量测数据的支撑服务。其主要的技术路线是指定完善统一的接口调用规范,按照Restful的架构通过对量测数据访问组件的服务化,实现外部应用与大数据平台HBase解耦,为外部应用访问大数据平台量测数据提供统一的接口,同时对访问全过程进行监控,总体集成方案如图3所示。

图3 电网量测数据总体集成方案

全业务统一数据中心电网量测数据共享服务构建项目通过调用HBase底层API实现对大数据平台采集量测数据的访问功能,对外提供共享访问服务并对访问全过程进行监控。需与大数据平台进行集成。数据集成原理如图4所示。

图4 电网量测数据集成原理

采集量测数据共享服务包括后台访问服务部署单元和前台访问监控应用服务单元。其中,后台访问服务部署单元主要是对大数据平台列式存储和关系数据库中的量测数据和档案数据进行关联查询并提供对外访问服务;前台访问监控应用服务单元主要通过界面可视化提供接口权限配置及接口访问情况监控等方面功能。

3.3 数据访问功能

在采集量测数据访问过程中,主要通过建立HBase二级索引、高效的采集量测数据分布式缓存结构两种技术实现采集量测数据的高效访问。

(1)建立HBase的二级索引

目前采集量测数据是存到大数据平台HBase之中的,存储模型行键基本是通过地域、时间及量测类型等进行组合设计。但由于HBase的一级索引就是rowkey,我们通过rowkey进行查询能够支持毫秒级的快速检索,但是对于多字段的组合查询却无能为力。为了满足业务应用对于采集量测数据多维度的查询需求,我们通过创建HBase的二级索引,基于Solr的HBase多条件查询,将HBase表中涉及条件过滤的字段和rowkey在Solr中建立索引,通过Solr的多条件查询快速获得符合过滤条件的rowkey值,拿到这些rowkey之后在HBase中通过指定rowkey进行查询将大大提高数据的访问效率。其访问机制如图5所示。

图5 电网量测数据访问机制

(2)高效的采集量测数据分布式缓存结构

结合采集量测数据批量和断面两种访问方式的特点,对采集量测最新数据通过分布式缓存服务实现断面缓存结构和批量缓存结构的存储。当业务应用使用查询接口发出查询数据请求,首先在分布式缓存服务中查找数据,如果查找到则返回,如果未查找到,再根据接口类型在Hbase中查找对应表查询对应的数据,从而达到采集量测热数据的高效访问。其数据存储架构如图6所示。

图6 电网量测数据存储架构

4 元数据管理方案

在建立数据共享平台架构的基础上,采用主从模式的数据仓库的数据集成模式,构建基于Hadoop架构的数据共享模型。该模型采用的是基于HDFS的元数据管理机制,对数据的操作是以数据块为单位实现的,主要由元数据结点、次元数据结点、数据结点三部分。HDFS的元数据由数据块属性、从属关系、所属位置三项因素决定。HDFS对元数据的管理采用“editlog+fsimage”方式实现,editlog负责记录元数据的操作记录,存储为操作日志,fsimage负责对文件系统进行映射。

5 结论

本文在研究智能电网数据化建设及数据管理现状的基础上,对基于Hadoop生态系统的电网量测数据共享模型进行了深入研究,重点包括了电网量测数据共享架构、数据集成方法、数据访问机制、元数据管理几个部分。该共享模型对于海量的、异源异构电网量测数据的深度处理和集成具有重要作用,有效解决了智能电网数据扩展性低、吞吐性低、容错性低、安全性低的问题。结合提出的数据共享平台总体架构,为智能电网实现数据资源的集中管理、数据信息的深度共享、数据价值深度挖掘提供了技术指导,对智能电网大数据处理技术的发展进步具有重要意义。

猜你喜欢

数据管理架构电网
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
数字化电网技术在电网规划设计中的应用
穿越电网
航发叶片工艺文件数据管理技术研究
功能架构在电子电气架构开发中的应用和实践
构建富有活力和效率的社会治理架构
数据挖掘在学生成绩数据管理中的应用研究
数据挖掘在学生成绩数据管理中的应用研究
VIE:从何而来,去向何方