APP下载

基于电力企业数据中心的数据资产管理体系研究

2022-05-21张世超杨乘胜朱海东赵竟赵航张庭玉

电力大数据 2022年1期
关键词:数据中心负荷预测

张世超,杨乘胜,朱海东,赵竟,赵航,张庭玉

(1.中国华电集团有限公司,北京 100031;2.南京华盾电力信息安全测评有限公司,江苏 南京 210000)

当前国内关于数据资产管理的理论和实践还处于初始阶段,工业领域数据资产管理实力及能力参差不齐,企业往往对其自身的数据资产类别和数量都缺乏全面了解[1]。在数字化转型的背景下,多数企业正面临如何优化数据的集成、共享、应用和管理等方面的问题,在数据管理、应用方面的体系构建还有待进一步完善[2]。

中国信息通信研究院发布的《2018工业企业数据资产管理现状调研报告》对我国工业企业的数据资产管理现状从组织制度方面、信息化能力方面、数据监管方面做了初步的评估工作,其结论为国内工业企业大部分刚刚站在企业数据资产管理这条起跑线上,重要性认识已经基本到位,目前正在计划或开展相关的活动[3]。

行业内专家已开始探讨电力企业数据管理,在前期研究中,已有学者引入先进技术如泛在物联网技术、知识图谱技术来管理数据的全生命周期,以期挖掘更多的数据价值[4]。目前未明确发布符合电力数据特点的整体数据解决方案,在数据运维方面大多沿用传统的技术运维方案,对于数据退役,大型电力企业执行的是公文管理中对公文存储时间相关规定,对于数据的全生命周期管理鲜有制定或形成专门的办法规定。

综上,企业亟需建立一套集存储、统计、分析、展示于一体的统一数据中心,形成符合企业实际的数据资产管理体系[5],打通各个系统之间的壁垒,及时有效的反映企业整体生产和经营状况,实现信息化、智能化管理,切实提高工作效率和增强数据辅助决策能力[6]。

1 某电力企业数据现状与数据资产管理需求分析

企业为了明确将数据作为公司核心资产的理念,需要摸清公司数据管理能力现状,发现数据管理工作中的薄弱环节,严格依照国标、行标,对企业数据资产全生命周期业务范围进行成熟度评估。通过数据资产清单梳理、数据需求调研分析、信息系统数据共享分析等评估实践[7],发现企业数据管理方面存在的问题和不足。

1.1 数据集成现状

目前企业内各业务部门的信息化系统较为分散,数据互通能力不高,存在数据孤岛现象。管理层和决策层难以在第一时间掌握总体经营情况,各个部门之间的部分生产、经营等关联数据的交互产生滞后效应,给数据的挖掘、分析等工作造成巨大阻力,导致大量数据难以被有效利用,数据价值难以兑现[8]。此外,各个业务系统相对独立,存在重复开发的情况,维护过程耗费大量人力成本。系统数据标准存在不统一、不规范等情况,系统间数据存在冗余且较为散乱,导致数据资产管理存在一定的困难,造成数据资源的浪费。

1.2 数据资产管理需求

发电企业亟需建立数据的汇集中心,以促进各部门、各区域公司数据的充分共享,推进信息资源的整合对接[9]。统一处理采集、存储、分析与经济运行相关的数据,支撑经济运行业务;采集风、光、水、火等综合能源相关数据信息,实现区域能源结构性优化[10];支持数据分析及战略经营性项目,实时反映企业的整体运行状态,为企业领导提供及时、可靠、准确的数据分析,助力领导准确、及时地把握和调整企业发展方向;将大数据分析、人工智能、机器学习等新一代信息化技术融入数据中心,提供经济运行预测、优化算法方面的各项服务,真正满足营销管理信息化体系的总体要求,充分发挥数字化作用[11]。数据的共享服务应用如下图所示。

图1 数据资产共享服务应用Fig.1 Data asset sharing service application

1.3 企业数据模型建设需求

在已有业务建模成果基础上,进一步扩展数据模型,扩展数据标准规范,实现企业范围内数据的唯一性与共享性,持续改进数据标准规范。

模型设计具体需求包括:

(1)设计并逐步完善统一的共享交换数据模型,为企业的信息化应用之间数据的共享交换提供统一信息视图。

(2)在共享交换模型基础上设计并逐步完善统一的数据仓库模型,以支撑专业辅助决策和综合分析等高级应用。

(3)在共享交换数据模型与数据仓库模型基础上,建立全企业需要进行信息交互的全局数据模型架构。

为建设符合电力行业业务特色的企业数据模型,需大量、深入的研究学习国际上开放、成熟的电网企业数据标准体系成果:包括IEC CIM的理论研究[12-15]、国际电网企业CIM应用项目的研究[16]等,遵循“模型统一化、接口标准化、管控规范化、应用持续化”的四化建设原则,最终形成公共信息模型(PE_CIM)数据仓库模型和全局数据模型。

2 新一代信息化技术在数字中心中的应用

数据中心通过将存储的数据进行统计、分析,打通各个系统之间的信息孤岛,形成一套全面、强力的数据挖掘分析体系,全面助力电力企业数据集成和整合。

为了满足新时代营销管理需求,大数据和人工智能技术被应用到营销决策的预测,比如合同盈利预测、电厂的日负荷预测,日前节点和实时节点电价预测[17]。这些数据的预测可以有效助力决策者进行科学、合理和及时决策,完成基于公司数据资产的经济运行优化。

2.1 用户合同盈利判断

这里以商业盈利模型为例,步骤包括采集当前合同用户成交信息;将用户合同数据输入至已训练好的迭代决策树算法模型中,获取盈利结果。所述迭代决策树算法模型采用下述方法训练获取:采集用户合同成交数据;利用原始数据构建训练集;采用训练集训练迭代决策树算法模型;本发明采用训练完成的模型对用户当前的合同是否盈利进行预测,该方法诊断对数据特征值数量有较低要求,同时提高了诊断的准确率。

迭代决策树算法模型生成步骤如下:

步骤A,对于每组合同正收益数据,y值设定为M1,对于每个负收益合同,其y值设定为M2,x值是由合同信息提取的特征值组成的N维向量,形成训练集:

D={(x1,y1),(x2,y2),……,(xN,yN)}

(1)

步骤B,对数据集进行切分变量j和切分点s的求解:

假设得到一对切分变量j和切分点s,会将整个输入空间划分为两个区域:

R1(j,s)={x|x(j)≤s}

(2)

R2(j,s)={x|x(j)>s}

(3)

根据下列原则遍历所有切分变量j和切分点s,求解得到最优的一组结果:

(4)

对于固定的一组切分变量j和切分点s,得到属于这个划分区域的两个区域值:

(5)

(6)

步骤C,重复调用步骤B,直到满足停止条件,得到一个完整的回归树:

(7)

步骤D,将上述形成的回归树对训练集的预测结果和真实值相减得到残差,再将残差作为更新的y值,得到更新的训练集:

D={(x1,y1),(x2,y2),……,(xN,yN)}

(8)

重复调用步骤B、步骤C,迭代生成回归树,直到满足残差数组小于设定值。流程如下图所示:

图2 回归树生成流程图Fig.2 Flowchart of regression tree generation

根据训练完成的决策树模型,将需要预测用户交易合同的信息作为输入,通过决策树模型的训练,将最终该合同是否盈利的预测结果输出。

2.2 电厂负荷预测

下面介绍电厂负荷预测的数据分析的管理体系方法。这里使用统计学ARIMA模型进行电厂负荷预测。针对电厂每日负荷数据建立模型,对未来时间段电厂负荷进行预测,采用标注的电力负荷数据格式(每15min一个采样点,每日包含96个采样点,量纲为MW)。

在ARIMA模型搭建中,分为三个步骤。首先对数据集进行预处理和预分析,之后对模型参数进行评估,建立模型,最后通过建立的模型求得预测的结果。在数据预处理阶段,通过数据可视化,可初步判断该模型是否平稳[18]。如果序列的均值和方差不随时间发生明显变化,可通过白噪声检验,则序列平稳,未来时刻信息对于往期数据依赖性没有明显变化,适用于时间序列预测[19]。在模型参数评估阶段,根据选定的ARIMA模型,对三个参数p,q,d进行评估取值。如果初始序列平稳,则d为0,否则对序列进行差分运算,每进行一次运算d值加一,直到序列平稳为止。参数p,q通过序列的自相关图和偏自相关图确定,先根据其图像的n阶截尾或拖尾初步选定p,q,然后通过AIC,BIC值进行验证,选取最合适的p,q值。根据选定的参数建立的模型,对后一天序列值进行预测。ARIMA模型的优点为建模需要历史数据少,预测结果良好,缺点是要实时更新模型进行预测,否则后期误差较大,大量数据对模型增益少。下面进行模型搭建:

2201天负荷数据如下图,可以看出数据整体趋势较为平稳,但是仍然有随着时间点推移,整体向上波动的趋势:

图3 负荷数据趋势图Fig.3 Load data trend plot

如果需要预测最后一天的短期负荷,本方法通过之前十天的负荷数据建模,真实负荷数据如下,并且可以观察到计算出的均值和方差波动,介于本方法数据具有周期性(一天产生96个时间点),均值和方差均滑动计算:

图4 负荷数据的均值和方差Fig.4 Mean and variance of load data

对该数据进行取对数平稳化和第一次差分运算后结果如下图,可以看出一阶差分后数据是平稳序列,均值和方差都基本不变,由此推测此ARIMA模型的参数d为1。

图5 一阶差分后的均值和方差Fig.5 Means and variances after first-order differences

下面,对这十天数据建立自相关和偏自相关图,为了方便观察,图表只截取了前100条信息。可以看出自相关图拖尾,偏自相关图二阶截尾,推测该模型p,q参数分别为2,0。

最后通过AIC和BIC准则验证所得参数是否为范围内的最优解,经验证,p,q,d分别为2,0,1时,AIC,BIC最小,结果最优,和之前结果一致。通过获得的参数建立模型,对未来时间点负荷进行预测。

最后通过获得的ARIMA模型,进行一天的负荷数据预测,得到输出结果。

2.3 节点电价预测

下面介绍节点电价预测的数据分析的管理体系方法。针对节点电价周期波动、数据量庞大的特点,数据中心采用循环神经网络(RNN)来实现对新一日节点电价的预测,神经元单元采用长短期记忆(LSTM)模型[20]。人工神经网络是连接神经元的分层结构, RNN是它是一类为处理时态数据而定制的神经网络。RNN的神经元具有单元状态记忆,并且输入根据该内部状态进行处理,存在重复出现的“tanh”层模块,允许它们保留信息。LSTM模型可以增强这种保留信息的时间,从而增加保留信息的信息量,契合节点电价的数据特性[21]。

该方法用于节点电价的基本思想是使用一个循环神经网络读取一个时间序列的节点电价的数据,将这组数据的信息压缩到一个固定维度的编码中,再使用另一个循环神经网络读取这个编码,将其解码为目标时间段内的电价数据。

第一步,获取训练测试数据集。每组数据为一个元组,包含当日的时间和对应的数据,类似结构“(08:00,354.2)”。我们需要稍微清理原始数据,主要涉及将所有原始数据转化为上述格式,保留时间去除日期,电价统一保留一位小数。取两千天数据,形成数据集。

第二步,划分数据集为训练集和测试集,并将训练数据带入RNN模型,通过softmax模型将数据归一化,从而可以得到任意一个时间点任意电价的概率表示。

第三步,训练完成模型,并通过测试集检验模型准确率。带入需要预测的时间点,得出预测的节点电价。

3 数据中心的架构设计

数据中心建设秉承设计合理、完整扩展、资源隔离的总体原则进行数据架构设计[22],主要包含数据源、数据集成、数据湖、数据主题库、数据应用库、数据服务、资产管理。数据架构如下图所示:

图6 负荷数据自相关和偏自相关图Fig.6 Load data autocorrelation and partial autocorrelation plots

(1)数据源

数据源部分主要是指大数据中心的上游系统数据库,按数据类型可分为结构化数据、非结构化数据、互联网数据及物联网网关数据等,最终目标是实现客户方全域数据的汇集和资产沉淀[23]。

(2)数据集成

数据集成主要是指将源端数据通过各种数据集成技术完成数据集成上云,将源端数据集成到数据湖贴源区[24]。结构化数据集成主要采用数据中台提供的离线数据集成平台来完成,对于互联网数据可以采用数据中台子产品互联网采集平台实现采集。另外,对于物联网网关数据、实时业务数据等可采用实时计算平台的实时采集功能实现实时采集。

(3)数据湖

数据湖是数据资产中心的核心部分,是建立在基础资源层之上的利用大数据中心的海量存储空间和运算能力对数据进行存储和标准化处理,为主题库的建设奠定良好的数据基础[25]。同时为跨部门数据交换提供统一的数据交换空间,实现数据标准统一、让数据资源成体系,逐步建设可监管、可统筹的数据共享开放体系[26]。

(4)主题库

将采集和整理后的业务数据,按照业务主体进行归集,建立相应的主题库,随着原始业务数据的逐步丰富,不断丰富主体的各维度数据,实现业务数据资产化积累[27]。

(5)应用库

面向上层业务应用系统数据需要进行数据加工及存储。数据加工主要采取可视化批量数据计算,对于实时性要求比较高的数据需求可以通过实时计算通道实现稳定低延迟的实时数据加工、消费。

(6)数据服务

具备敏捷资产服务化与价值化能力。主要的数据服务模式包括数据API服务、数据脱敏服务等,将数据资产在安全受控的前提下对不同的消费主体进行开放与服务,实现对服务体系的整体管控,实现数据资产的对外运营[28]。

(7)数据资产管理

资产集约化管理、治理。由数据标准、标签管理、数据质量、资产管理四部分构成,基于统一的元数据体系提供全域数据标准化处理、数据资产化、质量治理等服务,实现数据资产的一体化管理。

技术架构以支撑数据中心的功能架构为目标,基于业界大型企业普遍使用的分布式大数据基础架构,在采用多样化采集技术、分布式存储及资源调度基础上[29],融合搜索引擎、离线计算、NoSQL、内存计算、图计算、高效分析引擎,解决数据存储、计算、分析问题。基于Ambari的二次封装,实现对大数据基础平台的管理、配置、运维一体化。极力打造简单可视的涵盖一站式的智能数据生产引擎。

技术架构以数据为基础,以全链路加工为核心,提供数据汇聚、研发、治理、服务等多种功能[30]。既能满足平台用户的数据需求,又能为上层应用提供各种解决方案,整体技术架构如下图所示:

图7 数据中心技术架构Fig.7 Technical architecture diagram of data center

数据中心基于业界先进的分布式基础架构,以Hadoop技术体系作为多样化数据的存储与计算,利用Hive构建离线数据计算,利用Presto提升在线数据分析效率,基于ElasticSearch实现全文检索高效性[31]。集成与整合Flume、Kafka、Flink组件,在封装的基础上实现流式数据的采集与动态计算功能[32]。采用Ambari对Apache Hadoop统一管控,进行接口扩展、界面封装,实现大数据引擎的可视化监控、管理、配置,集中管理系统日志及接口服务。

4 结束语

本文研究了发电企业数据资产管理的问题。结合发电企业的数据现状,为解决企业数据治理的需求,构建了电力企业数据资产管理体系。从组织体系建立、职能体系建立、数据中心搭建三个方面阐述为了达到数据治理“共建、共治、共享”的目标,对数据资产管理的总体流程进行规划。通过数据中心对企业数据实现统一管理,使得跨系统、跨业务、跨部门的不同类型的海量数据得到有效管理[33-34]、治理,有效提高了各部门间数据共享效率,为企业高质量发展打下坚实基础。

猜你喜欢

数据中心负荷预测
无可预测
人造革合成革拉伸负荷测量不确定度评定
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
3项标准中维持热负荷要求对比分析
关于间接蒸发冷机组在数据中心中应用的节能分析
选修2—2期中考试预测卷(A卷)
MIV-PSO-BP神经网络用户热负荷预测
浅析数据中心空调节能发展趋势
生如夏花