APP下载

基于大数据的电力环保数据平台建设

2020-11-30任红英

中国电气工程学报 2020年17期
关键词:平台建设环保电力

任红英

摘要:新一代信息技术与制造业深度融合,正在引发影响深远的产业变革,形成新的生产方式、产业形态、商业模式和经济增长点,大数据分析、人工智能等新技术与能源行业的结合应用越来越紧密。本文对基于大数据的电力环保数据平台建设进行探讨。

关键词:大数据;电力;环保;平台建设

1数据整理

平台数据来源众多,数据质量参差不齐。为了提升数据可靠性,保证后续应用的顺利开发与数据挖掘的准确性,必须在数据流转过程中对数据进行转换、过滤、清洗等数据处理操作。ETL过程处于承上启下的重要环节,是保证数据质量的重要手段。数据处理具体包括数据检查、数据标准化处理、汇总、清洗、库内处理等功能。数据标准化处理强调对不同格式的数据进行统一数据格式转换、统一映射、统一编码。数据加工功能,提供数据加工规则管理,支持不同形态数据加工管理。数据清洗功能,包括数据清洗环节管理、数据清洗规则管理、数据清洗监控、数据清洗预览等功能。SIS系统的数据包括1/4的开关量以及3/4的模拟量数据,每个机组设备点数、点名不一致,即使同一指标点名也是各异的,同时数据质量不高,经常会出现数据过高、归0、乱跳等各种异常情况,甚至一些数据错误模式常常出现变化。针对以上这些问题,需要提供规则可灵活配置的接口,对每个数据点进行精确加工和清洗,使ETL过程实现数据的全量管理。首先要建立元数据加工模型,在此模型中,对每一个机组设备相同点进行统一映射,不同的点进行扩展映射。对每一个点单独配置转换规则,转换为统一的数据单位。对那些不能通过其他指标直接转换的点,配置计算规则,尽量补全缺失数据。平台采用AI、神经网络等普适性算法,通过分析大量历史数据,建立机器学习体系,实现对数据进行清洗的自适应智能算法。如基于PauTa准则的异常数据清洗算法与基于Hermite多项式插值的数据补齐方法。为了避免数据个体差异引起的误判,系统AI将采集到的数据进行归一化处理后,基于PauTa准则对数据进行自动检测后,判定异常数据点,并对其进行清洗。剔除异常数据后,采用Hermite多项式插值技术补齐采样点的数据。

2数据存储

环保数据平台数据不仅要保证业务数据快速、安全地落地存储,还要提供高效的在线查询功能。此外,存储的数据还要便于未来的数据挖掘,助力环保智慧应用场景。前期可以投入较少硬件,未来能够灵活进行存储、计算资源的扩容。通过数据压缩、多级数据存储,提高访问效率,降低存储成本。SIS数据为非结构数据,无法提前完整预建表的元数据结构。测点众多、采集频率高需要支持并行入库能力,数据存储结构还要能支持通过时间范围、设备名、测点名等条件高效查询原始数据。针对工程管理等业务系统,需要能够支持全量、增量、实时等数据入库模式,文档数据也要快速存储、灵活检索使用。针对这一特殊场景,构建了以列式数据库、数据仓库、搜索引擎互补的三位一体持久存储体系。通过增量抽取列式数据库,整合全局数据,构建以基础数据层、汇总加工层和集市层多层互补的数据仓库体系。数据仓库依照分析需求、分析维度、分析指标设计的数据集合,通过数据仓库可以进行大规模的数据挖掘用于支持决策,为后续统计报表、OLAP多维分析、数据挖掘、预测分析提供数据源及分布式计算能力。平台对原始数据查询以及数据仓库分析支持的同时,对文本文件、数据仓库分析结果等提供查询支持。基于倒序索引,支持十亿以上级别数据的秒级结构化检索、全文检索,同时作为列式数据库的二级索引方案,显著提高列式数据库的条件搜索性能。支持中文字符集,实现中文分词功能,支持结构化数据和半/非结构化数据联合查询,支持预定义维度数据查询,支持简单查询、组合查询、模糊查询等。基于环保数据模型驱动多类型数据引擎融合,不同的数据引擎存贮管理不同类型的业务数据,以实现最佳性能。平台可以根据数据类型配置存储时长,可设为永不删除或者用户设定保存时长,超出保存周期的数据平台自动压缩归档,并通过一个统一的全生命周期数据模型,对各类数据进行管理,降低数据理解和获取成本,平台使用先进的大数据技术,数据多副本存储,单一节点损坏不影响数据的可用性和完整性。数据存储结构图如图1所示。

3数据挖掘

智慧环保大数据平台要真正实现其智慧性,必须能够对所有的业务数据进行深度挖掘。通过数据分析与挖掘技术,从海量数据中,提取有价值的信息,为企业决策提供重要依据。该平台提供了统一的分布式数据运算架构体系,使相关人员仅需关注业务算法,轻松实现海量数据的大规模并行分析。平台基于统一的数据仓库,提供分布式实时、离线计算引擎,使数据分析人员能够进行机器学习算法、分布式图计算、交互式SQL近实时查询,实现全面的数据分析和数据挖掘能力。平台探索各类数据特性,统一编码,制定符合挖掘的数据结构,保证挖掘性能,同时完整实现权限管理、资源管控等功能。一般OLAP的多维分析是基于钻取、上卷、切片、切块以及旋转等操作,让数据的展示更加直观。数据挖掘常常通过关联分析、聚类、分类等机器学习算法,甚至深度学习来挖掘数据隐藏的价值。平台在基于数据立方、机器学习技术的基础上,充分结合环保设备在生产运行中面临的特殊场景,通过建立设备节能降耗分析、催化剂寿命预警、等多个数学模型,不断对模型进行自学习与修正,解决生产环节中面临的实际问题。与此同时,平台通过故障库对故障处理的操作等方面知识进行沉淀,帮助现场进行运维知识留存,实现设备智能运维,闭环运维的目标。平台支持多种数据计算框架,例如实时流计算框架、批处理计算框架,内存计算框架,支持企业在大数据平台上运行多种类型的复杂任务。支持并行计算及并发处理功能,支持多服务器、多CPU、多进程并行及并发处理数据的机制。数据分析与挖掘架构图如图2所示。

4数据应用

4.1应用软件

基于SIS系统机组设备数据,能够开发出高性能智慧环保系统,系统支持大型脱硫脱硝设备智能监测分析,能够对所有发电企业各类机组进行实时监控展示、性能分析。系统通过对各方数据采集、综合管理等平台的数据资源整合,基于自主搭建的大数据智能分析平台,实现设备实时监测、参数报警、故障处理方式推荐、设备节能降耗智能分析等功能,并通过移动端APP及PCWEB端进行可视化效果展示。

4.2API接口

智慧环保平台是一个开放的平台,可为任何第三方提供准确可靠的数据访问服务,API接口可为用户提供具有海量查询能力支持的RestfulAPI、JavaAPI、Thrift等多类接口,方便任何第三方业务系统从平台中获取统一的信息。同时提供了统一的权限校验,不同的部门只允许查询本部门的数据,不同角色的人员只允许查询指定授权的数据。传输过程中,提供了数据加密、认证措施,防止数据被盗取、恶意篡改,造成数据丢失以及财产损失。通过开放API接口,其他业务系统能够共享环保大数据成果。

4.3专家工具

该平台作为智慧大数据平台,需要不断发展智能分析模块,需要相关业务人员利用平台已有的数据进行深度的分析和研究,为了便于业务人员能够更加轻松地完成整个分析过程,平台提供了自助式OLAP分析功能,业务人员无须写代码就能进行分析操作,进一步降低了数据分析的使用门槛,用户只需要拖拽分析的维度和指标,不需要考虑底层复杂的并行计算框架与机制,就能呈现一个完整的数据报告。例如针对SIS系统数据,选取按月、按分公司,选定需要查询的时间范围等条件,指定需要查询入口SO2浓度、原烟气流量等指标以及是取平均值、最大值等,即可进行海量数据聚合分析工作。专家工具使业务人员更专注于数据,更加轻松完成智能分析模块的搭建,对提升整个平台的智能化提供强大的动力支持。

结束语

环保数据平台借助大数据分析、人工智能等信息技术,将北京国电龙源环保工程有限公司海量的脱硫脱硝等环保数据全部纳入管理,深层挖掘数据实用价值。数据平台对所有SIS系统的数据通过自适应智能清洗算法处理后,形成唯一可信的原始數据源。

参考文献

[1]杜若,谢川,吴群艳.电力环保大数据平台开发及智能运用[J].电力大数据,2017,20(08):64-67.

[3]刘世成,张东霞,朱朝阳,等.能源互联网中大数据技术思考[J].电力系统自动化,2016,40(08):14-21+56.

猜你喜欢

平台建设环保电力
运用QQ群开展高校学生党建工作研究
高职院校图书馆数字资源绩效提高途径探析
“互联网+”思维在应用型高校课堂管理的思考与探索
电力变压器高压试验探讨
浅谈公路绿色环保养护