智能化综采管理平台中多源异构数据处理

2020-06-02杨波，吴宁

陕西煤炭 2020年3期

杨波，吴宁

(陕西陕煤黄陵矿业有限公司，陕西延安 727307)

0 引言

煤矿综采自动化技术对实现煤炭安全、高效的回采具有非常重要的意义，是国家经济发展所需煤炭供应的先决条件。国家“十五”“十一五”期间以来，我国煤炭开采技术及装备取得重大进步，推动了煤矿安全高效绿色开采技术的发展，建成了一大批综合机械化和高自动化程度的现代化矿井，生产效率、安全指标和煤炭产量大幅度提高[1-4]。国内煤矿企业也在积极探索综采自动化技术的研究，并进行了多方面的尝试，取得了显著进步。但由于综采工作面复杂的生产过程，庞大的综采设备系统，各设备作业条件协同复杂，动作繁多，且对动作的逻辑顺序、准确性、响应速度要求高，所以针对其监控和管理面临着各设备控制方式分散、无法实现快速、准确的协作，不能充分发挥设备性能，生产效率较低[5-8]。而且综采工作面自动化系统以过程化控制为核心，与生产管理过程脱节，未进行高效实时的实现信息的集成和互通，不能有效的对综采关键设备进行管理，无法为生产管理者提供决策和建议。因此，综采自动化系统的统一管理平台应运而生，但对于智能化综采管理平台中多源异构数据的处理仍需进一步探究。

1 智能化综采管理平台应用现状

现有的安全生产监测监控系统，多是局部性、少量指标的检测[9-11]。同时，因为生产厂商以及系统建设两者在时期上存在差异，所有子系统在通信协议和接入技术上不能够实现统一，子系统之间存在较大的数据结构差异，同时具有多源性和异构性的特点。煤矿井下设备(包含各装备、机器、仪器等电子设施)的数据采集均通过监控系统直接从设备上采集。设备厂商对不同专业设备开发对应的监控系统从设备上实时获取数据。对煤矿而言，数据只能在监控系统中查看，不能在其它系统中实时使用；对开发商来讲，每个监控系统既要负责数据的采集，又要负责数据的校验、传输、共享，大部分功能重复开发，造成系统臃肿，改动困难。而现有设备数据采集没有统一的数据标准、采集标准，在使用采集数据时，需要根据每种提供的格式进行解析、转换，增加了出错机率与重复工作量。并且，现有设备所生成的数据格式多样，包含结构化、半结构化和非结构化数据。因此，多源异构数据的处理就成为智能化综采管理平台运转的核心引擎。

2 多源异构大数据处理框架

2.1 数据采集与ETL

数据处理系统架构：智能化综采管理平台中数据来源十分广泛，例如，运输三机、采煤机等各种生产器械、电液控制等器械系统、各种传感器的安全监测数据、用户操作行为数据、故障及报警数据等[12-14]。这些数据通过各自本身的监控系统及各种终端设备直接传输到云端，由于各设备的生产厂商不同，且暂无统一的数据标准，所以采集的数据格式多样，存在结构化、半结构化和非结构化数据，形成多源异构数据，并存在重复数据的可能[15-17]。多源异构数据处理系统架构，如图1所示。

ETL：全名Extract-Transform-Load，是用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程，同时也是构建数据仓库至关重要的一个环节，用户通过数据源抽取出自己需要的数据，经过数据清洗，最终将数据按照预先定义好的数据仓库模型加载到数据仓库中去。其中数据清洗包含：①对不精确数据的清洗。首先就是要识别出数据中的异常。在识别数据中的异常时，最常用的方法就是统计学的方法。给每个属性赋予对应的权重是它的核心思想，对每个属性字段值的平均值和标准差进行统计，依据此为每一个属性建立一个置信区间，通过查看属性值是否在置信区间内来判断属性是否异常;②重复数据的清洗。在数据仓库中，最常见的数据质量问题就包括相似重复数据，不同系统的集成一般会导致大量重复记录生成，因此需要判断两条数据是否相似或相同，从而对相似重复数据进行集中的清洗。

图1 多源异构数据处理系统架构

2.2 数据存储

根据数据集不同的特点和用途，采用不同的数据库进行存储操作。

Gbase/Oracle：Gbase和Oracle两者都是SQL数据库，都遵从SQL语句，语法也差不多。最大的区别是表结构不同，Oracle是传统行列式，小库比较快，大库靠索引提高效率。Gbase是分布式，数据不是按行列来排列而是按区块分布的，所以小库的速度一般般，但是大库比如TB级，效率惊人，数据库越大Gbase优势越明显。因此采用Gbase和Oracle对高价值密度数据进行存储及处理。

SQL on Hadoop：在SQL on Hadoop系统中，有两种架构，一种是基于某个运行时，框架构建出查询引擎，典型案例是Hive；另一种是模仿过去关系数据库的MPP架构，就是依据过去的MPP数据库架构创建一个专门的系统，于是就有了Impala，Presto等等。Hive具有高扩展性的特点，能够将集群的规模自由扩展，一般不需要重启服务；还具有高延展性，支持用户自定义函数，用户可以根据需求来实现自己的函数；同时还具备高容错性，SQL在节点出现差错时仍可完成执行；将复杂MR任务编写为SQL语句，提高开发效率；灵活的数据存储等。但是也存在非常明显的缺点，具有延迟性，性能还有待提升；索引功能还不够完善，效率较低；不支持事务类操作。因此将其作为低价值密度数据的数据仓库。

MapReduce：MapReduce是一种编程模型，主要用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(归约)”，是它们的主要思想，它具有从函数式编程语言以及从矢量编程语言里借来的特性。MapReduce对不会分布式并行编程情况下的程序人员提供了极大的便利，并能在分布式系统上运行自己的程序，是面向大数据并行处理的计算模型、框架和平台。利用其并行计算的特点对低价值密度数据进行批量处理分析。

2.3 数据处理

系统对于数据的处理分为高价值密度数据和低价值密度数据两个部分。

低价值密度数据处理：数据的价值密度与数据量成反比，数据量越庞大，其价值密度越低。因此对于低价值密度的庞大数据，利用MapReduce对大数据并行计算的能力，采用分布式队列流式计算方法，进行数据管理和分析挖掘。低价值密度数据的数据管理包括Hadoop集群配置管理、应用管理、资源监控、安全管理、告警管理等。分析挖掘则是利用分析挖掘算法库中的自然语言、分类算法、推荐算法、聚类算法、关联分析等算法对数据进行统计分析、效果监控、反馈学习和系统监控。

高价值密度数据处理：对于高价值密度数据，由于其数据量相对较小可以进行更详细的数据定义、数据筛选、分析定制和算法管理工作。