基于Hadoop 的工业物联网大数据处理及应用★

2022-11-03纪晓婷朱明超赖钰聪白广智张浩铭

现代工业经济和信息化 2022年9期

纪晓婷，朱明超，赖钰聪，白广智，张浩铭

（北京理工大学珠海学院，广东珠海 519088）

引言

当代工业物联网大数据处理技术的价值在于技术进步，促使工业大数据成为商业中有价值的驱动因素。作为智能制造的三驾马车之一，工业大数据分析已被大多数制造公司认可和接受。随着企业用户所需存储的临时文件数量的不断增加，目前已有的文件存储设备空间已经不能满足业务需求。大数据所带来的数据量惊人、数据形式多样，工业实时检测、采集数据时存在存储容量不足、高并发性能查询不足、扩展性差等缺陷，而传统的数据分析处理难以完成。当前国内的Hadoop 大数据处理平台可能比较杂乱，大数据的应用开发过于偏向底层，面临的问题就是学习难度大，所涉及的技术面也是非常广泛，这在很大程度上制约了大数据的普及，也是工业物联网数据处理平台面临的突出问题。

为践行《中国制造2025》，贡献一个世界级的工业物联网大数据平台，通过设计Hadoop 处理大数据平台，运用Hadoop 对大数据进行处理，并运用于智慧工厂中，能够更为有效地集成国家在工业领域的信息资源，为国家工业治理提供重要数据基础和决策支撑。以工业互联网为基础的工业大数据分析技术及应用，将成为推动智能制造，提升制造业生产效率与竞争力的关键要素，是实施流程管理智能化、生产过程智能化、制造模式智能化的重要基础。

1 基于Hadoop 框架的大数据平台研究

1.1 Hadoop 核心组件

Hadoop 是一套开源软件平台，利用服务器集群，根据用户的自定义业务逻辑，对海量的工业数据进行分布式处理。Hadoop 的核心组件有：HDFS（分布式文件系统）、YARN（运算资源调度系统）、MapReduce（分布式运算编程框架）等，如图1 所示。对数据平台建设进行分析，包括：数据平台收集、储存和计算分析单元以及数据平台资源统计分析系统。

1）HDFS（分布式文件系统）是一个高度容错性的系统，它被设计成适合运行在通用硬件（commodity hardware）上的分布式文件系统（Distributed File System），它适合部署在廉价的机器上，能提供高吞吐量的数据访问，适合应用于大规模数据集上。

2）YARN（运算资源调度系统）主要由Resource Manager、Node Manager、Application Master 和Container等组件构成。

3）MapReduce（分布式运算编程框架）：MapReduce 是计算模型，被用于大数据量的计算。其中Map对数据集上的独立元素进行指定的操作，生成“键值对”形式的中间结果。Reduce 则对中间结果中相同“键”的所有“值”进行规约，以得到最终结果。MapReduce 按功能划分，非常适合在大量计算机组成的分布式并行环境里进行数据处理。

1.2 Hadoop 平台建设分析

数据储存分析计算层总体采用Hadoop 集群搭建，数据平台以Hadoop 集群为载体，数据平台的存储主要依托于Hadoop 的分布式文件系统HDFS 以及以HDFS 为基础的可实时读取的分布式列式存储数据库HBase。HDFS 可以用于保存基本上是顺序访问的海量数据，而HBase 的主要优势是快速随机访问数据。Hadoop 处理的数据运行在一组分布的计算机上，分布式计算和分布式存储都采用主从架构。在开发过程中，应该从非分布式的（即本地）模式到单点伪分布式模式，最后到全分布式模式。

2 基于Hadoop 处理工业大数据的技术（见图2）

近年来，科学技术不断更新与发展，人们开始从数据应用的角度重新认识在物联网的设备帮助下所采集的数据，通过对数据的分析，技术人员发现需要采集的数据在于对需求度的精准而不是采集数据的“多而杂”。根据收集到的数据以及查阅文献可得知，在搭建工业物联网环境时，首先应考虑数据在工业上的应用价值，然后根据相对应的技术进行采集、分析数据内容，最后构造出符合实际情况应用的工业物联网环境和技术。

2.1 工业物联网数据技术需求分析

当前，将处理大数据的技术应用于工业物联网领域上，仍面临着很大的挑战，需要解决容量不足，拓展情况差等问题。如果按照以往的数据库处理方式，在数据处理和兼容性处理方面难以满足工业物联网数据的存储需要，通过工业物联网则对数据的兼容性和扩展性提供了保障。通过使用大数据技术采集和收集信息来进行处理，形成了一种新型的档案管理，也完善了数据的集成处理方式。

针对工业大机器生产运作过程中的因网络问题、设备故障等出现的异常数据，由于数据质量低下导致变量间的函数关系发生改变，进而影响工业物联网大数据的分析。为了提高数据质量，对数据进行有效的处理并检测出异常情况尤为重要。在“互联网+”时代，各行各业在发展的过程中都涉及大量数据，如何存储数据、挖掘数据、提炼海量数据中有用的信息，应用云计算技术就能很好地解决这个问题。

2.2 工业物联网数据技术功能分析

工业物联网数据所需要的技术将依附于云平台[1]，该技术包括对工业现场的大型设备、机器进行数据采集、云端上层数据分布式存储和智能分析处理等。

1）分布式存储：负责将数据服务层的数据进行持久化服务，当大量数据遇到存储问题时，分布式存储系统会快速处理解决。与此同时，为实现对数据管理的方便，该服务提供传统关系型、列式数据库以及数据仓库等存储服务。

2）分布式计算：为本平台的分布式计算提供核心服务支持，以稳定可靠的分布式多机并行方式，保障系统整体计算任务的高效性。是本平台提供对大数据运算的核心，是提升系统计算速度的关键所在。

3）智能预测分析：为工业企业提供智能预测分析服务。以相关统计学算法、机器学习或者神经网络预测算法为核心，实现工业企业的智能分析决策。

3 基于Hadoop 技术处理工业物联网大数据

工业生产处理过程中产生的数据量庞大，传统的数据处理的方式，不论在存储还是处理上，都跟不上时代的发展，数据存储空间不足、数据处理性能效率低下。因此，分布式存储计算系统的应用优势逐渐被重视。目前对于工业数据的处理使用较多的技术以Hadoop 和Spark[2]为主。Hadooop 为数据处理提供了独特的数据存储以及数据运算的功能，在大量的单节点数据存储方式上有效解决数据运算及处理的问题。

针对工业生产中“多而杂”的数据，对数据进行筛选、归纳，并采用Hadoop 技术，平台数据以Hadoop 的分布式存储（HDFS）以及分布式计算（MapReduce）。快速随机访问数据后，HDFS 将保存时序性的海量数据。数据平台的计算技术依赖于MapReduce 计算框架，不仅可以处理大规模的数据，而且可以隐藏一些较为繁琐的细节，具有良好的伸缩性，在数据处理方面具有显著的优势。针对工业物联网异常的数据，基于Hadoop 技术对工业物联网数据进行处理，对处理的数据保存多个副本，并且提供容错机制。

通过采用Hadoop 技术对数据进行分布式存储，本身对多种数据存储组件进行了一定的整合，保证了云端数据分布式存储子系统对于各种数据的多种类型存储方式的支持[3-5]。此外，以计算机集群统一提供存储磁盘的方式，很好地解决了大量的数据在单个计算机上存储的容量问题，这种设计大大提升了云端数据分布式存储系统数据存储功能的可靠性和安全性。

4 基于Hadoop 应用于MindSphere 智慧工厂实现流程

以Hadoop 处理数据技术为基础，构建企业云存储平台，通过集群技术与HDFS 框架等技术，最终完成大量数据的分布式存储。采用基于Hadoop 框架下的YARN 和MapReduce 计算分析所收集到的大数据，实现数据的存储系统以及工业大数据的统一访问与管理。根据工业物联网大数据的处理技术的需求，对技术的功能进行分析，并与Hadoop 的技术相对应，实现基于Hadoop 的处理方式，将数据云平台设计为数据采集层、数据储存分析计算层和数据平台监控统计分析层，将此技术运用于工业，对工业数据进行统一收集，通过使用Hadoop 平台实现数据与其他端口的实时互通，实现数据传输的智能化和便捷化。同时Hadoop 作为大数据平台的重要部分，能够实现对不同实时数据的储存与解析，帮助操作人员完成对数据的实时监视与处理，对异常的数据能够自主检测，对大量的数据实现智能化融合展示，运用于智慧工厂中，构建智能工厂大数据分析和处理平台，通过MindSphere 向下连接现场设备，实现人机交互，使生产过程更高效、更智能[6-9]。

基于Hadoop 的大数据平台搭建和数据处理过程，大量杂乱的数据被导入到HDFS 后，经MapReduce 进行处理操作，经过过滤、转换、聚合，将其数据结果导入到外部系统中。

具体实现过程如下：

1）MindSphere 数据采集：MindShpere 的数据采集向上与MindSphere 的云端进行连接，向下与西门子的众多具有以太网通讯的硬件产品以及支持通用协议的其他品牌产品进行通讯，完成数据的采集与传输。假如设备的通讯协议比较特殊，用户可以基于nano 中的开源软件自行开发设备通讯与数据采集程序。成功采集的数据是杂乱、低价值的，需要通过Hadoop 框架下的云计算进行提取整理成可视化、高价值的数据。

2）Hadoop 处理大数据：数据被导入HDFS 中，存储在HDFS 中的文件被分成块，然后将这些块复制到多个计算机中客户端，向名称节点发送写数据请求，储存在HDFS 的数据经历输入（Input）、输入分片（Split），在进行Map 阶段之前，MapReduce 框架会根据输入文件计算输入分片，每个输入分片会对应一个Map 任务。

MapReduce 的本质就是把一组键值对＜K1，V1＞经过Map 阶段映射成新的键值对＜K2，V2＞，经过Shuffle/Sort 阶段进行排序和“洗牌”，把键值对排序，同时把相同的键的值整合。经过Reduce 阶段，把整合后的键值对组进行逻辑处理，输出到新的键值对＜K3，V3＞，如图3 所示。