基于Hadoop和MPP架构的高校数据集成平台设计

2020-12-10张军

电子元器件与信息技术 2020年9期

张军

（湖南铁道职业技术学院，湖南株洲 412001）

0 引言

高校数据服务需求主要体现在人才培养质量分析、科学研究水平分析、师生服务水平和内部管理绩效等方面。现在典型的高校数据中心仅能提供业务数据的共享和交换，以及一些简单数据查询和报表生成，但是并不能对各类非结构化和半结构化数据进行有效的管理和利用。显然，这种简单的数据共享与交换不能满足高校教育信息化对数据服务的需求。同时也不能有效解决高校当前数据管理不完全、数据利用不充分以及数据规模日益庞大等问题。数据集成平台能够将高校内部散乱分布在各业务系统以及各类设备上的数据进行有机整合，为不同的业务数据建立关联，充分利用数据分析和数据挖掘技术，为大数据时代下的高校发展与改革提供支撑。

当前高校的数据环境具有数据量大、存储冗余、数据分散且类别繁杂等特点，传统数据集成平台存在处理的数据量较小、扩展性差、数据处理效率低、对非结构化数据的提取和存储分析困难等诸多不足。基于以上情况，充分发挥Hadoop和MPP数据库的技术优势，本文设计了基于Hadoop和MPP混合架构的高校数据集成平台。MPP数据库采用了分布式并行计算技术，具有更强的数据处理能力、更大的I/O能力，同时为应用提供丰富的SQL和事务支持能力，对高校建设的基于关系型数据库的应用迁移以及开发新的关系型数据库应用都具有良好的兼容和支持能力。混合架构使用MPP数据库存储、处理传统关系型数据库应用所产生的高价值密度数据，用Hadoop集群完成低价值密度非结构化数据的存储与计算。这样既能大大减轻高校原有关系型数据应用的迁移成本，也能保证数据的复杂关联分析需求，同时还能满足海量非结构化数据对存储和计算方面的性能需求[1]。基于Hadoop和MPP混合架构的高校数据平台，不仅有利于高校数据存储和计算的资源的合理配备，同时提高了高校多数据融合分析的效率和质量。

1 技术方案

高校的数据资源具有形式多样、异构繁杂等特点。当前关于高校数据集成和数据仓库的实施方案主要面向结构化数据，即对高校各业务系统的关系型数据进行交换和共享，数据集成平台大多是采用关系型数据库管理系统进行系统架构。显然，这种传统架构已不能满足高校日益增长的海量异构数据以及对数据分析服务的更高需求。基于上述背景，从高校实际的数据环境出发，综合对比分析Hadoop和MPP相关技术，应对不同的数据类型，采用不同的数据处理技术。对于价值密度较低的细节数据以及存储周期长、访问频率低的历史数据，采用Hadoop技术架构。Hadoop技术架构能够将大量成本较低、性能一般的计算机组成集群，利用集群完成海量数据的存储和计算，Hadoop存储数据采用的文件系统为HDFS（Hadoop Distributed File System），HDFS为分布式文件系统，能够实现海量数据的存储管理[2]，其本身是软件系统，不同于传统硬盘和共享存储介质，在文件操作有其不同之处，HDFS可部署在低廉的硬件上，采用流式数据访问和分块冗余存储机制，具有高容错性的特点，吞吐和并发具备横向扩展能力。Hadoop技术体系的并行计算架构（Map Reduce）可用于大规模数据集的并行运算，其计算能力与集群的节点数据成正比，集群的计算节点越多，其计算能力越强，一个Map Reduce计算处理过程，可以分解为Map和Reduce两个步骤，其中，Map为数据分块映射处理，Reduce为数据结果聚合[3]。Hadoop技术框架具有容错性高、部署成本低廉、采用流式数据访问、适合超大数据集的应用程序等优势。

传统数据库采用的是shared-everything架构，数据库装在单台服务器上，直接连接存储或者硬盘，单台服务器的计算能力总是有限的，当计算任务较大时，使服务器的运行负载达到一定程度时，就会严重影响数据库系统的运行效率。在MPP数据库系统中，计算任务被分解分发至多个计算节点，由各节点并行计算，计算完成后再将计算结果进行汇总，形成最终结果[4]，节点与节点之间通过互联网络来实现相互的数据通信，一个节点的CPU不能访问其它节点的内存。MPP数据库采用标准X86架构，适用开放式标准，具有良好的维护、管理接口，用户现场操作简单、快捷，同时MPP数据库对SQL92标准提供了良好的支持，能够使用ODBC、JDBC、ADO.NET等国际接口规范，能有效降低原有SQL应用的迁移及新SQL应用的开发成本。MPP数据库在灵活查询、复杂关联汇总、深度分析等方面的性能比Hadoop优势明显，适合数据平台应用场景中的数据挖掘、自助分析、数据关联等复杂逻辑加工场景。适合替代现有关系数据结构下的大数据处理，具有较高的效率。

2 平台设计

本文主要解决传统关系型数据仓库系统对高校海量离散、异构数据的存储、计算、集成等无法有效处理的问题。分析高校异构数据源，建立数据标准和数据管控策略，采用HDFS分布式存储框架完成非结构化数据的存储，利用Map Reduce分布式并行计算框架完成数据处理。传统关系型数据处理以及对其进行复杂多表关联分析、数据融合汇总等操作，采用MPP数据库完成[5]。基于Hadoop和MPP架构的高校数据集成平台框架结构主要包括源数据、数据处理和数据应用三个层次，其基本结构如图1所示。

高校数据集成平台的数据来源主要为高校各业务部门所有建设的业务管理信息系统、网络设备和物联网系统所产生的大量日志数据、网络行为记录以及相关的位置数据，这些数据包含了传统的关系型结构化数据和大量的半结构化、非结构化数据。

数据处理层是高校数据集成平台的核心层，其主要包括两个主要功能部分，一个是统一ETL数据处理平台，另一个是数据存储平台，统一ETL数据处理平台完成从源数据库中抽取数据，然后依据高校制定的数据标准，对源数据进行必要的清洗和规范化处理，完成数据转换和数据加载，统一数据格式，生成新的标准化数据，将处理后的数据一部分存入MPP数据库，一部分存入Hadoop的HDFS中。针对HDFS中的数据，还需要进行计算处理，使其成为关系型数据，然后再与存储在MPP数据库中的数据进行关联汇聚，将结果数据存储在MPP数据库中，完成数据的整合处理。其中，数据的抽取依据业务数据的特点以及数据集成平台对数据的需求可分为全量抽取和增量抽取两种情况，全量抽取是指将业务系统中所有的源数据全部抽取到数据处理平台，增量抽取只针对变化的数据（新增、删除、修改）进行抽取，可设置时间间隔由ETL平台自动完成抽取。

数据应用层构成高校数据服务应用的门户和分析平台，借助于数据集成平台提供的即时查询、预定义报表、多维分析和数据挖掘等功能，该层实现了面向领导的决策支持服务、面向管理人员的数据查询服务、面向大众的数据公开服务以及面向数据应用系统的接口输出服务。

数据质量管控主要包括元数据管理和数据质量管理两个部分，元数据管理模块主要完成数据集成平台运行过程中基础数据的管理，元数据描述了数据集成平台中所存储数据的结构和生成规则，能够保证在数据不断增长的情况下，数据的有效汇总、映射和清洗。元数据管理模块是整个数据集成平台的关键组件，它贯穿数据集成平台的整个建设过程，对数据集成平台的构建、使用和维护都有重要的影响。

3 结论

本文采用Hadoop和MPP数据库构建高校数据集成平台，应对高校中不同的数据类别，采取不同的存储和计算策略，相比Hadoop，MPP数据库在灵活查询、复杂关联汇总、深度分析等方面的性能优势更加明显，Hadoop在存储处理海量的非结构化和半结构化数据具有较高的效率，采用混合架构设计能大大提高高校数据集成平台处理海量异构数据的效率和质量。同时，本文也给出了数据集成平台的主要建设内容和数据分层治理的方法策略，对其他高校建设大数据集成平台具有一定的借鉴意义。