Hadoop+GPU大数据平台架构可行性分析

2020-04-10曾贞

现代信息科技 2020年1期

摘要：在信息化高速发展的时代，上海市中职计算机类课程开设与时俱进，各中职校计算机类教学资源日新月异，但由于缺乏统一资源库，每个学校的教学资源包括教学案例、音视频等数据不能共享，只能单独存放在独立数据库里。研究旨在分析Hadoop+GPU的大数据平台架构可行性应用，即集中存储和挖掘上海市中职计算机课程资源。此构架旨在汇总并挖掘中职计算机类课程资源，做到资源共享、教学资源充分利用，可以多层次多维度建立挖掘联系。

关键词：中职计算机;Hadoop+GPU;大数据平台架构;可行性应用

中图分类号：TP311.13 文献标识码：A 文章编号：2096-4706（2020）01-0066-03

Abstract：In the era of rapid development of information technology，computer courses in secondary vocational schools in Shanghai are advancing with the times，and computer teaching resources in each vocational school are changing with each passing day. However，due to the lack of a unified resource database，the teaching resources of each school include teaching cases，audio and video data cannot be shared and can only be stored in an independent database. The research aims to analyze the feasibility application of the big data platform architecture of Hadoop+GPU，that is，to centrally store and mine the resources of computer courses in secondary vocational schools in Shanghai. This framework aims to aggregate and mine secondary computer course resources，share resources，make full use of teaching resources，and establish mining connections at multiple levels and dimensions.

Keywords：secondary vocational computer;Hadoop+GPU;big data platform architecture;feasibility application

0 引言

在计算机技术飞速发展的今天，上海市中职计算机课程开设的日益繁多，各中职校计算机类教学资源也与日俱增，但每个学校的教学资源包括课件、教学案例、音视频等结构化和非结构化数据都是独立存在的。这么多的计算机类教学资源如果能被集中载入一个大數据平台并分门别类地存储，形成数据集市，并进行数据挖掘，将会大大提高中职计算机类教学资源的使用度，迸发出更多的创新思维和创新想法。本文探讨的就是上海市中职计算机类课程资源Hadoop+GPU的大数据平台架构可行性应用分析。

1 构建Hadoop+GPU大数据平台的作用分析

构建Hadoop+GPU的大数据平台的作用主要有以下两点。

1.1 收集和存储

上海市中职计算机类教学资源数据的收集和存储，包括结构化数据和非结构化数据。结构化数据就是各中职校各系统数据库中积累的各种计算机课程数据，比如教案、学生分数等;非结构化的数据包括各类音频、视频、动画、图像等。

1.2 分门别类贴好标签建档整理

平台存储完海量数据后，可以从不同纬度不同角度建立数据集市。比如从学生视角、教师视角、学科视角来分类切片建成数据集市，在不同大数据需求分析时可以快速整合。

Hadoop+GPU的大数据平台架构可以集中挖掘上海市中职计算机课程资源，并深入挖掘各资源间的联系，做到教学资源充分利用，起到1+1>2的良好效果。

2 Hadoop+GPU整体平台架构概述

2.1 平台逻辑架构

Hadoop+GPU的大数据平台架构逻辑包含以下几个组成部分，逻辑架构图如图1所示。

2.1.1 外围系统

大数据平台对接的上海市中职计算机类课程资源外围系统包括各中职校计算机课程教学课件系统、音视频系统、图像资料系统等。

2.1.2 Hadoop集群

用来处理大数据平台的所有计算机课程类资源数据迁移的工作，并且作为历史数据的存储，其优点在于保证了各中职校计算机类教学资源数据的安全性，一式三份的文件块备份，Apache Hadoop的另一个优点就是部署简单，容易操作。

2.1.3 文件服务器

用来存储Hadoop集群加工完成的各中职校计算机类教学资源结果数据，每一份数据都包括一个数据的标志文件，该文件记录了表数据的行数以及存储的大小等信息，如果下游系统需要数据，则统一到文件服务器上获取，保证了统一的数据出口。

2.2 Hadoop节点架构概述

Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。

Hadoop框架透明地为应用提供可靠性和数据移动，实现了名为MapReduce的编程范式：应用程序被分割成许多小部分，而每个部分都能在集群中的任意节点上执行或重新执行。此外，Hadoop还提供了分布式文件系统，用以存储所有计算节点的数据，这为整个集群带来了非常高的带宽。MapReduce和分布式文件系统的设计，使得整个框架能够自动处理节点故障，能使应用程序与成千上万的独立计算的电脑和PB级的数据很好地存储、查询和分析计算机课程类资源数据。

2.2.1 Hadoop在整体架构中的功能

（1）数据存储。Apache Hadoop的底层HDFS分布式文件系统用来存储上海市中职计算机类课程资源外围系统的增量数据和历史数据;

（2）数据加工。数据仓库移植的所有程序，包括SQL、Shell和存储过程的程序加工都是通过Hadoop来进行加工的;

（3）逻辑架构。Hadoop架构的内部逻辑架构如图2所示。

2.2.2 各组件的功能描述

（1）NameNode。Hadoop集群的心脏，保存着所有计算机课程类资源数据的元数据序列结构，并且管理所有节点的运行状态，接收DataNode的心跳，判断节点是否运行正常;

（2）Secondary NameNode。辅助名称节点，或者检查点节点，是监控HDFS状态的辅助后台程序，可以保存名称节点的副本，故每个集群都有一个，与NameNode进行通讯，定期保存HDFS元数据快照;

（3）DataNode。数据节点，每台从服务器节点都运行一个，负责把HDFS数据块读、写到本地文件系统;

（4）JobTracker。作业跟踪器，运行到主节点（Name Node）上的一个很重要的进程，是MapReduce体系的调度器。用于处理作业（用户提交的代码）的后台程序，决定有哪些文件参与作业的处理，然后把作业切割成为一个个的小task，并分配到所需要的数据所在的子节点。

（5）TaskTracker。任务跟踪器，MapReduce体系的最后一个后台进程，位于每个slave节点上，与DataNode结合（代码与数据一起的原则），管理各自节点上的Task（由JobTracker分配），每个节点只有一个TaskTracker，但一个TaskTracker可以启动多个JVM，用于并行执行Map任务或Reduce任务，它与JobTracker交互通信，可以告知JobTracker子任务完成情况，是集群不可或缺的组成部分。

2.3 对外服务

平台对接的外围系统可以通过JDBC或者ODBC链接文件服务器，根据表数据的标志文件，获取文件服务器上的数据文件，FTP到下游系统，供给前台功能查询。

2.4 整体数据流程

根据大数据平台的需求概述，计算机课程类资源数据的生命周期分为：捕获数据、数据的存储加工、数据提供服务三大块。

2.4.1 捕获数据

外围系统数据经过CDC或者DS工具，将表级的增量数据获取到文件服务器上，Hadoop集群根据每个表的标志文件获取数据，并将增量的数据文件装载到Hadoop-Hive的数据库里，并且进行数据文件的基本校验，捕获数据图如图3所示。

2.4.2 数据存储加工

计算机课程类资源数据的整体加工是在Hadoop集群中进行的，具体的加工是依赖于Hive的批处理作业的功能来实现整体大数据平台的作业开发，包括以下几点：

（1）HDFS数据存储。HDFS是一個高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用;

（2）ZooKeeper。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户;

（3）YARN。Apache Hadoop YARN（Yet Another Resource Negotiator，另一种资源协调者）是一种新的Hadoop资源管理器，是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度以及数据共享;

（4）MapReduce。MapReduce是一种编程模型，用于大规模数据集（大于1 TB）的并行运算;

（5）Hive。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。

2.4.3 数据提供服务

整体计算机课程类资源数据的对外服务流程数据提供服务图如图4所示，Hadoop集群通过Hive加工完成的数据，通过FTP将数据以文本文件的格式存放到文件服务器中，下游系统根据各自的业务需要，通过判断文件服务器上表的标志文件进行数据的获取，这样就可以将数据服务统一化、格式统一化、服务标准统一化。

3 结论

上海市中职计算机类课程资源Hadoop+GPU的大数据平台架构非常具有可行性，海量的计算机类教学资源能被集中载入平台存储，形成数据集市，可以进行深度的数据挖掘，会大大提高中职计算机类教学资源的使用度。

在Hadoop+GPU的大数据平台上可以形成各种维度的数据检索资料库，可以对结构化和非结构化的数据进行分析，通过大数据抓取、数据挖掘、数据建模等技术，通过时间维度，课程质量维度等可以做课程教学质量评估、学生受欢迎程度等各种科研分析。

参考文献：

[1] 刘彬斌，李柏章，周磊，等.Hadoop+Spark大数据技术（微课版） [M].北京：清华大学出版社，2018：1-30.

[2] 黄东军.Hadoop大数据实战权威指南 [M].北京：电子工业出版社，2017：1-10.

[3] 山姆·阿拉帕蒂.Hadoop专家：管理、调优与Spark |YARN|HDFS安全 [M].北京：电子工业出版社，2019：5-10.

[4] 杨力.Hadoop大数据开发实战 [M].北京：人民邮电出版社，2019：1-20.

作者简介：曾贞（1982.06-），女，汉族，江西玉山人，讲师，硕士，研究方向：新媒体大数据。

猜你喜欢

中职计算机

分层教学法在中职计算机教学中的应用

微课在中职计算机基础教学中的应用

浅议中职计算机教学“准、精、特、趣”的四大追求

现代信息科技

2020年1期

Hadoop+GPU大数据平台架构可行性分析

猜你喜欢

杂志排行

现代信息科技的其它文章