APP下载

一种轻量级大数据分析系统的实现

2017-04-14解文祥

移动信息 2017年11期
关键词:管理器数据仓库处理器

解文祥



一种轻量级大数据分析系统的实现

解文祥

江苏省海量数据技术研究所有限公司,江苏 南京 210019

随着信息化进程的不断推进,大数据时代也随之到来。各个行业的发展都要依赖大数据分析,从而为商业决策提供最有价值的参考数据。然而面对庞大的数据量,从中提取有效信息的过程实属不易。大数据分析技术的出现让这一难题得到了有效解决。基于此,主要是通过一种轻量级大数据分析系统的实现,继而从复杂的大数据分析中解脱出来,使得相关领域能够从中得到启发。

轻量级大数据;大数据分析;大数据分析系统

1 大数据分析系统的相关概论

在大数据分析系统的实现中,主要通过最广泛应用的大数据技术Hadoop、Hive。当前Hadoop是最常用的一种数据分析技术,2004年由Google公司研发而成。目前由Apache开源组织对其进行全权维护。在Hadoop中最关键的是Map Reducer编程模型、HDFS分布式文件系统。其中,Map Reducer模型能够将应用程序分解为许多并行计算指令,跨大量的计算节点运行大规模数据集。

HDFS作为分级文件系统能够进行创建、删除、移动或重命名文件等操作。在HDFS内的储存文件被模块化,然后再将模块复制到其他系统中。此相比于传统的RAID架构存在较大差异。HDFS文件系统为Map Reducer模型运行提供了坚实的保障。Map Reducer主要对大规模数据进行分组,然后再对组内进行计算分析,最后再将所得结果进行二次分析,得出数据的分析结果。通过分组分析法,便能够将并行计算、大规模分析系统的性能进行有效的应用[1]。Hive是基于Hadoop上的数据仓库基础构架,其主要提供相关的应用工具,从而对数据进行分类、筛选,构建的是具备存储、查询、分析存的大规模数据机制。

图1 Map Reducer编程模型示意图

2 大数据分析系统的设计实现

2.1 功能要求

具备便捷的前端交互页面,便于应用及构建各种查询条件,并对查询结果进行显示;构建查询处理器,其可按照前端用户的输入要求与后端的Hadoop、Hive 系统进行交互,从而得出查询结果;具有数据管理器功能,其可以辅助查询处理器进行工作;具有数据分析器功能,其可以按照够前端用户输入要求对查询数据进行分析;具备算法容器,可将各行业的分析算法存入其中;能够与Hadoop、Hive大数据技术进行兼容,可有效降低分析的复杂程度。

2.2设计框架

大数据分析系统的设计结构:用户交互层、查询管理层、基础设施层。其中,用户交互层核心组件是浏览器。浏览器的主要工作:为用户的搜索及查询提供便捷的条件;显示HDFS分布式系统中保存的数据;将HDFS分布式文件系统中数据文件转移至Hive数据仓库内;显示数据分析过程及结果。

表1 查询管理层文件及功能实现

查询管理层的组成包括:

(1)查询构建器。其主要将用户交互层输入的查询条件构建查询语言,并将数据聚合类型的查询及分析类型的查询输送至分析处理器进行处理。同时将文件系统文件及Hive数据仓库数据的查询语句输送至数据管理器进行处理。

(2)分析处理器。其主要将查询构建器提供的查询条件,通过算法仓库中的有效算法进行分析,然后输送至基础设施层。

(3)算法仓库。其主要对大数据分析所用的算法进行存储。用户可通过脚本语言自定义算法。

(4)数据管理器。其主要与基础设施层进行交互,并将分布式文件系统中保存的文件移动至Hive数据仓库进行管理。

(5)数据返回处理器。其主要将基础设施层反馈的查询结果输送至用户交互层,在接收到数据结果后再进行有效的处理,并将其提供给用户使用。

基础设施层主要进行大数据的管理,其主要包括相关服务器或云系统运行Hadoop、Hive。此外,基础设施层还具备一个接口管理器,其主要对管理层进行交互的接口进行有效的管理。

图2 轻量级大数据分析系统结构示意图

2.3 实现方法

用户交互层主要通过网页与用户进行交互实现。系统主要应用标准的HTML语言进行网页开发,然后利用RichFaces开源框架设计页面。RichFaces主要应用的是基于MVC架构的Java Server Faces技术。该具备更多的功能,可多网页进行科学、合理的设计。

查询管理层的各组件实现的文件如表1所示。

基础设施层主要对大数据技术相关的Hadoop、Hive系统进行管理,并提供连接管理器组件。通过连接管理器对Hadoop、Hive的流程进行合理、有效的精简[2]。

2.4 性能评估

大数据分析系统的性能更多地取决于对系统硬件环境进行规划与管理,要相对大数据分析系统的性能进行全面、细致的评价,可将系统设置于具备Intel i3 2core系统的计算机中,并通过64 M内存的HP测试平台对其性能进行具体的分析。

3 结束语

本次数据分析系统的实现是在Hadoop、Hive技术之上完成的,应用科学、有效的软件设计的思路,从而构建一种轻量级的大数据分析系统。其不仅改善了大数据分析技术的复杂性,而且还对此系统的应用范围进行了有效的推展,使得更多的用户都能够通过此系统分析数据。此系统的实现表明大数据分析功能已能够符合处理的要求。

[1]周小娟.一种轻量级大数据分析系统的实现[J].电子设计工程,2016,24(8):40-43.

[2]向小佳,赵晓芳,刘洋,等.一种正交分解大数据处理系统设计方法及实现[J].计算机研究与发展,2017,54(5):1097-1108.

The Implementation of a Lightweight Big Data Analysis System

Xie Wenxiang

Jiangsu Mass Data Technology Research Institute Co., Ltd., Jiangsu Nanjing 210019

With the continuous advancement of information process, the era of big data is coming. The development of each industry depends on big data analysis to provide the most valuable reference data for business decisions. However, in the face of the huge amount of data, extracting useful information from the process is not easy. The emergence of big data analysis technology has made this problem effectively solved. Based on this, it mainly achieves through the implementation of a lightweight big data analysis system, and then extricates from the complex big data analysis, so that the related fields can be inspired from it.

lightweight big data; big data analysis; big data analysis system

TP311.13

A

1009-6434(2017)11-0073-03

猜你喜欢

管理器数据仓库处理器
基于数据仓库的数据倾斜解决方案研究
启动Windows11任务管理器的几种方法
应急状态启动磁盘管理器
Windows文件缓冲处理技术概述
探析电力系统调度中数据仓库技术的应用
数据仓库系统设计与实现
ADI推出新一代SigmaDSP处理器
数据复用在存储数据仓库中的运用
火线热讯
在Win 7下利用凭据管理器提高访问速度等