浅析基于Hadoop的大数据分析与应用

2016-06-03李文鹏

中国管理信息化 2016年9期

李文鹏

摘要：随着大数据技术正在向各行各业的渗透。Hadoop作为数据分布式处理系统的典型代表，已经成为该领域事实的标准。但Hadoop并不等于大数据，它只是一个成功的处理离线数据的分布式系统，大数据领域还存在众多其他类型的处理系统。所以，Hadoop代替不了大数据的全部，但Hadoop是大数据时代的优秀代表。本文笔者主要介绍基于Hadoop的大数据分析特点，然后具体介绍其主要应用，以供参考。

关键词：大数据 Hadoop 分布式处理系统

前言：随着信息化技术的日渐普及、宽带网络的快速兴起，以及云计算、移动互联和物联网等新一代信息技术的广泛应用，全球数据的增长速度进一步加快。与此同时，一批数据收集、存储、处理技术和应用快速发展并逐渐汇聚。软件运用的技术越来越尖端，结合不断提高的计算能力，从数据中提取有价值信息的能力显著提高。

1 大数据分析和应用特点

大数据在本质上的含义就是通过数据中各种类型的配比和分析，将具有价值的内容用最快的计算方法分析出来的能力。在大数据模式下有更快更强的决策能力和分析洞察能力，在流程化的优化能力上能够增加多样化的信息资源。这也是对超长处理范围的处理优势之一，这些采取非传统方法的数据收集主要存在以下定义，同时具有以下应用特点

区别于过去的海量数据，大数据的特点可以概况为4个V：Volume、Variety、Value和Velocity，即大量、多样、价值密度低、快速。

第一，数据体量大。大数据一般指在10TB（1TB=1024GB）规模以上的数据量，目前正在跃升到PB（1PB=1024TB）级别。不仅存储量大，计算量也大。

第二，数据类型多。除了数值数据，还有文字、声音、视频等，包括网络日志、视频、图片、地理位置信息等多种类型的格式。由于数据来自多种数据源，数据种类和格式日渐丰富，已冲破了以前所限定的结构化数据范畴，囊括了半结构化和非结构化数据。

第三，价值密度低。以视频为例，不间断监控视频中，有价值的数据可能仅有一两秒。找到有价值的信息有如沙里淘金，其价值却又弥足珍贵。

第四，处理速度快。在数据量非常庞大的情况下，也能做到数据的实时处理。这一点和传统的数据挖掘技术有着本质的不同。

大数据分析技术是从多种大型数据量的信息中快速提取有价值的信息技术。大数据的核心问题是数据本身的规模，同时也包括对数据工具和平台数据的多重采集，统称为分析系统。在大数据发展的今天，相关领域在大数据的应用都是看中其数据处理速度快的巨大优势，通过大量、快速的数据处理使问题具有突破性的进展。因此，在大数据时代到来时，信息量的挑战不仅体现在如何利用大量的数据信息来提取相关的有价值的信息，同时也天现在大数据强大的技术研发处理功能。大数据所涉及的关键技术大致包括6个方面：数据采集与数据管理、分布式存储和并行计算、大数据应用开发、数据分析与挖掘、大数据前端应用、数据服务和展现。

2 Hadoop大数据的主要应用

伴随大数据技术的普及，Hadoop因其开源的特点和卓越的性能成为一时的新宠，甚至有人认为大数据就是Hadoop，其实这是一个误区。Hadoop只是处理离线数据的分布式存储和处理系统。除了Hadoop，还有用于处理流数据的Storm、处理关系型数据的Oracle、处理实时机器数据的Splunk……目前主流的大数据系统很多，Hadoop只是其中的代表。

2.1 Hadoop的核心应用模块

Hadoop Common：Hadoop的公用应用模块，是整个Hadoop项目的核心，为Hadoop各子项目提供各种工具，如配置文件和日志操作等，其他Hadoop子项目都是在此基础上发展起来的。Hadoop Distributed File System（HDFS）：Hadoop分布式文件系统，提供高吞吐量应用程序数据访问，并具有高容错性。对外部客户机而言，HDFS就像一个传统的分级文件系统，可以进行增删改查或重命名等常规文件操作。但实际上HDFS中的文件被分成块，然后复制到多个计算机中，这与传统的RAID架构大不相同。HDFS特别适合需要一次写入、多次读取的超大规模数据集的应用程序。

Hadoop YARN：一个作业调度和群集资源管理框架。

Hadoop MapReduce：基于YARN的大型数据分布式并行编程模式和程序执行框架，是Google的MapReduce的开源实现。它帮助用户编写处理大型数据集的并行运行程序。MapReduce隐藏了分布式并行编程的底层细节，开发人员只需编写业务逻辑代码，而无需考虑程序并行执行的细节，从而大大提高了开发效率。

Apache的其他与Hadoop相关的项目还有很多。

2.2 Hadoop大数据分析应用特点

作为分布式计算领域的典型代表，Hadoop比其他分布式框架有更多的优点。

可扩展性：Hadoop可以在不停止集群服务的情况下，在可用的计算机集簇间分配数据并完成计算，这些集簇可以方便地扩展到数千节点中。

简单性：Hadoop实现了简单并行编程模式，用户不需要了解分布式存储和计算的底层细节即可编写和运行分布式应用，在集群上处理大规模数据集，所以使用Hadoop的用户可以轻松搭建自己的分布式平台。

高效性：Hadoop的分布式文件系统具有高效的数据交互设计，可以通过并行处理加快处理速度。Hadoop还是可伸缩的，能够在节点间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

可靠性：Hadoop的分布式文件系统将数据分块储存，每个数据块在集群节点上依据一定的策略冗余储存，确保能够针对失败的节点重新分布处理，从而保证了数据的可靠性。

成本低：依赖于廉价服务器，它的成本比较低，任何人都可以使用。

3 结语

综上所述，在大数据时代，Hadoop以其优越的性能受到业界的广泛关注，已经成为大数据处理领域事实上的标准。如今，Hadoop在诸多领域大显身手。随着开源社区和国际众多国际技术厂商对这一开源技术的积极支持与持续的大量投入，相信不久的将来，Hadoop技术会被拓展到更多的应用领域。

主要参考文献

[1]王宏宇.Hadoop平台在云计算中的应用[J]. 软件，2011（4）.