基于Hadoop的大数据平台架设探讨

2018-06-07秦杰仪邓昭宇

现代工业经济和信息化 2018年5期

秦杰仪，曾志，孙蕾，邓昭宇

（湖南师范大学，湖南长沙 410081）

引言

自2008年{Nature}发表有关大数据（Big Data）的专刊以来，大数据的处理和分析已经成为人们关注的焦点。大数据具有四个特点：多样化（Variety)，海量性（Volume），快速性（Velocity）和灵活性（Vi-tality）。这四个特点要求我们对当前分布式架构的理念做出新的理解，在数据处理和数据整合上使用新的方法。Hadoop就是在此环境下成功应用于大数据处理和分析的一个分布式架构平台，它具有方便、健壮性、可扩展性、搭建对硬件要求较低等优点，在大数据领域内的分布式处理上占有较大的优势。

1 Hadoop简介

Hadoop是Apache基金会下的一款开源软件，它实现了包括分布式文件系统和MapReduce框架在内的云计算软件平台的基础架构，并且在此基础架构上整合了包括数据库、云计算管理、数据仓储等一系列平台，是工业界和学术界进行云计算应用和研究的标准平台。它的两个核心组成部分为HDFS和 MapReduce。Hadoop使用Hadoop分布式文件系统（Hadoop Distributed File System，HDFS），其特点有以多节点协同代替单节点能力提升、处理超大文件及运行于廉价的商用机器集群上。使用MapReduce实现对任务的并行处理功能，其特点是将计算与数据结合得更紧密、并使数据处理架构具有平滑的可扩展性。

如图1在分布式存储和分布式计算方面，Hadoop都使用了主/从（Master/Slave）架构。Hadoop集群有5 个构造模块 NameNode、DataNode、Secondary NameNode、JobTracker、TaskTracker组成。其中 NameN-ode、Secondary NameNode、JobTracker运行在 Master节点上，而DataNode、TaskTracker运行在每个Slave节点上，以便Slave服务器运行的数据处理程序能够尽可能直接处理本机的数据。对Master节点需要特别说明的是，在小集群中，Secondary NameNode可以属于某个节点；在大型集群中，NameNode和Secondary NameNode被分别部署在两台服务器上。

图1 Hadoop集群节点示意图

2 Hadoop平台的搭建

首先在主机中下载并安装虚拟机VMware，新建4台虚拟机并安装CentOS系统，服务器4台（一台为Master节点，三台为Slave节点）

2.1 Hadoop服务器基础环境配置

1）以root身份登录KVM-Master服务器，添加一个hadoop用户。

2.2 Hadoop完全分布式配置

1）配置集群主机Hosts。

2）配置 SSH。

3）配置集群各主机间无密码访问。

4）安装主机和从机的hadoop环境。

5）格式化HDSF文件系统。

6）启动HDSF文件管理系统与MapReduce

2.3 HBase的安装配置

解压安装源码包并重命名。

2.4 调用SequenceFile,MapFile文件存储

3 常见问题及其解决办法

3.1 无法新建虚拟机

主机Inter VT-x处于禁用中，需要进入主机的BIOS设置中允许虚拟化。

3.2 启动Hadoop时报错

使用start-dfs.sh和start-all.sh启动Hadoop时出错：Error:JAVA_HOME is not set.#找不到JAVA_HOME。

此时应检查/usr/hadoop/conf/hadoop-env.sh文件中#export JAVA_HOME=的语句中JAVA_HOME的预设路径是否与实际安装路径相同；并去除该句注释’#’。

3.3 免密码登陆失败

检查Master的/root/.ssh/authorized_keys中是否含有所有Slave节点的公钥。

3.4 DataNode没有启动

在安装配置完hadoop后，执行startdfs.sh启动hadoop，执行jps，发现NameNode启动起来了，而DataNode进程却没有启动起来。这种问题一般是由于多次格式化NameNode引起的，这个时候可以查看namenode和datanode的clusterID，如果datanode的clusterID和namenode的clusterID不一致，那么就将datanode中的clusterID修改成na?menode中的clusterID，再重新启动hadoop。

3.5 其他问题

遇到问题最好的办法就是去查看相应的log文件，然后找到问题所在，有针对的解决，需要注意的是，每一次的启动日志都是追加在日志文件之后，所以需要拉到文件的最后界面进行查看。

4 结语

Hadoop架构平台是大数据技术中极为重要的一种分布式平台，本文对Hadoop核心组成部分的技术原理进行了简要地说明，并对hadoop的完全分布式环境进行了搭建，这为日后的大数据的研究、处理等工作提供了一个很好的平台基础，下一步我们的研究重心将是对相关的算法进行深入的学习和优化，并将算法应用到hadoop平台上，实现其并行化的运行。

[1]安俊秀,王鹏.Hadoop大数据处理技术基础与实践[M].北京：人民邮电出版社，2015.

[2]Eric Sammer.Hadoop技术详解[M].北京：人民邮电出版社，2013.

[3]陈琳.浅论Hadoop平台在大数据中的应用[J].太原学院学报，2017，35（3）：56-59.

[4]任建新.基于Hadoop平台的大数据应用系统架构的研究与实现[D].北京：北京邮电大学，2014.