基于VMware搭建Hadoop伪分布式实验平台

2022-05-13孙爱婷

科学家 2022年5期

摘要：Hadoop是一个能够对大量数据进行分布式处理的软件框架，为了满足大数据技术专业学生实验的需要，采用VMware虚拟机在单机环境下搭建Hadoop伪分布式实验平台，通过实驗过程操作和程序运行可以看出，伪分布式平台搭建可以支持轻量级的大数据学习需要。

关键词：Hadoop;伪分布式;实验平台

一、Hadoop概述

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的硬件上，而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。

二、Hadoop安装方式

（1）单机模式

Hadoop 默认模式为非分布式模式（本地模式），无需进行其他配置即可运行。非分布式即单 Java 进程，方便进行调试。

（2）伪分布式模式

Hadoop 可以在单节点上以伪分布式的方式运行，Hadoop 进程以分离的 Java 进程来运行，节点既作为 NameNode 也作为 DataNode，同时，读取的是 HDFS 中的文件。

（3）分布式模式

使用多个节点构成集群环境来运行Hadoop，实验中通常在虚拟机下建立三个节点（一个主节点和两个丛节点）。

三、Hadoop伪分布式模式搭建过程

（1）实验环境

本文使用Ubuntu 14.04 64位作为系统环境，安装所需软件包有：hadoop-2.7.1.tar.gz、 jdk-8u162-linux-x64.tar.gz。

（2）创建hadoop用户

在终端环境下，创建新用户hadoop：sudo useradd –m hadoop –s /bin/bash;设置hadoop用户密码：sudo passwd hadoop;为 hadoop 用户增加管理员权限，方便部署：sudo adduser hadoop sudo。

（3）安装SSH、配置SSH无密码登陆

Ubuntu 默认已安装 SSH client，还需要安装 SSH server：sudo apt-get install openssh-server;使用如下命令登陆本机：ssh localhost;利用 ssh-keygen 生成密钥：ssh-keygen -t rsa;加入授权：cat ./id_rsa.pub >> ./authorized_keys

（4）安装Java环境

创建/usr/lib/jvm目录用来存放JDK文件：sudo mkdir /usr/lib/jvm;将下载好的JDK安装包jdk-8u162-linux-x64.tar.gz解压到上面创建的目录下：sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm;编辑环境变量配置文件：vim ～/.bashrc，在文件开头位置添加如下几行内容：export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162和export PATH=${JAVA_HOME}/bin：$PATH;执行配置文件，使其立即生效：source ～/.bashrc;查看Java版本信息：执行java –version命令。

（5）安装Hadoop

将下载好的hadoop-2.7.1.tar.gz解压到/usr/local：sudo tar –zxvf ～/hadoop-2.7.1.tar.gz -C /usr/local;将解压后的文件夹名改为hadoop：sudo mv ./hadoop-2.7.1/ ./hadoop;修改文件权限：sudo chown -R hadoop ./hadoop;Hadoop 解压后即可使用，输入如下命令来检查 Hadoop 是否可用，成功会显示 Hadoop 版本信息：执行cd /usr/local/hadoop和./bin/hadoop version命令。

（6）伪分布式安装配置

Hadoop 的配置文件位于/usr/local/hadoop/etc/hadoop/ 中，伪分布式需要修改2个配置文件core-site.xml 和 hdfs-site.xml，见图1;配置完成后，执行 NameNode 的格式化命令：cd /usr/local/hadoop和./bin/hdfs namenode –format命令，成功的话会看到“successfully formatted”。

（7）启动Hadoop

执行cd /usr/local/hadoop和./sbin/start-dfs.sh命令，即可启动Hadoop。

四、实例应用

以计算数学中PI的值为实例，在Hadoop伪分布式平台上运行，在运行实例之前需要完成MapReduce相关配置。

切换到Hadoop配置文件目录：cd /usr/local/hadoop/etc/hadoop;将mapreduce的配置文件mapred-site.xml.template，重命名为mapred-site.xml：mv mapred-site.xml.template mapred-site.xml;修改配置文件mapred-site.xml和yarn-site.xml，见图3;启动yarn组件：cd /apps/hadoop/sbin/和./start-yarn.sh命令;切换到/usr/local/hadoop/share/hadoop/mapreduce目录，在该目录下运行一个mapreduce程序：

hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.4.5.jar pi 3 3，计算出PI的值，见图2。

参考文献：

[1]崔文斌.Hadoop大数据平台的搭建与测试[J].山东农业大学学报（自然科学版），2013，44（4）：550-551.

[2]汪庆.伪分布式大数据平台搭建实验综述[J].福建电脑，2020，36（10）：131-132.

[3]周晴红.Hadoop大数据开发技术课程实践教学[J].办公自动化杂志，2021（457）：20-21.

[4]梁天友，邱敏.基于Hadoop技术的大数据就业岗位数据分析[J].电脑知识与技术，2021（31）：47.

[5]张雪.基于Hadoop技术的联通大数据采集研究[J].信息与电脑，2021（24）：199-200.

[作者简介]孙爱婷（1984-），女，汉族，辽宁大连人，讲师，硕士，辽宁轻工职业学院，信息工程系大数据技术专业主任，主要研究方向：大数据技术。