APP下载

基于VMware搭建Hadoop伪分布式实验平台

2022-05-13孙爱婷

科学家 2022年5期
关键词:实验平台

摘要:Hadoop是一个能够对大量数据进行分布式处理的软件框架,为了满足大数据技术专业学生实验的需要,采用VMware虚拟机在单机环境下搭建Hadoop伪分布式实验平台,通过实驗过程操作和程序运行可以看出,伪分布式平台搭建可以支持轻量级的大数据学习需要。

关键词:Hadoop;伪分布式;实验平台

一、Hadoop概述

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上,而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。

二、Hadoop安装方式

(1)单机模式

Hadoop 默认模式为非分布式模式(本地模式),无需进行其他配置即可运行。非分布式即单 Java 进程,方便进行调试。

(2)伪分布式模式

Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。

(3)分布式模式

使用多个节点构成集群环境来运行Hadoop,实验中通常在虚拟机下建立三个节点(一个主节点和两个丛节点)。

三、Hadoop伪分布式模式搭建过程

(1)实验环境

本文使用Ubuntu 14.04 64位作为系统环境,安装所需软件包有:hadoop-2.7.1.tar.gz、 jdk-8u162-linux-x64.tar.gz。

(2)创建hadoop用户

在终端环境下,创建新用户hadoop:sudo useradd –m hadoop –s /bin/bash;设置hadoop用户密码:sudo passwd hadoop;为 hadoop 用户增加管理员权限,方便部署:sudo adduser hadoop sudo。

(3)安装SSH、配置SSH无密码登陆

Ubuntu 默认已安装 SSH client,还需要安装 SSH server:sudo apt-get install openssh-server;使用如下命令登陆本机:ssh localhost;利用 ssh-keygen 生成密钥:ssh-keygen -t rsa;加入授权:cat ./id_rsa.pub >> ./authorized_keys

(4)安装Java环境

创建/usr/lib/jvm目录用来存放JDK文件:sudo mkdir /usr/lib/jvm;将下载好的JDK安装包jdk-8u162-linux-x64.tar.gz解压到上面创建的目录下:sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm;编辑环境变量配置文件:vim ~/.bashrc,在文件开头位置添加如下几行内容:export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162和export PATH=${JAVA_HOME}/bin:$PATH;执行配置文件,使其立即生效:source ~/.bashrc;查看Java版本信息:执行java –version命令。

(5)安装Hadoop

将下载好的hadoop-2.7.1.tar.gz解压到/usr/local:sudo tar –zxvf  ~/hadoop-2.7.1.tar.gz -C /usr/local;将解压后的文件夹名改为hadoop:sudo mv ./hadoop-2.7.1/ ./hadoop;修改文件权限:sudo chown -R hadoop ./hadoop;Hadoop 解压后即可使用,输入如下命令来检查 Hadoop 是否可用,成功会显示 Hadoop 版本信息:执行cd /usr/local/hadoop和./bin/hadoop version命令。

(6)伪分布式安装配置

Hadoop 的配置文件位于/usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件core-site.xml 和 hdfs-site.xml,见图1;配置完成后,执行 NameNode 的格式化命令:cd /usr/local/hadoop和./bin/hdfs namenode –format命令,成功的话会看到“successfully formatted”。

(7)启动Hadoop

执行cd /usr/local/hadoop和./sbin/start-dfs.sh命令,即可启动Hadoop。

四、实例应用

以计算数学中PI的值为实例,在Hadoop伪分布式平台上运行,在运行实例之前需要完成MapReduce相关配置。

切换到Hadoop配置文件目录:cd /usr/local/hadoop/etc/hadoop;将mapreduce的配置文件mapred-site.xml.template,重命名为mapred-site.xml:mv mapred-site.xml.template mapred-site.xml;修改配置文件mapred-site.xml和yarn-site.xml,见图3;启动yarn组件:cd /apps/hadoop/sbin/和./start-yarn.sh命令;切换到/usr/local/hadoop/share/hadoop/mapreduce目录,在该目录下运行一个mapreduce程序:

hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.4.5.jar pi 3 3,计算出PI的值,见图2。

参考文献:

[1]崔文斌.Hadoop大数据平台的搭建与测试[J].山东农业大学学报(自然科学版),2013,44(4):550-551.

[2]汪庆.伪分布式大数据平台搭建实验综述[J].福建电脑,2020,36(10):131-132.

[3]周晴红.Hadoop大数据开发技术课程实践教学[J].办公自动化杂志,2021(457):20-21.

[4]梁天友,邱敏.基于Hadoop技术的大数据就业岗位数据分析[J].电脑知识与技术,2021(31):47.

[5]张雪.基于Hadoop技术的联通大数据采集研究[J].信息与电脑,2021(24):199-200.

[作者简介]孙爱婷(1984-),女,汉族,辽宁大连人,讲师,硕士,辽宁轻工职业学院,信息工程系大数据技术专业主任,主要研究方向:大数据技术。

猜你喜欢

实验平台
生物医学工程专业创新人才培养策略
单片机仿真实验平台的设计分析
基于LabVIEW下嵌入式系统实验平台的设计与实现分析
基于LabVIEW的虚拟实验平台设计