大数据基础系列 4：伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤及易错点分析

2022-11-11 310

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

日志服务 SLS，月写入数据量 50GB 1个月

简介： 大数据基础系列 4：伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤及易错点分析

文章目录

三、安装 ssh 服务

四、Hadoop 伪分布式安装

五、准备启动 Hadoop 集群

六、伪分布式操作

前言

本文为大数据基础系列 4：伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤及易错点分析，以 ubuntu-18.04.3、hadoop-3.2.1-tar.gz 为例。本系列的其他文章可以移步本人大数据专栏进行查看。对于本篇文章，我个人是很有自信的，一篇文章掌握一门课程核心技术点。

一、创建 Ubuntu 用户

关于创建 Ubuntu 用户的内容这里不做详细叙述了，需要的同学请参考我之前的文章：Ubuntu 答疑：Ubuntu 添加和删除用户具体步骤及进程被占用的解决方式。

二、安装 Java

对于 Ubuntu 本身，系统可能已经预装了Java，它的 JDK 版本类型为 openjdk，路径为"/usr/lib/jvm/default-java"，之后配置 JAVA_HOME 环境变量我们可设置为该值。其具体位置如下图所示：

Apache Hadoop 的 2.7 版和更高版本需要 Java 7。它是在 OpenJDK 和 Oracle（HotSpot）的 JDK / JRE 上构建和测试的。早期版本（2.6 和更早版本）支持 Java 6。

2.1、查看本地 Java 版本

我们输入 java -version 查看本地 jdk 版本号，没安装的话输入同样指令，可以根据提示下载需要版本，具体如下图所示：

2.2、验证 Java 在本地的配置情况

输入 javac，显示命令参数列表，说明配置成功，不显示请根据提示安装，具体如下图所示：

三、安装 ssh 服务

需要具体安装 SSH 无密码登陆参考的同学可以看我之前的文章： ssh 配置：在 Linux 中 ssh 配置无密码登陆完整步骤以及易错点分析。

对于 Hadoop 的伪分布式和全分布式而言，Hadoop 的名称节点（NameNode）需要启动集群中所有机器的 Hadoop 的守护进程，这个过程可以通过 SSH 登陆来实现。Hadoop 并没有提供 SSH 输入密码登陆的形式，因此为了能够顺利登陆每台机器，需要将所有机器配置为名称节点可以无密码登陆的形式。

3.1、安装 openssh-server

安装 openssh-server，在终端输入如下代码：

sudo apt install openssh-server

本人已经安装，具体如下图所示：

3.2、查看 ssh 服务是否启动

输入如下代码：

sudo ps -e|grep ssh

回车，有 sshd，说明 ssh 服务已经启动，具体如下图所示：

如果没有启动，输入sudo service ssh start，回车，ssh 服务就会启动。

四、Hadoop 伪分布式安装

伪分布式安装是指在一台机器上模拟一个小的集群，但是集群只有一个节点。

4.1、Hadoop 下载

在 Linux 系统/Ubuntu 上打开自带火狐浏览器，输入地址 https://hadoop.apache.org/，打开 Hadoop 的页面，点击 Download 进行下载，具体如下图所示：

我们选择所需版本的 binary 链接，进入，具体如下图所示：

点击第一个镜像链接，进入下载页面，具体如下图所示：

4.2、进入下载安装包的目录

cd /home/bailu/下载

这里根据自己目录输入，我的如下图所示：

4.3、Hadoop 解压

对下载的 Hadoop 压缩包执行解压命令如下：

sudo tar -zxvf hadoop-3.2.1.tar.gz

4.3.1、解压命令 tar zxvf 中 zxvf 分别是什么意思？

x : 从 tar 包中把文件提取出来。
z : 表示 tar 包是被 gzip 压缩过的，所以解压时需要用 gunzip 解压。
v : 显示详细信息。
f xxx.tar.gz : 指定被处理的文件是 xxx.tar.gz。

4.3.2、查看 Hadoop 解压后目录文件

输入 ll 查看下载目录下的文件和目录，会看到多了一个目录 hadoop-3.2.1，这是安装包解压后的目录，具体如下图所示：

4.3.3、转移 Hadoop 安装路径

在下载目录下输入如下命令，将 hadoop-3.2.1 目录转移到 usr/local/hadoop 中：

sudo mv hadoop-3.2.1 /usr/local/hadoop

目标文件夹如下图所示：

4.4、检查 Hadoop 目录所有者权限

我们进入 Hadoop目录，可能会发现文件带锁，输入 ll 查看所有者不是本人，具体如下图所示：

4.5、修改 Hadoop 目录所有者权限

这时我们就需要将 Hadoop 目录的所有者更改，根目录输入如下命令：

sudo chown bailu:bailu -R /usr/local/hadoop

具体如下图所示：

修改之后我们可以看到所有者已经更改，具体如下图所示：

4.5、查看 Hadoop 目录结构

根目录输入 cd /usr/local/hadoop 进入 Hadoop 目录，输入 ll 查看 Hadoop 下目录结构，具体如下图所示：

4.6、Hadoop 约定目录结构分析

bin：Hadoop 最基本的管理脚本和使用脚本所在目录，这些脚本是 sbin 目录下管理脚本的基础实现，用户可以直接使用这些脚本管理和使用 Hadoop。
etc：Hadoop 配置文件所在目录，包括 core-site.xml，hdfs-site.xml，mapred-site.xml 等从 hadoop 1.0 继承而来的配置文件和 yarn-site.xml 等 hadoop 2.0 新增的配置文件。
include：对外提供的编程库头文件（具体动态库和静态库在 lib 目录中），这些头文件均是用 c++ 定义的，通常用于 c++ 程序访问 hdfs 或者编写 mapreduce 程序。
lib：该目录包含了 Hadoop 对外提供的的编程动态库和静态库，与 include 目录中的头文件结合使用。
libexec：各个服务对应的 shell 配置文件所在目录，可用于配置日志输出目录，启动参数（比如 JVM 参数）等基本信息。
sbin：Hadoop 管理脚本所在目录，主要包含 HDFS 和 YARN 中各类服务的启动/关闭脚本。
share：Hadoop 各个模块编译后的 jar 包所在目录。

4.7、Hadoop 中的配置文件分析

文件名称	格式	描述
hadoop-env.sh	Bash 脚本	记录配置 Hadoop 运行所需的环境变量，以运行 Hadoop
core-site.xml	Hadoop 配置 XML	Hadoop core 的配置项，如 HDFS 和 MapReduce 常用的 I/O 设置等
hdfs-site.xml	Hadoop 配置 XML	Hadoop 守护进程的配置项，包括 NameNode、Secondary NameNode 和 DataNode 等
mapred-site.xml	Hadoop 配置 XML	MapReduce 守护进程的配置项，包括 JobTracker 和 TaskTracker
masters	纯文本	运行 SecondaryNameNode 的机器列表（每行一个）
slaves	纯文本	运行 DataNode 和 TaskTracker 的机器列表（每行一个）
hadoop-metrics.properties	Java 属性	控制 metrics 在 Hadoop 上如何发布的属性

4.8、设置 Hadoop 环境变量

接下来我们需要设置 Hadoop 环境变量，编辑 ~/.bashrc，任意目录下输入如下代码：

sudo gedit ~/.bashrc

具体如下图所示：

让环境变量立即生效，输入命令： source ~/.bashrc，具体如下图所示：

五、准备启动 Hadoop 集群

5.1、启动 Hadoop 集群的准备工作

在任意目录下输入如下代码：

sudo gedit /usr/local/hadoop/hadoop-3.2.1/etc/hadoop/hadoop-env.sh

编辑 etc/hadoop/hadoop-env.sh 以定义一些参数，将原文本文件中的 JAVA_HOME 设置成真实的 JDK 地址，具体如下所示：

  ＃设置为 Java 安装的根目录
  export JAVA_HOME =/usr/java/latest

5.2、Hadoop 脚本的用法文档

尝试以下命令：Hadoop 根目录下输入 bin/hadoop 这将显示 Hadoop 脚本的用法文档，具体如下图所示：

5.3、查看 Hadoop 的版本信息

这时我们可以查看 Hadoop 的版本信息，输入如下命令：

 ./bin/hadoop version

具体如下图所示：

六、伪分布式操作

6.1、修改配置文件

对于伪分布式，仅需修改 core-site.xml、hdfs-site.xml 文件，详细修改如下。

对于 etc/hadoop/core-site.xml，输入命令如下：

sudo gedit /usr/local/hadoop/hadoop-3.2.1/etc/hadoop/core-site.xml

修改之后如下图所示：

说明：

<name> 标签设置配置项的名字，<value> 设置配置项的值。
对于 core-site.xml 文件，只需在其中指定 HDFS 的地址和端口号，端口号按照官方文档设置为 9000 即可。

对于 etc/hadoop/hdfs-site.xml，输入命令如下：

sudo gedit /usr/local/hadoop/hadoop-3.2.1/etc/hadoop/hdfs-site.xml

修改之后如下图所示：

说明：

对于 hdfs-site.xml 文件，我们设置 replication 值为 1，这也是 Hadoop 运行的默认最小值，它限制了 HDFS 文件系统中同一份数据的副本数量。
这里采用伪分布式，在集群中只有一个节点，因此副本数量 replication 的值也只能设置为 1。

6.2、执行 NameNode 初始化

在配置完成后，首先需要初始化文件系统。由于 Hadoop 的很多工作是在自带的 HDFS 文件系统上完成的，因此需要将文件系统初始化之后才能进一步执行计算任务。

在 Hadoop 根目录执行 NameNode 初始化的命令如下：

./bin/hdfs namenode -format

具体如下图所示：

遇到这一步，继续执行，具体如下图所示：

成功的话，会看到"successfully formatted"和"Exitting with status"的提示，若为"Exitting with status 1"则是出错。

如果出现启动错误，则可以在日志中查看错误原因，具体如下图所示：

对于控制台报错请注意：

每一次的启动日志都是追加在日志文件之后，所以对于错误要拉到最后面看，对比下记录的时间就知道了。
一般出错的提示在最后面，通常是写着 Fatal、Error、Warning 或者 Java Exception 的地方。

6.3、开启 NameNode 和 DataNode 守护进程

输入如下命令：

./sbin/start-dfs.sh

具体如下图所示：

6.4、查看所有的 Java 进程

运行之后，输入 jps 指令可以查看所有的 Java 进程。在正常启动时，可以得到如下类似结果，具体如下图所示：

说明：jps(Java Virtual Machine Process Status Tool)是 java 提供的一个显示当前所有 Java 进程 pid 的命令，适合在 linux/unix 平台上简单察看当前 Java 进程的一些简单情况。很多人都是用过 unix 系统里的 ps 命令，这个命令主要是用来显示当前系统的进程情况，有哪些进程以及进程 id。

jps 也是一样，它的作用是显示当前系统的 Java 进程情况及进程 id。我们可以通过它来查看我们到底启动了几个 Java 进程（因为每一个 Java 程序都会独占一个 Java 虚拟机实例）。

七、访问 Web 界面来查看 Hadoop 的信息

此时，可以通过 Linux 本地浏览器访问 Web 界面（http://localhost:9870）来查看 Hadoop 的信息，具体如下图所示：

如果存在 DataNode 启动异常时或者没有启动的问题，请查看：Apache Hadoop 答疑：解决 Apache Hadoop 启动时 DataNode 启动异常的问题。具体如下图所示：

八、关闭 Hadoop

若要关闭 Hadoop，则在 Hadoop 根目录下运行如下命令：

./sbin/stop-dfs.sh

具体如下图所示：

总结

本文是本专栏文章的第四篇，也是做重要的一篇，后期的 Hadoop 生态体系均是围绕本文展开，同时补充了一些 linux 系统操作的相关知识，对于巩固 linux 系统也是有一定的帮助。简而言之，如果你切实掌握了本文的内容，那么你后期学大数据的其他组成部分也就轻车熟路了。

我是白鹿，一个不懈奋斗的程序猿。望本文能对你有所裨益，欢迎大家的一键三连！若有其他问题、建议或者补充可以留言在文章下方，感谢大家的支持！

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

大数据基础系列 4：伪分布式 Hadoop 在 Ubuntu 上的安装流程完整步骤及易错点分析

文章目录

前言

一、创建 Ubuntu 用户

二、安装 Java

2.1、查看本地 Java 版本

2.2、验证 Java 在本地的配置情况

三、安装 ssh 服务

3.1、安装 openssh-server

3.2、查看 ssh 服务是否启动

四、Hadoop 伪分布式安装

4.1、Hadoop 下载

4.2、进入下载安装包的目录

4.3、Hadoop 解压

4.3.1、解压命令 tar zxvf 中 zxvf 分别是什么意思？

4.3.2、查看 Hadoop 解压后目录文件

4.3.3、转移 Hadoop 安装路径

4.4、检查 Hadoop 目录所有者权限

4.5、修改 Hadoop 目录所有者权限

4.5、查看 Hadoop 目录结构

4.6、Hadoop 约定目录结构分析

4.7、Hadoop 中的配置文件分析

4.8、设置 Hadoop 环境变量

五、准备启动 Hadoop 集群

5.1、启动 Hadoop 集群的准备工作

5.2、Hadoop 脚本的用法文档

5.3、查看 Hadoop 的版本信息

六、伪分布式操作

6.1、修改配置文件

6.2、执行 NameNode 初始化

6.3、开启 NameNode 和 DataNode 守护进程

6.4、查看所有的 Java 进程

七、访问 Web 界面来查看 Hadoop 的信息

八、关闭 Hadoop

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像