Hadoop的环境搭建以及配置(wordcount示例)(二)

简介: Hadoop的环境搭建以及配置(wordcount示例)(二)

7. 克隆三台slave机,分别修改主机名slave1、slave2、slave3
进入etc/sysconfig/network-scripts文件,修改IP分别为:192.168.133.143、192.168.133.144、192.168.133.145
修改hosts文件

[root@master~]# vi /etc/hosts
  1. 修改为:
192.168.253.5 master
192.168.253.6 slave1
192.168.253.7 slave2
192.168.253.8 slave3

配置SSH登录

1.在每台虚拟机上输入以下命令ssh-keygen -t rsa

2.发送公钥

[root@master .ssh]# cat id_rsa.pub >> authorized_keys
[root@master .ssh]# chmod 644 authorized_keys
[root@master .ssh]# systemctl restart sshd.service
[root@master .ssh]# scp /root/.ssh/authorized_keys slave2:/root/.ssh
[root@master .ssh]# scp /root/.ssh/authorized_keys slave3:/root/.ssh
[root@master .ssh]# scp /root/.ssh/authorized_keys slave1:/root/.ssh

3.ssh登陆检验

[root@master .ssh]# ssh master
The authenticity of host 'master (192.168.133.142)' can't be established.
ECDSA key fingerprint is SHA256:2Bffpg/A1+5pIpz1wxrvrtDAOWhygRaJnuRbywSEmOQ.
ECDSA key fingerprint is MD5:48:5d:59:ae:19:95:3d:88:4d:3d:56:46:0d:ff:fe:4a.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'master,192.168.133.142' (ECDSA) to the list of known hosts.
Last login: Wed Oct  5 18:51:56 2022 from 192.168.133.156
[root@master ~]# ssh slave1
Last login: Wed Oct  5 18:53:23 2022 from 192.168.133.156
[root@slave1 ~]# exit
logout
Connection to slave1 closed.
[root@master ~]# ssh slave2
Last login: Wed Oct  5 18:53:25 2022 from 192.168.133.156
[root@slave2 ~]# exit
logout
Connection to slave2 closed.
[root@master ~]# ssh slave3
Last login: Wed Oct  5 18:52:07 2022 from 192.168.133.156
[root@slave3 ~]# exit
logout
Connection to slave3 closed.

运行hadoop

1.格式化HDFS

[root@master ~]#cd /usr/hadoop/hadoop-2.10.1/bin
[root@master bin]# hdfs namenode -format

2.启动

start-all.sh

3.jps查看

[root@master bin]# jps
19301 Jps
1626 NameNode
1978 ResourceManager
1821 SecondaryNameNode

测试Hadoop实验

  • 查看 Na­meN­ode、DataN­ode:192.168.133.142:50070

  • 查看 Sec­ondary­Na­meN­ode 信息:192.168.133.142:50090

  • 查看 YARN 界面:192.168.133.142:8088

测试Hdfs

创建输入输出路径以及上传的文件:

[root@master hadoop-2.10.1]# hadoop fs -mkdir -p /data/wordcount
[root@master hadoop-2.10.1]# hadoop fs -mkdir -p /output/
[root@master hadoop-2.10.1]# vi /usr/inputword
[root@master bin]# cat /usr/inputword 
hello world
hello hadoop
hello hdfs
hello test

将本地准备的输入文件上传到hdfs文件中

[root@master hadoop-2.10.1]# hadoop fs -put /usr/inputword /data/wordcount

WordCount测试

[root@master hadoop-2.10.1]# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar wordcount /data/wordcount /output/wordcountresult
[root@master hadoop-2.10.1]# hadoop fs -text /output/wordcountresult/part-r-00000
hadoop  1
hdfs  1
hello 4
test  1
world 1

wordcount官方格式

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.0.jar wordcount wcinput wcoutput  
wordcount:案例名称
wcinput:输入文件夹
wcoutput:输出文件夹


相关文章
|
2月前
|
分布式计算 Hadoop Shell
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
72 4
|
2月前
|
SQL 存储 分布式计算
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
47 3
|
2月前
|
SQL 分布式计算 Hadoop
Hadoop-34 HBase 安装部署 单节点配置 hbase-env hbase-site 超详细图文 附带配置文件
Hadoop-34 HBase 安装部署 单节点配置 hbase-env hbase-site 超详细图文 附带配置文件
85 2
|
2月前
|
分布式计算 Hadoop
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
50 1
|
2月前
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
49 0
|
2月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
169 6
|
2月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
69 2
|
29天前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
90 2
|
29天前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
65 1
|
2月前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
61 1

相关实验场景

更多