Hadoop完全分布式集群搭建

简介: 注:本篇为hadoop的自用笔记

1.准备3台虚拟机

2.修改ip和主机名

1)修改ip  sudo vim /etc/sysconfig/network-scripts/ifcfg-ens33  

1).2 顺便把主机映射配置进去

虚拟机映射关系 sudo vim /etc/hosts  

192.168.91.102 hadoop102

192.168.91.103 hadoop103

192.168.91.104 hadoop104

windows本机映射  C:\Windows\System32\drivers\etc\hosts

2)重启网络 systemctl restart network

3)修改主机名 hostnamectl set-hostname hadoop102

4)关闭防火墙 systemctl stop firewalld / systemctl disable firewalld

3.安装jdk java -version 如果是自己的jdk版本,则不需要安装

4.安装hadoop    hadoop version  

5.集群分发脚本的编写

rsync -av ./* guokai@hadoop103:/home/guokai

ff ./a.txt

获取路径 dirname  $1

获取文件名 basename $1

获取用户名 echo $USER

获取当前主机名 hostname  

集群分发脚本

=======================

#!/bin/bash

# 实现自动分发文件

if [ $# == 0 ]

then

       exit

fi

#获取文件名

fname=`basename $1`

#获取文件路径

dname=`cd -P $(dirname $1);pwd`

#获取用户名

user=`echo $USER`

for((i=2;i<5;i++))

do

  echo "=================hadoop10$i==================="

       rsync -av $dname/$fname $user@hadoop10$i:$dname

done

============================

jpsall脚本

=====================

#!/bin/bash

# 实现jpsall查看所有机器的进程

for((i=2;i<5;i++))

do

       echo "================hadoop10$i==============="

       ssh hadoop10$i /opt/module/jdk1.8.0_144/bin/jps

done

=====================

6.机子之间免密登录

1)进入你的ssh目录

cd /home/guokai/.ssh/

2)生成钥匙对

ssh-keygen -t rsa

三次回车

+---[RSA 2048]----+

|.+=+ +o          |

|o=B.X... o       |

|+=.X.*  = .      |

|oo+ B. . o       |

| =oo.E. S        |

|o.*oo. .         |

|.*o. .           |

|+.               |

|o                |

+----[SHA256]-----+

3)发送钥匙(给每台机器都发送钥匙)

ssh-copy-id hadoop102  

ssh-copy-id hadoop103  

ssh-copy-id hadoop104

4)免密登录机器

ssh hadoop102

ssh hadoop103

ssh hadoop104

5)实现所有机器的免密登录

重复234步骤

6)最后检查 jpsall 如果不需要输入密码,则配置成功

7)配置完成之后可能出现问题。但是无法免密登录

1. -rw-------. 1 guokai guokai 1194 10月  9 10:00 authorized_keys

 -rw-------. 1 guokai guokai 1679 10月  9 09:54 id_rsa

 -rw-r--r--. 1 guokai guokai  398 10月  9 09:54 id_rsa.pub

 -rw-r--r--. 1 guokai guokai  558 10月  9 09:39 known_hosts

2. drwx------. 2 guokai guokai   80 10月  9 09:56 .ssh

3. drwx------.  9 guokai guokai  230 10月  9 09:47 guokai

4. 假如还不行==,你叠buff  

[guokai@hadoop102 home]$ ssh hadoop103

Last login: Sat Oct  9 10:00:23 2021 from hadoop104

[guokai@hadoop103 ~]$ ssh hadoop102

Last login: Sat Oct  9 10:00:20 2021 from hadoop104

[guokai@hadoop102 ~]$ cd .ssh/

[guokai@hadoop102 .ssh]$  

直接断开连接,重新连接

相关文章
|
4月前
|
存储 负载均衡 NoSQL
【赵渝强老师】Redis Cluster分布式集群
Redis Cluster是Redis的分布式存储解决方案,通过哈希槽(slot)实现数据分片,支持水平扩展,具备高可用性和负载均衡能力,适用于大规模数据场景。
376 2
|
9月前
|
Cloud Native 关系型数据库 分布式数据库
登顶TPC-C|云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
阿里云PolarDB云原生数据库在TPC-C基准测试中以20.55亿tpmC的成绩刷新世界纪录,展现卓越性能与性价比。其轻量版满足国产化需求,兼具高性能与低成本,适用于多种场景,推动数据库技术革新与发展。
|
7月前
|
分布式计算 Hadoop Java
CentOS中构建高可用Hadoop 3集群
这个过程像是在一个未知的森林中探索。但当你抵达终点,看到那个熟悉的Hadoop管理界面时,所有的艰辛都会化为乌有。仔细观察,尽全力,这就是构建高可用Hadoop 3集群的挑战之旅。
289 21
|
8月前
|
Cloud Native 关系型数据库 分布式数据库
登顶TPC-C|云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
522 6
|
9月前
|
并行计算 PyTorch 算法框架/工具
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
本文探讨了如何通过技术手段混合使用AMD与NVIDIA GPU集群以支持PyTorch分布式训练。面对CUDA与ROCm框架互操作性不足的问题,文章提出利用UCC和UCX等统一通信框架实现高效数据传输,并在异构Kubernetes集群中部署任务。通过解决轻度与强度异构环境下的挑战,如计算能力不平衡、内存容量差异及通信性能优化,文章展示了如何无需重构代码即可充分利用异构硬件资源。尽管存在RDMA验证不足、通信性能次优等局限性,但该方案为最大化GPU资源利用率、降低供应商锁定提供了可行路径。源代码已公开,供读者参考实践。
813 3
融合AMD与NVIDIA GPU集群的MLOps:异构计算环境中的分布式训练架构实践
|
存储 分布式计算 负载均衡
分布式计算模型和集群计算模型的区别
【10月更文挑战第18天】分布式计算模型和集群计算模型各有特点和优势,在实际应用中需要根据具体的需求和条件选择合适的计算架构模式,以达到最佳的计算效果和性能。
543 62
|
12月前
|
存储 SpringCloudAlibaba Java
【SpringCloud Alibaba系列】一文全面解析Zookeeper安装、常用命令、JavaAPI操作、Watch事件监听、分布式锁、集群搭建、核心理论
一文全面解析Zookeeper安装、常用命令、JavaAPI操作、Watch事件监听、分布式锁、集群搭建、核心理论。
【SpringCloud Alibaba系列】一文全面解析Zookeeper安装、常用命令、JavaAPI操作、Watch事件监听、分布式锁、集群搭建、核心理论
|
11月前
|
存储 分布式计算 Hadoop
基于Java的Hadoop文件处理系统:高效分布式数据解析与存储
本文介绍了如何借鉴Hadoop的设计思想,使用Java实现其核心功能MapReduce,解决海量数据处理问题。通过类比图书馆管理系统,详细解释了Hadoop的两大组件:HDFS(分布式文件系统)和MapReduce(分布式计算模型)。具体实现了单词统计任务,并扩展支持CSV和JSON格式的数据解析。为了提升性能,引入了Combiner减少中间数据传输,以及自定义Partitioner解决数据倾斜问题。最后总结了Hadoop在大数据处理中的重要性,鼓励Java开发者学习Hadoop以拓展技术边界。
368 7
|
分布式计算 Hadoop Shell
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
335 4

相关实验场景

更多