EMR学习笔记(1)HDFS

简介: 对比开源HDFS,介绍说明EMR集群的HDFS组件基本架构部署情况。并演示远程登录主、从节点,进行基本运维,服务启停等操作。

EMR HDFS Architecture

本文以非HA集群,2个worker的集群为例。
_2019_06_07_11_13_38
emr_hdfs

非HA集群,仅有一个Namenode实例,部署在Master节点。
Namenode主要职责:
-管理文件系统namespace,包括但不仅限于:开、关文件,文件改名,目录操作等。
-管控客户端对文件的访问

EMR hadoop集群,每个Worker节点仅部署一个Datanode实例。
Datanode主要职责:
-管理所在节点挂载的存储
-提供给客户端读写服务
-block创建、删除以及replication

登录EMR集群实现基本运维

在较新的集群版本中(3.2 以上版本),所有的服务操作都可以通过集群的配置管理功能来完成。推荐优先使用 Web 页面的管理方式。

若您觉得在网页上的作业和执行计划无法满足您更加复杂的应用需求,您可以登录到 E-MapReduce 集群的主机上。找到集群的详情页,其中就有集群 master 机器的公网 IP 地址,您可以直接 SSH 登录到这台机器上,查看各种设置与状态。

登录 Master 主机步骤

  1. 使用如下命令 SSH 登录到 master 主机。请在集群详情页的主机信息栏中获取集群 master 机器的公网 IP。
    ssh root@ip.of.master
  2. 输入创建集群时设定的密码。

如何登录 Core 节点
A:按照如下步骤:

  1. 首先在 Master 节点上切换到 Hadoop 账号:
    su hadoop
  2. 然后即可免密码 SSH 登录到对应的 Core 节点:
    ssh emr-worker-1
  3. 通过 sudo 可以获得 root 权限:
    sudo vi /etc/hosts

通过命令行方式启停服务进程
操作用账号:hdfs

  • NameNode (Master 节点)
// 启动
/usr/lib/hadoop-current/sbin/hadoop-daemon.sh start namenode
// 停止
/usr/lib/hadoop-current/sbin/hadoop-daemon.sh stop namenode
  • DataNode (Core 节点)
// 启动
/usr/lib/hadoop-current/sbin/hadoop-daemon.sh start datanode
// 停止
/usr/lib/hadoop-current/sbin/hadoop-daemon.sh stop datanode

示例:登录实际emr集群演示停止datanode进程操作
20190608093637

目录
相关文章
|
存储 SQL 分布式计算
阿里云全托管flink-vvp平台hudi connector实践(基于emr集群oss-hdfs存储)
阿里云全托管flink-vvp平台hudi sink connector实践,本文数据湖hudi基于阿里云E-MapReduce产品,以云对象存储oss-hdfs作为存储
|
存储 分布式计算 负载均衡
Hadoop学习笔记(二)之HDFS
Hadoop学习笔记(二)之HDFS
|
1月前
|
存储 机器学习/深度学习 弹性计算
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
|
4月前
|
存储 缓存 安全
阿里云EMR数据湖文件系统: 面向开源和云打造下一代 HDFS
本文作者详细地介绍了阿里云EMR数据湖文件系统JindoFS的起源、发展迭代以及性能。
72623 79
|
1月前
|
安全 数据安全/隐私保护
阿里云EMR数据湖文件系统问题之JindoFS的INode定义与HDFS有何不同
阿里云EMR数据湖文件系统问题之JindoFS的INode定义与HDFS有何不同
|
4月前
|
存储 机器学习/深度学习 分布式计算
Hadoop学习笔记(HDP)-Part.12 安装HDFS
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
124 0
Hadoop学习笔记(HDP)-Part.12 安装HDFS
|
4月前
|
存储 SQL 分布式计算
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
453 0
|
SQL 弹性计算 分布式计算
使用EMR+DLF+OSS-HDFS进行数据湖分析
本实验通过使用EMR,搭建EMR集群,对OSS-HDFS进行数据湖分析
711 0
|
29天前
|
存储 分布式计算 Hadoop
【揭秘Hadoop背后的秘密!】HDFS读写流程大曝光:从理论到实践,带你深入了解Hadoop分布式文件系统!
【8月更文挑战第24天】Hadoop分布式文件系统(HDFS)是Hadoop生态系统的关键组件,专为大规模数据集提供高效率存储及访问。本文深入解析HDFS数据读写流程并附带示例代码。HDFS采用NameNode和DataNode架构,前者负责元数据管理,后者承担数据块存储任务。文章通过Java示例演示了如何利用Hadoop API实现数据的写入与读取,有助于理解HDFS的工作原理及其在大数据处理中的应用价值。
40 1
|
1月前
|
存储 缓存 分布式计算