什么是HDFS和YARN?

简介: 【8月更文挑战第31天】

在大数据领域,处理和分析海量数据集合是一项挑战。为此,Apache Hadoop提供了一套可靠的框架和工具,其中Hadoop Distributed File System(HDFS)和Yet Another Resource Negotiator(YARN)是两个关键组件。本文将详细介绍HDFS和YARN,并探讨它们如何协同工作以支持大规模数据处理任务。

HDFS(Hadoop Distributed File System)

定义与作用

HDFS是Apache Hadoop项目的一部分,它是一个分布式文件系统,设计用于在商用硬件上可靠地存储和管理大量数据。HDFS以其高容错性、高吞吐量和可扩展性而著称,非常适合于那些需要处理PB级(Petabyte)数据的应用。

架构

HDFS采用Master-Slave架构,主要包括两个核心组件:NameNode和DataNode。

  • NameNode:作为Master节点,负责管理文件系统的命名空间,维护系统树和文件元数据。它还记录每个文件的数据块(Block)的位置信息,但不存储实际数据。
  • DataNode:作为Slave节点,负责存储数据块(Blocks)。每个文件被分成多个数据块,这些块分布在多个DataNode上。每个DataNode定期向NameNode报告其存储的数据块列表。

容错与复制

为了提高可靠性,HDFS将每个数据块复制到多个DataNode上(默认为三个)。如果一个DataNode失效,系统会自动从其他节点恢复数据,确保数据的完整性和可用性。

YARN(Yet Another Resource Negotiator)

定义与作用

YARN是Hadoop的一个资源管理系统,它负责协调集群资源并调度用户应用程序。YARN的引入是为了解决原始Hadoop只能运行MapReduce任务的局限性,使其能够支持更广泛的数据处理模型。

架构

YARN也采用了Master-Slave架构,其主要组件包括ResourceManager和NodeManager。

  • ResourceManager:作为Master节点,负责全局资源的分配和管理。它接收作业提交,并根据集群资源情况调度这些作业。
  • NodeManager:作为Slave节点,负责管理单个节点上的计算资源,并执行由ResourceManager分配的任务。

资源抽象

YARN引入了“容器”的概念,作为资源抽象的基本单位。每个容器都有固定数量的CPU和内存资源。YARN通过分配容器来运行和管理任务,这种抽象使得YARN能够支持多种数据处理框架,如MapReduce、Spark等。

HDFS与YARN的协同工作

在Hadoop生态系统中,HDFS和YARN紧密协作,以支持大规模数据处理任务。当一个作业提交到YARN时,YARN会根据集群中的资源情况(由HDFS提供的数据位置信息)调度任务,以优化数据本地性,减少数据传输时间。同时,YARN会监控任务的执行状态,并在必要时重新启动失败的任务。

总结来说,HDFS提供了一个可靠、高吞吐量的数据存储解决方案,而YARN则提供了一个灵活的资源管理平台。两者的结合使得Hadoop能够有效地处理和分析大规模数据集,适应各种复杂的应用场景。

目录
相关文章
|
Web App开发 SQL 资源调度
CDH/CDP中开启kerberos后如何访问HDFS/YARN/HIVESERVER2 等服务的webui
CDH/CDP中开启kerberos后如何访问HDFS/YARN/HIVESERVER2 等服务的webui
|
3月前
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
99 5
|
3月前
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
43 4
|
3月前
|
XML 分布式计算 资源调度
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
211 5
|
3月前
|
XML 资源调度 网络协议
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
190 4
|
3月前
|
分布式计算 资源调度 Hadoop
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
106 4
|
8月前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】(图片来源于网络)(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
【4月更文挑战第5天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
173 9
|
存储 资源调度 分布式计算
集成 Hadoop 服务(HDFS、YARN)| 学习笔记
快速学习 集成 Hadoop 服务(HDFS、YARN)
207 0
集成 Hadoop 服务(HDFS、YARN)| 学习笔记
|
分布式计算 资源调度 Hadoop
hadoop hdfs、yarn 群起脚本
hadoop hdfs、yarn 群起脚本
106 0
|
4月前
|
资源调度 分布式计算 Hadoop
YARN(Hadoop操作系统)的架构
本文详细解释了YARN(Hadoop操作系统)的架构,包括其主要组件如ResourceManager、NodeManager和ApplicationMaster的作用以及它们如何协同工作来管理Hadoop集群中的资源和调度作业。
185 3
YARN(Hadoop操作系统)的架构

热门文章

最新文章

相关实验场景

更多