不可不知的资源管理调度器Hadoop Yarn

简介: Yarn(Yet Another Resource Negotiator)是一个资源调度平台,负责为运算程序如Spark、MapReduce分配资源和调度,不参与用户程序内部工作。同样是Master/Slave架构。

Yarn(Yet Another Resource Negotiator)是一个资源调度平台,负责为运算程序如Spark、MapReduce分配资源和调度,不参与用户程序内部工作。同样是Master/Slave架构。

以下图MapReduce提交到Yarn上运行为例,看看Yarn主要包括哪些核心组件以及每个组件的作用:

yarn.jpg

全局资源管理器(ResourceManager)

主节点,全局资源管理器,负责整个系统的资源管理和分配,主要由调度器和应用程序管理器组成。

调度器根据容量、队列等限制条件(如每个队列分配多少资源、最多执行一定数量的作业等)将系统中资源分配给各个正在运行的应用程序。

应用程序管理器(ApplicationsManager)负责管理整个系统中所有应用程序,包括应用程序提交、与调度器协商资源以启动、监控Application Master,并且在失败时重新启动它等

节点资源管理器(NodeManager)

从节点,每个节点上的资源和任务管理器,它需要向ResourceManager汇报本节点上的资源使用情况和各个Container的运行状态,同时接收并处理来自Application Master的Container启动/停止等各种请求

应用管理器(Application Master)

用户提交的每个应用程序均包含1个应用管理器,对应到运行MapReduce为MRAppMaster,主要功能包括:

  • 1.向全局资源管理器申请资源
  • 2.将得到的资源进一步分配给内部的任务
  • 3.与节点资源管理器通信以启动/停止任务
  • 4.监控所有任务运行状态,并在任务运行失败时重新为任务申请资源以重启任务

Container

可以理解为Yarn中为某个节点已经申请到的资源封装的类,资源如内存、CPU等,是根据应用程序需求动态生成的,是Yarn中基本资源划分单位。一个NodeManager节点上同时存在多个Container。提交作业的每个task都运行在Container中

Yarn调度器

根据一些限制条件如每个队列分配多少资源、最多执行多少数量的作业,将系统中资源按照应用程序的资源需求分配给各个应用程序,资源分配单位就是上文提到的container,并且用户可以根据自己的需求设计新的调度器,目前Yarn也提供了多种可直接使用的调度器:

scheduler.jpg

FIFOScheduler(先进先出调度器):不支持抢占先机。如果有运行特别慢的任务,会影响其他任务

FairScheduler(公平调度器):每个用户公平共享集群资源,支持抢占先机,如果有的任务长时间占用大量资源,超出其应该分配的资源比例,会终止得到过多资源的任务

CapacityScheduler(容量调度器):有层次结构的队列,每个队列分配一定的容量(比如将小job和大job分配到不同的队列),单个队列内部支持FIFO

笔者强调:

1.Yarn并不清楚用户提交程序的运行机制,只提供运算资源的调度(用户程序向yarn申请资源,yarn负责分配资源)

2.Yarn中的主管角色是ResourceManager,具体提供运算资源的角色是NodeManager

3.Yarn与运行的用户程序完全解耦,意味着Yarn上可以运行各种类型的分布式运算程序,如Spark、MapReduce、Storm、Tez等,前提是这些技术框架中有符合Yarn规范的资源请求机制即可

4.因为Yarn不参与用户程序的执行等,使得Yarn成为一个通用的资源调度平台。企业中以前存在的各种计算引擎集群都可以整合在一个资源管理平台上,提高资源利用率

5.调度器不参与任何与具体应用程序相关的工作,如不负责监控或者跟踪应用的执行状态等,也不负责重新启动因应用执行失败或者硬件故障而产生的失败任务,这些均交由应用程序相关的Application Master完成。

相关文章
|
17天前
|
资源调度 分布式计算 Hadoop
YARN(Hadoop操作系统)的架构
本文详细解释了YARN(Hadoop操作系统)的架构,包括其主要组件如ResourceManager、NodeManager和ApplicationMaster的作用以及它们如何协同工作来管理Hadoop集群中的资源和调度作业。
33 3
YARN(Hadoop操作系统)的架构
|
17天前
|
资源调度 分布式计算 Hadoop
使用YARN命令管理Hadoop作业
本文介绍了如何使用YARN命令来管理Hadoop作业,包括查看作业列表、检查作业状态、杀死作业、获取作业日志以及检查节点和队列状态等操作。
21 1
使用YARN命令管理Hadoop作业
|
17天前
|
分布式计算 资源调度 Hadoop
Hadoop YARN资源管理-容量调度器(Yahoo!的Capacity Scheduler)
详细讲解了Hadoop YARN资源管理中的容量调度器(Yahoo!的Capacity Scheduler),包括队列和子队列的概念、Apache Hadoop的容量调度器默认队列、队列的命名规则、分层队列、容量保证、队列弹性、容量调度器的元素、集群如何分配资源、限制用户容量、限制应用程序数量、抢占申请、启用容量调度器以及队列状态管理等方面的内容。
35 3
|
17天前
|
分布式计算 资源调度 Hadoop
Hadoop YARN资源管理-公平调度器(Fackbook的Fair Scheduler)
详细介绍了Hadoop YARN资源管理中的公平调度器(Fair Scheduler),包括其概述、配置、队列结构、以及如何将作业提交到指定队列,展示了公平调度器如何通过分配文件(fair-scheduler.xml)来控制资源分配,并提供了配置示例和如何通过命令行提交作业到特定队列的方法。
38 0
Hadoop YARN资源管理-公平调度器(Fackbook的Fair Scheduler)
|
20天前
|
图形学 数据可视化 开发者
超实用Unity Shader Graph教程:从零开始打造令人惊叹的游戏视觉特效,让你的作品瞬间高大上,附带示例代码与详细步骤解析!
【8月更文挑战第31天】Unity Shader Graph 是 Unity 引擎中的强大工具,通过可视化编程帮助开发者轻松创建复杂且炫酷的视觉效果。本文将指导你使用 Shader Graph 实现三种效果:彩虹色渐变着色器、动态光效和水波纹效果。首先确保安装最新版 Unity 并启用 Shader Graph。创建新材质和着色器图谱后,利用节点库中的预定义节点,在编辑区连接节点定义着色器行为。
70 0
|
20天前
|
图形学 C# 开发者
Unity粒子系统全解析:从基础设置到高级编程技巧,教你轻松玩转绚丽多彩的视觉特效,打造震撼游戏画面的终极指南
【8月更文挑战第31天】粒子系统是Unity引擎的强大功能,可创建动态视觉效果,如火焰、爆炸等。本文介绍如何在Unity中使用粒子系统,并提供示例代码。首先创建粒子系统,然后调整Emission、Shape、Color over Lifetime等模块参数,实现所需效果。此外,还可通过C#脚本实现更复杂的粒子效果,增强游戏视觉冲击力和沉浸感。
38 0
|
27天前
|
资源调度 分布式计算 监控
【揭秘Hadoop YARN背后的奥秘!】从零开始,带你深入了解YARN资源管理框架的核心架构与实战应用!
【8月更文挑战第24天】Hadoop YARN(Yet Another Resource Negotiator)是Hadoop生态系统中的资源管理器,为Hadoop集群上的应用提供统一的资源管理和调度框架。YARN通过ResourceManager、NodeManager和ApplicationMaster三大核心组件实现高效集群资源利用及多框架支持。本文剖析YARN架构及组件工作原理,并通过示例代码展示如何运行简单的MapReduce任务,帮助读者深入了解YARN机制及其在大数据处理中的应用价值。
39 0
|
1月前
|
存储 分布式计算 Hadoop
|
25天前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
|
26天前
|
存储 SQL 分布式计算
Hadoop生态系统概述:构建大数据处理与分析的基石
【8月更文挑战第25天】Hadoop生态系统为大数据处理和分析提供了强大的基础设施和工具集。通过不断扩展和优化其组件和功能,Hadoop将继续在大数据时代发挥重要作用。