这是CDP中Yarn使用手册系列的第一篇。
Apache YARN 是用于管理在网络中的多台机器上运行的分布式应用程序的处理层。YARN 允许您使用各种数据处理引擎对数据进行批处理、交互式和实时流处理。
1 Yarn的特性
YARN 使您能够在 Hadoop 中管理资源和调度作业。YARN 提供以下功能:
多租户
您可以使用多个开源和专有的数据访问引擎对同一数据集进行批量、交互式和实时访问。多租户数据处理提高了企业的 Hadoop 投资回报。
集群利用率
您可以动态分配集群资源以提高资源利用率。
多种资源类型
您可以使用多种资源类型,例如内存、CPU 和 GPU。
可扩展性
显着提高数据中心的处理容量。YARN 的 ResourceManager 专注于调度并在集群扩展到管理 PB 数据的数千个节点时跟上步伐。
兼容性
为 Hadoop 1 开发的 MapReduce 应用程序在 YARN 上运行,不会中断现有流程。YARN 保持 API 与先前稳定版 Hadoop 的兼容性。
2. 了解 YARN 架构
YARN 允许您使用各种数据处理引擎对存储在 HDFS 或云存储(如 S3 和 ADLS)中的数据进行批处理、交互式和实时流处理。您可以针对不同的用例使用不同的处理框架,例如,您可以为 SQL 应用程序运行 Hive,为内存应用程序运行 Spark,为流式应用程序运行Flink/Storm,所有这些都在同一个 Hadoop 集群上。
YARN 将 Hadoop 的功能扩展到数据中心内发现的新技术,以便您可以利用经济高效的线性规模存储和处理。它为独立软件供应商和开发人员提供了一个一致的框架,用于编写在 Hadoop 中运行的数据访问应用程序。
YARN 架构和工作流程
YARN 具有三个主要组件:
· ResourceManager:使用 Scheduler 和 ApplicationManager 分配集群资源。
· ApplicationMaster:通过指示 NodeManager 为作业创建或销毁容器来管理作业的生命周期。一个作业只有一个 ApplicationMaster。
· NodeManager:通过在集群节点中创建和销毁容器来管理特定节点中的作业或工作流。
原文链接:https://docs.cloudera.com/cdp-private-cloud-base/latest/concepts-compute.html