Spark 原理_总体介绍_集群环境 | 学习笔记

简介: 快速学习 Spark 原理_总体介绍_集群环境

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段Spark 原理_总体介绍_集群环境】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/689/detail/12006


Spark 原理_总体介绍_集群环境


上一节小案例直接运行,如果将案例运行到生产环境下,案例需打包成架包提交到集群中去运行,要了解架包如何运行需要先了解集群环境如何运行。

进入笔记,如图所示:

image.png

因为集群中的每台机器都运行着 spark 程序,因而称为 spark 集群。Spark 集群如何运行程序?

假设 node 01master 的原因是什么?假设 Note 02worker 的原因是什么?因为 Note 01中运行着 master deamon,在 Note 02中运行 work deamon,因而称 node 01MosterNode 02worker

deamon 可以理解为守护进程的意义,进程是为了管理某些东西,管理机器或者某些资源。Master deamon 运行在node 01,意为管理 Node 01这一台机器,管理 master 的职责。worker deamon 运行在 Note 02中,意为管理Node 02这台机器,用于和 master 进行通信。

例如打包一个 spark 程序,需要把程序提交给 master 进行运行,此意味着 master 调度程序的运行,程序最终在executor 中进行,worker 负责和 master 进行交互,Master 将调度的任务赋予 worker,而 worker master 认领任务,Worker deamon 负责去创建 executor。当程序运行完时,Worker deamon 负责去关闭 executor 程序。

以上为 master deamon worker deamon 的作用。一个用于管理 master 节点,一个管理 worker 节点。一个用于分发任务,而另一个接收任务,运行,启动,管理 executor

executor 运行在容器中,称为 executor backendexecutor 是一个进程,需要依托于外部的环境,所以需要先运行executor backendWorker damon 通过 executor backend 管理 executor,事实上,一个 executor backend 只负责一个 executorWorker 通过 executor backend 管理 executor

spark 集群中,有一个重要的角色: driver,是整个要运行 spark 集群 application 的驱动节点。

一个架包提交,会有一个 Scala class,通过 driver 运行 applicationexecutor 负责运行方法,准备好整个环境,executor driver 进行通信,负责整个任务的具体执行,运行结束,结果汇总给 driver,并呈现。action 操作最终获取结果,是将结果存放在 driver 中。

集群部署情况:

master 节点运行 master 的守护进程,是 master deamon,进行管理 master

worker 节点中运行 worker,是 worker deamon,进行管理 worker 节点。和 Master 同时认领任务,开启executor backend,通过 executor backend 管理 executorDriver 也运行在 worker 中,是 spark application 的调度者,驱动程序,最终结果获取者。

相关文章
|
9月前
|
人工智能 分布式计算 调度
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
|
11月前
|
存储 分布式计算 调度
Spark Master HA 主从切换过程不会影响到集群已有作业的运行, 为什么?
Spark Master 的高可用性(HA)机制确保主节点故障时,备用主节点能无缝接管集群管理,保障稳定运行。关键在于: 1. **Driver 和 Executor 独立**:任务执行不依赖 Master。 2. **应用状态保持**:备用 Master 通过 ZooKeeper 恢复集群状态。 3. **ZooKeeper 协调**:快速选举新 Master 并同步状态。 4. **容错机制**:任务可在其他 Executor 上重新调度。 这些特性保证了集群在 Master 故障时仍能正常运行。
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
145 0
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
131 0
|
消息中间件 分布式计算 Kafka
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
209 0
|
消息中间件 分布式计算 Kafka
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
290 0
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
302 0
|
6月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
364 0
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
955 2
ClickHouse与大数据生态集成:Spark & Flink 实战