文档备案控制台

开发者社区问答正文

Spark作业提交流程具体是怎么样的？

Spark作业提交流程具体是怎么样的？

展开

收起

游客ahv54x37wvm7u 2021-12-13 19:36:34 728 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客lu6fsp6mkfgcm

spark-submit 提交代码，执行 new SparkContext()，在 SparkContext 里构造 DAGScheduler 和 TaskScheduler。

TaskScheduler 会通过后台的一个进程，连接 Master，向 Master 注册 Application。

Master 接收到 Application 请求后，会使用相应的资源调度算法，在 Worker 上为这个 Application 启动多个 Executer。

Executor 启动后，会自己反向注册到 TaskScheduler 中。所有 Executor 都注册到 Driver 上之后，SparkContext 结束初始化，接下来往下执行我们自己的代码。

每执行到一个 Action，就会创建一个 Job。Job 会提交给 DAGScheduler。

DAGScheduler 会将 Job划分为多个 stage，然后每个 stage 创建一个 TaskSet。

TaskScheduler 会把每一个 TaskSet 里的 Task，提交到 Executor 上执行。

Executor 上有线程池，每接收到一个 Task，就用 TaskRunner 封装，然后从线程池里取出一个线程执行这个 task。(TaskRunner 将我们编写的代码，拷贝，反序列化，执行 Task，每个 Task 执行 RDD 里的一个 partition)

2021-12-13 19:36:47

赞同展开评论

问答分类：

分布式计算 Spark

问答标签：

apache spark作业 apache spark流程 apache spark作业流程 apache spark作业提交流程

问答地址：

开发者社区 > 大数据 > 问答

相关问答

flink里pyspark ,通过 spark-submit 这种方式提交作业，报错依赖缺失咋办？

209

1

0

接入阿里云RSS后，小米Spark作业的稳定性和性能有哪些显著提升？

190

1

0

在供应链核算的Spark处理流程中，主要包含哪些主流程？

66

1

0

云数据仓库ADB 单击作业开发 > Spark Jar开发。找不到这个菜单

125

1

0

MaxCompute spark作业报错Class org.apache.hadoop.fs....

348

1

0

在ECS部署的airflow如何将spark作业提交到E-MapReduce集群上

135

1

0

E-MapReduce使用spark-submit提交spark作业偶尔报错日志中的关键信息为...

124

1

0

E-MapReduce Spark历史作业在哪里可以查看到

127

0

0

MaxCompute spark作业报错Cannot allocate memory

122

0

0

DataWorks生产spark jar 能不能访问只和主账号有关系，跟谁调度作业无关？

96

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

如何在阿里云服务器上部署网站？2026年阿里云服务器怎么选？

部署OpenClaw多少钱？2026年阿里云 OpenClaw（Clawdbot）怎么部署及收费标准

阿里云百炼Coding Plan是什么意思？

有传言通义灵码不再增加新功能了，是这样吗？

OpenClaw（原Clawdbot）阿里云一键部署后，2026年有哪些应用场景可用到？

相关文章

阿里云大数据 AI 产品月刊-2026年1月

考虑微电网灵活性的含分布式电源配电网二阶锥松弛最优潮流优化研究（Matlab代码实现）

基于三机九节点系统的模块化潮流计算程序设计（MATLAB实现）

诗悦游戏基于DLF与EMR StarRocks降本38%

数仓-湖仓-湖流，人力家基于阿里云OpenLake架构演进与思考

还有其他疑问?