Hadoop客户端Job提交流程-阿里云开发者社区

Hadoop客户端Job提交流程

2018-03-12 1862

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 从源码层面，总结下Hadoop客户端提交作业的流程： 1. 选择使用分布式环境通信协议，还是本地调试通信协议 org.apache.hadoop.mapreduce.Job#connect 2. 上传作业代码jobjar, libjar等，从本地文件系统到HDFS中去。 &nbsp

从源码层面，总结下Hadoop客户端提交作业的流程：

1. 选择使用分布式环境通信协议，还是本地调试通信协议

org.apache.hadoop.mapreduce.Job#connect

2. 上传作业代码jobjar, libjar等，从本地文件系统到HDFS中去。

copyAndConfigureFiles(job, submitJobDir);

3. 拆分输入文件，生成splits

org.apache.hadoop.mapreduce.JobSubmitter#writeSplits()

a. 调用job.getInputFormat().getSplits()

b. 根据split size (通常就是HDFS block size), 将文件拆分成多个逻辑上的Split。

每个Split要记录它在逻辑文件中的字节起始位置, 和这个Split所在的HDFS chunk存储在了哪些HDFS datanode上：

c. 将所有Split写入HDFS上的同一个全局文件（<jobSubmitDir>/job.split）中。

这个全局文件的头部是：org.apache.hadoop.mapreduce.split.JobSplitWriter#SPLIT_FILE_HEADER ("SPL") + split version (1)

在这个全局文件内部，为每个Split, 依次写入 split serializer class name + 序列化了的业务数据，

org.apache.hadoop.mapreduce.split.JobSplitWriter#writeNewSplits

（

jobSubmitDir:

local: /tmp/hadoop/mapred/staging/<job id>

hdfs: /tmp/hadoop-yarn/staging/<user>/.staging/<job id>

）

d. 将所有Split的描述信息写入<jobSubmitDir>/job.splitmetainfo中。包括每个Split在job.split全局文件中的偏移量、长度，存储这个Split的datanode的地址

org.apache.hadoop.mapreduce.split.JobSplitWriter#writeJobSplitMetaInfo

4. 将客户端内存中初始化了的作业配置job.configuration写入HDFS <submitJobDir>/job.xml

5. 将作业包装成org.apache.hadoop.yarn.api.records.ApplicationSubmissionContext，调用org.apache.hadoop.yarn.client.api.impl.YarnClientImpl#submitApplication()提交作业给Yarn （走Hadoop RPC）。

Hadoop客户端Job提交流程

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Hadoop客户端Job提交流程

热门文章

最新文章

相关课程

相关电子书

相关实验场景