切片和 MapTask 并行度决定机制| 学习笔记

简介: 快速学习切片和 MapTask 并行度决定机制

开发者学堂课程【Hadoop 分布式计算框架 MapReduce:切片和 MapTask 并行度决定机制】学习笔记,

与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/94/detail/1497


切片和 MapTask 并行度决定机制


内容介绍

1. 问题引出

2. MapTask 并行度决定机制

3. 切片和 MapTask 并行度决定机制图示分析

 

l 1.问题引出

MapTask 的并行度决定 Map阶段的任务处理并发度,进而影响到整个Job的处理速度。

思考:1G 的数据,启动8个 MapTask, 可以提高集群的并发处理能力。那么1K的数据,也启动8个 MapTask ,会提高集群性能吗?MapTask 并行任务是否越多越好呢?哪些因素影响了 MapTask 并行度?


l 2. MapTask 并行度决定机制

数据块:Block 是 HDFS 物理上把数据分成一块一块。

数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。


l 3.切片和 MapTask 并行度决定机制图示分析

1) 一个 Job 的 Map 阶段并行度由客户端在提交 Job 时的切片数决定

2)每一个 Split 切片分配一个 MapTask 并行实例处理

3)默认情况下,切片大小 =BlockSize

4)切片时不考虑数据集整体,而是逐个针对每一个文件单独切片

图片3.png

相关文章
|
6月前
|
分布式计算
MapReduce中的Shuffle过程是什么?为什么它在性能上很关键?
MapReduce中的Shuffle过程是什么?为什么它在性能上很关键?
220 0
|
6月前
|
存储 分布式计算 算法
MapReduce计数器,Tash的运行机制,shuffle过程,压缩算法
MapReduce计数器,Tash的运行机制,shuffle过程,压缩算法
58 0
|
6月前
|
缓存 分布式计算 搜索推荐
MapReduce【MapTask和ReduceTask的工作机制】
MapReduce【MapTask和ReduceTask的工作机制】
|
分布式计算 Java 调度
21 MapTask并行度决定机制
21 MapTask并行度决定机制
63 0
|
缓存 分布式计算
25 MAPREDUCE的shuffle机制
25 MAPREDUCE的shuffle机制
66 0
|
存储 缓存 分布式计算
Spark RDD算子进阶(转换算子、行动算子、缓存、持久化)(下)
Spark RDD算子进阶(转换算子、行动算子、缓存、持久化)(下)
149 0
Spark RDD算子进阶(转换算子、行动算子、缓存、持久化)(下)
|
SQL 分布式计算 Hadoop
Hive 作业中Reduce个数设置多少合适呢?
Hive 作业Reduce个数设置原则
656 0
|
分布式计算
MapTask、Shuffle、ReduceTask工作机制
MapTask、Shuffle、ReduceTask工作机制
62 0
|
分布式计算 Java
Mapreduce执行机制之提交任务和切片原理
Mapreduce执行机制之提交任务和切片原理
101 0
|
存储 XML 缓存
Hadoop中的MapReduce框架原理、Job提交流程源码断点在哪断并且介绍相关源码、切片与MapTask并行度决定机制、MapTask并行度决定机制
Hadoop中的MapReduce框架原理、Job提交流程源码断点在哪断并且介绍相关源码、切片与MapTask并行度决定机制、MapTask并行度决定机制
Hadoop中的MapReduce框架原理、Job提交流程源码断点在哪断并且介绍相关源码、切片与MapTask并行度决定机制、MapTask并行度决定机制