开发者学堂课程【Hadoop 分布式计算框架 MapReduce:切片和 MapTask 并行度决定机制】学习笔记,
与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/94/detail/1497
切片和 MapTask 并行度决定机制
内容介绍
1. 问题引出
2. MapTask 并行度决定机制
3. 切片和 MapTask 并行度决定机制图示分析
l 1.问题引出
MapTask 的并行度决定 Map阶段的任务处理并发度,进而影响到整个Job的处理速度。
思考:1G 的数据,启动8个 MapTask, 可以提高集群的并发处理能力。那么1K的数据,也启动8个 MapTask ,会提高集群性能吗?MapTask 并行任务是否越多越好呢?哪些因素影响了 MapTask 并行度?
l 2. MapTask 并行度决定机制
数据块:Block 是 HDFS 物理上把数据分成一块一块。
数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。
l 3.切片和 MapTask 并行度决定机制图示分析
1) 一个 Job 的 Map 阶段并行度由客户端在提交 Job 时的切片数决定
2)每一个 Split 切片分配一个 MapTask 并行实例处理
3)默认情况下,切片大小 =BlockSize
4)切片时不考虑数据集整体,而是逐个针对每一个文件单独切片