RDD 的分区和 Shuffle 介绍 | 学习笔记

简介: 快速学习 RDD的分区和Shuffle介绍

开发者学堂课程【大数据 Spark2020最新课程(知识精讲与实战演练)第二阶段RDD 的分区和 Shuffle 介绍学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/11990


RDD 的分区和 Shuffle 介绍


内容介绍

一、RDD 特性

二、分区的作用

三、分区和 Shuffle 的关系

四、Spark 中的 Shuffle 操作的特点

 

一、RDD 特性

RDD 的分区和 Shuffle 的过程(Shuffle 过程依托 RDD 的分区实现)

RDD 的缓存

RDD CheckpointCheckpoint 是一个重要,增进性能的手段)

通过第一部分希望大家能够了解 RDD 的分区是怎么样的,分区该怎么操作,分区怎么去增大,怎么去减少,怎么去重分区。

 

二、分区的作用

1.  RDD 经常需要通过读取外部系统的数据来创建,外部存储系统往往是支持分片的,外部存储与大数据平台配合使用,所存储的数据量特别大,单击存不下,故支持分片。

分片侧重存储,分区侧重计算,RDD 需要支持分区,来和外部系统的分片--对应。处理外部系统的文件。

例:sc 里有方法 textfile,经常读取外部系统的数据来创建 RDD

2.  RDD 的分区是一个并行计算的实现手段

 

三、分区和 Shuffle 的关系

他们并没有关系,一个 Shuffle 是计算转存的一个过程,随机分组的过程,分区是数据集本身。所以他们并没有直接关系,但是 RDD 的分区和 Shuffle 也有关系。

Shuffle 如果想要实现,是多个分区之间进行数据的拷贝。比如 PDD 有三个分区,现在要把他 Shuffle 到另 RDD 当中,这个 RDD 有两个分区,他们之间关系如下图:

image.png

相关文章
|
前端开发 微服务
Element-Plus 图标自动导入
Element-Plus 图标自动导入
|
JavaScript 前端开发 API
无界微前端是如何渲染子应用的?(下)
无界微前端是如何渲染子应用的?(下)
852 0
|
存储 SQL 数据库
面试题20: 存储过程和函数的区别
面试题20: 存储过程和函数的区别
997 0
|
存储 关系型数据库 Apache
Apache Doris 入门 10 问
本文解答了Apache Doris 在读写流程、副本一致性机制、 存储机制、高可用机制等方面的常见疑问点,欢迎订阅。
724 0
Apache Doris 入门 10 问
|
SQL 存储 关系型数据库
|
Shell Linux 开发工具
Anaconda安装后报错 -bash: conda: command not found 如何处理
【6月更文挑战第20天】Anaconda安装后报错 -bash: conda: command not found 如何处理
1385 0
|
运维 监控 Apache
Doris 运维篇:Apache Doris 如何定位处理问题的Tablet
Doris 运维篇:Apache Doris 如何定位处理问题的Tablet
1124 0
|
开发工具 开发者 git
2023 Visual Studio Code 插件推荐:18 个提高开发效率的常用插件
Visual Studio Code (简称VSCode) 是一款强大的开源代码编辑器,它拥有众多功能强大的扩展插件,使得开发者可以根据自己的需求来定制编辑器的功能和外观。在本文中,我们将分享一些非常实用的 VSCode 插件,这些插件将提高您的开发效率,使编码变得更加愉快。
948 0
|
分布式计算 监控 大数据
Spark RDD分区和数据分布:优化大数据处理
Spark RDD分区和数据分布:优化大数据处理
|
SQL Java Apache
Failed to bind properties under 'spring.datasource.type' to java.lang.Class
版权声明:本文为 testcs_dn(微wx笑) 原创文章,非商用自由转载-保持署名-注明出处,谢谢。 https://blog.csdn.net/testcs_dn/article/details/80898952 刚创建的 Spring Boot 2.
12614 0