Spark 算子详解及优化1 | 学习笔记

简介: 快速学习 Spark 算子详解及优化1

开发者学堂课程【大数据实时计算框架Spark快速入门Spark算子详解及优化1】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/100/detail/1680


Spark  算子详解及优化1


内容介绍:

一、优先级

二、Parallelized 算子

三、External Datasets 算子

四、Tranformations 算子

五、代码样例

六、Mapoperater  与 MapPartionsoperater  的区别


一、优先级

在代码里优先级最高,其次是在提交时,再其次是 sparkinv.sh ,最后是源码写的默认配置。


二、Parallelized 算子

Parallelized  可以并行化一个集合把一个集合变成一个 RDD


三、External Datasets 算子

textfile 默认选用   Hadoop   里面的类去读取,用 inputformat 进行切割。


四、Tranformations 算子

Tranformations :罗列了一些延迟操作的算子

map 算子对每个元素进行操作

fliter 过滤


五、代码样例

Mapoperater.java 步骤

首先创建一个  List ,接着通过 parallelized 方法把  List 并行化为一个 RDD ,接着对它来进行算子化操作,再接着调用 foreach 进行打印。


六、Mapoperater 与 MapPartionsoperater 的区别

map 算子:一次就处理一个 partition 的一条数据!

mapPartitions 算子:一次处理一个 partition 中所有的数据!

推荐的使用场景:如果你的 RDD 的数据不是特别多,那么采用 MapPartitions 算子代替 map 算子,可以加快处理速度

比如说100亿条数据,你一个 partition 里面就有 10 亿条数据,不建议使用mapPartitions ,因为一下子返回大量数据可能会导致内存溢出。

MapPartionsoperater 算子可以说是对 Mapoperate 算子级别的优化。

相关文章
|
11月前
|
SQL 分布式计算 Java
Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化
本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享,主要内容包括以下四个部分: 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作
1504 0
|
分布式计算 监控 大数据
如何优化Spark中的shuffle操作?
【10月更文挑战第18天】
|
存储 分布式计算 监控
Spark如何优化?需要注意哪些方面?
【10月更文挑战第10天】Spark如何优化?需要注意哪些方面?
200 6
|
分布式计算 Java 大数据
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
187 0
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
|
存储 分布式计算 供应链
Spark在供应链核算中应用问题之通过Spark UI进行任务优化如何解决
Spark在供应链核算中应用问题之通过Spark UI进行任务优化如何解决
|
SQL 分布式计算 大数据
大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
182 0
|
分布式计算 并行计算 数据处理
|
大数据 RDMA
神龙大数据加速引擎MRACC问题之MRACC-Spark利用eRDMA近网络优化插件来提升性能如何解决
神龙大数据加速引擎MRACC问题之MRACC-Spark利用eRDMA近网络优化插件来提升性能如何解决
449 0
|
缓存 分布式计算 监控
Spark 优化方案
Spark 优化方案
222 1
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
160 0