【Spark 调优】Spark 开发调优的十大原则

简介: 【Spark 调优】Spark 开发调优的十大原则

Spark的调优是面试或者笔试考察的重点:总结下


20190505155323677.png


1.开发调优:


原则一:避免创建重复的RDD。


原则二:尽可能复用同一个RDD。


原则三:对多次使用的RDD进行持久化。


20190505155732733.png


原则四:尽量避免使用shuffle类算子 。


原则五:使用map-side预聚合的shuffle操作。


原则六:使用高性能的算子


20190505160004902.png


原则七:广播大变量。


原则八:使用Kryo优化序列化性能。


原则九:优化数据结构。


原则十:对数据进行压缩。


原则十一:合并小文件。  

目录
相关文章
|
4月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何开发ODPS Spark任务
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
7月前
|
分布式计算 Java 数据库连接
回答粉丝疑问:Spark为什么调优需要降低过多小任务,降低单条记录的资源开销?
回答粉丝疑问:Spark为什么调优需要降低过多小任务,降低单条记录的资源开销?
62 1
|
7月前
|
SQL 分布式计算 大数据
Spark开发实用技巧-从入门到爱不释手
Spark开发实用技巧-从入门到爱不释手
59 0
|
7月前
|
SQL 机器学习/深度学习 分布式计算
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day17】——Spark4
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day17】——Spark4
78 0
|
7月前
|
资源调度 大数据 Java
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day21】——Spark8
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day21】——Spark8
63 1
|
7月前
|
消息中间件 分布式计算 大数据
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day16】——Spark3
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day16】——Spark3
59 1
|
7月前
|
分布式计算 大数据 Linux
Python大数据之PySpark(三)使用Python语言开发Spark程序代码
Python大数据之PySpark(三)使用Python语言开发Spark程序代码
251 0
|
7月前
|
分布式计算 资源调度 大数据
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day30】——Spark数据调优(文末附完整文档)
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day30】——Spark数据调优(文末附完整文档)
108 0
|
7月前
|
存储 消息中间件 分布式计算
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day28】——Spark15+数据倾斜1
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day28】——Spark15+数据倾斜1
61 0
|
7月前
|
存储 分布式计算 大数据
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day27】——Spark14
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day27】——Spark14
60 0