备案控制台

开发者社区大数据文章正文

Spark ShuffleDependency Shuffle依赖关系

2018-12-05 1387

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Spark ShuffleDependency Shuffle依赖关系Represents a dependency on the output of a shuffle stage.

Spark ShuffleDependency Shuffle依赖关系

Represents a dependency on the output of a shuffle stage. Note that in the case of shuffle,the RDD is transient since we don’t need it on the executor side.

更多资源

github: https://github.com/opensourceteams/spark-scala-maven
csdn(汇总视频在线看): https://blog.csdn.net/thinktothings/article/details/84726769

youtub视频演示

https://youtu.be/8T6PyHuf_wQ (youtube视频)
https://www.bilibili.com/video/av37442139/?p=5 (bilibili视频)
github: https://github.com/opensourceteams/spark-scala-maven

输入数据

List(('c',1),('b',1),('a',1),('a',1)

处理程序scala


package com.opensource.bigdata.spark.local.rdd.operation.dependency.shuffle.n_01_ShuffleDependency

import com.opensource.bigdata.spark.local.rdd.operation.base.BaseScalaSparkContext

object Run  extends BaseScalaSparkContext{

  def main(args: Array[String]): Unit = {

    val sc = pre()
    val rdd1 = sc.parallelize(List(('c',1),('b',1),('a',1),('a',1)),2)
    val rdd2 =rdd1.reduceByKey((a,b) => a + b)



    println("rdd2\n" + rdd2.collect().mkString("\n"))

    sc.stop()
  }

}

数据处理图

文章标签：

分布式计算

Spark

关键词：

apache spark shuffle

apache spark依赖

apache spark依赖关系

apache spark shuffledependency

thinktothings

目录

相关文章

人物我非-32022

|

6天前

|

分布式计算监控大数据

如何优化Spark中的shuffle操作？

【10月更文挑战第18天】

人物我非-32022

16 1 1

武子康

|

29天前

|

存储缓存分布式计算

大数据-89 Spark 集群 RDD 编程-高阶编写代码、RDD依赖关系、RDD持久化/缓存

大数据-89 Spark 集群 RDD 编程-高阶编写代码、RDD依赖关系、RDD持久化/缓存

武子康

41 4 4

武子康

|

29天前

|

SQL 分布式计算大数据

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（一）

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（一）

武子康

36 0 0

武子康

|

29天前

|

SQL 分布式计算算法

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（二）

大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程（二）

武子康

67 0 0

kng32f3vbngrm

|

6月前

|

SQL 分布式计算 Java

IDEA 打包 Spark 项目 POM 文件依赖

这是一个 Maven POM 示例，用于构建一个使用 Spark 与 Hive 的项目，目标是将数据从 Hive 导入 ClickHouse。POM 文件设置了 Scala 和 Spark 的依赖，包括 `spark-core_2.12`, `spark-sql_2.12`, 和 `spark-hive_2.12`。`maven-assembly-plugin` 插件用于打包，生成包含依赖的和不含依赖的两种 JAR 包。`scope` 说明了依赖的使用范围，如 `compile`（默认），`provided`，`runtime`，`test` 和 `system`。

kng32f3vbngrm

89 0 0

孙玉洁-47170

|

6月前

|

分布式计算 Spark 索引

Spark学习---day07、Spark内核（Shuffle、任务执行）

Spark学习---day07、Spark内核（源码提交流程、任务执行）

孙玉洁-47170

108 2 2

孙玉洁-47170

|

6月前

|

存储缓存分布式计算

Spark学习--day04、RDD依赖关系、RDD持久化、RDD分区器、RDD文件读取与保存

Spark学习--day04、RDD依赖关系、RDD持久化、RDD分区器、RDD文件读取与保存

孙玉洁-47170

94 1 1

极客李华

|

6月前

|

分布式计算 Java 调度

Spark中的Shuffle过程是什么？为什么它在性能上很关键？

Spark中的Shuffle过程是什么？为什么它在性能上很关键？

极客李华

243 0 0

Maynor

|

6月前

|

SQL 分布式计算大数据

Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突

Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突

Maynor

231 0 0

星光下的赶路人

|

分布式计算监控 Java

Spark学习---7、Spark内核（源码提交流程、任务执行、Shuffle、内存管理）（一）

Spark学习---7、Spark内核（源码提交流程、任务执行、Shuffle、内存管理）（一）

星光下的赶路人

381 0 1

热门文章

最新文章

[Spark][Python]Mapping Single Rows to Multiple Pairs

spark 3.1.x支持（兼容）hive 1.2.x以及hadoop cdh版本的尝试

Spark Job的提交与task本地化分析（源码阅读八）

[Spark][Python]Spark Python 索引页

Spark-spark streaming

Spark-构建基于Spark的推荐引擎

十二、Spark的安装与部署详情（Local模式，Standalone模式，Spank on YARN模式）

Spark编程语言选择：Scala、Java和Python

Spark PruneDependency 依赖关系 RangePartitioner

Spark Master启动源码分析

数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析

如何解决Spark在深度学习中的资源消耗问题？

Spark在深度学习中的优缺点是什么？

使用Spark进行机器学习

Spark是一个基于内存的通用数据处理引擎，可以进行大规模数据处理和分析

【Spark】Spark基础教程知识点

DataWorks产品使用合集之在DataWorks中，通过spark访问外网的步骤如何解决

MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表，是什么原因

MaxCompute操作报错合集之spark3.1.1通过resource目录下的conf文件配置，报错如何解决

数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

DataWorks智能数据建模全面公测开始啦！