备案控制台

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

Spark 3.0中的AQE中动态优化join中的数据倾斜什么意思？

Spark 3.0中的AQE中动态优化join中的数据倾斜什么意思？求大佬解答

展开

收起

爱吃鱼的程序员 2020-12-28 11:41:00 911 0

1 条回答

写回答

取消提交回答

爱吃鱼的程序员

https://developer.aliyun.com/profile/5yerqm5bn5yqg?spm=a2c6h.12873639.0.0.6eae304abcjaIB

在Spark中，我们希望当Join的某一边可以完全放入内存时，Spark选择BroadcastHashJoin，但是实际上会出现预估可能不够准确，导致本来可以优化为BHJ的没有被优化的情况，原因也很多，比如；统计信息不够准确；子查询太复杂；黑盒的谓词，比如自定义UDF。

2020-12-28 11:41:17

赞同展开评论打赏

问答分类：

分布式计算 Spark 开源大数据平台 E-MapReduce

问答标签：

apache spark优化 apache spark动态 apache spark数据倾斜 apache spark join apache spark join数据倾斜

问答地址：

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

MRACC-Spark在网络和存储方面做了哪些优化？

41

1

0

大数据计算MaxCompute的Maxcompute Spark 任务，开启动态资源调度，怎么报错？

154

3

0

如何通过Spark UI进行任务优化？

52

1

0

MRACC-Spark如何利用eRDMA近网络优化插件来提升性能？

31

1

0

MRACC-Spark的SQL引擎优化主要体现在哪些方面？

42

1

0

Spark SQL在MRACC中有哪些特定的优化措施？

39

1

0

DataWorks如何设置环境变量哈，便于spark 运行任务时动态获取？

65

1

0

为什么通过spark 写 hudi 同步 hive 设置的主键是通过join写过来的

422

1

0

基于yarn，spark任务可以配置动态资源内存和核数，flink呢？

375

1

0

Spark3.0对SQL引擎进行了哪些优化？

999

1

0

大数据与机器学习

开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

我要提问

热门讨论

热门文章

E-MapReduce和MaxCompute的区别是什么？

Databricks 和 Dataworks 都是一站式的数据分析平台，两者的区别是什么？

JindoTable数据湖之分层存储是什么？

Databricks公司的市场地位是什么？

阿里云Data bricks数据洞察(DDI)架构是什么？

EMR StarRocks有hive或spark的炸裂函数，类似explode可以用吗?

阿里云E-MapReduce我用flume工具同步数据到oss，切分出来的文件毫无规律是什么原因？

E-MapReduce有时候遇到跑hive 任务跑着 yarn 节点就掉了如何排查问题？

阿里云E-MapReduce notebook 目前支持通过插件的方式支持 scala 语言开发吗？

Hologres 是对标 ClickHouse + Hbase + ...？,是如何把这些能力全部都

展开全部

阿里封神-大数据处理技术漫谈

5W1H(六何分析法)全景洞察大数据

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

开源大数据周刊-第88期

开源大数据周刊-第73期

漫谈分布式计算框架

大数据列式存储 Parquet 和 ORC 简介

扩展Spark Catalyst，打造自定义的Spark SQL引擎

Apache Avro as a Built-in Data Source in Apache Spark 2.4

Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟--无缝的将pandas切换成Apache Spark指南

展开全部

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

429

33

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

291

28

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

129

25

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

140

19

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

156

32

去学习

大数据实时计算框架Spark快速入门

1038

93

去学习

相关电子书

更多

Hybrid Cloud and Apache Spark 立即下载

Scalable Deep Learning on Spark 立即下载

Comparison of Spark SQL with Hive 立即下载