文档备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

大数据计算MaxCompute生产中有两个表，有没有其他优化方案？

大数据计算MaxCompute生产中有两个表，且两表数据不符合mapjoin规范，且必须做优化时，有没有其他优化方案？

展开

收起

真的很搞笑 2023-12-19 06:45:33 226 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

芯在这

可以看下这个文档哈。https://help.aliyun.com/zh/maxcompute/use-cases/data-skew-tuning/?spm=a2c4g.11186623.0.i49#p-b10-lf2-xu9 ，此回答整理自钉群“MaxCompute开发者社区2群”

2023-12-19 16:56:42

赞同展开评论
sunrr
当两个表进行Join操作时，如果它们的数据不符合MapJoin规范，您可以尝试以下优化方案：
1. 使用WHERE子句进行过滤：在MaxCompute SQL中，当两个表进行Join操作时，建议在主表的分区限制条件位置使用WHERE子句。具体来说，可以先用子查询过滤数据，然后在主表的WHERE子句中写入这些条件。
2. 开启SkewJoin功能：MaxCompute提供了数据倾斜设置参数 set odps.sql.skewjoin=true; 开启SkewJoin功能。但需要注意，仅仅开启SkewJoin并不能对任务的运行产生实际影响。
3. 使用Sort-Merge Join算法：这是一种常见的连接算法，适用于大表之间的连接操作。其基本思想是将两个大表按照连接键进行排序，然后逐个比较并合并相同连接键的记录。
4. 使用Broadcast Join算法：当一个大表非常大于另一个表时，可以使用Broadcast Join算法。该算法将小表复制多份，分发到各个节点上，每个节点都对小表执行局部Join操作，最后再将各个节点的结果合并。
5. 使用Bucketed MapJoin算法：当两个表的大小相对较大且连接键分布均匀时，可以考虑使用Bucketed MapJoin算法。这种算法首先按照连接键对两个表进行桶化处理，然后将两个表的数据分发到各个节点上执行局部Join操作，最后再将各个节点的结果合并。
2023-12-19 09:05:24

赞同展开评论

问答分类：

分布式计算 MaxCompute 大数据云原生大数据计算服务 MaxCompute

问答标签：

云原生大数据计算服务 MaxCompute优化云原生大数据计算服务 MaxCompute MaxCompute 大数据计算云原生大数据计算服务 MaxCompute 云原生大数据计算服务 MaxCompute方案云原生大数据计算服务 MaxCompute生产

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

大数据计算MaxCompute这种mapjoin构建hash table时间很长，有什么优化方向吗?

1574

1

0

MaxCompute支持并行计算以加速数据处理任务。要优化并行度，如何调整参数？

153

0

0

这种子查询，在主查询中使用多次，在maxcompute里面有优化的方法吗？

171

1

0

RDMA技术的主要优势是什么？它如何帮助大数据分布式计算优化？

449

1

0

MaxCompute这个语句该怎么优化呀？

177

1

0

maxcompute 和odps的关系是什么啊，我第一次做这个，有点不懂

2896

1

0

大数据中maxcompute跟emr的区别是什么呢？

1046

1

0

云原生大数据计算服务 MaxCompute里，运维中最重要的模块是谁？

1079

1

0

云原生大数据计算服务 MaxCompute中，DataWorks开发流程是怎样的？

1208

1

0

云原生大数据计算服务 MaxCompute中，使用DataWorks进行作业调度会带来什么好处？

1141

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

相关文章

从问题库到AI回答样本：数据清洗与指标聚合流程

阿里云人工智能平台PAI对接完全指南：从入门到生产级部署

从原始AI回答到可分析指标：数据清洗与口径统一流程

如何用数字化工具沉淀运营数据？2026让管理决策告别“经验驱动”

仓储管理数字化升级解析：从条码扫描到RFID智能识别的技术演进

相关解决方案

更多

文件下载加速及成本优化

RDS 到 Redis 实时同步方案

基于 Spark 和 PyTorch 的模型训练方案

网站静态资源加速与安全优化

RocketMQ for AI：企业级 AI 应用集成的异步通信方案

热门讨论

热门文章

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

请问下大数据计算MaxCompute dataworks是否有全局变量？

大数据计算MaxCompute用kettle的转换功能去进行odps的同步数据可行吗？

大数据计算MaxCompute这种mapjoin构建hash table时间很长，有什么优化方向吗?

关于MaxCompute 中的CU为什么设置CPU和内存的比例是1:4

大数据计算MaxCompute该字段类型从tinyint改为Int,怎么修改?

今天用实时同步同步了 RDS 数据到 MaxCompute，任务运维上显示成功，看日志也没有问

咨询一下，我配置了MySQL实时同步到MaxCompute的任务，但MySQL数据更新后，MaxCo

大数据计算MaxCompute作业运维排序报错，如何解决？

在大数据计算MaxCompute中，这种多久能查询到？

展开全部

大数据环境下该如何优雅地设计数据分层

odps是什么?

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

吴刚专访--大数据和 MaxCompute 技术和故事

优酷背后的大数据秘密

2017杭州云栖大会FAQ（持续更新中）

Python+大数据计算平台，PyODPS架构手把手教你搭建

【大数据干货】轻松处理每天2TB的日志数据，支撑运营团队进行大数据分析挖掘，随时洞察用户个性化需求。

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

展开全部

还有其他疑问?