开发者社区云计算文章正文

ODPS_数据倾斜查看key分布的通用方案_200628

2020-06-28 664

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

简介： odpssql数据倾斜

产生数据倾斜的通用方案

知道数据倾斜了，但无法获知数据倾斜的key信息，可以使用以下方法查看数据倾斜。

假如select * from tba join tbb on tba.id=tbb.id; 产生了数据倾斜
可以执行如下语句来查看key的分布：
select left.key,left.cnt*right.cnt 
from(select key,count(*) as cnt from tba group by key) as left 
join
(select key,count(*) as cnt from tbb group by key) as right
on left.key=right.key;

文章标签：

云原生大数据计算服务 MaxCompute

关键词：

云原生大数据计算服务 MaxCompute方案

大数据开发治理平台 DataWorks方案

云原生大数据计算服务 MaxCompute key

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

yf7ofoc6z6jaq

真的很搞笑

8月前

分布式计算大数据数据处理

maxcompute配置问题之配置文件key参数如何解决

MaxCompute配置是指在使用阿里云MaxCompute服务时对项目设置、计算资源、存储空间等进行的各项调整；本合集将提供MaxCompute配置的指南和建议，帮助用户根据数据处理需求优化其MaxCompute环境。

真的很搞笑

101 2 2

武子康

3月前

消息中间件监控数据可视化

大数据-79 Kafka 集群模式集群监控方案 JavaAPI获取集群指标可视化监控集群方案： jconsole、Kafka Eagle

武子康

165 2 2

穿过生命散发芬芳

1月前

DataWorks 数据挖掘大数据

方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析

DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间，通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率，DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。

穿过生命散发芬芳

86 11 11

BetterBench

5月前

运维算法数据可视化

【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】2 方案设计与实现-Python

文章详细介绍了参加2021高校大数据挑战赛中智能运维异常检测与趋势预测任务的方案设计与Python实现，包括问题一的异常点和异常周期检测、问题二的异常预测多变量分类问题，以及问题三的多变量KPI指标预测问题的算法过程描述和代码实现。

BetterBench

86 0 0

武子康

3月前

存储 NoSQL 大数据

大数据-51 Redis 高可用方案CAP-AP 主从复制一主一从全量和增量同步哨兵模式 docker-compose测试

武子康

56 3 3

武子康

3月前

SQL 分布式计算大数据

大数据-108 Flink 快速应用案例重回Hello WordCount！方案1批数据方案2流数据（一）

武子康

68 0 0

武子康

3月前

大数据流计算

大数据-108 Flink 快速应用案例重回Hello WordCount！方案1批数据方案2流数据（二）

武子康

63 0 0

sunrr

4月前

机器学习/深度学习 DataWorks 数据挖掘

基于阿里云Hologres和DataWorks数据集成的方案

sunrr

104 7 8

BetterBench

5月前

机器学习/深度学习数据采集大数据

2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛赛道B 北京移动用户体验影响因素研究问题一建模方案及代码实现详解

本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的题目——北京移动用户体验影响因素研究，提供了问题一的建模方案、代码实现以及相关性分析，并对问题二的建模方案进行了阐述。

BetterBench

108 0 1

2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛赛道B 北京移动用户体验影响因素研究问题一建模方案及代码实现详解

BetterBench

5月前

机器学习/深度学习数据采集大数据

2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛赛道B 北京移动用户体验影响因素研究问题二建模方案及代码实现详解

本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的问题二的建模方案和Python代码实现，包括数据预处理、特征工程、模型训练以及预测结果的输出，旨在通过数据分析与建模方法帮助中国移动北京公司提升客户满意度。

BetterBench

87 2 2

ODPS_数据倾斜查看key分布的通用方案_200628

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

ODPS_数据倾斜查看key分布的通用方案_200628

热门文章

最新文章

相关课程

相关电子书

相关实验场景