开发者社区> 问答> 正文

MaxCompute中的分区分桶的作用是什么?

MaxCompute中的分区分桶的作用是什么?

展开
收起
游客k7rjnht6hbtk6 2021-12-08 13:03:14 1271 0
1 条回答
写回答
取消 提交回答
  • 分桶操作实际上是将一个大文件根据某个字段hash分为多个小文件,适当的分桶可提升查询效率。在MaxCompute中可以在建表时指定clustered by中的Hash Key,MaxCompute将对指定列进行Hash运算,根据Hash值分散到各个Bucket中。为避免数据倾斜和热点,取得较好的并行执行效果,clustered by字段列宜选择取值范围大、重复键值少的列。为达到join优化目的,应考虑选取常用的Join/Aggregation Key,即类似传统数据库中的主键。

    2021-12-08 13:03:45
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
大数据AI一体化的解读 立即下载
极氪大数据 Serverless 应用实践 立即下载
大数据&AI实战派 第2期 立即下载