文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

有朋友使用过Flink多张流表进行join产生的数据倾斜如何处理和优化的？

有朋友使用过Flink多张流表进行join产生的数据倾斜如何处理和优化的？？

图片.png

展开

收起

wenti 2023-02-07 15:13:13 551 版权

2 条回答

写回答

取消提交回答

认真学习的heart

我想到四个方法，你可以去试一下

将数据进行重分区，使用HashPartitioner或者RangePartitioner。

使用Flink的Rebalance算子，将数据重新分发到不同的TaskManager上

使用Flink的CoGroup算子，将多张流表进行join操作

使用Flink的MapPartition算子，将多张流表进行join操作

2023-02-08 07:59:14

赞同展开评论
665661

flink有个重分区的算子，不过你先调研一下是哪些数据发生数据倾斜呀——该回答整理自钉群“【③群】Apache Flink China社区”

2023-02-07 17:01:44

赞同展开评论

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版优化实时计算 Flink版join 实时计算 Flink版数据倾斜实时计算 Flink版流表实时计算 Flink版流表join

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

在 Flink 中，你们是如何优化 userjar 分发问题的？

174

未来如何优化 Flink CDC OceanBase Connector 的数据读取？

166

在使用 Flink CDC 写入 Hudi 时，如何解决数据倾斜问题？

251

在Flink CDC中，mysql有个150g的数据，全量同步的话，有啥优化点吗？

348

在银行业务中，通过Flink分析的业务流程和指标如何优化业务流程？

135

在Flink CDC中，flink sql lookup join 不支持维表的where 条件嘛？

256

在Flink CDC中，线上发现消费速度有点慢，想优化下这俩参数？

181

社区在 Flink 的哪个版本中针对构建执行图的问题进行了优化？

126

在Flink CDC中task的slots分配不均，可以怎么优化？

194

Flink SQL 如何解决 Group Window Aggregate 中的数据倾斜问题？

380

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199215

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

Skill即服务：用Agent安全玩转云上Flink

跨境代购集运架构设计｜Taocarts代购系统对接国际集运转运接口实践

大模型应用：从意图识别到个性化推荐：基于语义意图识别的智能推荐系统.121

2026年企业如何建设数据系统？技术选型、流程搭建及风险规避

有朋友使用过Flink多张流表进行join产生的数据倾斜如何处理和优化的？

实时计算 Flink

相关文章

相关解决方案

热门讨论

热门文章