文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC整库同步到hudi，有部分表数据量超过千万，每次都报内存超出限制oom？

Flink CDC整库同步到hudi，有部分表数据量超过千万，每次都报内存超出限制oom，每个taskmaster给10g都不够，大家有没有好的解决方案？并行度给的2

展开

收起

真的很搞笑 2023-08-22 17:07:28 502 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

清风拂袖

有以下几种可能原因：

你的 hudi 表是 parquet 格式，但是没有定义 schema，导致 Flink CDC 写入数据时需要重新解析 parquet 数据，占用大量内存。
你的 hudi 表是 iceberg 格式，但是没有启用分桶功能，导致 Flink CDC 写入的数据分布不均匀，占用大量内存。
你的 Flink 任务没有设置合理的堆内存和堆外内存，导致 Flink CDC 写入数据时内存不足，导致 OOM。
你可以尝试以下方式来解决这个问题：

将你的 hudi 表修改为 iceberg 格式，并启用分桶功能。
为你的 Flink 任务设置更大的堆内存和堆外内存。
将你的 Flink 任务分为多个子任务，每个子任务处理一部分数据。
具体的解决方式，需要根据实际情况进行调整。

2023-09-20 10:49:01

赞同展开评论

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版CDC 实时计算 Flink版库实时计算 Flink版cdc库实时计算 Flink版同步实时计算 Flink版cdc同步

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

flinkcdc出现OOM之后，我调整过内存参数。请教下这个问题该从哪方面排查？

174

1

0

未来在 Flink CDC 写入 Hudi 的技术上有哪些规划？

133

1

0

在使用 Flink CDC 写入 Hudi 时，如何解决数据倾斜问题？

200

1

0

flink cdc同步数据的资源，比如内存，cpu这些有什么参考依据吗？

290

11

0

DMS DTS同步，OOM了，能调整一下内存大小吗？

150

1

0

为什么选择Flink和Hudi作为增量化方案的核心组件？

137

1

0

在Flink CDC中，oraclecdc3.0同步36张表导致pga内存过高报错？

192

0

0

对于Flink CDC，偶然重启，怎么会内存溢出呢？

116

0

0

有大佬解释下这两种内存的具体区别么？ #Flink

1109

1

0

各位大佬，请教一下，如果在flink cdc sql客户端使用SQL查询表，怎么能记录原系统的数据

2179

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

Apache Flink Agents 0.2.0 发布公告

基于Flink CDC的企业级日志实时入湖入流解决方案

Flink 实时计算 x SLS 存储下推：阿里云 OpenAPI 网关监控平台实践

【最优潮流】二阶锥松弛在配电网最优潮流计算中的应用（Matlab代码实现）

数仓-湖仓-湖流，人力家基于阿里云OpenLake架构演进与思考

相关解决方案

更多

Flink CDC 实现企业级实时数据同步

基于数据闪回，快速恢复数据

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

数据守护：防勒索攻击数据保障

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

Flink有2023 Flink Forward Asia 资料下载地址吗?

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

Flink中，遇到cdc 同步中文表和中文列乱码怎么处理？

pyflink在读取hdfs文件的时候如何使用通配符？

Flink sql将数组炸开，实现hive的explode函数的效果，还有什么其他好的方式？

大佬们，请教下，Flink CDC2.4.0版本的mysql cdc，怎么设置时区"？

请问mysql-cdc支持在pyflink中将数据从mysql-cdc输入到doris吗？

在Flink CDC中，直接将我生成的application会话kill掉了,有人遇到过吗？

展开全部

数据仓库介绍与实时数仓案例

流计算StreamCompute

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

流计算精品翻译: The Dataflow Model

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

基于实时计算（Flink）打造一个简单的实时推荐系统

如何正确使用 Flink Connector？

Apache Flink 漫谈系列(04) - State

展开全部

还有其他疑问?