文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

oracle数据表1亿行，为啥finkcdc2.2.1无法同步，显示checkpoint无法完成？

oracle数据表1亿行，flinkcdc2.2.1无法同步，显示checkpoint无法完成，为什么？

展开

收起

wenti 2023-02-06 17:14:26 250 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

3 条回答

写回答

取消提交回答

哈哈是我

在使用 Flink CDC Connector 同步大数据量的 Oracle 表时，如果发现 Checkpoint 无法正常完成，这可能是由于多种原因造成，其中尤以系统资源限制和配置不当最为常见。此时，应该从以下几个方面进行排查和调优：

资源分配：

检查 Flink 集群的资源（CPU, 内存, 磁盘 I/O 等）是否足够。大数据量表的同步可能需要更多的资源，尤其是内存。
Checkpoint 时间间隔：

调整 Checkpoint 的时间间隔。如果 Checkpoint 间隔设置得太短，系统可能来不及完成一个 Checkpoint 就开始下一个，这会导致 Checkpoint 堆积。
状态后端大小：

考虑调整状态后端的配置，如使用 RocksDB 状态后端代替内存状态后端，并对其进行优化。
Checkpoint 超时时间：

增加 Checkpoint 的超时时间，以确保更大的数据量可以被处理。
状态大小和分片：

确保状态可以被合理分片并且大小适中，避免过大的状态导致 Checkpoint 过程无法完成。
网络带宽：

检查集群的网络带宽是否足够，网络延迟或限制可能会导致 Checkpoint 无法及时完成。
垃圾回收（GC）：

如果是由于频繁的全区（Full GC）造成的延迟，考虑优化 JVM 的垃圾回收器设置。
任务并行度：

缩小任务的并行度可能有助于减少 Checkpoint 的资源消耗。
反压检测：

如果任务存在反压问题，需要优化数据处理逻辑或增加并行度。
Flink 和 CDC 配置：

审查 Flink 配置和 CDC Connector 配置（如读取表的分区策略），确保它是针对大数据量优化的。
日志和监控：

分析 Flink 任务的日志和监控指标，查找可能的性能瓶颈和错误信息。
版本兼容性：

确保使用的 Flink CDC Connector 版本与 Flink 版本兼容，感知是否存在版本间已知问题。

2024-02-27 16:28:12

赞同展开评论
认真学习的heart

可能是由于FinkCDC2.2.1的checkpoint机制无法完成，因为它只支持最多100万行的数据同步。此外，FinkCDC2.2.1还可能无法处理阿里云实时计算oracle数据表1亿行的数据量，因为它的性能有限。

2023-02-06 22:33:14

赞同展开评论
665661

官方有说到应对大表的情况，你得去配置一下checkpoint相关参数，比如超时时间，错误容忍次数什么的——该回答整理自钉群“Flink CDC 社区”

2023-02-06 20:36:55

赞同展开评论

问答分类：

Oracle 关系型数据库实时计算 Flink版

问答标签：

Oracle数据库一键上云同步 Oracle数据库一键上云checkpoint Oracle数据库一键上云数据表

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

flink sql cdc 同步 oracle到Doris报错提示，怎么解决？

237

1

0

Oracle 通过 flinkcdc 同步数据到 hudi ，同步很慢，有优化建议吗？

102

0

0

在Flink CDC中同步oracle需要开启的几个日志参数对业务库的性能影响有点大，如何解决？

223

1

0

之前flink-cdc可以正常同步oracle的数据，发现kafka没有最新数据生产了怎么办？

148

0

0

DataWorks离线同步oracle reader读都raw格式的字段乱码

122

1

0

DTS任务Oracle为源执行同步初始化失败提示table or view not exist

118

1

0

flink-sql-oracle-cdc 同步出现下面这个错误，是什么原因导致的呢？

137

1

0

Flink CDC 为何oracle的scn号在每次checkpoint的时候不更新呢？

217

0

0

Flink CDC里Oracle 增量同步延迟很大，怎么优化一下？

294

1

0

flink cdc oracle src的初始化和insert都同步了，为啥不生效？

127

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199215

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

相关文章

MavenRunHelper.jar 使用步骤详解（附Maven命令执行与main方法运行）

Flink 实时计算 x SLS 存储下推：阿里云 OpenAPI 网关监控平台实践

Xampp集成环境包安装步骤详解（附Apache、MySQL启动与本地网站搭建）

phpwind_UTF8_8.5部署步骤详解（含环境准备+安装教程）

PostgreSQL窗口函数从入门到实操

相关解决方案

更多

基于数据闪回，快速恢复数据

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

数据守护：防勒索攻击数据保障

高效存储和处理多媒体数据

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

Flink有2023 Flink Forward Asia 资料下载地址吗?

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

Flink中，遇到cdc 同步中文表和中文列乱码怎么处理？

Flink sql将数组炸开，实现hive的explode函数的效果，还有什么其他好的方式？

pyflink在读取hdfs文件的时候如何使用通配符？

大佬们，请教下，Flink CDC2.4.0版本的mysql cdc，怎么设置时区"？

请问mysql-cdc支持在pyflink中将数据从mysql-cdc输入到doris吗？

在Flink CDC中，直接将我生成的application会话kill掉了,有人遇到过吗？

展开全部

数据仓库介绍与实时数仓案例

实时计算 Flink SQL 核心功能解密

流计算StreamCompute

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

流计算精品翻译: The Dataflow Model

接着！！Apache Flink 全领域干货合集（持续更新）

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

展开全部

还有其他疑问?