Flink CDC中这个动态加表，昨天新启任务，新加的表它不读全量增量它也不读了，什么原因？

Flink CDC中这个动态加表，昨天新启任务，新加的表从全量阶段读，我今天把任务停了，重新启动，它这回不读全量了，但是新加的那几张表，增量它也不读了，什么原因？我想知道的一点是，新加的表，是一定会先做全量快照吗？因为我看到jm日志还是在做 split，切片太多 JM给我干OOM了。而且新加的表的切片，切片大小好chunk.size好像和我配置的不一样，好像没生效，还是8096。我现在是有几张比较大的表，我想分别用datax采全量，用cdc采增量，如果新加表只能从全量开始，那我只能新启cdc任务了。

展开

收起

十一0204 2023-07-26 08:04:13 298 版权

3 条回答

写回答

取消提交回答

Star时光
在 Flink CDC 中，动态加表时的增量读取行为可能受到一些因素的影响。以下是一些可能导致你描述的情况的原因：
1. 任务状态保存：Flink CDC 会将任务的状态保存在外部状态后端（如 RocksDB 或文件系统）中。当你停止并重新启动任务时，Flink CDC 可能会从保存的状态中加载信息。这意味着已经处理过的数据不会再次被读取，只会读取新的增量数据。
2. 初始配置和快照：对于新加的表，在任务第一次启动时，Flink CDC 需要进行全量快照以捕获表中的所有数据。但是，在任务停止并重新启动后，如果没有指定重新执行全量快照的选项，Flink CDC 将继续从上次停止位置的增量数据开始读取。这可以通过在任务启动时使用 --start-position 参数指定一个新的起始位置，以强制重新执行全量快照。
3. 切片大小设置：切片大小（chunk size）参数控制 Flink CDC 在进行增量读取时将 binlog 数据切分成多个块。默认的切片大小是 8KB（8096），但你可以通过配置 binlog.split.size 参数来调整它。如果你的切片大小没有生效，可能是因为配置错误或者其他原因。确保你在启动任务时正确设置了切片大小。
如果你想分别使用 DataX 进行全量加载和 Flink CDC 进行增量同步，可以考虑以下方案：
1. 针对需要进行全量加载的表，通过 DataX 进行全量导入。
2. 针对需要进行增量同步的表，使用 Flink CDC 进行增量读取。
确保在配置 Flink CDC 任务时正确指定表名称，并根据需要使用 --start-position 参数重新执行全量快照。

如果你仍然遇到问题，建议提供更多详细信息，如日志片段、Flink CDC 配置和环境信息，以便我们更深入地分析和解决问题。
2023-07-31 23:16:59

赞同展开评论
算精通

北京阿里云ACE会长

导致 Flink CDC 在动态加表时不读取全量和增量数据的一些原因：
动态加表时未正确配置 CDC：在动态加表时，需要确保正确配置 CDC，包括指定正确的数据源、表名称等参数。如果 CDC 配置不正确，Flink CDC 可能无法正确识别新添加的表。
动态加表时未正确配置 Flink Job：在动态加表时，需要确保正确配置 Flink Job，包括指定正确的数据源、表名称等参数。如果 Flink Job 配置不正确，Flink CDC 可能无法正确读取新添加的表。
动态加表时未正确配置分区键：在动态加表时，需要确保正确配置分区键。如果分区键不正确，Flink CDC 可能无法正确识别数据分区，从而无法正确读取增量数据。
数据库权限不足：如果 Flink CDC 所连接的数据库用户没有足够的权限读取新添加的表，Flink CDC 可能无法正确读取数据。

2023-07-29 16:38:36

赞同展开评论
意中人jswy

意中人就是我呀！

对，新加的表得先全量，所以全量阶段对内存使用需求比较高，数据量越大，切分的力度越碎，就越消耗。此回答整理至钉群“Flink CDC 社区”。

2023-07-26 12:03:00

赞同展开评论

Flink CDC中这个动态加表，昨天新启任务，新加的表它不读全量增量它也不读了，什么原因？

实时计算 Flink

相关文章

热门讨论

热门文章