开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC中这个动态加表,昨天新启任务,新加的表它不读全量增量它也不读了,什么原因?

Flink CDC中这个动态加表,昨天新启任务,新加的表从全量阶段读,我今天把任务停了,重新启动,它这回不读全量了,但是新加的那几张表,增量它也不读了,什么原因?我想知道的一点是,新加的表,是一定会先做全量快照吗?因为我看到jm日志还是在做 split,切片太多 JM给我干OOM了。而且新加的表的切片,切片大小好chunk.size好像和我配置的不一样,好像没生效,还是8096。我现在是有几张比较大的表,我想分别用datax采全量,用cdc采增量,如果新加表只能从全量开始,那我只能新启cdc任务了。

展开
收起
十一0204 2023-07-26 08:04:13 183 0
3 条回答
写回答
取消 提交回答
  • 在 Flink CDC 中,动态加表时的增量读取行为可能受到一些因素的影响。以下是一些可能导致你描述的情况的原因:

    1. 任务状态保存:Flink CDC 会将任务的状态保存在外部状态后端(如 RocksDB 或文件系统)中。当你停止并重新启动任务时,Flink CDC 可能会从保存的状态中加载信息。这意味着已经处理过的数据不会再次被读取,只会读取新的增量数据。

    2. 初始配置和快照:对于新加的表,在任务第一次启动时,Flink CDC 需要进行全量快照以捕获表中的所有数据。但是,在任务停止并重新启动后,如果没有指定重新执行全量快照的选项,Flink CDC 将继续从上次停止位置的增量数据开始读取。这可以通过在任务启动时使用 --start-position 参数指定一个新的起始位置,以强制重新执行全量快照。

    3. 切片大小设置:切片大小(chunk size)参数控制 Flink CDC 在进行增量读取时将 binlog 数据切分成多个块。默认的切片大小是 8KB(8096),但你可以通过配置 binlog.split.size 参数来调整它。如果你的切片大小没有生效,可能是因为配置错误或者其他原因。确保你在启动任务时正确设置了切片大小。

    如果你想分别使用 DataX 进行全量加载和 Flink CDC 进行增量同步,可以考虑以下方案:

    1. 针对需要进行全量加载的表,通过 DataX 进行全量导入。
    2. 针对需要进行增量同步的表,使用 Flink CDC 进行增量读取。

    确保在配置 Flink CDC 任务时正确指定表名称,并根据需要使用 --start-position 参数重新执行全量快照。

    如果你仍然遇到问题,建议提供更多详细信息,如日志片段、Flink CDC 配置和环境信息,以便我们更深入地分析和解决问题。

    2023-07-31 23:16:59
    赞同 展开评论 打赏
  • 北京阿里云ACE会长

    导致 Flink CDC 在动态加表时不读取全量和增量数据的一些原因:
    动态加表时未正确配置 CDC:在动态加表时,需要确保正确配置 CDC,包括指定正确的数据源、表名称等参数。如果 CDC 配置不正确,Flink CDC 可能无法正确识别新添加的表。
    动态加表时未正确配置 Flink Job:在动态加表时,需要确保正确配置 Flink Job,包括指定正确的数据源、表名称等参数。如果 Flink Job 配置不正确,Flink CDC 可能无法正确读取新添加的表。
    动态加表时未正确配置分区键:在动态加表时,需要确保正确配置分区键。如果分区键不正确,Flink CDC 可能无法正确识别数据分区,从而无法正确读取增量数据。
    数据库权限不足:如果 Flink CDC 所连接的数据库用户没有足够的权限读取新添加的表,Flink CDC 可能无法正确读取数据。

    2023-07-29 16:38:36
    赞同 展开评论 打赏
  • 意中人就是我呀!

    对,新加的表得先全量,所以全量阶段对内存使用需求比较高,数据量越大,切分的力度越碎,就越消耗。此回答整理至钉群“Flink CDC 社区”。

    2023-07-26 12:03:00
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载