开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC为什么我第一次初始化执行了以后,正常来说mysql就4亿条左右数据,会重复执行吗?

Flink CDC为什么我第一次初始化执行了以后,正常来说mysql就4亿条左右数据,现在执行了5亿多条还没有执行完,是会重复执行吗? 怎么看执行到哪张表了或者哪些已经同步完了呀?image.png

展开
收起
真的很搞笑 2023-08-28 15:14:00 96 0
1 条回答
写回答
取消 提交回答
  • Flink CDC 是基于增量数据同步的,所以不会重复执行。Flink CDC 会从 MySQL 的 Binlog 中读取数据,并且只处理新增的数据。如果 MySQL 中的数据没有发生变化,那么 Flink CDC 就不会从 Binlog 中读取任何数据。

    另外,Flink CDC 还支持 checkpoint 功能。checkpoint 会记录 Flink CDC 的状态,这样 Flink CDC 在重启后就可以从 checkpoint 中恢复状态,继续从 Binlog 中读取数据。

    因此,Flink CDC 是不会重复执行的。如果执行了两次 Flink CDC,那么第二次执行只会处理新增的数据,而不是重复执行第一次执行的数据。

    2023-09-13 11:53:07
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载

    相关镜像