Flink CDC为什么我第一次初始化执行了以后,正常来说mysql就4亿条左右数据,现在执行了5亿多条还没有执行完,是会重复执行吗? 怎么看执行到哪张表了或者哪些已经同步完了呀?
Flink CDC 是基于增量数据同步的,所以不会重复执行。Flink CDC 会从 MySQL 的 Binlog 中读取数据,并且只处理新增的数据。如果 MySQL 中的数据没有发生变化,那么 Flink CDC 就不会从 Binlog 中读取任何数据。
另外,Flink CDC 还支持 checkpoint 功能。checkpoint 会记录 Flink CDC 的状态,这样 Flink CDC 在重启后就可以从 checkpoint 中恢复状态,继续从 Binlog 中读取数据。
因此,Flink CDC 是不会重复执行的。如果执行了两次 Flink CDC,那么第二次执行只会处理新增的数据,而不是重复执行第一次执行的数据。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。