开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

如果用flinkcdc将postgres数据同步到kafka。首次全量同步的时候怎么办程序挂掉重启?

如果用flink cdc将postgres数据同步到kafka。首次全量同步的时候,程序挂掉重启,又会从头读取,导致kafka队列中的数据存在大量的重复。有没有啥好的办法呢?

展开
收起
十一0204 2023-08-16 08:03:05 120 0
1 条回答
写回答
取消 提交回答
  • 意中人就是我呀!

    一般这种会在sink端进行业务id去重,及时重复也不影响。看sink端数据库支不支持,或者你使用upsert-kafka。此答案整理至钉群“Flink CDC 社区“。

    2023-08-16 08:45:06
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关电子书

更多
Java Spring Boot开发实战系列课程【第16讲】:Spring Boot 2.0 实战Apache Kafka百万级高并发消息中间件与原理解析 立即下载
MaxCompute技术公开课第四季 之 如何将Kafka数据同步至MaxCompute 立即下载
消息队列kafka介绍 立即下载