开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC全量是要读取完,kafka事务时间要大于全量读取完时间?

Flink CDC全量是要读取完,kafka事务时间要大于全量读取完时间?

展开
收起
真的很搞笑 2023-12-19 08:07:21 41 0
1 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    Flink CDC在进行全量数据同步时,需要将整个表的数据全部读取完毕才能完成一个checkpoint。而Kafka的事务时间应该是大于全量读取完的时间,这样可以确保在全量数据读取和处理过程中,Kafka中的数据不会被重复消费或者丢失。

    然而,需要注意的是,Flink CDC的底层实现是基于Debezium,其架构是单节点的,这意味着Flink CDC不支持水平扩展,并且只支持单并发。因此,如果表非常大(例如亿级别),全量读取的时间可能会非常长,甚至达到小时或天级别。在这种情况下,用户不能通过增加资源来提高作业速度。

    不过,从Flink CDC 2.0版本开始,该工具已经在全量数据的并发读取、checkpoint、无锁读取等方面进行了重大改进。特别是在无锁读取的支持下,Flink CDC 2.0能够实现高并发的水平扩展,并且在断点续传方面也有很好的表现。这些改进有助于解决全量数据同步过程中可能遇到的各种问题,提高数据处理的效率和稳定性。

    2023-12-19 20:33:19
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载