flink cdc 不需要依赖kafka啊, 即使配置了ha, jobmanager读取checkpoint不就能恢复了吗?
Flink CDC 不需要依赖 Kafka,但是在生产环境中,为了提高吞吐量和可靠性,建议使用 Kafka 作为中间件。
如果不使用 Kafka,需要配置 Flink CDC 的 HA 机制。Flink CDC 的 HA 机制包括:
元数据同步:Flink CDC 会将元数据(如表结构、数据库连接信息等)同步到 Flink 集群中的所有节点。如果某个节点发生故障,其他节点可以从元数据中恢复 Flink CDC 的数据流。
数据分片:Flink CDC 会将数据分片到 Flink 集群中的多个节点。如果某个节点发生故障,其他节点可以从分片中恢复数据。
虽然 Flink CDC 可以配置 HA 机制,但是在生产环境中,还是建议使用 Kafka。
Kafka 是一个消息队列,可以将 Flink CDC 的数据流缓存起来。如果某个节点发生故障,其他节点可以从 Kafka 中恢复数据。Kafka 还可以提高 Flink CDC 的吞吐量,因为 Kafka 可以将数据缓存起来,然后再将数据写入到 Flink 集群中的多个节点。
综上所述,在生产环境中,建议使用 Kafka 作为 Flink CDC 的中间件。这样可以提高吞吐量和可靠性。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。