开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

flink cdc生产环境的高可用部署架构图?

flink cdc生产环境的高可用部署架构图?

展开
收起
真的很搞笑 2023-12-04 08:26:36 108 0
2 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    Flink CDC 的生产环境高可用部署架构图主要包含以下几个部分:

    1. Flink SQL CDC:作为核心组件,支持 CDC 模式的数据同步。它能从各种数据源中实时采集、预计算并同步数据,如MySQL、Oracle、MongoDB等。
    2. Elasticsearch:作为实时报表和即席分析引擎,接收并存储由Flink SQL CDC同步过来的数据。
    3. Kafka或Pulsar消息队列:在需要的时候,Flink CDC可以将数据写入这些消息队列,实现异步处理和解耦。
    4. 下游存储系统:如Hudi、Iceberg、Paimon等数据湖,或者支持写入各种数据仓库,以提供持久化和备份。

    这种架构的优点在于,它借助了Flink丰富的上下游生态,具有高度的灵活性和可扩展性。同时,Flink相对于Kafka Streams而言,其算子和SQL模块更为成熟和易用,可以通过调整算子并行度来优化作业性能。

    2023-12-04 13:41:00
    赞同 展开评论 打赏
  • 在Flink CDC的生产环境高可用部署架构图中,主要采用了Flink SQL CDC + Elasticsearch的方式实现。首先,Flink SQL支持CDC模式的数据同步,能将MySQL中的全增量数据实时采集、预计算,并同步到Elasticsearch中,这样Elasticsearch就能作为我们的实时报表和即席分析引擎。

    值得一提的是,Flink CDC相对于Kafka Streams具有一些明显的优势。例如,Flink的算子和SQL模块更成熟易用;通过调整算子并行度的方式,可以轻松扩展处理能力;Flink支持高级的状态后端(State Backends),允许存取海量的状态数据;Flink提供更多的Source和Sink等生态支持;Flink有更大的用户基数和活跃的支持社群,问题更容易解决;最后,Flink的开源协议允许云厂商进行全托管的深度定制,这一点是Kafka Streams无法做到的。

    在Flink作业运行架构中,JobManager负责协调每个Flink作业的部署,它负责调度和资源管理。默认情况下,每个Flink集群都有一个JobManager实例。这就是Flink CDC在生产环境的高可用部署架构图的主要组成部分。

    2023-12-04 08:52:23
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载