Apache Flink 中，当你开启 Checkpointing 时-阿里云开发者社区

Apache Flink 中，当你开启 Checkpointing 时

2023-11-08 236

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Apache Flink 中，当你开启 Checkpointing 时

在 Apache Flink 中，当你开启 Checkpointing 时，Flink 将会对数据进行增量 checkpoint，这样可以在故障发生时恢复到特定的状态。然而，根据你的描述，似乎在开启 Checkpointing 时，数据量变大了。这可能是由于以下原因：

全量同步的数据：在某些情况下，Flink 在开启 Checkpointing 时，可能会首先进行一次全量同步，以确保所有的数据都能被正确地 checkpoint。这可能会使初始的数据量看起来变大了。
数据冗余：如果开启了 Checkpointing，Flink 可能会在处理数据时创建一些额外的冗余数据，以支持故障恢复。这可能会导致数据量变大。
状态管理：Checkpointing 需要进行状态管理，因此可能会产生一些额外的数据。这可能会使数据量变大。

不过，你提到当设置为 StartupOptions.INITIAL_MODE 时会出现这个问题，这让我有些疑惑。根据我所知，StartupOptions.INITIAL_MODE 应该只影响 Flink 的启动模式，而不会直接影响到 Checkpointing 或数据同步的行为。

为了解决这个问题，我建议你：

检查日志：查看 Flink 的日志，看是否有任何与 Checkpointing 或数据同步有关的错误或警告。
调整配置：调整 Flink 的配置参数，如 state.backend、state.checkpoint-interval、taskmanager.memory.state-backend.rocksdb.local-direct-memory-size 等，以优化状态管理和数据同步的性能。
测试其他版本：如果你使用的是 Flink 和 CDC Connector 的预览版或早期版本，那么我建议你尝试升级到最新的稳定版，看看问题是否仍然存在。
检查数据库设置：确保你的 SQL Server 2016 数据库设置是正确的，特别是与 CDC 和 Flink 相关的设置。

如果问题仍然存在，我建议你创建一个新的 issue 在 Flink 的社区或者论坛中，这样你可以得到更专业的帮助和解答。

相关实践学习

基于Hologres+Flink搭建GitHub实时数据大屏

通过使用Flink、Hologres构建实时数仓，并通过Hologres对接BI分析工具（以DataV为例），实现海量数据实时分析.

实时计算 Flink 实战课程

如何使用实时计算 Flink 搞定数据处理难题？实时计算 Flink 极客训练营产品、技术专家齐上阵，从开源 Flink功能介绍到实时计算 Flink 优势详解，现场实操，5天即可上手！欢迎开通实时计算 Flink 版： https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍： Flink Forward 是由 Apache 官方授权，Apache Flink Community China 支持的会议，通过参会不仅可以了解到 Flink 社区的最新动态和发展计划，还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验，是 Flink 开发者和使用者不可错过的盛会。去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与，一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况，Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。