备案控制台

开发者社区问答正文

你们是如何解决Hudi与Flink的checkpoint一致性问题的？

你们是如何解决Hudi与Flink的checkpoint一致性问题的？

展开

收起

迪哒迪滴喵 2024-08-13 19:08:37 72 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

迪姐暴打小怪兽

为了解决Hudi与Flink的checkpoint一致性问题，我们对任务进行了重构。Writer算子在checkpoint时，会将汇报给writer coordinator的信息进行state持久化。任务重启后，这些信息会重新汇报给writer coordinator算子。writer coordinator算子收集所有writer算子的信息，并进行一次commit判断，确保对应的commit已经完成。同时，Writer算子会保持阻塞状态，直到上次持久化的commit完成
后，才会处理最新的数据。这样，我们就对齐了Hudi与Flink的checkpoint机制，保证了边界场景数据的一致性。

2024-08-13 21:50:55

赞同展开评论

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版checkpoint 实时计算 Flink版一致性 hudi实时计算 Flink版

问答地址：

开发者社区 > 大数据 > 问答

相关问答

Flink有朋友遇到过hudi cow表写mor表报字段问题吗?字段是有的，但是报错?

119

4

0

Flink CDC里有hudi的pipeline connector吗？

117

2

0

在 Flink 机制中，DFS 如何帮助实现 DSTL 的短期持久化和一致性保证？

32

1

0

未来在 Flink CDC 写入 Hudi 的技术上有哪些规划？

51

1

0

为什么选择Flink和Hudi作为增量化方案的核心组件？

50

1

0

flink cdc写入hudi的用hive管理元数据的表，这个是什么问题呢？

63

0

0

Flink CDC 如何保证数据读取的一致性？

93

1

0

在Flink CDC中sink hudi 遇到这个问题怎么解决？

60

1

0

Flink有没有尝试写入数据到hudi，存储在本地文件系统的？

115

5

0

请教个Flink问题，从hudi读数据，报错，什么原因?

126

3

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

lmstudio拉起qwq-32b-q3_k_m.gguf模型报错？

工作中，拥有什么样的“软技能”可以跨越周期、终身成长？

在idea中使用通义灵码插件时，回答结果比较长时会发生中断，导致回答不完整

关于wan2.1显存占用的问题

一键生成讲解视频，AI的理解和生成能力到底有多强？

相关文章

基于Flink CDC 开发，支持Web-UI的实时KingBase 连接器，三大模式无缝切换，效率翻倍！

官宣 | Fluss 0.6 发布公告

Dataphin功能Tips系列（42）-实时研发-基于Flink on k8s

Dataphin功能Tips系列（44）-实时任务调优

Dataphin功能Tips系列（46）-实时研发任务在session调试和运行时资源分配上的区别

还有其他疑问?