备案控制台

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

37手游如何基于FlinkCDC + Hudi湖仓一体方案开展实践？

已解决

37手游如何基于FlinkCDC + Hudi湖仓一体方案开展实践？

展开

收起

游客lmkkns5ck6auu 2022-08-31 10:31:52 357 0

1 条回答

写回答

取消提交回答

游客c3gxxcx6cqeyo

推荐回答

37 手游的湖仓一体方案，是 37 手游流批一体架构的一部分。通过湖仓一体、流批一体，准实时场景下做到了：数据同源、同计算引擎、同存储、同计算口径。数据的时效性可以到分钟级，能很好的满足业务准实时数仓的需求。

MySQL 数据通过 Flink CDC 进入到 Kafka。之所以数据先入 Kafka 而不是直接入 Hudi，是为了实现多个实时任务复用 MySQL 过来的数据，避免多个任务通过 Flink CDC 接 MySQL 表以及 Binlog，对 MySQL 库的性能造成影响。通过 CDC 进入到 Kafka 的数据除了落一份到离线数据仓库的 ODS 层之外，会同时按照实时数据仓库的链路，从 ODS->DWD->DWS->OLAP 数据库，最后供报表等数据服务使用。实时数仓的每一层结果数据会准实时的落一份到离线数仓，通过这种方式做到程序一次开发、指标口径统一，数据统一。

在架构上还有专门的数据修正 (重跑历史数据) 处理链路，这主要是考虑到有可能存在由于口径调整或者前一天的实时任务计算结果错误，导致重跑历史数据的情况。一方面存储在 Kafka 的数据有失效时间，不会存太久的历史数据，重跑很久的历史数据无法从 Kafka 中获取历史源数据。再者如果把大量的历史数据再一次推到 Kafka，走实时计算的链路来修正历史数据，可能会影响当天的实时作业。

所以针对重跑历史数据，会通过数据修正这一步来处理。总体上说，37 手游的数据仓库属于 Lambda 和 Kappa 混搭的架构。流批一体数据仓库的各个数据链路有数据质量校验的流程。第二天对前一天的数据进行对账，如果前一天实时计算的数据无异常，则不需要修正数据，Kappa 架构已经足够。

以上内容摘自《Apache Flink 案例集（2022版）》电子书，点击https://developer.aliyun.com/ebook/download/7718 可下载完整版

2022-08-31 12:13:47

赞同展开评论打赏

问答分类：

实时计算 Flink版云原生数据仓库AnalyticDB MySQL版

问答标签：

云原生大数据计算服务 MaxCompute实践云原生数据仓库AnalyticDB MySQL版方案云原生数据仓库AnalyticDB MySQL版实践云原生大数据计算服务 MaxCompute方案云原生大数据计算服务 MaxCompute hudi

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

实时计算 Flink版

Flink基于Doris的数仓项目，按照ods，dwd，dws，ads做的数据分层，有人去实践过么？

88

0

0

大数据计算MaxCompute中CONV 函数转化不了可以帮忙看下有没有其他方案解决？

26

1

0

在大数据计算MaxCompute中只想要雪花id 有其他方案吗？

39

0

0

阿里云MaxCompute在大数据案例实践中有哪些显著优势？

47

2

0

大数据计算MaxCompute这两种方案，使用订单进行关联时，在运行效率上，哪种会更优呢？

24

1

0

大数据计算MaxCompute这块目前有方案能支持吗？

48

1

0

大数据计算MaxCompute有没有可以按MAC项目一键全部迁移的方案呢？

42

1

0

maxcompute 和odps的关系是什么啊，我第一次做这个，有点不懂

977

1

0

大数据中maxcompute跟emr的区别是什么呢？

779

1

0

云原生大数据计算服务 MaxCompute里，运维中最重要的模块是谁？

870

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

热门讨论

热门文章

Flink这个未授权访问漏洞有什么解决方案吗？

各位老师，请教个问题，flink 会在本地 /tmp 目录下产生大量flink-临时文件，目前看好？

Flink CDC 使用jar包启动异常

Flink如何配置Task Manager？

Flink sql将数组炸开，实现hive的explode函数的效果，还有什么其他好的方式？

flinkcdc启动，怎么修改默认端口号，默认是8081。

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

Flink1.17为什么需要JDK 11呢？JDK8我试了也能运行

Flink 集群重启后，所有的Jobs任务全都没有了。如果快速恢复所有的任务

Flink CDC中SQL server CDC这种报错有什么解决方式嘛？

展开全部

咱们从头到尾讲一次 Flink 网络流控和反压剖析

Apache Flink 漫谈系列(09) - JOIN 算子

资料合集｜Flink Forward Asia 2024 上海站

基于 Flink 进行增量批计算的探索与实践

Fluss：面向实时分析设计的下一代流存储

实时计算 Flink版操作报错之遇到错误org.apache.flink.table.api.ValidationException: Could not find any factory for identifier 'jdbc'，该如何解决

Flink CDC 3.0 正式发布，详细解读新一代实时数据集成框架

十大行业经典案例！Apache Flink 的 40 个最佳实践

实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎

flink cdc 同步问题之如何同步多张库表

展开全部

相关课程

更多

大数据知识图谱—亿滋中国X阿里云，释放新零售的数字化力量

178

1

去学习

大数据知识图谱系列—如何选择合适的OLAP引擎进行数据湖分析

143

4

去学习

大数据知识图谱—钱大妈数据中台建设最佳实践

226

1

去学习

大数据知识图谱—一文读懂云原生一体化数仓

130

1

去学习

阿里云实时数仓实战 - 用户行为数仓搭建

374

12

去学习

阿里云云原生数据仓库AnalyticDB MySQL版使用教程

185

5

去学习

相关电子书

更多

阿里云云原生一体化数仓 立即下载

基于云原生数据仓库AnalyticDB PG的最佳实践 立即下载

新氧云原生全栈数仓最佳实践 立即下载

相关实验场景

更多