Flink CDC有个cdc的场景需求,
1、上游mysql是同一个实例、同一个库下的三张不同结构的表
2、下游是一张hudi表。考虑基于表名和时间做分区
3、hudi表的时间分区字段来自于三张mysql表的不同字段
4、使用flinksql实现。
请问:有没有好的方案,将读到的三张mysql表的数据,使用JSON给包起来,hudi表事件分区字段来自于不同表的不同字段,事件分区来自于表名?
为了实现 Flink CDC 将不同结构的表中的数据整合在一起,并基于表名和时间对 Hudi 表进行分区,可以采用以下方法:
将读到的三张表的数据,使用 json 包起来,本身就不是flinkCDC sql 模式能做的,sql 模式下只能做单表,使用 stream 模式,可以满足你这个需求。sql模式如果支持自定义deserializer 就可以。,此回答整理自钉群“Flink CDC 社区”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。