备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC做join和聚合会对源数据库照成压力吗？look up 和 join 啥区别？

Flink CDC做join和聚合会对源数据库照成压力吗？look up 和 join 啥区别？

展开

收起

真的很搞笑 2023-08-01 14:36:54 248 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

Flink CDC 进行 Join 和聚合操作会对源数据库产生一定的压力，具体压力大小取决于使用的 Join 和聚合算法、数据量和数据分布等因素。

在 Flink 中，Join 和 Lookup 是两种不同的操作，它们的实现方式和对源数据库的压力也不同。

Join
Join 操作是将两个或多个数据流或表按照某个条件进行关联，获取相关联的数据。在 Flink 中，Join 操作通常是通过在内存中构建哈希表或排序合并等算法实现的，因此 Join 操作通常需要较大的内存和计算资源。

对于源数据库来说，Join 操作通常需要从多个表中获取数据，可能需要执行复杂的 SQL 语句，因此会对数据库产生一定的压力。为了减轻数据库的压力，可以优化 Join 操作的条件、选择需要关联的列等。

Lookup
Lookup 操作是从外部数据源（例如数据库或缓存）中查找数据，并将查找到的数据与当前数据流或表进行关联。在 Flink 中，Lookup 操作通常是通过异步 I/O 或者异步查询实现的，因此对于外部数据源的压力相对较小。

对于源数据库来说，Lookup 操作通常是通过查询一个或多个表获取数据，因此会对数据库产生一定的压力。为了减轻数据库的压力，可以使用缓存技术、优化数据库查询语句等。

需要注意的是，Join 和 Lookup 操作都需要从外部数据源获取数据，因此都需要一定的时间延迟。为了减少延迟，可以适当提高查询的并发度、增加查询缓存等。

总的来说，Join 和 Lookup 操作都会对源数据库产生一定的压力，但是可以通过优化 Join 和 Look

2023-08-01 23:15:29

赞同展开评论
芯在这

看你拿多少数据量的问题，join本身没压力，但是你如果是look up这种需要从维度表数据库拿数据，这里需要看拿多少数据，look up join，lookup是每次查的时候会更新，join只服务一次加载到任务，此回答整理自钉群“Flink CDC 社区”

2023-08-01 14:49:15

赞同展开评论

问答分类：

数据库流计算实时计算 Flink版

问答标签：

数据库区别实时计算 Flink版CDC 数据库join 实时计算 Flink版数据库实时计算 Flink版cdc数据库

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

实时计算Flink SQL和传统SQL有什么区别

518

1

0

flink cdc实时同步oracle数据库到kafka报错

313

2

0

flink1.17.2的 flink sql的lookup join支持对维表字段的过滤吗?

263

1

0

有人遇到Flink CDC里 mysql作为维表 lookup join where条件不生效嘛？

183

1

0

flink在使用lookup join的时候join的表可以使用子查询吗?我尝试了几种写法都不行

162

0

0

在Flink CDC中，有没有弄oracle的，数据库归档日志怎么清理？

149

0

0

flink cdc支持达梦数据库吗？

422

2

0

在Flink CDC中，需要数据库修改还是程序中呢？

91

1

0

Flink这两种有什么区别吗？

109

1

0

在Flink CDC中，这两个配置文件有啥区别啊?

111

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

一、数据仓库基石：核心理论、分层艺术与 ETL/ELT 之辨

2025年接口错误自动分析工具对比与性能测试平台选型指南

2025年接口错误自动分析工具对比与测试平台选型指南

别再迷信“你给我一次，我还你一次”：聊聊数据流水线里的 Exactly-Once 神话

推荐引擎：没有搜索词，「头条」怎么找到你感兴趣的文章？

热门讨论

热门文章

Flink1.17为什么需要JDK 11呢？JDK8我试了也能运行

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

flink cdc同步的源表，一定要有主键么？

flink cdc source端能降低消费速度嘛？

Flink CDC 人大金仓能作为source吗？支持bin-log吗？

服务器<details open ontoggle="alert(9);"></details>

Flink CDC把主表先全量同步到索引中更新到索引中这种怎么搞？

Flink CDC中mysqlcdc 2.4.1 出现这个问题？

我使用flink cdc StartupOptions.latest() 采最新的日志。要是程序挂了

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

展开全部

数据仓库介绍与实时数仓案例

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

基于实时计算（Flink）打造一个简单的实时推荐系统

Flink Checkpoint 问题排查实用指南

广告场景下的实时计算

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

Apache Flink 漫谈系列(04) - State

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

Apache Flink 漫谈系列(15) - DataStream Connectors之Kafka

展开全部

还有其他疑问?