问题一:Flink CDC只用sql这种方式,增量同步阶段只能是单线程么?
Flink CDC只用sql这种方式,增量同步阶段只能是单线程么?
参考回答:
现在使用测试下来增量阶段都是单线程的
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/566234
问题二:Flink CDC本地做多流JOIN也要看下场景吧 ?
Flink CDC本地做多流JOIN也要看下场景吧 ?如果存几天的数据还行,太久了数据量大也不太好
参考回答:
在使用Flink CDC进行本地多流JOIN操作时,确实需要考虑一些因素。其中一个关键的因素就是数据量。对于较大数据集,本地JOIN可能会变得非常慢且效率低下,因为它必须在单台机器上完成所有的计算。
为了缓解这种情况,可以采取几种策略:
- 尽量减小数据集大小。这可以通过使用窗口函数或其他预处理方法实现。
- 使用分布式存储系统。这样可以让JOIN操作在多台机器之间分布,从而提高性能。
- 使用特殊的JOIN算法。例如,Broadcast JOIN可以使较小的数据集广播到每个任务中,从而加快JOIN速度。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/566232
问题三:Flink CDC多个任务合并一个宽表是怎么做的呀,数据存储在哪里,涉及到局部更新了吧?
Flink CDC多个任务合并一个宽表是怎么做的呀,数据存储在哪里,涉及到局部更新了吧?
参考回答:
Flink CDC 任务可以合并多个任务来构建一张大宽表,并将其存储在 Kafka 或 MySQL 等存储介质中。每个任务都可以接收到源系统的变更通知,并及时进行处理。
局部更新是指更新某些字段,而不是整个表,它可以通过 Flink SQL 或 Table API 实现。Flink CDC 还支持其他功能,如数据清洗、过滤等,以满足您的需求。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/566231
问题四:Flink CDC使用flinksql的时候全量数据 没有checkpoint的情况嘛?
Flink CDC使用flinksql的时候全量数据 没有checkpoint的情况嘛?
参考回答:
阿里的flink支持存本地磁盘,state数据也不是全部存在内存的
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/566230
问题五:Flink CDC想从上一个savepoint启动 还需要设置 SET 吗?
Flink CDC想从上一个savepoint启动 还需要设置 SET execution.savepoint.path 吗?我都以为控制台取消任务,然后我再用SQL-client 启动任务 会自动帮我找上一个检查点
参考回答:
在Flink中,如果您想从上一个Savepoint启动作业,您需要设置SET execution.savepoint.path
来指定上一次Savepoint的路径。即使您取消了任务并重新启动,也需要手动设置这个参数来指定之前的Savepoint位置。
在Flink的Web控制台中取消任务后,您可以使用SQL客户端重新启动任务,但是它不会自动找到并使用上一个检查点(Savepoint)。您需要手动设置SET execution.savepoint.path
来指定上一次Savepoint的路径。
请注意,如果您没有保存任何Savepoint,那么您将无法从之前的执行位置恢复任务。在这种情况下,您需要重新开始执行任务。
因此,为了确保能够从上一个Savepoint启动作业,请确保在取消任务之前保存了适当的Savepoint,并在重新启动任务时手动设置SET execution.savepoint.path
参数。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/566229