问题1:如果Flink CDC挂了怎么办?而且我是拉取mongo的那个oplog日志,那个oplog日志滚动速度很快,最多也就是保存一个小时左右把,有没有像sparkstreaming那样子,我启动的时候,先查询mysql保存的偏移量,然后呢去消费数据,消费完数据以后,再把偏移量写入到mysql里面,然后下一批次的时候,我再去查询mysql的偏移量,然后再处理数据。
问题2:我现在看看有没有什么其他可以实现的方式,你现在是这样子保证数据不丢?
回答1:那你自己可以定义算子过滤啊,把每一次的操作标识存储到缓存里 然后设置过期时间大于等于ck时间
回答2:ck 可以啊,但是会存在重复采集 。开启ck后你只需要做下去重就行了,针对插入操作,因为ck存储有时间间隔,此回答整理自钉群“Flink CDC 社区”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。