从之前的checkpoint恢复运行,之后的checkpoint上传到hdfs的数据(300M)比之前checkpoint上传的数据量(1.5g)少,按理说我是全量checkpoint,不应该出现这种情况吧?
我知道有几种情况可能导致你在从之前的 checkpoint 恢复运行之后,checkpoint 上传到 HDFS 的数据量变小了:
1.你在从之前的 checkpoint 恢复运行之后,删除了之前处理的一些数据。例如,你可能会在恢复运行之后执行一些数据过滤操作,导致之前处理的一些数据被删除。
2.你在从之前的 checkpoint 恢复运行之后,修改了流程图中的一些算子,导致数据处理流程发生了变化。例如,你可能会修改一些算子的输入输出类型,导致一些数据被丢弃或者转换为另一种类型。
3.你在从之前的 checkpoint 恢复运行之后,修改了 checkpoint 的相关设置,导致 checkpoint 的大小发生了变化。例如,你可能会修改 checkpoint 的频率或者大小限制,导致 checkpoint 的大小发生了变化。
4.你在从之前的 checkpoint 恢复运行之后,数据源的数据量发生了变化。例如,你可能会从一个全量的数据源恢复运行,之后数据源的数据量减少了。
建议你检查一下你的程序,确定是哪种情况导致了 checkpoint 上传到 HDFS 的数据量变小。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。