备案控制台

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

从之前的checkpoint恢复运行，之后的checkpoint上传到hdfs的数据(300M)

从之前的checkpoint恢复运行，之后的checkpoint上传到hdfs的数据(300M)比之前checkpoint上传的数据量(1.5g)少，按理说我是全量checkpoint，不应该出现这种情况吧？

展开

收起

爱喝咖啡嘿 2022-12-27 15:24:03 337 0

1 条回答

写回答

取消提交回答

认真学习的heart

我知道有几种情况可能导致你在从之前的 checkpoint 恢复运行之后，checkpoint 上传到 HDFS 的数据量变小了：

1.你在从之前的 checkpoint 恢复运行之后，删除了之前处理的一些数据。例如，你可能会在恢复运行之后执行一些数据过滤操作，导致之前处理的一些数据被删除。

2.你在从之前的 checkpoint 恢复运行之后，修改了流程图中的一些算子，导致数据处理流程发生了变化。例如，你可能会修改一些算子的输入输出类型，导致一些数据被丢弃或者转换为另一种类型。

3.你在从之前的 checkpoint 恢复运行之后，修改了 checkpoint 的相关设置，导致 checkpoint 的大小发生了变化。例如，你可能会修改 checkpoint 的频率或者大小限制，导致 checkpoint 的大小发生了变化。

4.你在从之前的 checkpoint 恢复运行之后，数据源的数据量发生了变化。例如，你可能会从一个全量的数据源恢复运行，之后数据源的数据量减少了。

建议你检查一下你的程序，确定是哪种情况导致了 checkpoint 上传到 HDFS 的数据量变小。

2022-12-29 18:55:05

赞同展开评论打赏

问答标签：

文件存储HDFS版数据 checkpoint文件存储HDFS版文件存储HDFS版checkpoint 文件存储HDFS版运行运行文件存储HDFS版

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

实时计算 Flink版

大数据计算MaxCompute有一组di上线任务，数据源是hdfs，每天都运行，是什么原因呢？

61

3

0

Checkpoint Replicate Service 是如何实现跨 HDFS 集群的副本制作的？

33

1

0

Flink里打包好的jar包上传运行，checkpoint在代码里可以设置oss-hdfs的地址么？

173

3

0

Flink独立集群与hdfs集群不在一起，flink如何配置checkpoint目录为hdfs？

89

1

0

Flink有没有遇到过打checkpoint的时候，遇到写hdfs的错误然后一直卡死，怎么回事？

280

3

0

问一下大佬们，我们最近flink任务从checkpoint（hdfs存储)恢复，发现恢复信息里还尝试

522

2

0

问一下群里的大佬们，我们最近flink任务从checkpoint（hdfs存储)恢复，发现恢复信息里

196

1

0

请问一下，flink checkpoint 的hdfs 路径，有台机器磁盘坏了了，导致flink任务

577

1

0

为什么下载了Hadoop之后直接能够在Linux系统上运行hdfs文件呀？

1070

1

0

Linux文件系统中是怎么运行HDFS文件的呀？

843

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

热门讨论

热门文章

Flink mysql cdc全量阶段现在支持select *字段自定义吗？

FFA 2024 大会门票免费送！AI时代下大数据技术未来路在何方？

web-ui 加载会非常慢是什么原因呢？

使用flink on yarn的模式，怎么进行内存资源调优呢，如何配置flink内存

百问求答（17）Flink 问题专场！回答问题赢小米电动牙刷等好礼

flink本地启动webUI，TaskManager的Logs日志可以正常查看怎么办？

有遇到过flink 一直重启的问题么？

请问flink-connector-jdbc在sink时，如何设置批量写入？

FlinkKafkaConsumer 1.11的clientId什么的看不到这个怎么解决吗？

有人用minio作为statebackend吗？flink-conf.yml怎么配置的？

展开全部

数据仓库介绍与实时数仓案例

广告场景下的实时计算

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

Flink: 实时规则引擎助力新零售发展

百万TPS高吞吐、秒级低延迟，阿里搜索离线平台如何实现？

微财基于 Flink 构造实时变量池

从数据存储到分析：构建高效开源数据湖仓解决方案

周末直播|Flink、Hologres、AI等热门话题全都安排！

湖仓实时化升级：Uniflow 构建流批一体实时湖仓

阿里云实时计算产品案例&解决方案汇总

展开全部

相关课程

更多

Hadoop 分布式文件系统 HDFS

1187

43

去学习

相关电子书

更多

海量数据分布式存储——Apache HDFS之最新进展 立即下载

低代码开发师（初级）实战教程 立即下载

阿里巴巴DevOps 最佳实践手册 立即下载