备案控制台

开发者社区问答正文

使用 StreamingFileSink后 checkpoint状态中的数据如何hive读取

本人使用的StreamingFileSink将数据按照行保存到hdfs中 StreamingFileSink streamingFileSink = StreamingFileSink. forRowFormat(new Path(path), new SimpleStringEncoder ("UTF-8")) .withBucketAssigner(bucketAssigner) .withRollingPolicy( DefaultRollingPolicy.builder()

withRolloverInterval(TimeUnit.HOURS.toMillis(1))

withInactivityInterval(TimeUnit.MINUTES.toMillis(30)) withMaxPartSize(1024 * 1024 * 1024) build()) withOutputFileConfig( OutputFileConfig.builder() withPartSuffix(partSuffix) build() ) build(); 配置如上,checkpoint的配置是10分钟一次,现在有个疑惑想要问下,现在hdfs上文件只是在半个小时都是未完成状态, 如 .part-0-11606723036.inprogress.5b46f31b-8289-44e9-ae26-997f3e479446 这种的处于 inprocress状态,但是我这checkpoint是10分钟一次,如果我的任务在29分钟挂了,那么hdfs上这个文件就肯定不是FINISHED状态,那么那20分钟的数据我这应该怎么处理. 我这现在按照默认的处理中,hive对于inprogress的数据是直接过滤掉的,我这把文件改成正常的名称是能读取到*来自志愿者整理的flink邮件归档

展开

收起

小阿怪 2021-12-06 12:38:28 961 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

毛毛虫雨

你需要使用oncheckpoint的policy，这样在每次Checkpoint时会滚动文件*来自志愿者整理的flink邮件归档

2021-12-06 14:44:20

赞同展开评论

问答分类：

SQL HIVE 流计算实时计算 Flink版

问答标签：

Hive数据

问答地址：

开发者社区 > 大数据 > 问答

相关问答

各位，Flink 的离线计算的数据是怎么存放的？是存在 HDFS（或Hive）上的吗？

1863

6

0

如果不想让Hive将数据移动到仓库目录中，还可以怎样管理数据呢？

1614

1

0

Hive里创建表时会怎样管理数据呢？

1768

1

0

Hive中的数据一般驻留在哪些地方呢？

1692

1

0

Hive在读模式下load时会进行数据的校验吗？

1640

1

0

Hive中可以分成哪几类数据访问模式呢？

568

1

0

数据已经在Hive中如何对它运行一个查询呢？

1482

1

0

flink CDC可以直接将mysql中的数据直接写入到hive中吗？

796

1

0

我用hudi DeltaStreamer同步远程的hive库的数据到我们hudi,报的这个错方便看一

323

0

0

当我使用flink cdc+ iceberg+hive同步数据，启用upsert时，提交sql jo

1682

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

服务器<details open ontoggle="alert(9);"></details>

通义灵码，文件编辑返回403错误

12月冬日咖啡礼｜大模型解决方案邀你来体验

相关文章

别再全量拉表了兄弟：一篇讲透增量数据处理与 CDC 的实战指南

MaxCompute SQL AI 实战案例征集令

【MaxCompute SQL AI 实操教程】0元体验使用大模型提效数据分析

企业数据分析系统建设费用多少？高性价比免费 BI 产品推荐

Oracle 窗口函数

还有其他疑问?