备案控制台

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

flink使用jdbcsink写入hive3的话还会产生小文件问题吗？

flink使用jdbcsink写入hive3的话还会产生小文件问题吗？

展开

收起

三分钟热度的鱼 2023-08-29 19:38:30 114 0

1 条回答

写回答

取消提交回答

清风拂袖

如果使用 Flink 的 JDBCSink 写入 Hive3，那么是有可能产生小文件问题的。

因为 JDBCSink 是基于批处理的，它会将数据缓存在内存中，直到内存满了之后才会写入 Hive3 表。如果数据量很大，那么内存很快就会满了，就会产生很多小文件。

为了避免这个问题，你可以使用 Flink 的 Checkpointing 功能。这样，Flink 会定期将数据保存到外部存储中，这样内存就不容易满了。

你也可以使用 Flink 的 Async I/O 功能。这样，Flink 会异步将数据写入 Hive3 表，这样也不容易产生小文件。

此外，你也可以使用 Hive3 的压缩功能来压缩数据，这样也可以减少小文件。

2023-09-28 10:13:09

赞同展开评论打赏

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版文件实时计算 Flink版hive 实时计算 Flink版jdbcsink Hive小文件

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关产品：

实时计算 Flink版

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

实时计算 Flink版

Flink这个错，如何定位到底是那个文件的问题呢?

52

6

0

flink 处理的速度太慢但是又没有背压，还会出现 ck 超时失败的情况，有点不知道怎么弄？

211

3

0

请问FLINK-SQL作业sql文件怎样能运行 yarn-application 模式?

32

1

0

在Flink CDC中，这个flink老是会产生，这个目录下的日志文件没滚动删除，咋个配置目录转移？

22

0

0

通过flink sql把数据写入hdfs，如何设置对生产的文件进行压缩？

99

1

0

在Flink CDC中有重复的 server id，但是设置的是一个范围，为啥还会出现这个错误？

26

1

0

Flink使用topN去重后写入ODPS为什么还会重复

23

1

0

Flink Session集群JVM Metaspace内存很高下线任务是否还会占用内存资源

28

0

0

Flink CDC这个还需要创建临时文件吗？

15

1

0

请问现在flink cdc sqlserver connector还会死锁表嘛？

50

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关产品

实时计算 Flink版

文档详情产品详情

热门讨论

热门文章

flink 1.15 大家jdk是啥版本？

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

Flink1.17为什么需要JDK 11呢？JDK8我试了也能运行

编译失败，有知道怎么回事吗？

flink 1.18必须配套JDK11吗 1.8是不是不行了呢？

请问如何用flink sql客户端用yarn application模式提交任务呢？

哪位大佬有遇到过Flink这个问题呢？同步pg的时候，是不是类冲突了，所以导致抓不到这个类？

flink怎么能够快速消费kafka数据，需要设置什么参数呢？

请问下有实现达梦数据库的 Flink CDC么?

Flink sql将数组炸开，实现hive的explode函数的效果，还有什么其他好的方式？

展开全部

权威详解 | 阿里新一代实时计算引擎 Blink，每秒支持数十亿次计算

阿里云实时计算产品案例&解决方案汇总

接着！！Apache Flink 全领域干货合集（持续更新）

基于实时计算（Flink）打造一个简单的实时推荐系统

广告场景下的实时计算

【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

基于 Flink 构建 CEP 引擎的挑战和实践

基于 Flink 的实时数仓生产实践

计算广告与流处理技术综述

Flink入坑指南第四章：SQL中的经典操作Group By+Agg

展开全部

相关课程

更多

Apache Flink 入门到实战 - Flink开源社区出品

1604

16

去学习

实时计算 Flink 版产品入门与实操

4000

10

去学习

开源 Flink 极速上手教程

1850

7

去学习

大数据实时计算框架Spark快速入门

997

93

去学习

大数据Hive教程精讲

987

25

去学习

Apache Flink 入门

5092

9

去学习

相关电子书

更多

Hive Bucketing in Apache Spark 立即下载

spark替代HIVE实现ETL作业 立即下载

2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践 立即下载

相关实验场景

更多