开发者社区> 问答> 正文

想知道有什么方法解决hive小文件问题?

你好, 1:我设置的时候就是 使用的 partition-time 同时 设定checkpoint间隔为60s。但是我发现watermark一直没有生成或者更新,导致我的数据一直无法commit。想知道 为什么watermark无法生成。当时使用process-time是没问题的。 2:因为写hive的话会有小文件的问题。所以我使用file sink来设置合并文件和控制文件大小。但是写文件是无法写hive metastore。所以hive查不出数据。

想知道有什么方法解决hive小文件问题,难道只能T+1做小文件合并吗。*来自志愿者整理的flink

展开
收起
雪哥哥 2021-12-05 12:15:18 622 0
1 条回答
写回答
取消 提交回答
    1. watermark的问题需要检查一下source,比如watermark是如何定义的、是不是source没数据导致watermark不前进等。
    2. 小文件合并的功能Hive跟FileSystem connector都是支持的,可以参考这个文档配置一下试试: https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/connectors/filesystem.html#file-compaction*来自志愿者整理的flink
    2021-12-05 17:39:58
    赞同 展开评论 打赏
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Comparison of Spark SQL with Hive 立即下载
Hive Bucketing in Apache Spark 立即下载
2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践 立即下载