开发者社区> 问答> 正文

Hive 数仓表中从源头上控制小文件数量的方法有哪些?

Hive 数仓表中从源头上控制小文件数量的方法有哪些?

展开
收起
游客qzzytmszf3zhq 2021-12-09 20:48:57 243 0
1 条回答
写回答
取消 提交回答
  • • 使用 Sequencefile 作为表存储格式,不要用 textfile,在一定程度上可以减少小文 件

    • 减少 reduce 的数量(可以使用参数进行控制)

    • 少用动态分区,用时记得按 distribute by 分区

    2021-12-09 20:49:06
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hive Bucketing in Apache Spark 立即下载
spark替代HIVE实现ETL作业 立即下载
2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践 立即下载