开发者社区> 问答> 正文

Hive 数仓表中小文件带来的问题有哪些呢?

Hive 数仓表中小文件带来的问题有哪些呢?

展开
收起
游客qzzytmszf3zhq 2021-12-09 20:48:00 319 0
1 条回答
写回答
取消 提交回答
  • 小文件会开很多 map,一个 map 开一个 JVM 去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能 小文件会给底层文件系统带来很大压力, 如在 HDFS 中,每个小文件对象约占150 byte,如果小文件过多会占用大量内存。这样 NameNode 内存容量严重制约了集群的扩展。

    2021-12-09 20:48:12
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hive Bucketing in Apache Spark 立即下载
spark替代HIVE实现ETL作业 立即下载
2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践 立即下载