开发者社区> 问答> 正文

在SQL数据源读取查询时,为什么要合并小文件?

在SQL数据源读取查询时,为什么要合并小文件?

展开
收起
三分钟热度的鱼 2024-04-21 22:06:37 34 0
1 条回答
写回答
取消 提交回答
  • 数据源读取查询时,如果动态分区数过多可能会造成小文件数过多。每个小文件都会作为一个数据块启动一个Map任务来处理,这样可能导致大量的Map任务初始化,而初始化时间可能远大于逻辑处理时间,造成资源浪费。因此,通过合并小文件为大文件可以减少Map任务的初始化次数,提高效率。

    2024-04-21 22:38:26
    赞同 1 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
SQL Server 2017 立即下载
GeoMesa on Spark SQL 立即下载
原生SQL on Hadoop引擎- Apache HAWQ 2.x最新技术解密malili 立即下载