开发者社区 问答 正文

mapreduce中溢写过程是什么?

mapreduce中溢写过程是什么?

展开
收起
芯在这 2021-12-10 23:50:46 776 分享 版权
1 条回答
写回答
取消 提交回答
  • 溢写过程:map中的环形内存缓冲区其实是字节数组,是有大小限制的,默认是100MB。当达到环形缓冲区的阈值即80%时,map的输出结果依然会写入到剩余20%的缓冲区中同时会启动溢写线程,对环形缓冲区中80%的数据按照被序列化的后key+partitionsID进行排序。如果有combiner函数就将有相同key的value加起来,减少溢写到磁盘的数据量,使输出结果更加紧凑。

    2021-12-10 23:51:00
    赞同 展开评论
问答分类:
问答地址: