开发者社区> 问答> 正文

mapreduce中溢写过程是什么?

mapreduce中溢写过程是什么?

展开
收起
芯在这 2021-12-10 23:50:46 738 0
1 条回答
写回答
取消 提交回答
  • 溢写过程:map中的环形内存缓冲区其实是字节数组,是有大小限制的,默认是100MB。当达到环形缓冲区的阈值即80%时,map的输出结果依然会写入到剩余20%的缓冲区中同时会启动溢写线程,对环形缓冲区中80%的数据按照被序列化的后key+partitionsID进行排序。如果有combiner函数就将有相同key的value加起来,减少溢写到磁盘的数据量,使输出结果更加紧凑。

    2021-12-10 23:51:00
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Hadoop存储与计算分离实践 立即下载
使用Apache Beam和HBase进行高效数据处理 立即下载
HareQL:快速HBase查询工具的发展过程 立即下载

相关实验场景

更多