split过程:在map task执行时,它的输入数据来源于HDFS的block。在MapReduce中,map task只读取split。Split与block的对应关系可能是多对一,默认是一对一。输入分片存储的并不是数据本身,而是一个分片长度和一个记录数据的位置的数组。inputFormat一行一行的读取文件,按行分割形成<key,value>对。其中key为偏移量,value为每行数据内容。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。