用户程序对 RDD 通过多个函数进行操作,将 RDD 进行转换。
Block-Manager 管理 RDD 的物理分区,每个 Block 就是节点上对应的一个数据块,可以存储在内存或者磁盘。
而 RDD 中的 partition 是一个逻辑数据块,对应相应的物理块 Block。
本质上一个 RDD 在代码中相当于是数据的一个元数据结构,存储着数据分区及其逻辑结构映射关系,存储着 RDD 之前的依赖转换关系。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。