本期导读 :【AI 训练加速】第十七讲
主题:FFluid + JindoFS 对 HDFS 上的数据进行训练加速luid+JindoFS 对 OSS 上数据进行训练加速
讲师:辰山,阿里巴巴计算平台事业部 EMR 技术专家
内容框架:
- 什么是 Fluid + JindoFS (JindoRuntime)
- 为什么使用 JindoRuntime 加速 HDFS
- 如何使用 JindoRuntime
- 演示
直播回放链接:(17讲)
https://developer.aliyun.com/live/247034
一、什么是 Fluid + JindoFS (JindoRuntime)
Fluid基础介绍
CNCF Fluid 是一个开源的 Kubernetes 原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用,例如大数据应用、AI应用等。
参考网址:https://github.com/fluid-cloudnative/fluid
Fluid 功能概念
Fluid 不是全存储加速和管理,而是应用使用的数据集加速和管理
- Dataset: 数据集是逻辑上相关的一组数据的集合,一致的文件特性,会被同一运算引擎使用。
- Runtime: 实现数据集安全性,版本管理和数据加速等能力的执行引擎的接口,定义了一系列生命周期的方法。
- JindoRuntime: 内核基于 JindoFS ,是支撑 Dataset 数据管理和缓存的执行引擎高效实现。
Fluid JindoRuntime
背景:云原生环境中使用 JindoFS 缓存加速引擎并进行缓存数据集编排和应用编排
二、为什么使用 JindoRuntime 加速 HDFS
HDFS 存储与 AI 训练
HDFS 用于 AI 训练场景面临的问题
- 计算存储分离,数据读取性能较差,无法满足 AI 训练作业的 IO 性能
- 很多深度学习训练框架并不适配原生 HDFS 接口,大大增加了开发难度
- HDFS 集群压力大,甚至存在稳定性问题
Fluid JindoRuntime 实现 HDFS 访问加速
JindoRuntime 功能支持
- Master 支持 Raft 高可用
- 支持数据亲和性调度(nodeAffinity),选择合适的缓存节点
- 支持数据预加载 DataLoad CRD
- 支持指定 Fuse 用户访问 HDFS
参考网址:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md
三、如何使用 JindoRuntime
JindoRuntime 加速 HDFS 基本步骤
- 下载并安装 Fluid:https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/jindo_fluid/jindo_fluid_jindofs_hdfs_introduce.md
- 创建 Dataset
- 创建 JindoRuntime
- 缓存预加载 DataLoad
- 执行 AI 训练作业
四、演示
Fluid JindoRuntime 使用
环境要求:
- Kubernetes version > 1.14, 支持CSI
- Golang 1.12+
- Helm 3
- Fluid 0.6.0
参考文档:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md
ISSUE:https://github.com/aliyun/alibabacloud-jindofs/issues
演示:对 HDFS 上数据进行访问加速
参考文档:https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/jindo_fluid/jindo_fluid_jindofs_hdfs_introduce.md
相关文档链接:
- Fluid JindoRuntime 使用文档
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md
- 拥抱云原生,Fluid结合JindoFS:加速 HDFS使用指南
https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/jindo_fluid/jindo_fluid_jindofs_hdfs_introduce.md
- ImageNet 数据集加速测试
- InsightFace数据集加速测试
⭐点击回放链接,直接观看第17讲视频回放,获取讲师实例讲解:
https://developer.aliyun.com/live/247034
⭐Github链接:
https://github.com/aliyun/alibabacloud-jindofs
不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!