升级1:FastGPU的即刻构建|学习笔记

简介: 快速学习升级1:FastGPU的即刻构建

开发者学堂课程【如何利用飞天AI解决方案帮助升级异构计算的AI架构升级1:FastGPU的即刻构建】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/648/detail/10747


升级1:FastGPU的即刻构建

内容介绍:

一、AI 环境配置、管理困难

二、FastGPU 的即刻构建

三、FastGPU 即刻构建 AI 集群

四、FastGPU 即刻构建--提交作业

五、FastGPU 即刻构建一管理作业和资源

六、FastGPU 即刻构建一支持开放平台 AI 挑战赛


一、AI 环境配置、管理困难

基于异构计算 AI 应用架构的问题是AI环境配置繁琐、管理非常困难。我们知道,配置一个人工智能的环境,往往需要GPU 的驱动、CUDA、cuDNN、cuBlas、NCCL 等不同版本的库;不同主流计算框架都有不同版本,比如 Tensorflow就有很多个版本;所以在做训练、推理的VM镜像时,会遇到很多环境配置和管理困难等问题;分布式训练过程中会遇到存储、网络配置和管理困难的问题;一个典型分布式训练的环境配置需要一天的时间。

所以异构计算AI架构升级1就是 FastGPU 的即刻构建。


二、FastGPU 的即刻构建

1.png

异构计算 AI 应用架构升级1-FastGPU 即刻构建主要是在 IaaS 资源层之上加了一层 IaaS 资源管理、任务调度层。同时底层 IaaS 资源在除了计算资源、网络资源之外,把存储资源也纳入到管理之内。


三、FastGPU 即刻构建 AI 集群

1.png

用户的部分主要是绿色的,用户在起始状态只需要在蓝色部分(阿里云的产品)比如,是做存储的,只需要把数据集放在 OSS 上面,训练代码放在开发主机上面,通过 FastGPU 一键就可以把阿里云整个人工智能环境构建出来,自动创建 laaS 资源和挂载存储,把存储资源自动挂载到计算资源基础上,就可以自动启动(分布式)训练或推理任务,在任务结束之后,自动释放 laaS 资源,如计算资源,存储资源,同时会创建交互资源,包括 Tensorflow,在 FastGPU 训练过程中,用户可以实时看到训练状态,训练 log,用户完成状态,基本上计算资源都会收回,训练结果或推理结果会存在,OSS,开发主机,CloudShell 上面。用户只关心初始状态和完成状态就可以。

主要有三大好处,第一是省时,在配置基础资源时,可以把原来1天的时间缩短到5分钟;无需关心 VM 的镜像配置、工具库的配置,GPU 驱动的配置,多机训练的网络互通的配置,文件存储、云盘存储资源的自动挂载;第二个好处是省钱,GPU 资源的生命周期与任务是同步的,只有当数据集准备完成再触发 GPU 实例资源购买,当训练/推理业务触发时才购买 GPU 实例资源,这时才开始计费,当训练/推理任务结束自动释放/停止 GPU 实例资源,这样可以做到成本的最优,同时支持可抢占实例的创建,可抢占实例的成本很低,最低可以达到按量的十分之一;第三是易用,所有资源均为laaS层,用户可以登录访问,可调试,遇到什么问题可以自己调试出来,做得实验都是可以回溯的,他不是一个黑盒子,而是laaS层实例。


四、FastGPU 即刻构建--提交作业

1.png

FastGPU 提交作业的方式主要有两种,第一种通过 eclsutercreate 创建 GPU 集群,只要在[ncluster]文件里指定需要创建集群的名字,需要创建几台机器,名牌大小是多少,镜像名是什么,instance 类型是什么,是否需要 spot 实例,指定作用区域,指定 vpc 的名字,就可以创建一个集群;

第二种方式直接定义一个 job,指定 job 名,需要多少台机器,镜像名是什么,实例名是什么,然后通过代码的方式上传代码,可以下载模型和数据,最后通过 job.tasks[0].run 把运行训练作业或分布式训练作业一键提交,FastGPU 在内部构建一个集群,来训练这个作业。


五、FastGPU 即刻构建一管理作业和资源

1.png

可以通过 eclsuterls 查看作业和资源的创建情况;通过 eclusterssh/tmuxjobname 登陆作业,实时查看运行情况;通过 eclusterstop 停止实例;通过 eclusterstart 启动实例,也可以通过 eclusterkill 释放实例。


六、FastGPU 即刻构建一支持开放平台AI挑战赛

1.png

现在已经支持开放平台的 AI 挑战赛,网址是https://www.aliyun.com/daily-act/openplatform-developer-com

petition 一个重要特点就是通过 CloudShell 和 FastGPU 在5分钟内即可完成GPU集群的创建,包括容器实例准备、存储实例创建、数据准备并启动训练任务,同时可配合 SPOTGPU 实例迅速形成低成本的生产力。

CloudShell 的网址:https://shell.aliyun.com/。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
SQL 关系型数据库 MySQL
gin框架学习-Gorm入门指南
Snake Case命名风格,就是各个单词之间用下划线(_)分隔,首字母大写区分一个单词,例如: CreateTime的Snake Case风格命名为create_time
789 0
gin框架学习-Gorm入门指南
|
4月前
|
人工智能 自然语言处理 数据可视化
聊聊多维表格与BI|AI x Data 数据产品的发展趋势
多维表格与Quick BI深度融合,助力企业在AI与数据时代实现高效分析。多维表格作为轻量级数据管理工具,擅长快速填报与基础分析;而Quick BI则专注于多源数据整合、深度洞察与可视化展示。两者协同,既能降低使用门槛,又能提升数据分析的广度与深度,满足企业从数据采集到智能决策的全链路需求。未来,数据产品将朝着低门槛、多场景与实用性方向发展,推动商业智能迈向新高度。
318 25
|
JavaScript 前端开发 API
使用ArkUI封装表单
本文介绍了如何使用华为鸿蒙系统的声明式UI框架ArkUI封装表单。主要内容包括创建自定义组件、实现验证逻辑、在父组件中使用自定义表单组件,以及样式和布局的设置。通过这些步骤,可以提高代码的可复用性和模块化程度,使表单构建更加高效和易于维护。
368 3
|
10月前
|
SQL 数据可视化 数据挖掘
2025年热门报表工具大盘点!助力企业快速建立数据管理中心!
2025年热门报表工具大盘点!助力企业快速建立数据管理中心!
|
JavaScript IDE 开发工具
python中的SyntaxError: invalid character in identifier(语法错误:标识符中有无效字符)
【5月更文挑战第14天】python中的SyntaxError: invalid character in identifier(语法错误:标识符中有无效字符)
1783 8
|
运维 JavaScript Linux
容器内的Nodejs应用如何获取宿主机的基础信息-系统、内存、cpu、启动时间,以及一个df -h的坑
本文介绍了如何在Docker容器内的Node.js应用中获取宿主机的基础信息,包括系统信息、内存使用情况、磁盘空间和启动时间等。核心思路是将宿主机的根目录挂载到容器,但需注意权限和安全问题。文章还提到了使用`df -P`替代`df -h`以获得一致性输出,避免解析错误。
539 1
|
自然语言处理 对象存储 知识图谱
智能客服对话系统解决方案
针对问题咨询场景中出现大量相关领域的问题,PAI提供了智能客服对话系统解决方案,以降低客户等待时间和人工客服成本。本文以汽车售前咨询业务领域为例,介绍如何基于人工智能算法,快速构建智能客服对话系统。
智能客服对话系统解决方案
|
前端开发 JavaScript API
构建高效Web应用:React与Node.js的完美结合
【8月更文挑战第29天】在当今快速变化的软件开发领域,构建高性能、可扩展的Web应用成为开发者的首要任务。本文将深入探讨如何利用React和Node.js这两大技术栈,打造一个高效且响应迅速的现代Web应用。从前端的用户界面设计到后端的服务逻辑处理,我们将一步步分析这两种技术如何协同工作,提升应用性能,并确保用户体验的流畅性。通过实际代码示例和架构设计的解析,本篇文章旨在为读者提供一套清晰的指南,帮助他们在项目开发中做出更明智的技术选择。
|
算法 C++
平面中判断线段与矩形是否相交
平面中判断线段与矩形是否相交
276 0
|
机器学习/深度学习 监控 算法框架/工具
用Python实现简单的图像分类器
用Python实现简单的图像分类器
370 0