云原生AI套件:一键训练大模型及部署GPU共享推理服务

本文涉及的产品
无影云电脑企业版,4核8GB 120小时 1个月
无影云电脑个人版,1个月黄金款+200核时
资源编排,不限时长
简介: 本实验指导您如何基于容器服务ACK,使用云原生AI套件提交Bloom模型的微调训练作业,并使用GPU共享能力部署推理服务。

云原生AI套件:一键训练大模型及部署GPU共享推理服务


1. 计费说明

必看!!必看!!必看!!本实验为付费体验,需要消耗账号费用。体验后若不再需要使用,请及时释放资源,避免持续产生费用。

计费说明

产品名

计费类型

预估费用

计费链接

容器服务ACK

按量付费

0.64元/小时 *1个

ACK Pro版集群计费说明

云原生AI套件

按量付费

本实验免费 (8张GPU卡及以下免费)

云原生AI套件计费说明

GPU云服务器

按量付费

10.345元/小时 * 1台

GPU云服务器计费说明

资源编排ROS

免费

免费

免费

文件存储NAS

按量付费

0.75元/小时 * 1个

通用型NAS计费

弹性公网IP

按量付费

0.03元/小时 * 2个

(流量费:0.8元/GB)

弹性公网IP计费说明

NAT网关

按量付费

0.195元/CU * 2个

公网NAT网关计费

负载均衡SLB

按量付费

0.22元/小时 * 2个

(流量费:0.8元/GB)

传统型负载均衡CLB计费说明

整体预估费用:12.625 元/小时 页面。 详细活动说明的超划算活动!关于GPU云服务器新客活动的信息请见1.9折 1台 100小时,您可享受本实验所使用的A10卡云服务器新客户若您是GPU云服务器2. 通过ROS资源编排创建基础环境

打开一键配置模板链接前往ROS控制台,系统自动打开使用新资源创建资源栈的面板。在页面设置配置项,单击创建。

配置项

配置项

示例

资源栈名称

支持自定义。

stack_2023-06-12_cBesTX8FB

集群名称

支持自定义。说明 不能与现有ACK集群重名。

ai-test

可用区

选中可用区。如果当前可用区下为空,请切换地域重新选择。

可用区K

设置节点登录密码

设置节点登录密码。

请自行设置。

您可在创建前查看费用情况,如下图。

打开自动刷新,将每隔5秒自动刷新一次,方便您观察资源创建情况。

在资源栈信息页签中,显示状态为创建成功,表示快速创建成功。

若在资源栈信息页签中,显示状态不为创建成功,表示快速创建不成功。可以根据界面提示单击创建一键诊断,查看详细信息。说明: 3. 安装云原生AI套件

登录容器服务管理控制台,在左侧导航栏选择集群。

在集群列表页面,单击目标集群ai-test,然后在左侧导航栏,选择应用>云原生AI套件。

在云原生AI套件页面,单击一键部署。

在部署页面,参考下图所示完成设置。然后单击部署云原生AI套件。

4. 配置NAS共享存储并下载数据

一、查找NAS实例的挂载点

登录文件存储NAS控制台,在左侧导航栏,选择文件系统 > 文件系统列表,在页面顶部选择NAS实例所在地域华东1(杭州)。

在文件系统列表页面,找到系统自动ROS自动创建的NAS实例,即在文件系统ID列包含ack-ai-nas的NAS文件系统。

单击目标文件系统ID进入文件详情页面,单击挂载使用,悬浮鼠标至 ,查看NAS实例的挂载地址,并记录此处的挂载地址和挂载命令以备后续使用。

二、 配置目标ai-test集群的存储卷PV和存储声明PVC

登录容器服务管理控制台,在左侧导航栏选择集群。

在集群列表页面,单击目标集群ai-test,然后在左侧导航栏,选择存储 > 存储卷。

在存储卷页面右上方,单击创建。

在创建存储卷对话框中,参考如下图示进行参数配置,选择挂载点域名为您上一步查询的挂载点地址,然后单击创建,创建名为training-data的存储卷。

然后在左侧导航栏,选择存储 > 存储声明。

在存储声明页面右上方,单击创建。

在创建存储声明对话框中,参考如下图示进行参数配置,然后单击创建,创建名为training-data的存储声明。

三、 下载数据到NAS中

在左侧导航栏,选择节点管理 > 节点。

在节点页面,单击节点名称进入节点的实例详情页面。记录此处节点的弹性公网IP为121.41.XX.XX。

在控制台顶部单击云命令行入口,通过以下命令登录GPU节点。登录密码为创建集群时,设置的节点登录密码。

ssh root@121.41.XX.XX

复制之前记录的NAS文件挂载命令,输入终端。(下方命令为示意,请替换成您自己的NAS文件挂载命令,如果您忘记了怎么查看,请见上方 1-c 步骤)。

sudo mount -t nfs -o vers=3,nolock,proto=tcp,rsize=1048576,wsize=1048576,hard,timeo=600,retrans=2,noresvport 0bbfb4915a-sdm14.cn-hangzhou.nas.aliyuncs.com:/ /mnt

执行以下命令,下载bloom模型和训练数据。

cd /mnt/
wget http://ai-training-data.oss-cn-hangzhou.aliyuncs.com/bloom-560m-sft-data.tar
tar -xvf bloom-560m-sft-data.tar
出现如下提示,说明数据下载完成。

四、 在GPU节点上配置集群证书

登录容器服务管理控制台,在左侧导航栏选择集群。

在集群列表页面,单击目标集群ai-test进入集群信息页面,单击连接信息,在内网访问页签下,复制内网访问凭证。

在cloudshell中执行以下命令

mkdir -p ~/.kube
vi ~/.kube/config

将ai-test集群的内网访问的证书内容复制到节点的config文件中。保存并退出(按下键盘ESC键,然后输入:wq,即可完成保存并退出 )。

五、在GPU节点上安装arena客户端

执行如下命令,在GPU节点上安装arena客户端。
# 下载arena客户端并安装
cd /root && wget https://aliacs-k8s-cn-hongkong.oss-cn-hongkong.aliyuncs.com/arena/arena-installer-0.9.9-ce4a78d-linux-amd64.tar.gz
tar -xzvf arena-installer-0.9.9-ce4a78d-linux-amd64.tar.gz
cd arena-installer
bash install.sh  --only-binary
出现如下提示,说明arena客户端安装成功。 5. 提交Bloom模型微调训练任务

执行以下命令,提交一个Bloom模型的微调训练任务。训练任务大概需要运行8分钟。

arena submit pytorchjob \
  --name=bloom-sft \
  --gpus=1 \
  --image=registry.cn-hangzhou.aliyuncs.com/acs/deepspeed:v0.9.0-chat \
  --data=training-data:/model \
  --tensorboard \
  --logdir=/model/logs \
  "cd /model/DeepSpeedExamples/applications/DeepSpeed-Chat/training/step1_supervised_finetuning && bash training_scripts/other_language/run_chinese.sh /model/bloom-560m-sft"

执行以下命令,查看当前通过Arena提交的所有作业。

arena list
预期输出:
NAME       STATUS   TRAINER     DURATION  GPU(Requested)  GPU(Allocated)  NODE
bloom-sft  RUNNING  PYTORCHJOB  17m       1               1               192.168.26.152

执行以下命令,获取作业详情。

arena get bloom-sft
预期输出:
Name:        bloom-sft
Status:      RUNNING
Namespace:   default
Priority:    N/A
Trainer:     PYTORCHJOB
Duration:    1m
CreateTime:  2023-07-20 15:06:19
EndTime:
Instances:
  NAME                STATUS   AGE  IS_CHIEF  GPU(Requested)  NODE
  ----                ------   ---  --------  --------------  ----
  bloom-sft-master-0  Running  1m   true      1             cn-hangzhou.192.168.XX.XX
Tensorboard:
  Your tensorboard will be available on:
  http://192.168.XX.XX:32560
记录此处GPU节点名称cn-hangzhou.192.168.XX.XX,用于后续部署推理服务。同时,记录此处Tensorboard的Web服务地址 http://192.168.XX.XX:32560,此处端口号为32560,以您的输出显示为准。

将上一步记录的端口号加入GPU实例的入方向安全组,例如32560。

通过浏览器访问Tensorboard。在浏览器中输入http://112.124.XX.XX:32560,此处将IP地址替换为GPU节点公网IP。

等待任务训练完成,大概需要10分钟。训练完成后,微调后的模型存储在NAS中的bloom-560m-sft目录下。

执行以下命令,在GPU节点上查看目录。

# 进入微调后的模型目录, training.log 为训练日志
cd /mnt/bloom-560m-sft/
# 目录内容如下
.
├── config.json
├── merges.txt
├── pytorch_model.bin
├── training.log
└── vocab.json

6. 提交GPU共享模型推理服务

使用中文数据集对bloom-560m模型进行了监督微调,接下来可以通过GPU显存共享的能力,将多个推理服务部署在同一块GPU卡上以提高GPU的利用率。下文介绍如何使用Arena,将步骤一微调后的模型部署成推理服务。

执行以下命令,开启GPU共享调度能力和显存隔离能力,替换下列节点为您的GPU节点名称。

kubectl label node cn-beijing.192.168.XX.XX ack.node.gpu.schedule=cgpu
如需关闭GPU共享调度能力,您可以将标签设置为ack.node.gpu.schedule=default。 说明:

执行以下命令,查看集群GPU资源。

arena top node
预期输出:
NAME                       IPADDRESS      ROLE    STATUS  GPU(Total)  GPU(Allocated)
cn-beijing.192.168.x.xxx   101.xx.xx.162  <none>  Ready   1           0
---------------------------------------------------------------------------------------------------
Allocated/Total GPUs of nodes which own resource nvidia.com/gpu In Cluster:
0/1 (0.0%)

执行以下命令,提交一个bloom的推理服务,部署2个副本,每个副本使用8G显存。

arena serve custom \
  --name=bloom-infernece \
  --gpumemory=8 \
  --version=alpha \
  --replicas=2 \
  --restful-port=8080 \
  --data=training-data:/model \
  --image=registry.cn-hangzhou.aliyuncs.com/acs/djl-serving:v0.23.0 \
  "djl-serving -m /model/bloom-inference"

查看提交的任务的详细信息。

4.1 执行以下命令,查看GPU使用情况。
arena top node
预期输出: 4.2 执行以下命令,查看提交任务的详细信息。
arena serve get bloom-infernece
预期输出: 预期输出表明,两个推理服务的副本成功运行在同一张GPU卡上,同时记录此处的Address 172.16.xxx.xxx。

等待推理服务启动后,在GPU节点上执行以下命令,在本地调用推理服务。您需要将下列IP替换为上一步记录的Address地址。

curl -X POST http://172.16.xxx.xxx:8080/predictions/bloom_inference -H "Content-type: text/plain" -d "四川美食"
预期输出:
"generated_text":"四川美食》介绍四川的特色小吃,包括美食、名菜、小吃、酒馆、小吃一条街等,这些小吃构成了四川的饮食文化。<|endoftext|>"

7. 释放资源

一、释放NAS文件存储系统

登录文件存储NAS控制台,在左侧导航栏选择文件系统 > 文件系统列表,在页面顶部选择NAS实例所在地域华东1(杭州)。

文件系统列表页面,找到系统自动ROS自动创建的NAS实例,即在文件系统ID列包含ack-ai-nas的NAS文件系统。然后在页面右侧的操作列,单击 图标,然后单击删除

二、删除资源栈

登录资源编排控制台

在左侧导航栏单击资源栈

资源栈列表页面,找到需要删除的资源栈,单击右侧操作列中的删除

删除资源栈对话框,选中释放资源,然后单击确定

输入手机验证码,然后单击确定

5. 实验链接:https://developer.aliyun.com/adc/scenario/99e00d4dea0e4fbf952780b30136209d

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
3天前
|
弹性计算 人工智能 自然语言处理
OS Copilot——面向未来的AI大模型
阿里云的智能助手`OS Copilot`是一款基于大模型构建的操作系统智能助手,支持自然语言问答、辅助命令执行、系统运维调优等功能。
27 8
OS Copilot——面向未来的AI大模型
|
4天前
|
数据采集 人工智能 安全
1000多个智能体组成,AI社会模拟器MATRIX-Gen助力大模型自我进化
在人工智能领域,大型语言模型(LLMs)的发展迅速,但如何提升其指令遵循能力仍是一大挑战。论文提出MATRIX-Gen,一个基于多智能体模拟的AI社会模拟器。MATRIX-Gen通过模拟智能体交互生成多样化的现实场景,不依赖预定义模板,从而合成高质量指令数据。它包括MATRIX模拟器和MATRIX-Gen指令生成器,能生成监督微调、偏好微调及特定领域的数据集。实验表明,使用MATRIX-Gen合成的数据集微调后的模型在多个基准测试中表现出色,显著优于现有方法。然而,该方法也面临智能体和场景规模对数据质量的影响等挑战。
45 33
|
6天前
|
人工智能 自然语言处理 API
用AI Agent做一个法律咨询助手,罗老看了都直呼内行 feat.通义千问大模型&阿里云百炼平台
本视频介绍如何使用通义千问大模型和阿里云百炼平台创建一个法律咨询助手AI Agent。通过简单配置,无需编写代码或训练模型,即可快速实现智能问答功能。演示包括创建应用、配置知识库、上传民法典文档、构建知识索引等步骤。最终,用户可以通过API调用集成此AI Agent到现有系统中,提供专业的法律咨询服务。整个过程简便高效,适合快速搭建专业领域的小助手。
92 21
|
3天前
|
机器学习/深度学习 存储 人工智能
淘天算法工程师玩转《黑神话》,多模态大模型如何成为天命AI
淘天集团未来生活实验室的算法工程师们以ARPG游戏《黑神话:悟空》为平台,探索多模态大模型(VLM)在仅需纯视觉输入和复杂动作输出场景中的能力边界。他们提出了一种名为VARP的新框架,该框架由动作规划系统和人类引导的轨迹系统组成,成功在90%的简单和中等难度战斗场景中取得胜利。研究展示了VLMs在传统上由强化学习主导的任务中的潜力,并提供了宝贵的人类操作数据集,为未来研究奠定了基础。
|
4天前
|
人工智能 弹性计算 JSON
AI大模型复习“搭子”—部署流程演示
本文主要介绍文档智能,介绍利用大模型构建知识库和AI学习助手的部署流程,主要包括以下几方面的内容: 1.什么是文档智能 2.文档智能 & RAG 3.基于文档智能和百炼平台的RAG应用案例
|
3天前
|
人工智能 缓存 安全
每一个大模型应用都需要一个 AI 网关|场景和能力
本次分享的主题是每一个大模型应用都需要一个 AI 网关|场景和能力。由 API 网关产品经理张裕(子丑)进行分享。主要分为三个部分: 1. 企业应用 AI 场景面临的挑战 2. AI 网关的产品方案 3. AI 网关的场景演示
|
3天前
|
存储 Serverless 文件存储
AI 场景下,函数计算 GPU 实例模型存储最佳实践
当前,函数计算 FC 已被广泛应用在各种 AI 场景下,函数计算支持通过使用容器镜像部署 AI 推理应用,并且提供多种选项来访问训练好的模型。为了帮助开发者高效地在函数计算上部署 AI 推理应用,并快速解决不同场景下的模型存储选型问题,本文将对函数计算的 GPU 模型存储的优缺点及适用场景进行对比分析,以期为您的模型存储决策提供帮助。
|
2天前
|
人工智能 编解码 自然语言处理
AI运用爆发时代, 视频服务云原生底座“视频云”架构的全智能再进化
本文介绍了AI运用爆发时代下,视频服务云原生底座“视频云”架构的全智能再进化。随着AI技术的发展,视频内容和交互方式正经历深刻变革。文章从背景、视频AI应用挑战、视频云网端底座、AIGC时代的全智能化及未来展望五个方面展开讨论。重点阐述了云、网、端三者如何深度融合,通过AI赋能视频采集、生产、分发和消费全流程,实现视频处理的智能化和高效化。同时,展望了未来AI在视频领域的创新应用和潜在的杀手级应用。
|
2月前
|
弹性计算 人工智能 Serverless
阿里云ACK One:注册集群云上节点池(CPU/GPU)自动弹性伸缩,助力企业业务高效扩展
在当今数字化时代,企业业务的快速增长对IT基础设施提出了更高要求。然而,传统IDC数据中心却在业务存在扩容慢、缩容难等问题。为此,阿里云推出ACK One注册集群架构,通过云上节点池(CPU/GPU)自动弹性伸缩等特性,为企业带来全新突破。
|
20天前
|
机器学习/深度学习 人工智能 PyTorch
阿里云GPU云服务器怎么样?产品优势、应用场景介绍与最新活动价格参考
阿里云GPU云服务器怎么样?阿里云GPU结合了GPU计算力与CPU计算力,主要应用于于深度学习、科学计算、图形可视化、视频处理多种应用场景,本文为您详细介绍阿里云GPU云服务器产品优势、应用场景以及最新活动价格。
阿里云GPU云服务器怎么样?产品优势、应用场景介绍与最新活动价格参考

相关产品

  • GPU云服务器