升级4:飞天AI加速解决方案|学习笔记

简介: 快速学习升级4:飞天AI加速解决方案

开发者学堂课程【如何利用飞天AI解决方案帮助升级异构计算的AI架构升级4:飞天AI加速解决方案】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/648/detail/10750


升级4:飞天AI加速解决方案


内容介绍:

一、架构升级4-飞天AI加速解决方案

二、客户案例

三、飞天AI加速解决方案-特色优势

四、飞天AI加速解决方案-客户收益


一、架构升级4-飞天AI加速解决方案

在应用层加入了图像识别的场景,视频识别场景,CTR 预估场景,自

然语言理解场景,语音识别场景;在调度这层加入 QBS 调度。


二、客户案例

1、客户案例一:大规模人脸识别

1.png

客户案例一是大规模人脸识别,把人脸识别数提高到上千万,千万级人脸分类是工业界一大难题,模型是InsightFace,框架是 MXNET,存储是并行文件系统 CPFS,CPFS 可以在云端提供一个并行文件,可以根据需求在云端拓展存储,拓展带宽以及 LPS 能力。所以在分布式训练时,非常适合用 CPFS 做分布式的存储,框架是可以通过FastGPU 或 QBS 搭建,自动构建出分布式训练框架来,他的加速引擎是 AIACC-MXNET,自动构建出很多 GPU 云服务器来做 Tensorflow 训练,CPFS 上只需要存一份数据,每台 GPU 就可以从 CPFS 上不同的 Batch 来做训练。

(1)客户案例1:大规模人脸识别-性能优化

1.png

优化方法扩展 AIACC 的接口支持 MXNET 分布式训练,扩展 AIACC 支持数据并行与模型并行的混合并行,上图是数据并行与模型并行的混合并行的图,最终将人脸识别能力提升到千万级人脸性能提升,在16张 GPU,性能提升56%;32张 GPU,性能提升到2.3倍;64张 GPU,性能提升到3.8倍,将训练时间从23小时缩短到6个小时。

2、客户案例二:CTR 预估

1.png

客户案例二是 CTR 预估,CTR 预估会根据网上用户的行为,用户的点击,停留时间,转发,点赞,评论等行为给用户提供千人千面的推荐,推荐内容,广告。数据量是千亿级别数据量,模型是 Wide&Deep,框架是 Tensorflow,配置是2xM40GPU卡,56vcpu·25Gb 网络,存储是文件系统 HDFS。

(1)客户案例二:CTR 预估性能优化结果

1.png

性能优化包括定位性能瓶颈,开始用户是使用 Tensorflow 运行的,上图绿色部分是 Tensorflow 的性能,随机器数增加,性能并没有得到相应的提升,性能瓶颈主要来自两个方面,IO、通信,优化IO性能做多线程读取,多缓存队列,优化通信性能,用 AIACC-Tensorflow 通信优化,性能提升,在4张GPU,性能提升3.5倍,64张GPU,性能提升8.5倍,128张 GPU,性能提升13.4倍,训练时间从67小时缩短到5小时。

3、客户案例三:NLP 自然语言理解

1.png

客户案例三是 NLP 自然语言理解,之前流行的模型是 Transformer,现在流行的模型是 Bert,框架是 Tensorflow,配置是8xP100GPU卡,56vcpu-25Gb 网络,存储是并行文件系统 CPFS。

(1)客户案例三:NLP自然语言理解性能优化结果

1.png

自然语言理解的模型是比较大的,包括 Bert 模型和 Transformer 模型,都是相当大的,在传输时对网络的压力非常高,在原始的 Tensorflow 的时候,单机8卡有一定的加速比,双机16卡,性能减小,因为通信时没有非常好的处理通讯性能。所以通过拓展AICC的接口支持 Bert、Transformer 模型开启编译优化。最终 Bert 模型1机8卡,性能提升到2倍,2机16卡,性能提升到4.8倍,训练时间从48小时缩短到10小时;Transformer 模型1机8卡,性能提升到1.5倍,2机16卡,性能提升到2.6倍,训练时间从24小时缩短到9小时。


三、飞天AI加速解决方案-特色优势

飞天AI加速解决方案-特色优势包括四大方面,多框架统─加速,用户在使用框架时,可以使用 AICC 做到无缝加速,基于 laaS 基础资源做性能极致优化,对 GPU 的计算,网络的通信都做了非常深入的优化,可以把 laaS 的 GPU 加速实例,网络通信能力充分发挥出来,基于laaS基础资源弹性伸缩,可以通过 FastGPU 做一键构建,也可以做到弹性伸缩,从而达到计算成本和效率的最优配比,轻量便捷,开源兼容,框架都是兼容的,用户使用,模型和算法基本不用做修改。只要用到 AICC 就能做到性能的提升,开源网址:https://github.com/aliyun/alibabacloud-aiacc-demo


四、飞天 AI 加速解决方案-客户收益

提升客户 Al 应用性能,提升 AI 算法研究的工作效率,之前需要5天训练的模型现在不到1小时就可完成,提升客户业务的竞争力,提升用户算法研发效率之后,就可以提升用户产品的竞争力,同时在用户在线推理的性能上,也可提升用户的吞吐量,节约用户单位访问的成本,降低客户使用计算资源的成本,训练和推理时都可降低用户的单位使用成本。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
2月前
|
人工智能 运维 关系型数据库
云栖大会|AI时代的数据库变革升级与实践:Data+AI驱动企业智能新范式
2025云栖大会“AI时代的数据库变革”专场,阿里云瑶池联合B站、小鹏、NVIDIA等分享Data+AI融合实践,发布PolarDB湖库一体化、ApsaraDB Agent等创新成果,全面展现数据库在多模态、智能体、具身智能等场景的技术演进与落地。
|
2月前
|
人工智能 新制造 云栖大会
TsingtaoAI亮相云栖大会,AI大模型赋能传统制造业焕新升级
2025年9月24日,杭州云栖小镇,2025云栖大会盛大开幕。作为全球AI技术与产业融合的重要平台,本届大会以“AI驱动产业变革”为主题,集中展示大模型技术在各领域的创新应用。 其中,由西湖区商务局牵头组织的“AI大模型应用与产业融合”专场论坛成为大会亮点之一,吸引了来自政府、企业及投资机构的百余名代表参与。 在论坛上,TsingtaoAI作为制造业智能化转型的代表企业,分享了在具身智能-制造企业的AI应用实践。
119 1
|
存储 人工智能 安全
智存跃迁,阿里云存储面向 AI 升级全栈数据存储能力
一文总览阿里云存储产品创新与进展!
713 0
|
2月前
|
人工智能 监控 安全
员工使用第三方AI办公的风险与解决方案:从三星案例看AI的数据防泄漏
生成式AI提升办公效率,也带来数据泄露风险。三星、迪士尼案例揭示敏感信息外泄隐患。AI-FOCUS团队建议构建“流式网关+DLP”防护体系,实现分级管控、全程审计,平衡安全与创新。
|
2月前
|
人工智能 小程序 Java
电子班牌管理系统源代码,基于AI人脸识别技术的智能电子班牌云平台解决方案
电子班牌管理系统源码,基于AI人脸识别的智慧校园云平台,支持SaaS架构,涵盖管理端、小程序与安卓班牌端。集成考勤、课表、通知、门禁等功能,提供多模式展示与教务联动,助力校园智能化管理。
184 0
|
3月前
|
人工智能 机器人 Serverless
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
当云计算遇见具身智能,AI咖啡开启零售新体验。用户通过手机生成个性化图像,云端AI快速渲染,机器人精准复刻于咖啡奶泡之上,90秒内完成一杯可饮用的艺术品。该方案融合阿里云FunctionAI生图能力与安诺机器人高精度执行系统,实现AIGC创意到实体呈现的闭环,为线下零售提供低成本、高互动、易部署的智能化升级路径,已在商场、机场、展馆等场景落地应用。
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
|
2月前
|
人工智能 编解码 搜索推荐
AI智能换背景,助力电商图片营销升级
电商产品图换背景是提升销量与品牌形象的关键。传统抠图耗时费力,AI技术则实现一键智能换背景,高效精准。本文详解燕雀光年AI全能设计、Canva、Remove.bg等十大AI工具,涵盖功能特点与选型建议,助力商家快速打造高质量、高吸引力的商品图,提升转化率与品牌价值。(238字)
296 0
|
2月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
583 41
|
2月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
469 30