企业内训|基于华为昇腾910B算力卡的大模型部署和调优-上海某央企智算中心

简介: 近日上海,TsingtaoAI为某央企智算中心交付华为昇腾910B算力卡的大模型部署和调优课程。课程深入讲解如何在昇腾NPU上高效地训练、调优和部署PyTorch与Transformer模型,并结合实际应用场景,探索如何优化和迁移模型至昇腾NPU平台。课程涵盖从模型预训练、微调、推理与评估,到性能对比、算子适配、模型调优等一系列关键技术,帮助学员深入理解昇腾NPU的优势及其与主流深度学习框架(如PyTorch、Deepspeed、MindSpore)的结合应用。

近日上海,TsingtaoAI为某央企智算中心交付华为昇腾910B算力卡的大模型部署和调优课程。课程深入讲解如何在昇腾NPU上高效地训练、调优和部署PyTorchTransformer模型,并结合实际应用场景,探索如何优化和迁移模型至昇腾NPU平台。课程涵盖从模型预训练、微调、推理与评估,到性能对比、算子适配、模型调优等一系列关键技术,帮助学员深入理解昇腾NPU的优势及其与主流深度学习框架(如PyTorch、Deepspeed、MindSpore)的结合应用。

课程还讲解了RHLF机制Deepspeed分布式训练MindIE多模型服务化部署等高阶应用,探索如何在昇腾NPU上高效实现中文文本生成推理任务及性能测试。课程提供关于模型调参、随机种子设置、精度验证等方面的最佳实践,确保学员在面对实际项目时能够高效处理多种挑战。

培训安排

4天,每天6小时

培训目标

1.  掌握昇腾NPU的配置与优化方法:学员将深入理解昇腾NPU的硬件架构,学会如何在昇腾NPU平台上配置和优化PyTorch以及其他深度学习框架。

2.  实现PyTorch与Transformer模型的训练与推理:通过实践,学员将学会如何在昇腾NPU上进行Transformer模型的预训练、微调和推理,并对比GPU与NPU平台上的性能差异。

3.  解决算子适配与性能瓶颈:学员将掌握如何检测和优化模型算子,解决昇腾NPU与标准深度学习库之间的兼容性问题,确保高效运行。

4.  引入RHLF机制与强化学习优化:课程将介绍如何在昇腾NPU上实现和优化RHLF机制,并探索其在生成任务中的实际应用。

5.  Deepspeed在昇腾NPU上的应用:学员将学会如何在昇腾NPU平台上使用Deepspeed进行分布式训练,提升大规模模型训练的效率。

6.  MindIE的多模型服务化部署:讲解如何在昇腾NPU上部署和优化MindIE框架,进行中文文本生成任务的推理和性能测试。

7.  科学的超参数调优方法:本课程将为学员提供一套系统的超参数调整方法,帮助学员解决常见的训练问题,如梯度爆炸、损失波动等。

部分课件

课程大纲

第1章 昇腾NPU环境配置与基础性能优化

1.1昇腾NPU硬件架构介绍与优势

l 昇腾NPU硬件架构概述

l 昇腾NPU的优势与使用场景

1.2昇腾NPU驱动与环境配置

l 安装与配置昇腾驱动

l 配置Python环境与相关依赖

l MindSpore与CANN的安装与配置

1.3基础性能评估与Profile分析

l 使用昇腾的性能评估工具进行初步性能分析

l 如何通过Profile工具分析硬件资源利用情况和瓶颈

第2章 PyTorch与Transformer模型在昇腾NPU上的适配

2.1PyTorch与昇腾NPU的兼容性

l 昇腾NPU对PyTorch的支持情况

l 安装PyTorch并进行配置,支持NPU加速

l 解决常见的兼容性问题

2.2Transformer模型的预训练与微调

l 在昇腾NPU上使用PyTorch进行Transformer模型的训练

l 预训练与微调方法与技巧

l 性能优化:如何利用NPU加速训练与推理

2.3前向对齐与精度对比

l 如何在英伟达GPU与昇腾NPU之间迁移模型

l 前向对齐的方法与实践

l 模型权重与中间层精度对比

l 数据集对齐、模型结构对齐、训练参数对齐

2.4训练与推理性能测试与优化

l 昇腾NPU上模型的训练与推理性能评估

l 性能调优与优化方法(包括批量大小、学习率等)

第3章 算子适配与模型性能调优

3.1算子适配检测与优化

l 昇腾NPU上的算子适配检测工具

l 如何检测模型中使用的算子是否被NPU支持

l 必要时如何进行算子重写或优化

3.2模型性能调优

l 如何使用昇腾工具(如MindSpore)进行调优

l 训练超参数的优化(如学习率调整、正则化等)

l 针对不同问题(如梯度爆炸、loss波动等)的调优方法

3.3精度验证与调优后模型验证

l 如何验证调优后模型与基础模型的性能差异

l 使用Profile与测试集对比Loss值和精度

第4章 引入RHLF机制与强化学习

4.1RHLF机制简介与应用场景

l RHLF的概念

l 在NLP与生成模型中的应用

4.2在昇腾NPU上实现RHLF

l RHLF算法的基本实现

l 如何将RHLF机制集成到昇腾NPU上的Transformer模型中

l 性能与效果评估

第5章 Deepspeed与分布式训练在昇腾NPU上的应用

5.1Deepspeed简介与基本功能

l Deepspeed的功能和优势

l 如何配置Deepspeed进行分布式训练

5.2在昇腾NPU上运行Deepspeed

l 昇腾NPU与Deepspeed的兼容性分析

l 如何在昇腾NPU环境下应用Deepspeed进行大规模训练

l 性能评估与调优

第6章 MindIE与中文本生成场景化推理的性能测试

6.1MindIE框架介绍与应用场景

l MindIE在中文本生成中的应用

l 如何在昇腾NPU上高效运行MindIE

6.2中文本生成推理性能测试

l 在昇腾NPU上进行中文本生成的性能测试方法

l 性能瓶颈分析与优化

6.3MindIE的多模型服务化部署

l 如何实现MindIE模型的多模型服务化部署

l 性能优化与可扩展性

第7章 随机种子设置与模型训练一致性

7.1随机种子的设置与影响

l 在深度学习模型训练中,随机种子设置的影响

l 如何设置Python与NPU环境中的随机种子

7.2在昇腾NPU中确保训练一致性

l 如何确保每次训练结果的一致性(避免梯度消失、爆炸等问题)

l 使用随机种子控制模型训练中的随机性

第8章 模型调参科学方法与优化

8.1调参的基本原则与策略

l 超参数调优的基本策略

l 如何选择合适的超参数搜索方法(如网格搜索、随机搜索等)

8.2针对性调整超参数应对loss波动与梯度爆炸

l 梯度爆炸与梯度消失问题的解决方案

l 如何根据不同的模型和数据集调整学习率、批量大小等

8.3使用Profile工具优化模型参数

l 如何通过Profile工具检查并优化训练过程中的性能瓶颈

第9章 多模型管理与服务化部署

9.1多模型服务化部署概述

l 多模型部署的必要性与挑战

l 如何构建支持多模型并发推理的服务架构

9.2在昇腾NPU上进行多模型推理部署

l 如何利用昇腾NPU的高效推理性能进行多模型并发服务部署

l 负载均衡与资源管理

9.3MindSpore与Deepspeed的多模型部署实践

l MindSpore与Deepspeed结合的多模型推理服务架构

第10章 常见问题与解决方案

10.1迁移与兼容性问题

l 从GPU到NPU迁移过程中常见问题与解决方案

10.2算子未支持问题解决方案

l 如何处理昇腾NPU中未支持的算子

10.3性能优化工具使用指南

l 如何使用昇腾的MindStudio与Profiling工具进行性能调优

收集学员问题与对应章节

1.  如何在昇腾NPU服务器中使用PyTorch+Transformer方式进行模型的预训练、微调、推理和评估。

对应章节:第2章:PyTorch与Transformer模型在昇腾NPU上的适配。

2.  同一模型,从英伟达GPU服务器迁移到昇腾NPU前,需要对性能进行评估和对比,如何进行前向对齐,对模型权重和中间层进行精度对比,如何在数据集对齐、模型结构对齐、训练参数对齐的前提下,进行loss一致性验证。

对应章节:第2章:PyTorch与Transformer模型在昇腾NPU上的适配

a.  第3章:算子适配与模型性能调优

3.  在昇腾NPU上跑模型前,如何进行算子适配的检测。

对应章节:第3章:算子适配与模型性能调优。

4.  在模型中引入RHLF机制的能力,还未掌握。

对应章节:第4章:引入RHLF机制与强化学习优化

5.  验证且评估模型调优后,是否比基础模型好的能力,还未掌握。

对应章节:第3章:算子适配与模型性能调优。第9章:模型调参科学方法与优化。

6.  Deepspeed怎么应用在华为昇腾体系上?并介绍相关成功落地案例。

对应章节:第5章:Deepspeed与分布式训练在昇腾NPU上的应用。

7.  MindIE中文本生成场景化推理的性能测试的实现方式还未完全掌握。

对应章节:第6章:MindIE与中文本生成场景化推理的性能测试。

8.  MindIE如何开启多模型服务化部署?

对应章节:第9章:多模型管理与服务化部署。

9.  在模型调参方面,是否有一套科学成体系的参数调整优先级,可以应对loss值波动大,梯度爆炸等问题。

对应章节:第9章:模型调参科学方法与优化。

10.  在昇腾NPU环境中如何设置随机种子数,以确保在相同参数下模型表现是相似的?

对应章节:第7章:随机种子设置与模型训练一致性

讲师推荐

肖老师 资深多模态/具身智能算法专家

拥有超过 15 年的算法研究与实践经验。曾在世界五百强企业英特尔公司担任算法高级架构师,担任中国电子系统技术有限公司的算法 Leader,高性能计算技术专家,是一位经验丰富且技术精湛的资深 AI 基础设施操盘手。他拥有超过十年的高性能计算、算法研究和实践经验,曾在英特尔公司担任高性能计算架构师,并在多家 500 强企业中担任高性能计算和系统架构负责人。头部机器人公司担任视觉算法总架构师,直接参与了移动复合机器人和协作机器人的开发工作,通过引入大模型技术,成功地赋予了机器人自主导航、环境感知和决策规划的能力。并在高性能计算、人工智能和深度学习领域有着丰富的项目经验和卓越的技术能力,特别擅长高性能计算、图像处理、计算机视觉以及大规模计算系统的设计与优化,获得多项专利和荣誉。 华中科技大学硕士,曾在多个国家重点实验室及顶尖企业从事高性能计算及算法研发工作,领导并参与了多个重大项目的开发和实施。

工作经历

2006 年,英特尔上海国际实验室,高性能计算系统架构设计,大型并行图形系统的架构与设计开发;

2009 年,头部安全公司,并发与安全架构和视频监控系统设计,公安安全系统的架构设计与开发;

2012 年,大型通信集团,大型应急通信系统和视频安全监控设计,确保了系统的安全性和可靠性;

2016 年,大数据公司,企业家数据的数据安全和系统安全设计,多家公司设计和实施了信息化安全管理方案,大规模数据的分析和优化;

2019 年,大型央企,GPU、CUDA 与算力平台:深入研究并应用了 GPU 和 CUDA 技术,开发了多种高效的深度学习模型,广泛应用于图像和视频分析、目标检测和分类等领域;应用调优与性能监测:在项目管理和研发过程中,带领团队完成了多个智能视频分析引擎和智能办公引擎的开发,擅长对复杂算法进行性能优化和实时监测,确保系统的高效运行;算力调度管理与网络调优:在多个大型项目中,成功实现了算力调度管理系统的设计与实施,具备出色的网络调优能力,能够优化高性能计算环境下的资源利用率和系统稳定性。

2022.10,头部机器人公司,移动复合机器人和协作机器人的开发,移动复合机器人的开发,在移动复合机器人的研发过程中,我主要负责了智能导航与控制系统的设计与实现。通过引入大模型技术,我们成功地赋予了机器人自主导航、环境感知和决策规划的能力。

1. 环境感知与建模:利用大模型对传感器数据进行高效处理和分析,机器人能够实时构建周围环境的精确三维模型,为后续的路径规划和避障提供有力支持。

2. 智能导航算法:结合大模型的强化学习算法,我们训练出了能够在复杂环境中灵活导航的机器人。这些机器人能够根据实时路况调整行进路线,确保任务的顺利完成。

3. 人机交互体验:借助大模型在自然语言处理方面的优势,我们实现了机器人与操作人员之间的流畅对话,极大提升了用户体验和工作效率。

协作机器人的开发,协作机器人作为新一代工业机器人,强调与人类工人的安全协同作业。在这一领域,我主要聚焦于通过具身智能提升机器人的灵活性与适应性。

1. 智能抓取与装配:利用大模型对物体形状、重量及材质等信息的快速识别与处理,协作机器人能够准确抓取并灵活装配各种工件,大幅提高了生产效率和质量。

2. 自适应学习能力:通过引入深度学习技术,我们使协作机器人具备了自适应学习能力。它们能够在实际工作中不断积累经验,自动优化作业策略以应对复杂多变的生产环境。

专业能力

并行计算和高性能计算;

深度学习模型设计和优化;

多模态大模型应用设计;

GPU 与 CUDA 编程;

城市大脑与智能交通;

工业机器人和复合机器人大模型;

数据挖掘与运行优化;

国产信创环境适配优化;

专利

基于生成式深度学习模型的文本识别模型的生成方法以及装置 (CN202110447608.9)  ;

大型语义分析方法及装置 (CN202110499308.5) 

奖项:  荣获2021年度集团优秀解决方案奖 

授课经历

重庆大学:深度学习模型在大型物流场景的应用;

头部能源上市公司:大型时序数据预测模型的应用;

头部音视频公司:图形和视频大模型的应用;

百度合作:分拣实训和智能眼实训;

985 高校:机器学习与数据挖掘分析;

主讲课程

《高性能图形图像计算与算法》

《计算机视觉中的图像处理技术》

《视觉和多模态大模型应用》

《具身智能与多模态大模型应用》

《机器学习中的知识自学习与数据优化挖掘》

《大规模分布式系统设计与实现》

《GPU、CUDA 与算力模型应用实战》

《华为昇腾芯片下的大模型迁移和训练课程》

关于 TsingtaoAI

TsingtaoAI 企业内训业务线专注于提供 LLM、具身智能、AIGC、智算和数据科学领域的企业内训服务,通过深入业务场景的案例实战和项目式培训,帮助企业应对 AI 转型中的技术挑战。其培训内容涵盖 AI 大模型开发、Prompt 工程、数据分析与模型优化等最新前沿技术,并结合实际应用场景,如智能制造、金融科技和智能驾驶等。通过案例式学习和 PBL 项目训练,TsingtaoAI 能够精准满足企业技术团队的学习需求,提升员工的业务能力和实战水平,实现 AI 技术的高效落地,为企业创新和生产力提升提供强有力的支持。

目录
相关文章
|
15天前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
阿里云与企业共筑容器供应链安全
171335 12
|
18天前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
随着云计算和DevOps的兴起,容器技术和自动化在软件开发中扮演着愈发重要的角色,但也带来了新的安全挑战。阿里云针对这些挑战,组织了一场关于云上安全的深度访谈,邀请了内部专家穆寰、匡大虎和黄竹刚,深入探讨了容器安全与软件供应链安全的关系,分析了当前的安全隐患及应对策略,并介绍了阿里云提供的安全解决方案,包括容器镜像服务ACR、容器服务ACK、网格服务ASM等,旨在帮助企业构建涵盖整个软件开发生命周期的安全防护体系。通过加强基础设施安全性、技术创新以及倡导协同安全理念,阿里云致力于与客户共同建设更加安全可靠的软件供应链环境。
150296 32
|
26天前
|
弹性计算 人工智能 安全
对话 | ECS如何构筑企业上云的第一道安全防线
随着中小企业加速上云,数据泄露、网络攻击等安全威胁日益严重。阿里云推出深度访谈栏目,汇聚产品技术专家,探讨云上安全问题及应对策略。首期节目聚焦ECS安全性,提出三道防线:数据安全、网络安全和身份认证与权限管理,确保用户在云端的数据主权和业务稳定。此外,阿里云还推出了“ECS 99套餐”,以高性价比提供全面的安全保障,帮助中小企业安全上云。
201962 14
对话 | ECS如何构筑企业上云的第一道安全防线
|
3天前
|
机器学习/深度学习 自然语言处理 PyTorch
深入剖析Transformer架构中的多头注意力机制
多头注意力机制(Multi-Head Attention)是Transformer模型中的核心组件,通过并行运行多个独立的注意力机制,捕捉输入序列中不同子空间的语义关联。每个“头”独立处理Query、Key和Value矩阵,经过缩放点积注意力运算后,所有头的输出被拼接并通过线性层融合,最终生成更全面的表示。多头注意力不仅增强了模型对复杂依赖关系的理解,还在自然语言处理任务如机器翻译和阅读理解中表现出色。通过多头自注意力机制,模型在同一序列内部进行多角度的注意力计算,进一步提升了表达能力和泛化性能。
|
8天前
|
存储 人工智能 安全
对话|无影如何助力企业构建办公安全防护体系
阿里云无影助力企业构建办公安全防护体系
1253 10
|
10天前
|
机器学习/深度学习 自然语言处理 搜索推荐
自注意力机制全解析:从原理到计算细节,一文尽览!
自注意力机制(Self-Attention)最早可追溯至20世纪70年代的神经网络研究,但直到2017年Google Brain团队提出Transformer架构后才广泛应用于深度学习。它通过计算序列内部元素间的相关性,捕捉复杂依赖关系,并支持并行化训练,显著提升了处理长文本和序列数据的能力。相比传统的RNN、LSTM和GRU,自注意力机制在自然语言处理(NLP)、计算机视觉、语音识别及推荐系统等领域展现出卓越性能。其核心步骤包括生成查询(Q)、键(K)和值(V)向量,计算缩放点积注意力得分,应用Softmax归一化,以及加权求和生成输出。自注意力机制提高了模型的表达能力,带来了更精准的服务。
|
8天前
|
人工智能 自然语言处理 程序员
通义灵码2.0全新升级,AI程序员全面开放使用
通义灵码2.0来了,成为全球首个同时上线JetBrains和VSCode的AI 程序员产品!立即下载更新最新插件使用。
1345 24
|
8天前
|
消息中间件 人工智能 运维
1月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
657 26
1月更文特别场——寻找用云高手,分享云&AI实践
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
|
14天前
|
人工智能 自然语言处理 API
阿里云百炼xWaytoAGI共学课DAY1 - 必须了解的企业级AI应用开发知识点
本课程旨在介绍阿里云百炼大模型平台的核心功能和应用场景,帮助开发者和技术小白快速上手,体验AI的强大能力,并探索企业级AI应用开发的可能性。