近日上海,TsingtaoAI为某央企智算中心交付华为昇腾910B算力卡的大模型部署和调优课程。课程深入讲解如何在昇腾NPU上高效地训练、调优和部署PyTorch与Transformer模型,并结合实际应用场景,探索如何优化和迁移模型至昇腾NPU平台。课程涵盖从模型预训练、微调、推理与评估,到性能对比、算子适配、模型调优等一系列关键技术,帮助学员深入理解昇腾NPU的优势及其与主流深度学习框架(如PyTorch、Deepspeed、MindSpore)的结合应用。
课程还讲解了RHLF机制、Deepspeed分布式训练、MindIE多模型服务化部署等高阶应用,探索如何在昇腾NPU上高效实现中文文本生成推理任务及性能测试。课程提供关于模型调参、随机种子设置、精度验证等方面的最佳实践,确保学员在面对实际项目时能够高效处理多种挑战。
培训安排
4天,每天6小时
培训目标
1. 掌握昇腾NPU的配置与优化方法:学员将深入理解昇腾NPU的硬件架构,学会如何在昇腾NPU平台上配置和优化PyTorch以及其他深度学习框架。
2. 实现PyTorch与Transformer模型的训练与推理:通过实践,学员将学会如何在昇腾NPU上进行Transformer模型的预训练、微调和推理,并对比GPU与NPU平台上的性能差异。
3. 解决算子适配与性能瓶颈:学员将掌握如何检测和优化模型算子,解决昇腾NPU与标准深度学习库之间的兼容性问题,确保高效运行。
4. 引入RHLF机制与强化学习优化:课程将介绍如何在昇腾NPU上实现和优化RHLF机制,并探索其在生成任务中的实际应用。
5. Deepspeed在昇腾NPU上的应用:学员将学会如何在昇腾NPU平台上使用Deepspeed进行分布式训练,提升大规模模型训练的效率。
6. MindIE的多模型服务化部署:讲解如何在昇腾NPU上部署和优化MindIE框架,进行中文文本生成任务的推理和性能测试。
7. 科学的超参数调优方法:本课程将为学员提供一套系统的超参数调整方法,帮助学员解决常见的训练问题,如梯度爆炸、损失波动等。
部分课件
课程大纲
第1章 昇腾NPU环境配置与基础性能优化
1.1昇腾NPU硬件架构介绍与优势
l 昇腾NPU硬件架构概述
l 昇腾NPU的优势与使用场景
1.2昇腾NPU驱动与环境配置
l 安装与配置昇腾驱动
l 配置Python环境与相关依赖
l MindSpore与CANN的安装与配置
1.3基础性能评估与Profile分析
l 使用昇腾的性能评估工具进行初步性能分析
l 如何通过Profile工具分析硬件资源利用情况和瓶颈
第2章 PyTorch与Transformer模型在昇腾NPU上的适配
2.1PyTorch与昇腾NPU的兼容性
l 昇腾NPU对PyTorch的支持情况
l 安装PyTorch并进行配置,支持NPU加速
l 解决常见的兼容性问题
2.2Transformer模型的预训练与微调
l 在昇腾NPU上使用PyTorch进行Transformer模型的训练
l 预训练与微调方法与技巧
l 性能优化:如何利用NPU加速训练与推理
2.3前向对齐与精度对比
l 如何在英伟达GPU与昇腾NPU之间迁移模型
l 前向对齐的方法与实践
l 模型权重与中间层精度对比
l 数据集对齐、模型结构对齐、训练参数对齐
2.4训练与推理性能测试与优化
l 昇腾NPU上模型的训练与推理性能评估
l 性能调优与优化方法(包括批量大小、学习率等)
第3章 算子适配与模型性能调优
3.1算子适配检测与优化
l 昇腾NPU上的算子适配检测工具
l 如何检测模型中使用的算子是否被NPU支持
l 必要时如何进行算子重写或优化
3.2模型性能调优
l 如何使用昇腾工具(如MindSpore)进行调优
l 训练超参数的优化(如学习率调整、正则化等)
l 针对不同问题(如梯度爆炸、loss波动等)的调优方法
3.3精度验证与调优后模型验证
l 如何验证调优后模型与基础模型的性能差异
l 使用Profile与测试集对比Loss值和精度
第4章 引入RHLF机制与强化学习
4.1RHLF机制简介与应用场景
l RHLF的概念
l 在NLP与生成模型中的应用
4.2在昇腾NPU上实现RHLF
l RHLF算法的基本实现
l 如何将RHLF机制集成到昇腾NPU上的Transformer模型中
l 性能与效果评估
第5章 Deepspeed与分布式训练在昇腾NPU上的应用
5.1Deepspeed简介与基本功能
l Deepspeed的功能和优势
l 如何配置Deepspeed进行分布式训练
5.2在昇腾NPU上运行Deepspeed
l 昇腾NPU与Deepspeed的兼容性分析
l 如何在昇腾NPU环境下应用Deepspeed进行大规模训练
l 性能评估与调优
第6章 MindIE与中文本生成场景化推理的性能测试
6.1MindIE框架介绍与应用场景
l MindIE在中文本生成中的应用
l 如何在昇腾NPU上高效运行MindIE
6.2中文本生成推理性能测试
l 在昇腾NPU上进行中文本生成的性能测试方法
l 性能瓶颈分析与优化
6.3MindIE的多模型服务化部署
l 如何实现MindIE模型的多模型服务化部署
l 性能优化与可扩展性
第7章 随机种子设置与模型训练一致性
7.1随机种子的设置与影响
l 在深度学习模型训练中,随机种子设置的影响
l 如何设置Python与NPU环境中的随机种子
7.2在昇腾NPU中确保训练一致性
l 如何确保每次训练结果的一致性(避免梯度消失、爆炸等问题)
l 使用随机种子控制模型训练中的随机性
第8章 模型调参科学方法与优化
8.1调参的基本原则与策略
l 超参数调优的基本策略
l 如何选择合适的超参数搜索方法(如网格搜索、随机搜索等)
8.2针对性调整超参数应对loss波动与梯度爆炸
l 梯度爆炸与梯度消失问题的解决方案
l 如何根据不同的模型和数据集调整学习率、批量大小等
8.3使用Profile工具优化模型参数
l 如何通过Profile工具检查并优化训练过程中的性能瓶颈
第9章 多模型管理与服务化部署
9.1多模型服务化部署概述
l 多模型部署的必要性与挑战
l 如何构建支持多模型并发推理的服务架构
9.2在昇腾NPU上进行多模型推理部署
l 如何利用昇腾NPU的高效推理性能进行多模型并发服务部署
l 负载均衡与资源管理
9.3MindSpore与Deepspeed的多模型部署实践
l MindSpore与Deepspeed结合的多模型推理服务架构
第10章 常见问题与解决方案
10.1迁移与兼容性问题
l 从GPU到NPU迁移过程中常见问题与解决方案
10.2算子未支持问题解决方案
l 如何处理昇腾NPU中未支持的算子
10.3性能优化工具使用指南
l 如何使用昇腾的MindStudio与Profiling工具进行性能调优
收集学员问题与对应章节
1. 如何在昇腾NPU服务器中使用PyTorch+Transformer方式进行模型的预训练、微调、推理和评估。
对应章节:第2章:PyTorch与Transformer模型在昇腾NPU上的适配。
2. 同一模型,从英伟达GPU服务器迁移到昇腾NPU前,需要对性能进行评估和对比,如何进行前向对齐,对模型权重和中间层进行精度对比,如何在数据集对齐、模型结构对齐、训练参数对齐的前提下,进行loss一致性验证。
对应章节:第2章:PyTorch与Transformer模型在昇腾NPU上的适配
a. 第3章:算子适配与模型性能调优
3. 在昇腾NPU上跑模型前,如何进行算子适配的检测。
对应章节:第3章:算子适配与模型性能调优。
4. 在模型中引入RHLF机制的能力,还未掌握。
对应章节:第4章:引入RHLF机制与强化学习优化
5. 验证且评估模型调优后,是否比基础模型好的能力,还未掌握。
对应章节:第3章:算子适配与模型性能调优。第9章:模型调参科学方法与优化。
6. Deepspeed怎么应用在华为昇腾体系上?并介绍相关成功落地案例。
对应章节:第5章:Deepspeed与分布式训练在昇腾NPU上的应用。
7. MindIE中文本生成场景化推理的性能测试的实现方式还未完全掌握。
对应章节:第6章:MindIE与中文本生成场景化推理的性能测试。
8. MindIE如何开启多模型服务化部署?
对应章节:第9章:多模型管理与服务化部署。
9. 在模型调参方面,是否有一套科学成体系的参数调整优先级,可以应对loss值波动大,梯度爆炸等问题。
对应章节:第9章:模型调参科学方法与优化。
10. 在昇腾NPU环境中如何设置随机种子数,以确保在相同参数下模型表现是相似的?
对应章节:第7章:随机种子设置与模型训练一致性
讲师推荐
肖老师 资深多模态/具身智能算法专家
拥有超过 15 年的算法研究与实践经验。曾在世界五百强企业英特尔公司担任算法高级架构师,担任中国电子系统技术有限公司的算法 Leader,高性能计算技术专家,是一位经验丰富且技术精湛的资深 AI 基础设施操盘手。他拥有超过十年的高性能计算、算法研究和实践经验,曾在英特尔公司担任高性能计算架构师,并在多家 500 强企业中担任高性能计算和系统架构负责人。头部机器人公司担任视觉算法总架构师,直接参与了移动复合机器人和协作机器人的开发工作,通过引入大模型技术,成功地赋予了机器人自主导航、环境感知和决策规划的能力。并在高性能计算、人工智能和深度学习领域有着丰富的项目经验和卓越的技术能力,特别擅长高性能计算、图像处理、计算机视觉以及大规模计算系统的设计与优化,获得多项专利和荣誉。 华中科技大学硕士,曾在多个国家重点实验室及顶尖企业从事高性能计算及算法研发工作,领导并参与了多个重大项目的开发和实施。
工作经历
2006 年,英特尔上海国际实验室,高性能计算系统架构设计,大型并行图形系统的架构与设计开发;
2009 年,头部安全公司,并发与安全架构和视频监控系统设计,公安安全系统的架构设计与开发;
2012 年,大型通信集团,大型应急通信系统和视频安全监控设计,确保了系统的安全性和可靠性;
2016 年,大数据公司,企业家数据的数据安全和系统安全设计,多家公司设计和实施了信息化安全管理方案,大规模数据的分析和优化;
2019 年,大型央企,GPU、CUDA 与算力平台:深入研究并应用了 GPU 和 CUDA 技术,开发了多种高效的深度学习模型,广泛应用于图像和视频分析、目标检测和分类等领域;应用调优与性能监测:在项目管理和研发过程中,带领团队完成了多个智能视频分析引擎和智能办公引擎的开发,擅长对复杂算法进行性能优化和实时监测,确保系统的高效运行;算力调度管理与网络调优:在多个大型项目中,成功实现了算力调度管理系统的设计与实施,具备出色的网络调优能力,能够优化高性能计算环境下的资源利用率和系统稳定性。
2022.10,头部机器人公司,移动复合机器人和协作机器人的开发,移动复合机器人的开发,在移动复合机器人的研发过程中,我主要负责了智能导航与控制系统的设计与实现。通过引入大模型技术,我们成功地赋予了机器人自主导航、环境感知和决策规划的能力。
1. 环境感知与建模:利用大模型对传感器数据进行高效处理和分析,机器人能够实时构建周围环境的精确三维模型,为后续的路径规划和避障提供有力支持。
2. 智能导航算法:结合大模型的强化学习算法,我们训练出了能够在复杂环境中灵活导航的机器人。这些机器人能够根据实时路况调整行进路线,确保任务的顺利完成。
3. 人机交互体验:借助大模型在自然语言处理方面的优势,我们实现了机器人与操作人员之间的流畅对话,极大提升了用户体验和工作效率。
协作机器人的开发,协作机器人作为新一代工业机器人,强调与人类工人的安全协同作业。在这一领域,我主要聚焦于通过具身智能提升机器人的灵活性与适应性。
1. 智能抓取与装配:利用大模型对物体形状、重量及材质等信息的快速识别与处理,协作机器人能够准确抓取并灵活装配各种工件,大幅提高了生产效率和质量。
2. 自适应学习能力:通过引入深度学习技术,我们使协作机器人具备了自适应学习能力。它们能够在实际工作中不断积累经验,自动优化作业策略以应对复杂多变的生产环境。
专业能力
并行计算和高性能计算;
深度学习模型设计和优化;
多模态大模型应用设计;
GPU 与 CUDA 编程;
城市大脑与智能交通;
工业机器人和复合机器人大模型;
数据挖掘与运行优化;
国产信创环境适配优化;
专利
基于生成式深度学习模型的文本识别模型的生成方法以及装置 (CN202110447608.9) ;
大型语义分析方法及装置 (CN202110499308.5) ;
奖项: 荣获2021年度集团优秀解决方案奖 ;
授课经历
重庆大学:深度学习模型在大型物流场景的应用;
头部能源上市公司:大型时序数据预测模型的应用;
头部音视频公司:图形和视频大模型的应用;
百度合作:分拣实训和智能眼实训;
985 高校:机器学习与数据挖掘分析;
主讲课程
《高性能图形图像计算与算法》
《计算机视觉中的图像处理技术》
《视觉和多模态大模型应用》
《具身智能与多模态大模型应用》
《机器学习中的知识自学习与数据优化挖掘》
《大规模分布式系统设计与实现》
《GPU、CUDA 与算力模型应用实战》
《华为昇腾芯片下的大模型迁移和训练课程》
关于 TsingtaoAI
TsingtaoAI 企业内训业务线专注于提供 LLM、具身智能、AIGC、智算和数据科学领域的企业内训服务,通过深入业务场景的案例实战和项目式培训,帮助企业应对 AI 转型中的技术挑战。其培训内容涵盖 AI 大模型开发、Prompt 工程、数据分析与模型优化等最新前沿技术,并结合实际应用场景,如智能制造、金融科技和智能驾驶等。通过案例式学习和 PBL 项目训练,TsingtaoAI 能够精准满足企业技术团队的学习需求,提升员工的业务能力和实战水平,实现 AI 技术的高效落地,为企业创新和生产力提升提供强有力的支持。