Sea AI Lab和北大Adan项目原作解读:加速训练深度模型的高效优化器

简介: Sea AI Lab和北大Adan项目原作解读:加速训练深度模型的高效优化器

自 Google 提出 Vision Transformer (ViT)以来,ViT 渐渐成为许多视觉任务的默认 backbone。凭借着 ViT 结构,许多视觉任务的 SOTA 都得到了进一步提升,包括图像分类、分割、检测、识别等。

然而,训练 ViT 并非易事。除了需要较复杂的训练技巧,模型训练的计算量往往也较之前的 CNN 大很多。近日,新加坡 Sea AI Lab 和北大 ZERO Lab 的研究团队共同提出新的深度模型优化器 Adan。该优化器可以仅用一半的计算量就能完成 ViT 的训练。此外,在计算量一样的情况下, Adan 在多个场景(涉及 CV、NLP、RL)、多种训练方式(有监督与自监督)和多种网络结构 / 算法(Swin、ViT、ResNet、ConvNext、MAE、LSTM、BERT、Transformer-XL、PPO 算法)上,均获得了性能提升。

机器之心最新一期线上分享邀请到了北京大学智能学院2019级博士生谢星宇(Sea AI Lab 实习生),为大家解读他们提出加速训练深度模型高效优化器—— Adan。


分享主题:高效优化器 Adan 加速训练深度模型,一半计算量训练多种网络结构

分享嘉宾:谢星宇,北京大学智能学院 2019 级博士生,Sea AI Lab(SAIL)实习生

分享摘要:介绍如何通过传统优化算法启发得到几种流行的深度学习优化器。介绍两种流行的一阶 momentum 优化加速方法并引入进现有的深度学习优化器。总结一些 SOTA 模型优化器的选取和参数调整技巧。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/adan

2)论文链接:

https://arxiv.org/abs/2208.06677

3)代码仓库:

https://github.com/sail-sg/Adan码、配置文件、训 log 等

相关文章
|
6月前
|
机器学习/深度学习 人工智能 算法
AI 基础知识从 0.6 到 0.7—— 彻底拆解深度神经网络训练的五大核心步骤
本文以一个经典的PyTorch手写数字识别代码示例为引子,深入剖析了简洁代码背后隐藏的深度神经网络(DNN)训练全过程。
1090 56
|
5月前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段二:Prompt 优化技巧与学术分析 AI 应用开发实现上下文联系多轮对话
本文讲解 Prompt 基本概念与 10 个优化技巧,结合学术分析 AI 应用的需求分析、设计方案,介绍 Spring AI 中 ChatClient 及 Advisors 的使用。
1962 134
AI 超级智能体全栈项目阶段二:Prompt 优化技巧与学术分析 AI 应用开发实现上下文联系多轮对话
|
5月前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段三:自定义 Advisor 与结构化输出实现以及对话记忆持久化开发
本文介绍如何在Spring AI中自定义Advisor实现日志记录、结构化输出、对话记忆持久化及多模态开发,结合阿里云灵积模型Qwen-Plus,提升AI应用的可维护性与功能性。
1167 125
AI 超级智能体全栈项目阶段三:自定义 Advisor 与结构化输出实现以及对话记忆持久化开发
|
5月前
|
人工智能 测试技术 项目管理
测试不再碎片化:AI智能体平台「项目资料套件」功能上线!
在实际项目中,需求文档分散、整理费时、测试遗漏等问题常困扰测试工作。霍格沃兹推出AI智能体测试平台全新功能——项目资料套件,可将多个关联文档打包管理,并一键生成测试用例,提升测试完整性与效率。支持套件创建、文档关联、编辑删除及用例生成,适用于复杂项目、版本迭代等场景,助力实现智能化测试协作,让测试更高效、更专业。
|
6月前
|
人工智能 IDE 开发工具
通义灵码 AI IDE使用体验(3)项目优化及bug修复
本文介绍了使用通义灵码 AI IDE进行项目重构与优化的全过程,涵盖页面调整、UI更新、功能修复等内容,并展示了多次优化后的成果与仍存在的问题。
528 0
|
人工智能 自然语言处理 IDE
通义灵码 AI IDE使用体验(1)项目初创
通义灵码 AI IDE上线,作为AI IDE的重度使用者怎能错过?本文详细体验了从安装到项目开发的全过程,界面友好,操作简便,支持智能问答、文件编辑、智能体三种模式。通过智能体方式快速开发项目,自动规划功能、管理环境,虽在复杂项目中仍有提升空间,但整体体验流畅,适合开发者尝试。
1183 0
|
4月前
|
机器学习/深度学习 人工智能 JSON
PHP从0到1实现 AI 智能体系统并且训练知识库资料
本文详解如何用PHP从0到1构建AI智能体,涵盖提示词设计、记忆管理、知识库集成与反馈优化四大核心训练维度,结合实战案例与系统架构,助你打造懂业务、会进化的专属AI助手。
501 6
|
6月前
|
人工智能 IDE 开发工具
通义灵码 AI IDE使用体验(2)项目重构
本文介绍了如何使用灵码IDE将一个简单的CS架构项目重构为BS架构,涉及项目依赖修改、功能迁移、自动开发Web页面等内容,验证了灵码在复杂开发任务中的能力。尽管界面美观度不足,但核心功能已实现。
569 66

热门文章

最新文章