开发者社区> 问答> 正文

为什么采用数据并行+专家并行的混合并行策略来训练M6模型?

为什么采用数据并行+专家并行的混合并行策略来训练M6模型:MoE layer采用专家并行,其他layer采用数据并行?

展开
收起
岩茶芋泥 2022-04-20 11:08:17 2022 0
来自:阿里技术
1 条回答
写回答
取消 提交回答
  • 训练一个万亿/10万亿参数模型,算力需求非常大。为了降低算力需求,EPL中实现了MoE(Mixture-of-Experts)结构,MoE的主要特点是稀疏激活,使用Gating(Router)来为输入选择Top-k的expert进行计算(k常用取值1、2),从而大大减少算力需求。EPL支持专家并行(Expert Parallelism, EP),将experts拆分到多个devices上,降低单个device的显存和算力需求。同时,数据并行有利于提升训练的并发度。

    2022-04-20 13:26:44
    赞同 展开评论 打赏
问答地址:
来源圈子
更多
收录在圈子:
+ 订阅
问答排行榜
最热
最新

相关电子书

更多
千亿特征流式学习在大规模推荐排序场景的应用 立即下载
千亿特征流式学习 在大规模推荐排序场景的应用 立即下载
基于Spark的面向十亿级别特征的大规模机器学习 立即下载