❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 性能优势:豆包大模型1.5在知识、代码、推理、中文等多个测评基准上表现优于GPT-4o和Claude 3.5 Sonnet。
- 多模态能力:支持文本、图像、语音等多种模态的输入输出,视觉推理和文档识别能力显著增强。
- 低成本高效:采用大规模稀疏MoE架构,硬件成本大幅降低,推理效率显著提升。
正文(附运行示例)
豆包大模型1.5 是什么
Doubao-1.5-pro 是一款基于 MoE 架构的先进预训练模型,专注于在模型性能和推理性能之间取得极致平衡。通过较少的激活参数,它能够超过一流超大稠密预训练模型的性能,并在多个公开评测基准上取得优异成绩。模型在视觉、语音等多模态能力方面也有显著提升,提供更自然、更丰富的交互体验。
模型从预训练阶段就坚持训练-推理一体化设计,以在最强的模型性能和最优的推理成本之间取得平衡。Doubao-1.5-pro 使用高效的 MoE 模型结构,在预训练阶段仅用较小参数激活的 MoE 模型,性能即可超过 Llama3.1-405B 等超大稠密预训练模型。团队通过对稀疏度 Scaling Law 的研究,确定了性能和效率比较平衡的稀疏比例,并根据 MoE Scaling Law 确定了小参数量激活的模型即可达到世界一流模型的性能。
Doubao-1.5-pro 是一个高度稀疏的 MoE 模型,在 Prefill/Decode 与 Attention/FFN 构成的四个计算象限中表现出显著不同的计算与访存特征。针对四个不同象限,采用异构硬件结合不同的低精度优化策略,在确保低延迟的同时大幅提升吞吐量,在降低总成本的同时兼顾 TTFT 和 TPOT 的最优化目标。
此外,Doubao-1.5-pro 在同一模型中融合并提升了视觉、语音等多模态能力,可为用户带来更自然、更丰富的交互体验。视觉多模态方面,模型在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面的技术提升,进一步增强了模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循等方面的能力。语音多模态上,模型提出了新的 Speech2Speech 的端到端框架,通过原生方法将语音和文本模态进行深度融合,实现了语音对话中真正意义上的语音理解生成端到端,相比传统的 ASR+LLM+TTS 的级联方式,在对话效果上有质的飞跃。
Doubao-1.5-pro 的技术原理
稀疏 MoE 架构
从训练和推理效率的角度出发,Doubao-1.5-pro 使用稀疏 MoE 架构。在预训练阶段,仅用较小参数激活的 MoE 模型,性能即可超过 Llama3.1-405B 等超大稠密预训练模型。团队通过对稀疏度 Scaling Law 的研究,确定了性能和效率比较平衡的稀疏比例,并根据 MoE Scaling Law 确定了小参数量激活的模型即可达到世界一流模型的性能。此前,业界在这一性能杠杆上的普遍水平为不到 3 倍。团队通过模型结构和训练算法优化,在完全相同的数据(9T tokens)对比验证下,用激活参数仅为稠密模型参数量 1/7 的 MoE 模型,超过了稠密模型的性能,将性能杠杆提升至 7 倍。
高性能推理系统
Doubao-1.5-pro 在 Prefill/Decode 与 Attention/FFN 构成的四个计算象限中表现出显著不同的计算与访存特征。针对四个不同象限,采用异构硬件结合不同的低精度优化策略,在确保低延迟的同时大幅提升吞吐量,在降低总成本的同时兼顾 TTFT 和 TPOT 的最优化目标。
- Prefill 阶段:通信和访存瓶颈不明显,但容易达到计算瓶颈。通过多种计算访存比高的设备上做 Chunk-PP Prefill Serving,使线上系统 Tensor Core 的利用率接近 60%。
- Prefill Attention:使用 MMA/WGMMA 等指令扩展开源的 FlashAttention 8-bit 实现,结合 Per N tokens Per Sequence 的量化策略,确保该阶段可以在不同架构的 GPU 上无损运行。
- Prefill FFN:采用 W4A8 量化,有效降低了稀疏 MoE 专家的访存开销,并通过跨 Query Batching 的策略,使 MFU 提升至 0.8。
- Decode 阶段:计算瓶颈不明显,但对通信和访存能力要求比较高。采用计算访存比较低的设备 Serving 来换取更高的 ROI,同时,采用极低成本的 Sampling 采样以及 Speculative Decoding 策略,降低 TPOT 指标。
- Decode Attention:采用 TP 方式部署,并通过启发式搜索以及激进的长句拆分策略,优化单 batch 内不同 Query KV 长度差异大的常见场景;精度上,依然采用 Per N tokens Per Sequence 量化方式。
- Decode FFN:保持 W4A8 量化,采用 EP 方式部署。
多模态能力
Doubao-1.5-pro 在同一模型中融合并提升了视觉、语音等多模态能力,可为用户带来更自然、更丰富的交互体验。
视觉多模态
模型在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面的技术提升,进一步增强了模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循等方面的能力。在同一模型中融入强大的视觉理解能力,使模型可以同时理解虚拟和现实世界的各类视觉信号,更好地辅助人类决策。自研的 Doubao ViT 在多种视觉分类任务中表现优异,仅凭 2.4B 规模便在综合评分上取得 SOTA 表现,效果超越 7 倍于自身规模的模型。
语音多模态
在语音多模态上,模型提出了新的 Speech2Speech 的端到端框架,不仅通过原生方法将语音和文本模态进行深度融合,同时还实现了语音对话中真正意义上的语音理解生成端到端。相比传统的 ASR+LLM+TTS 的级联方式,在对话效果上有质的飞跃。框架设计上,将语音和文本 Token 进行融合,为语音多模态数据的 Scaling 提供了必要条件。在 Pretrain 和 PostTraining 阶段,通过多样化的数据生产和使用方式,探索多种有效方案,通过 Scaling 最大化地将语音和文本能力进行深度融合。
推理能力的提升
团队致力于使用大规模 RL 的方法不断提升模型的推理能力,拓宽当前模型的智能边界。在完全不使用其他模型数据的条件下,通过 RL 算法的突破和工程优化,充分发挥 test time scaling 的算力优势,研发了 Doubao 深度思考模式。阶段性进展 Doubao-1.5-pro-AS1-Preview 在 AIME 上已经超过 O1-preview,O1 等推理模型。并且,随着 RL 的持续,模型能力还在不断提升中。在这一过程中,我们看到了推理能力在不同领域的泛化,智能的边界正在被慢慢拓宽。
如何运行 豆包大模型1.5
豆包大模型1.5已灰度上线,用户可在豆包APP中体验其强大的多模态功能和低时延语音对话能力。
资源
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦