Mooncake:月之暗面Kimi联合清华等机构推出的大模型推理架构

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: Mooncake是由月之暗面Kimi联合清华大学等机构共同开源的大模型推理架构。该架构以KVCache为中心,通过分布式设计和资源优化,显著提升了大模型推理的吞吐量和效率,同时降低了算力开销。Mooncake在长上下文场景中表现出色,支持多种应用场景,如自然语言处理、内容推荐系统和搜索引擎等。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 架构设计:Mooncake采用以KVCache为中心的分布式架构,分离预填充和解码集群,优化资源利用。
  2. 性能提升:通过高效的KVCache缓存和资源优化,显著提升大模型推理的吞吐量和效率。
  3. 应用广泛:支持多种应用场景,包括自然语言处理、内容推荐系统和搜索引擎等。

正文(附运行示例)

Mooncake 是什么

公众号: 蚝油菜花 - Mooncake

Mooncake是由月之暗面Kimi联合清华大学等机构共同开源的大模型推理架构。该架构以KVCache为中心,通过分布式设计和资源优化,显著提升了大模型推理的吞吐量和效率,同时降低了算力开销。Mooncake在长上下文场景中表现出色,支持多种应用场景,如自然语言处理、内容推荐系统和搜索引擎等。

Mooncake的核心优势在于能显著提升大模型推理的吞吐量,降低算力开销,在保持服务延迟相关的服务级别目标(SLO)的同时,处理高负载场景。架构在长上下文场景中表现出色,能显著提高吞吐量,同时支持基于预测的早期拒绝策略,优化过载情况下的资源分配。

Mooncake 的主要功能

  • 高效的大模型推理:通过分布式架构优化大模型的推理过程,特别是在处理长上下文数据时,显著提升推理吞吐量。
  • KVCache中心化设计:以KVCache为中心,实现高效的数据缓存和重用,减少对GPU资源的依赖,降低算力开销。
  • 预填充与解码分离:将预填充(Prefill)和解码(Decode)阶段分开处理,资源可以针对不同阶段的计算特性进行优化。
  • 资源优化:通过分离式设计,更有效地利用CPU、DRAM和SSD资源,提高资源利用率。
  • 负载均衡:实现基于缓存负载的均衡策略,通过自动热点迁移方案,提升缓存命中率和系统负载的均衡。
  • 过载管理:面对高负载情况,采用基于预测的早期拒绝策略,优化资源分配并减少无效计算。
  • 高性能传输:基于RDMA技术,实现跨节点的高速KVCache传输,降低延迟。
  • 标准化接口:为大模型时代打造新型高性能内存语义存储的标准接口,提供参考实现方案。
  • 成本降低:通过优化推理过程和资源利用,降低大模型推理的成本,AI技术更加经济高效。

Mooncake 的技术原理

  • 分布式架构:利用GPU集群中的CPU、DRAM和SSD资源,实现KVCache的分布式存储和传输,提高缓存容量和传输带宽,降低对单一GPU资源的依赖。
  • 全局调度器(Conductor):负责根据当前KVCache分布和工作负载情况调度请求,以及决定KVCache块的复制或交换,优化整体吞吐量和满足服务级别目标(SLO)。
  • 分块流水线并行(Chunked Pipeline Parallelism):对于长上下文请求,将输入标记分成多个块,并在不同的节点上并行处理,以减少延迟。
  • Layer-wise预填充:异步加载和存储KVCache,通过重叠传输和计算,减少VRAM占用。
  • 缓存感知调度:调度算法考虑了KVCache的重用、预填充时间和实例负载的排队时间,以实现高效的请求调度。

如何运行 Mooncake

准备工作

为了安装和使用Mooncake,需要进行一些准备工作:

  • RDMA驱动和SDK(如Mellanox OFED)。
  • Linux-x86_64系统,需要gcc、g++(9.4+)和cmake(3.16+)。
  • Python(3.10或以上)。

此外,为了支持Mooncake Transfer Engine的更多功能,建议安装以下组件:

  • CUDA 12.1及以上版本,包括NVIDIA GPUDirect Storage支持。
  • Go 1.20+。
  • Rust工具链。

安装步骤

  1. 初始化源代码

    git clone https://github.com/kvcache-ai/Mooncake.git
    cd Mooncake
    
  2. 安装依赖项

    bash dependencies.sh
    
  3. 编译Mooncake和示例

    mkdir build
    cd build
    cmake .. # (可选) 指定构建选项,如-D
    make -j
    

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
2月前
|
人工智能 测试技术 数据处理
首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理
【10月更文挑战第18天】《LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture》提出了一种新型多模态大模型LongLLaVA,结合了Mamba和Transformer架构,通过系统优化实现在单张A100 80GB GPU上处理近千张图像的突破。该模型在视频理解、高分辨率图像分析和多模态智能体任务中表现出色,显著提升了计算效率。
154 64
|
3月前
|
消息中间件 API 调度
TAG:BladeLLM 的纯异步推理架构
近期,大模型推理社区(vLLM,SGLang 等)普遍开始关注框架运行时开销,提出了多步调度、异步输出处理、独立 API Server 进程等工作,来分摊或掩盖部分开销。 在我们的实际业务场景中,也观察到高额的框架开销严重限制了系统吞吐,特别是在高并发(>1k)场景下,运行时开销已经接近或高于 GPU 运行时间,导致资源严重浪费和性能下降。为此,BladeLLM 设计并实现了基于 Python 的纯异步 LLM 推理架构 -- TAG (Totally Asynchronous Generator) ,以最大程度提高 GPU 利用率,提升引擎性能。
|
4月前
|
机器学习/深度学习 人工智能
清华研究登Nature,首创全前向智能光计算训练架构,戴琼海、方璐领衔
【8月更文挑战第30天】清华大学研究人员在《自然》杂志上发表了一项开创性成果,提出了一种全前向智能光计算训练架构,解决了传统光学AI方法依赖电子计算机模拟和优化的问题,实现了光学系统的自学习和自设计。该架构通过将光学系统映射到参数化神经网络中,消除了反向传播需求,展示了在多个领域的广泛应用前景,如深度光学神经网络和高分辨率散射成像等。这一成果为光学AI的发展开辟了新道路,但实际应用中仍需克服一些挑战。论文详情见:https://www.nature.com/articles/s41586-024-07687-4
47 2
|
5月前
|
开发框架 人工智能
AI问题之Chains架构如何固化推理过程
AI问题之Chains架构如何固化推理过程
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
清华首款AI光芯片登上Science,全球首创架构迈向AGI
【4月更文挑战第16天】清华大学研究团队开发出大规模光子芯片“太极”,在《科学》杂志发表,该芯片基于创新的光子计算架构,实现百万神经元级别的ONN,能效比高达160 TOPS/W。实验中,太极芯片成功执行1000类别分类任务,提升AI内容生成质量,为AGI发展开辟新路径。然而,光子集成电路的制造成本高、技术成熟度不足及软件支持限制了其广泛应用。
168 5
清华首款AI光芯片登上Science,全球首创架构迈向AGI
|
7月前
|
算法 计算机视觉 网络架构
CVPR 202:擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
【5月更文挑战第10天】在CVPR 2024会议上,清华大学与博世团队推出MagNet,一种针对复杂场景和语言表达的实例分割网络。MagNet通过Mask Grounding辅助任务强化视觉-语言对应,缩小模态差距,并结合跨模态对齐损失与模块,提升RIS任务的准确性。在RefCOCO、RefCOCO+和G-Ref基准上取得显著优势,但对罕见表达和复杂场景的处理仍有待优化。[论文链接](https://arxiv.org/abs/2312.12198)
166 5
|
7月前
|
消息中间件 缓存 安全
清华架构大牛剖析高并发与多线程的关系、区别,带你击穿面试难题
当提起这两个词的时候,是不是很多人都认为高并发=多线程? 当面试官问到高并发系统可以采用哪些手段来解决,是不是一脸懵逼?
|
机器学习/深度学习 TensorFlow Go
美团视觉GPU推理服务部署架构优化实战
美团视觉GPU推理服务部署架构优化实战
186 0
|
机器学习/深度学习 图形学 网络架构
ICLR 2022 | 纯MLP的点云网络:新架构PointMLP大幅提高点云分类准确率和推理速度
ICLR 2022 | 纯MLP的点云网络:新架构PointMLP大幅提高点云分类准确率和推理速度
730 0
ICLR 2022 | 纯MLP的点云网络:新架构PointMLP大幅提高点云分类准确率和推理速度
|
存储 机器学习/深度学习 人工智能
神经网络推理加速入门——分层存储架构
大家好啊,我是董董灿。其实存储器也是有分层结构划分的。
神经网络推理加速入门——分层存储架构

热门文章

最新文章