大模型推理性能翻倍秘籍:计算巢PD分离快速部署指南

简介: 阿里云计算巢模型市场提供开箱即用的大语言模型PD分离(Prefill-Decode分离)部署方案,基于ACS集群与专家并行优化,3分钟极速上线Qwen、Deepseek等MoE模型,吞吐提升1.5–2倍,零运维、高可用、企业级监控一应俱全。

方案概述

计算巢模型市场为大语言模型(LLM)提供了开箱即用的 PD 分离部署方案,无需手动配置复杂的基础设施即可实现生产级别的高性能推理服务。本方案基于阿里云容器计算服务 ACS集群,采用 PD 分离(Prefill-Decode 分离)架构和专家并行(Expert Parallelism)优化,为 MoE(Mixture of Experts)架构的大模型提供极致性能体验。

当前支持Qwen、Deepseek、智谱等系列模型的快速部署。

image.png

核心优势

  • 极简部署体验:通过计算巢控制台可视化界面,3 分钟即可完成 LLM 模型 PD 分离部署。全程无需手动配置 ACS 集群、OSS 存储、Kubernetes 组件、网络拓扑等复杂基础设施,真正实现"零门槛"上手,让您专注于业务创新而非底层运维。
  • SOTA 级性能调优:基于阿里云内部大规模生产实践和性能基准测试(SOTA)结果,预置最优性能参数配置。无需深入理解 PD 分离原理、专家并行机制、显存管理策略等复杂技术细节,即可获得业界领先的推理吞吐量和延迟表现。在生产环境中,同等算力下吞吐量可达到单机部署的1.5到2倍。详情可参考性能测试。
  • 企业级生产能力:开箱即用的企业级特性,包括多维度监控大盘(模型级、Pod 级、GPU 级)、支持弹性伸缩等,保障生产环境稳定。

单机部署 vs PD 分离

基本原理

LLM的推理过程可分为两个阶段:

Prefill (提示词处理) 阶段:此阶段一次性处理用户输入的全部提示词(Prompt),并行计算所有输入Token的注意力,并生成初始的KV缓存。这个过程是计算密集型(Compute-Bound)的,需要强大的并行计算能力,但只在请求开始时执行一次。

Decode (解码生成) 阶段:此阶段是自回归过程,模型根据已有的KV缓存,逐个生成新的Token。每一步的计算量很小,但需要反复、快速地从显存中加载巨大的模型权重和KV缓存,因此是内存带宽密集型(Memory-Bound)的。

Prefill阶段常采用首Token延迟(Time to first token,TTFT)作为SLO,即从用户输入prompt到返回首Token的时延。用户对于TTFT时延容忍度较高,生产环境一般约束mean TTFT<3s即可。

Decode阶段采用输出Token延迟(Time per output token, TPOT)作为SLO,即LLM模型生成后续Token的时延。用户对于TPOT时延容忍度较低,生产环境一般约束mean TPOT<50ms。

image.png

单机部署

为了提升GPU利用率,推理引擎在处理多个用户请求时往往会采用凑批处理(Continuous Batching)的方式,将不同请求的Prefill阶段和Decode阶段放在一个批次里调度。Prefill阶段需要处理全部提示词因此计算时间长,Decode只需要计算一个Token因此计算时间短。若在同一批次中调度,Decode阶段会因等待Prefill导致时延增加,进而增加系统整体延迟并降低吞吐量。

image.png

PD 分离架构

image.png

PD分离架构的解决方案就是将这两个阶段解耦,将Prefill和Decode阶段分开部署在不同GPU上。通过分离部署,可以针对不同阶段的计算特性独立配置硬件资源、并行策略和优化参数,实现资源利用率和性能的双重提升。

生产环境性能测试

📊 2台H200 1P1D 性能测试对比表

注:H200性能约为H20的2.5倍,设H20的吞吐数为1

image.png

关键结果分析

🔍 为什么短上下文出现“正向优化”?

image.png

📉 为什么长上下文出现“负优化”?

image.png

🛠️ 长上下文负优化解决方案

image.png

部署流程

  1. 计算巢模型市场页面选择要部署的模型,以Deepseek-R1为例,单击开始部署。

image.png

点击开始部署后会进入到模型部署页面,选择ACS集群部署。

  1. 选择SGLang->ACS集群PD分离方式进行部署。部分模型支持PD分离配置预估工具,可以根据您的需求,自动生成适配的部署参数。如部分模型未支持此工具,可以采用默认部署参数或自行调整。

image.png

image.png

  1. 基础资源配置可选择ACS集群与可用区等参数配置。

image.png

  1. 模型权重配置,可以选择新建Bucket或已有Bucket。具体配置含义参见模型权重同步机制

image.png

image.png

  1. 注意事项,如您在部署过程中存在疑问,可进入钉钉群寻求技术支持。

image.png

  1. 确认订单后可看到费用预估和依赖权限检查,单击立即创建进入到服务实例创建流程。权限问题详见权限检查。

image.png

技术支持

如果您在部署模型服务或使用服务过程中遇到任何问题,可加入下面的钉钉群寻求技术支持。

image.png

相关文档

介绍来计算巢部署LLM模型服务的原理与常见问题。

展示如何在ACK上手动部署PD分离的模型服务。

相关文章
|
25天前
|
人工智能 运维 数据挖掘
OpenClaw、MaxClaw、KimiClaw 全面对比:2026 年 AI Agent 入门到底怎么选?
2026年AI Agent深度融入办公场景。OpenClaw(本地部署、高定制、强隐私)、MaxClaw(企业集成、开箱即用)、KimiClaw(极简上手、轻量高效)三条路径各具优势,覆盖技术团队、中大型企业与个人用户不同需求。
|
6天前
|
存储 安全 Java
你还在手动传包、靠“共享盘”发版本?Artifact Registry 才是依赖管理的终局答案!
你还在手动传包、靠“共享盘”发版本?Artifact Registry 才是依赖管理的终局答案!
163 16
|
8天前
|
人工智能 机器人 Linux
OpenClaw从零到精通保姆级图文教程:新人阿里云/本地秒级搭建+微信/QQ/钉钉/飞书接入与免费大模型API配置攻略
2026年,OpenClaw(曾用名Clawdbot,因Logo酷似小龙虾被网友亲切称为“小龙虾”)作为开源AI智能体领域的现象级框架,凭借“Local-First”的核心特性,彻底打破传统AI“只说不做”的局限,实现了“指令输入→AI规划→工具调用→任务落地”的完整闭环,成为个人与轻量团队提升效率的核心装备。其最具价值的功能的之一,便是能无缝接入微信、QQ、钉钉、飞书四大主流通讯工具,无需切换APP,仅通过日常聊天指令,就能让AI助手完成文件处理、日程管理、信息检索、代码生成、跨平台协同等各类任务,真正实现24小时待命、高效落地工作。
569 3
|
27天前
|
人工智能 自然语言处理 Java
Java企业AI转型:构建稳定可落地的AI能力
面向Java企业的AI赋能平台,以“智能中台+场景化方案”为核心,提供模型网关、RAG知识库、Agent开发、多模态支持等能力,实现低侵入、低成本、高稳定的老系统AI化改造与原生应用开发,加速智能化升级。(239字)
139 4
|
26天前
|
存储 弹性计算 运维
阿里云轻量应用服务器38元1年和云服务器99元1年性能、适用场景区别及选择参考
阿里云特价服务器中,38元/年轻量应用服务器与99元/年云服务器ECS受入门用户关注。两者在定位、架构、场景及规则上差异显著:轻量应用服务器简化运维,提供高带宽,适合个人站长等;云服务器ECS则灵活可扩展,具备企业级稳定性,适合长期成本敏感型用户及技术开发者。
|
3天前
|
存储 测试技术 API
不依赖对话日志检测Prompt注入,一套隐私优先的实现方案
本文探索在不存储任何对话日志的前提下,仅依赖单次处理后提取的28维遥测特征(含11个纯行为特征)检测Prompt注入与越狱攻击的可行性。实验表明:纯文本盲系统仍保有98.5%检测性能(F1=0.968),证实交互行为模式(如重试、Token增长、峰值越狱分)承载了主要威胁信号。
60 9
|
2天前
|
SQL 人工智能 数据挖掘
阿里云百炼产品月刊【2026年3月】
本月阿里云百炼平台重磅升级:7款多模态/语音/图像模型上线,含Qwen-Image-2.0-Pro系列与CosyVoice-V3.5;控制台全面优化,新增长期记忆库、数据连接器及74个MCP/应用模板;同步推出VOC客户之声实训营,助力企业高效挖掘客户反馈价值。
144 1
|
30天前
|
负载均衡 网络协议 网络安全
VMware Avi Load Balancer 31.2.2 - 多云负载均衡平台
VMware Avi Load Balancer 31.2.2 - 多云负载均衡平台
150 4
VMware Avi Load Balancer 31.2.2 - 多云负载均衡平台
|
17天前
|
传感器 安全 网络安全
AiTM钓鱼攻击与HR定向恶意软件活动的技术机理及防御体系研究
本文剖析2026年两大高级威胁:一是利用AiTM钓鱼工具包实时劫持AWS账户、绕过多因素认证(MFA)的自动化攻击;二是针对HR部门长达一年、具备强反分析与EDR查杀能力的隐蔽恶意软件战役。研究揭示传统边界防御与静态MFA已失效,提出以零信任、FIDO2认证、行为分析和动态令牌绑定为核心的纵深防御体系。(239字)
102 12
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
视频去字幕工具横评:本地 AI、云端方案与传统方法的实战对比
做视频二创,最头疼的莫过于硬编码字幕。本文实测 5 种主流去字幕方案,从技术原理到实际效果,给你一份客观的选型指南。
347 7