极速、稳定、丝滑:OpenClaw 接入 Mooncake 后的性能跃迁

简介: OpenClaw 不只是更快了,更重要的是更稳了。

有些性能提升,一眼就能看出来。比如平均延迟更低了,吞吐更高了,首 token 更快了。这样的数字很适合放在 benchmark 表格里,也很适合拿出来做对比。但还有一种性能提升,不是第一眼最炸裂,却更接近真实体验。它不是让系统“最快的时候再快一点”,而是让系统在持续使用、多会话切换、长上下文推进的时候,不那么容易突然卡一下。

如果你经常和 AI 系统连续对话,你一定知道这种差别有多明显。有时候系统不是普遍慢,它只是偶尔慢。 平时都很顺,但某一轮突然停住三秒、五秒,用户的感觉就会瞬间从“真流畅”变成“怎么又卡了”。

这类问题,在单轮问答里不一定明显,在实验室里也未必突出,但一旦进入真实多 session 的使用场景,就会变成最影响体感的一部分。

最近,我们把 Mooncake 正式引入 OpenClaw 的推理链路里,专门围绕这件事做了一轮验证。结果很直接:Mooncake 带来的最大变化,不是把已经很快的请求再压快一点,而是把那些最影响体验的长尾延迟,明显拉回来了。换句话说:OpenClaw 不只是更快了,更重要的是更稳了。

Mooncake 作为业界主流的分布式 KVCache 存储引擎,通过专用缓存集群为 SGLang 等推理框架提供高吞吐、低延迟的服务。龙蜥社区不仅是 Mooncake 的重要支持者,而且核心代码的主要贡献者来自阿里云、浪潮信息、摩尔线程等龙蜥社区智算联盟成员单位。目前,龙蜥社区已在官方组织(openanolis)下正式 Fork 该项目,并推动其原生集成至 Anolis OS 与 ANCK 内核体系。未来,龙蜥社区智算联盟将持续深化贡献,致力将 Mooncake 打造为面向大模型场景的标准化存储底座,加速其从开源项目向生产级智算基础设施的转化落地。

为什么想认真讲这次升级

过去大家聊模型性能,经常会自然地盯着两个方向看:平均值和极限值。前者决定“整体快不快”,后者决定“跑分好不好看”。但对于真正拿来用的系统来说,还有一个指标往往更关键,那就是长尾。因为用户不会用统计学和你对话。用户只会记得两件事:

  • 这套系统大多数时候是不是很跟手。
  • 它会不会在关键时刻突然掉链子。

如果一个系统平时都很快,但偶尔突然卡到几秒钟,它在用户心里的评价通常不会是“平均性能不错”,而是“有点不稳”。

这就是为什么我们一直觉得,OpenClaw 这种面向真实持续交互的系统,不能只看快路径。

快路径当然重要,但慢路径的上限,很多时候更决定体验。

这次 Mooncake 接入 OpenClaw,我们最关心的也正是这一点:

在多会话、长上下文、连续轮转的真实使用模式下,它能不能把那些偶发的慢请求压下去?

我们拿到的答案是:能。

而且不是“略有帮助”,而是那种一看曲线就能明白的改善。

先说结论:这次最大的收益,是稳定性升级

如果只用一句话概括这轮结果,我们会这样说:

Mooncake 改变的不是最快请求有多快,而是最慢请求还能有多慢。

这句话不是修辞,基本就是我们这轮测试最核心的观察。

在 baseline,也就是 OpenClaw + SGLang 的配置下,系统的中位数其实已经不差。   真正的问题,不在那些顺利跑完的请求上,而在少数会突然拉得很长的请求上。

而接入 Mooncake 之后,这部分最影响体验的尖峰明显被削平了。

这类提升,放在图表里是性能;放到产品里,就是流畅度;落到用户感受上,就是一句很简单的话:

“这次怎么顺了这么多。”

这次我们没有绕开 OpenClaw,而是保留了真实链路

很多性能测试一旦想把结论做得更漂亮,第一步往往就是把系统链路尽量简化,最后变成一个“脱离产品环境”的纯模型 benchmark。

我们这次没有这么做,原因也很简单。

如果我们想验证的是 Mooncake 在 OpenClaw 里的真实价值,那就应该尽量保留 OpenClaw 的真实链路,而不是只拿一段最理想的模型调用来说明问题。

所以,这轮测试里我们保留了:

  • OpenClaw Gateway 请求入口
  • session 路由
  • prompt 组装
  • provider 调用
  • 多 session 轮转
  • 长上下文压力

也就是说,用户平时怎么通过 OpenClaw 去访问模型,这轮测试里大体也还是那条路。

整个主链路可以简单画成这样:

这点很重要,因为它意味着这轮结果不是“只在理想环境里有效”,而是已经在 OpenClaw 自己的真实链路里,开始体现出明显收益。 我们把噪声拿掉了,只看更接近推理本身的主路径

当然,保留真实链路,不等于什么都往里塞。

我们这次做了一件非常关键的事:把 tool path 相关的噪声先拿掉。

因为如果把工具调用、工具执行、工具结果处理这些路径全部混在一起,最终测到的就是完整产品体验,而不是更接近推理行为本身的结果。那样当然也有价值,但不利于看清 Mooncake 在多会话推理阶段到底起了多大作用。

所以这轮测试里,我们专门做了 pure-text 口径:

  • 请求仍然走 OpenClaw Gateway
  • 多 session 轮转保留
  • 长上下文保留
  • tools 关闭
  • 重点观测首个可见 token 的 TTFT

同时,我们还针对 Qwen3 的输出特性做了一个小控制:在 system prompt 里启用 /no_think,确保统计的是用户真正看到回复的时刻,而不是被隐藏推理过程拖慢的可见输出。

所以,换一个更容易理解的说法,这次测试测的是:真实 OpenClaw 路径下,更接近 GPU 推理主链路的表现。

这也是为什么这次结果,比之前那轮“全量端到端测试”更能说明 Mooncake 本身的价值。

测试方式并不花哨,但很像真实场景

参数方面,我们没有故意堆一个特别夸张的压测模型,而是选择了一组更接近真实使用节奏的设置:

  • 模型:Qwen3-14B
  • 2 个独立 session
  • 每个 session 4 轮
  • round-robin 轮转推进
  • 第一轮约 24000 字符上下文
  • 后续每轮继续注入约 8000 字符上下文
  • 每组 1 轮 warmup + 3 轮正式测量
  • 重点看首个可见 token 的到达时间

这组参数的意义在于:它既不是单会话的理想实验,也不是一个只追求极端压力的暴力压测,而是一种更接近真实使用的状态。

你有多个会话在同时推进,每个会话都有越来越长的历史,系统要在这些会话之间来回切换。而用户想要的,是一种持续、稳定、不断线的响应感。

这正是 OpenClaw 需要面对的场景。

baseline 给了很典型的答案:不是不快,是不够快

先看 baseline,也就是 OpenClaw + SGLang。我们测到的关键数据是:

  • turn1 TTFT p50 = 756ms
  • turn1 TTFT p95 = 5295ms
  • turn2+ TTFT p50 = 171ms
  • turn2+ TTFT p95 = 4909ms

如果只看 turn2+ p50 = 171ms,你甚至会觉得这套系统已经挺快了。

这个判断其实并没有错,它确实不算慢,问题在于,用户不会只遇到 p50,还会遇到 p95。

当请求落在尾部的时候,它不是多等一两百毫秒,而是会直接被拉到 4 秒、5 秒这个量级。对于持续对话来说,这样的停顿非常容易被感知,也非常容易打断使用节奏。

换句话说,baseline 的问题不是“整体都慢”,而是:快的时候已经很快,但慢的时候还是会突然很慢。

下图一眼就能看出来:

对真实产品来说,这种“中位数不错,但长尾很重”的状态,往往就是最难受的地方。

因为它不会让你觉得系统彻底不可用,但会让你反复在“还不错”和“怎么又卡了”之间来回横跳。

Mooncake 接入后,系统开始呈现出另一种气质

接下来,我们分别测试了三档 Mooncake 配置:4gb、8gb、32gb,结果几乎一样稳定:

Mooncake 4GB

  • turn1 TTFT p50 = 301ms
  • turn1 TTFT p95 = 339ms
  • turn2+ TTFT p50 = 169ms
  • turn2+ TTFT p95 = 770ms

Mooncake 8GB

  • turn1 TTFT p50 = 303ms
  • turn1 TTFT p95 = 339ms
  • turn2+ TTFT p50 = 169ms
  • turn2+ TTFT p95 = 770ms

Mooncake 32GB

  • turn1 TTFT p50 = 306ms
  • turn1 TTFT p95 = 339ms
  • turn2+ TTFT p50 = 169ms
  • turn2+ TTFT p95 = 770ms

把这些数字和 baseline 放在一起看,你会发现 Mooncake 做的并不是“再压 10ms、20ms”的那种局部微调。

它做的是另一件更重要的事:

  • turn1 p95: 5295ms -> 339ms
  • turn2+ p95: 4909ms -> 770ms

而与此同时:

  • turn2+ p50: 171ms -> 169ms

这就是这轮结果最值得传播的地方。

Mooncake 不是简单让快路径更快,而是明显让慢路径没有那么慢了。

这类优化,放在技术表格里可能没有那种“p50 翻倍”的戏剧感,但放到真实体验里,它的价值非常直接:

  • 更少的卡顿
  • 更少的等待感
  • 更少的掉节奏
  • 更连续的交互体验

说到底,用户想要的从来不是“某些请求快得离谱”,而是“每次用起来都挺顺”。

Mooncake 正在把 OpenClaw 往这个方向推。

这次真正被改写的,是多轮会话体感

为什么我们反复强调“多 session”?

因为很多系统在单轮、单会话、上下文较短的时候,本来就能跑得很好看。一旦进入多个会话轮流推进、上下文不断叠加的状态,缓存竞争、状态切换、前缀重建等问题才会真正开始暴露。

对于 OpenClaw 这样的系统来说,这不是边角料,而是主战场。因为真实用户不是只问一个问题就走人。他们会连续提问,会切换主题,会在不同会话之间跳转,会把系统真正拖进“持续使用”的状态。

Mooncake 给 OpenClaw 带来的价值,也正是在这里变得很明显:

  • 多个 session 来回切换,系统更平滑。
  • 长上下文继续向前推进,首 token 更稳定。
  • 交互节奏更连贯,体感不容易断。
  • 系统给人的感觉,更像“始终在线”,而不是“偶尔需要等一等”。

这种变化,很难只用一个“平均值提升”去概括。

它更像是一种从“能跑”到“顺手”的跃迁。

另外一个惊喜点:4GB 就已经够有感觉了

这轮测试里,还有一个结果让我们觉得很有意思。

Mooncake 从 4gb 提升到 8gb,再到 32gb,在当前 workload 下,核心指标几乎没有继续变化。

用图来看非常直观:

这说明一件很重要的事:Mooncake 的收益出现得很早。也就是说,它并不需要一个特别夸张的配置,才开始显现价值。对工程落地来说,这绝对是个好消息,因为它意味着:

  • 方案更容易试
  • 配置空间更友好
  • 收益和成本的平衡点更靠前
  • 真实接入门槛更低

很多技术方案的问题在于,理论上很强,真正落地时却需要很重的条件。  这次 Mooncake 给我们的感受恰恰相反:它的收益不是遥远的,而是很快就能被看到。

从“平时很快,偶然很慢”,变成了“整体都更顺”

我们其实可以把这轮结果总结成:Mooncake 让 OpenClaw 从“平时挺快,偶尔很慢”,变成了“整体都更顺”。这句话听上去不复杂,但它其实就是用户体验里最有价值的部分。因为绝大多数人不会打开监控面板看 p50、p95。  他们只会凭直觉给出判断:

  • 这套系统顺不顺
  • 聊起来会不会断
  • 会不会突然卡壳

而 Mooncake 这次最实在的贡献,就是让 OpenClaw 在这些维度上的表现更像一个成熟系统。

对 OpenClaw 来说,这不是一次小修补

OpenClaw 一直不是一个只为单轮问答设计的系统。

它天生就要面对更复杂的交互:

  • 多 session
  • 多轮对话
  • 长上下文
  • 连续工作流
  • 更真实的任务推进节奏

在这样的系统里,稳定性从来都不是一个附加项,而是产品能力本身的一部分。

Mooncake 的引入,让我们第一次非常清楚地看到:当 OpenClaw 真正进入多会话、多轮上下文的真实工作状态之后,系统的响应曲线开始变得更平滑了,交互节奏开始变得更可预测了。

这不只是“性能更好”。

这更像是一次产品层面的体验升级。对用户来说,它意味着更顺。 对开发者来说,它意味着更稳。 对系统来说,它意味着更接近可持续承载真实使用强度的状态。

如果一定要用一句最短的话概括这次升级,我们会选这一句:

接入 Mooncake 之后,OpenClaw 不只是更快了,而是终于把“偶尔很慢”这件事,明显打下去了。

对一个真正要进入日常使用、持续对话、多会话交互场景的 AI 系统来说,这类提升,往往才是最有价值的性能提升。


—— 完 ——

相关文章
|
13天前
|
机器学习/深度学习 存储 人工智能
三个DeepSeek百万Token窗口与一个长程项目:记忆迁移、协作特点与窗口资源利用模式分析
本文基于三个DeepSeek百万Token上下文窗口的长程项目实证数据,对窗口一(项目启动与环境搭建)、窗口二(窗口特性实验研究与论文)及窗口三(构建项目工程框架)的量化分析。结果显示,三个窗口的token数(cl100k base)高度一致,说明窗口内容与交互模式决定了各种主要指标的差异。随着项目阶段的推进,单轮对话平均字数呈上升趋势(从423.9字增至658.7字),AI/User Token产出比显著提升(从5.6增至7.47),且文本符号构成随任务性质发生结构性转移。尤其是在有效窗口迁移策略支持下,AI逐步体现出对项目及用户的“意合”认知与反应模式
|
23天前
|
人工智能 Linux API
【OpenClaw保姆级图文教程】阿里云/本地部署、免费大模型配置、Skills接入与常见问题解答
2026年初,开源AI智能体框架OpenClaw(昵称“小龙虾”)在GitHub平台实现指数级增长,短短数周斩获15万+星标,成为全球增速最快的AI开源项目之一。这款工具打破了传统AI的被动交互壁垒,实现7×24小时无间断自主运行,能自主操控浏览器、编写调试代码、解析各类文件、执行系统命令,即使用户休息,也能按预设目标完成全流程任务。开发者EthanMoore更是凭借OpenClaw在30天内实现月均被动收入突破1.2万美元,印证了这款工具的自动化生产力价值。
990 4
|
3天前
|
人工智能 弹性计算 运维
|
22天前
|
存储 人工智能 关系型数据库
OpenClaw怎么可能没痛点?用RDS插件来释放OpenClaw全部潜力
OpenClaw插件是深度介入Agent生命周期的扩展机制,提供24个钩子,支持自动注入知识、持久化记忆等被动式干预。相比Skill/Tool,插件可主动在关键节点(如对话开始/结束)执行逻辑,适用于RAG增强、云化记忆等高级场景。
765 56
OpenClaw怎么可能没痛点?用RDS插件来释放OpenClaw全部潜力
|
22天前
|
存储 人工智能 安全
|
3天前
|
Linux API 网络安全
阿里云+本地系统部署OpenClaw+Cookie全自动抓取公众号文章教程:大模型千问/Coding Plan配置指南
在日常信息获取、内容运营与数据监测场景中,自动抓取指定微信公众号最新文章是高频刚需。传统方式依赖搜狗搜索接口、第三方采集工具,稳定性差、易失效、操作繁琐。OpenClaw作为2026年主流开源自动化执行框架,可借助微信公众平台Cookie实现稳定、低风控、可持续的公众号文章采集,全程只需一次手动登录,后续自动运行。本文将完整讲解OpenClaw基于Cookie机制抓取公众号文章的核心原理、操作步骤,并补充2026年4月阿里云轻量服务器部署、本地MacOS/Linux/Windows11部署流程、阿里云千问大模型API与免费Coding Plan API配置方法,以及部署与运行中的常见问题解答,
227 4
|
23天前
|
人工智能 JavaScript Linux
【最新版养 AI龙虾🦞指南】零基础 OpenClaw 阿里云/本地部署、配置、使用保姆级教程
OpenClaw(原Clawdbot,曾用名Moltbot)作为一款开源轻量级AI自动化代理工具,2026年版本在部署灵活性、功能兼容性上实现重大升级,核心优势在于“自然语言驱动+全流程任务自动化”,无需手动编写脚本,仅需输入口语化指令,即可完成文档处理、日程管理、文件读写、跨工具协同、代码生成等各类重复性工作,被广泛应用于个人办公、新手开发、轻量团队协作等场景,堪称“私人AI员工”。
1067 92
|
23天前
|
人工智能 机器人 API
2026年OpenClaw(养龙虾)+ 钉钉对接:保姆级全链路操作指南
本指南详解2026年OpenClaw(AI智能体)与钉钉深度对接的全链路实践:从环境搭建、钉钉应用配置、OpenClaw本地部署,到中间件开发与内网穿透,实现“钉钉发令—龙虾执行—自动回传”的24小时数字员工闭环。安全、可控、零数据出域。
3267 11
|
15天前
|
关系型数据库 分布式数据库 PolarDB
PolarDB开源新作:DuckDB-paimon,助力企业构建面向AI的多模数据底座
DuckDB-paimon 是 PolarDB 团队开发的 DuckDB 插件,支持直接查询 Apache Paimon 数据湖表(本地/OSS),无需 Flink/Spark 集群。基于 paimon-cpp 原生 C++ 实现,具备列裁剪、多线程扫描、Secret 安全凭证等特性,实现秒级轻量分析。
254 9

热门文章

最新文章