今天，龙蜥社区做了一件值得记录的事——正式发布《2025 龙蜥操作系统开源社区白皮书》。

这不是一份用来展示“我们做了很多事”的成绩单，而是一份面向未来的行动指南。操作系统在 AI 时代该怎么走，龙蜥社区给出的答案已经越来越清晰。以下就从白皮书中摘取四个亮点来介绍：

亮点一：新型工作负载 OS 要学会管理 Agent

随着 AI 技术的快速发展，大模型和智能体（Agent）正在从实验室走向生产环境，成为企业数字化转型的核心驱动力。然而，一个关键问题常被忽视：当 Agent 在服务器上真正运行时，操作系统该如何应对？在白皮书里，这一问题被拆解为以下四个具体挑战：

1.资源失控风险。Agent 任务通常运行时间更长、路径更具不确定性（可能因外部环境反复重试或改变路径），导致 CPU、内存、文件句柄等资源长期占用甚至泄漏。在 OS 层面表现为整机负载抖动、OOM（内存溢出）、句柄耗尽，甚至出现“单任务拖垮整机”的现象。

2.攻击面扩大。 Agent 需要执行命令、读写文件、访问网络。传统容器的隔离粒度已显不足，OS 需提供更清晰、可组合的隔离手段（如 Namespace + Cgroup + Seccomp + LSM + 安全容器），将“Agent 能做什么”转化为可约束的运行边界。

3. 可恢复性缺位。长周期任务更容易遭遇进程崩溃、节点重启或依赖超时。OS 层需为“可恢复性”提供检查点、快照及容器镜像层等基础能力。

4. 可观测性不足。当 Agent 出现问题时，定位往往跨越进程、容器、文件系统、网络、权限等多个层级。OS 需要提供统一的日志与事件、资源统计以及调用链 Trace 接口。

龙蜥给出的解法思路是：将 Agent 执行收敛为“受控工作负载”。OS 不去理解任务语义，而是确保资源约束、运行边界、可观测性、可恢复性这四大底座坚实可靠。具体载体包括 Rund 安全容器（提供更强隔离边界）、Cgroup 强化配额管理、系统级审计与 Trace 能力增强等。

简而言之，以前 OS 管理进程和容器；现在，OS 要学会管理 Agent——一种“长期运行、路径不确定、频繁调用外部工具”的新型工作负载。

这并非遥远的未来。2025 年，已有大量企业在生产环境中部署 Coding Agent、运维 Agent 和数据 Agent。谁先夯实“OS for Agent”的基础，谁就掌握了下一个平台级入口。

亮点二：KV Cache 成了 OS 层的战场 Mooncake+SGLang 的“三层分离”

白皮书对推理基础设施的规划，核心抓了两个点：强隔离运行边界和 KV Cache 治理。

为何 KV Cache 是推理系统的命门？大模型推理分为两个阶段：Prefill（预填充，计算密集）和 Decode（解码，内存密集）。在 Decode 阶段生成每个新 Token 时，均需访问之前所有 Token 的 KV Cache。KV Cache 的膨胀会直接挤压 GPU 显存，降低可服务并发量，推高成本并引入抖动。这是一个典型的“上层应用无法解决、必须下沉至基础设施”的问题。

面对这一基础设施层面的挑战，龙蜥社区给出的破局之道，正是通过以下方式，将分布式缓存与分离式架构发挥到极致：

首先，龙蜥部署 Mooncake，深度优化内核 + 开箱即用。Mooncake 并非普通推理框架，其核心定位是分布式 KV Cache 传输与存储系统。龙蜥操作系统为 Mooncake 提供了优化的底层支持，使得 Mooncake 在龙蜥上可以发挥出最佳性能，实现“开箱即用”的极简部署。

其次，SGLang 的 PD 分离 + Mooncake 的 RDMA 加速。SGLang 在龙蜥上优化了 Prefill-Decode 分离部署，并通过 RDMA 网络高效传输 KV Cache。实测数据显示，在 PD 分离配置下，吞吐提升 120%，延迟降低 45%。

然后，EPD 三层分离——专为多模态打造。这是业界较新的架构理念，即将 Encoder（视觉编码）、Prefill（语言预填充）、Decode（解码）三个阶段完全分离至独立节点。白皮书揭示了一个反直觉的发现：ViT（视觉Transformer）并未从增加张量并行度中受益（TP=8 比 TP=4 更慢），因此 EPD 采用水平数据并行策略。在图像密集型工作负载下该方案使延迟降低 60%，吞吐翻倍。

最后，层次化 KV Cache——按热度分层管理。依据热度与生命周期对 KV 进行分层管理（GPU → 主存 → 其他介质），并与推理框架策略协同。这本质上是将存储系统的“冷热分层”思想引入推理领域。

对于从事推理服务运营的技术人员而言，一个核心判断已然明确：KV Cache 治理正从“推理框架的优化项”演变为“操作系统的基础能力”。正如十年前页面缓存管理从应用层下沉至 OS，今日 KV Cache 管理也在经历同样的演进路径。

龙蜥提供了一条可参考的技术路径：Rund 做隔离边界 + Mooncake 做 KV 传输与存储 + SGLang 做推理调度 + OS 内核做 RDMA/显存/NUMA 优化。这四层协同，构成了一个相对完整的“推理 OS”技术栈。

亮点三：打通 AI 安全的“最后一公里”

当模型越来越贵、对数据越来越敏感。本白皮书里提到了 OpenAnolis Confidential AI 1.0，以及一个非常值得关注的新能力——Confidential MCP。

Confidential AI：让模型“仅在可信环境中运行”，其核心架构是“用户侧密钥托管 + 云端可信执行”的双端模式：

用户侧通过 Trustee 服务托管加密密钥。
云端在 Intel TDX / 海光CSV 机密计算平台上部署 Trustiflux 可信执行环境。
模型加密存储→远程环境认证→动态密钥获取→安全解密加载。

目前支持 Qwen3、DeepSeek 等主流模型。通俗来讲，模型仅在通过硬件级身份验证的隔离域中运行，云平台本身无法查看模型权重。

Confidential MCP：给MCP服务加硬件级“安全通道”。这一举措更为前沿。MCP（Model Context Protocol）是当前 Agent 生态中最热门的协议之一，Agent 通过 MCP 调用各类工具和服务。然而，目前 MCP 调用链上的数据流动几乎缺乏安全保障。

龙蜥的做法是：在 MCP 服务上使用 TNG 构建基于硬件远程认证的安全通信信道。一方面保护数据的机密性和完整性，另一方面实时验证 MCP 服务运行的软硬件环境是否可信。

这意味着什么？当你的 Agent 调用一个 MCP 工具时，你可以在硬件层面验证：该工具确实运行在未被篡改的环境中，且通信内容未被窃取。

从“可信推理”延伸至“可信 Agent 工具调用”，机密计算的保护边界正在不断扩大。这对于金融、医疗、政务等对合规有硬性要求的行业尤为关键。以往的“AI 安全”多聚焦于模型对齐与内容安全；如今，“AI 安全”拥有了基础设施层面的硬约束——这正是操作系统应当承担的责任。

亮点四：OS 开始用 AI“维护自己”

在 AI 全面重塑计算架构的时代背景下，龙蜥社区始终秉持一个核心信念：AI 不应仅是被调度的负载，更是驱动操作系统架构演进的内生动力。这一理念并非短期策略，而是贯穿了龙蜥近年来技术发展的主线。

基于此，龙蜥操作系统 Anolis OS 面向 AI 时代一直秉持两条主线协同演进，并逐步工程化落地为龙蜥操作系统的发行版特性和能力：

System for AI：面向智能体与推理时代，规划推理基础设施、强隔离运行时与以 Python SBOM 为核心的供应链能力，逐步工程化落地为龙蜥操作系统的特性与基础能力。
AI for System：用 AI 反哺系统工程，把运维从命令行走向自然语言，把研发从经验驱动走向证据链闭环，提升评审、测试、回归定位与 CVE 处置能力。

白皮书里还有什么？

以上仅仅总结了 4 个核心要点，完整版白皮书对九大技术方向、双产品线演进路线、各行业落地案例都有详细展开。

如果你想深入了解，获取方式很简单：关注公众号【OpenAnolis 龙蜥】，后台回复“白皮书”三个字，或点击下方链接就能拿到完整版。

白皮书链接：https://openanolis.cn/assets/static/OpenAnolisWhitepaper2025.pdf

—— 完 ——

关于龙蜥

龙蜥社区（OpenAnolis）是立足中国面向国际的 Linux 服务器操作系统开源根社区，引领云智融合技术浪潮下国产操作系统的创新发展。

经过五年发展，龙蜥社区目前已汇聚 25 家理事会成员，海光信息与 AMD 于 2025 年分别晋升为副理事长及理事单位，象征着国际主流芯片厂商对龙蜥生态的高度认可。同时，龙蜥操作系统累计装机量已突破 1000 万套，装机量从社区成立之初的百万级跃升至千万级，增比超 900%。超过 2 万名开发者与 1000 余家全产业链伙伴在此共建，服务覆盖金融、通信、政务、能源、交通、互联网及 AI 模型等众多行业，惠及超过 200 万用户。

解读《2025龙蜥社区操作系统白皮书》，这四大亮点值得关注

亮点一：新型工作负载 OS 要学会管理 Agent

亮点二：KV Cache 成了 OS 层的战场 Mooncake+SGLang 的“三层分离”

亮点三：打通 AI 安全的“最后一公里”

亮点四：OS 开始用 AI“维护自己”

白皮书里还有什么？

龙蜥操作系统

热门文章

最新文章

相关电子书