解读《2025龙蜥社区操作系统白皮书》,这四大亮点值得关注

简介: 操作系统在 AI 时代该怎么走,龙蜥社区给出的答案已经越来越清晰。

今天,龙蜥社区做了一件值得记录的事——正式发布《2025 龙蜥操作系统开源社区白皮书》。

这不是一份用来展示“我们做了很多事”的成绩单,而是一份面向未来的行动指南。操作系统在 AI 时代该怎么走,龙蜥社区给出的答案已经越来越清晰。以下就从白皮书中摘取四个亮点来介绍:

 

亮点一:新型工作负载   OS 要学会管理 Agent

随着 AI 技术的快速发展,大模型和智能体(Agent)正在从实验室走向生产环境,成为企业数字化转型的核心驱动力。然而,一个关键问题常被忽视:当 Agent 在服务器上真正运行时,操作系统该如何应对?在白皮书里,这一问题被拆解为以下四个具体挑战:

1.资源失控风险。Agent 任务通常运行时间更长、路径更具不确定性(可能因外部环境反复重试或改变路径),导致 CPU、内存、文件句柄等资源长期占用甚至泄漏。在 OS 层面表现为整机负载抖动、OOM(内存溢出)、句柄耗尽,甚至出现“单任务拖垮整机”的现象。

2.攻击面扩大。 Agent 需要执行命令、读写文件、访问网络。传统容器的隔离粒度已显不足,OS 需提供更清晰、可组合的隔离手段(如 Namespace + Cgroup + Seccomp + LSM + 安全容器),将“Agent 能做什么”转化为可约束的运行边界。

3. 可恢复性缺位。 长周期任务更容易遭遇进程崩溃、节点重启或依赖超时。OS 层需为“可恢复性”提供检查点、快照及容器镜像层等基础能力。

4. 可观测性不足。当 Agent 出现问题时,定位往往跨越进程、容器、文件系统、网络、权限等多个层级。OS 需要提供统一的日志与事件、资源统计以及调用链 Trace 接口。

龙蜥给出的解法思路是:将 Agent 执行收敛为“受控工作负载”。OS 不去理解任务语义,而是确保资源约束、运行边界、可观测性、可恢复性这四大底座坚实可靠。具体载体包括 Rund 安全容器(提供更强隔离边界)、Cgroup 强化配额管理、系统级审计与 Trace 能力增强等。

简而言之,以前 OS 管理进程和容器;现在,OS 要学会管理 Agent——一种“长期运行、路径不确定、频繁调用外部工具”的新型工作负载。

这并非遥远的未来。2025 年,已有大量企业在生产环境中部署 Coding Agent、运维 Agent 和数据 Agent。谁先夯实“OS for Agent”的基础,谁就掌握了下一个平台级入口。

 

亮点二:KV Cache 成了 OS 层的战场  Mooncake+SGLang 的“三层分离”

白皮书对推理基础设施的规划,核心抓了两个点:强隔离运行边界和 KV Cache 治理。

为何 KV Cache 是推理系统的命门?大模型推理分为两个阶段:Prefill(预填充,计算密集)和 Decode(解码,内存密集)。在 Decode 阶段生成每个新 Token 时,均需访问之前所有 Token 的 KV Cache。KV Cache 的膨胀会直接挤压 GPU 显存,降低可服务并发量,推高成本并引入抖动。这是一个典型的“上层应用无法解决、必须下沉至基础设施”的问题。

面对这一基础设施层面的挑战,龙蜥社区给出的破局之道,正是通过以下方式,将分布式缓存与分离式架构发挥到极致:

首先,龙蜥部署 Mooncake,深度优化内核 + 开箱即用。Mooncake 并非普通推理框架,其核心定位是分布式 KV Cache 传输与存储系统。龙蜥操作系统为 Mooncake 提供了优化的底层支持,使得 Mooncake 在龙蜥上可以发挥出最佳性能,实现“开箱即用”的极简部署。

其次,SGLang 的 PD 分离 + Mooncake 的 RDMA 加速。SGLang 在龙蜥上优化了 Prefill-Decode 分离部署,并通过 RDMA 网络高效传输 KV Cache。实测数据显示,在 PD 分离配置下,吞吐提升 120%,延迟降低 45%。

然后,EPD 三层分离——专为多模态打造。这是业界较新的架构理念,即将 Encoder(视觉编码)、Prefill(语言预填充)、Decode(解码)三个阶段完全分离至独立节点。白皮书揭示了一个反直觉的发现:ViT(视觉Transformer)并未从增加张量并行度中受益(TP=8 比 TP=4 更慢),因此 EPD 采用水平数据并行策略。在图像密集型工作负载下该方案使延迟降低 60%,吞吐翻倍。

最后,层次化 KV Cache——按热度分层管理。依据热度与生命周期对 KV 进行分层管理(GPU → 主存 → 其他介质),并与推理框架策略协同。这本质上是将存储系统的“冷热分层”思想引入推理领域。

对于从事推理服务运营的技术人员而言,一个核心判断已然明确:KV Cache 治理正从“推理框架的优化项”演变为“操作系统的基础能力”。正如十年前页面缓存管理从应用层下沉至 OS,今日 KV Cache 管理也在经历同样的演进路径。

龙蜥提供了一条可参考的技术路径:Rund 做隔离边界 + Mooncake 做 KV 传输与存储 + SGLang 做推理调度 + OS 内核做 RDMA/显存/NUMA 优化。这四层协同,构成了一个相对完整的“推理 OS”技术栈。

 

亮点三:打通 AI 安全的“最后一公里”

当模型越来越贵、对数据越来越敏感。本白皮书里提到了 OpenAnolis Confidential AI 1.0,以及一个非常值得关注的新能力——Confidential MCP

Confidential AI:让模型“仅在可信环境中运行”,其核心架构是“用户侧密钥托管 + 云端可信执行”的双端模式:

  • 用户侧通过 Trustee 服务托管加密密钥。
  • 云端在 Intel TDX / 海光CSV 机密计算平台上部署 Trustiflux 可信执行环境。
  • 模型加密存储→远程环境认证→动态密钥获取→安全解密加载。

目前支持 Qwen3、DeepSeek 等主流模型。通俗来讲,模型仅在通过硬件级身份验证的隔离域中运行,云平台本身无法查看模型权重。

Confidential MCP:给MCP服务加硬件级“安全通道”。这一举措更为前沿。MCP(Model Context Protocol)是当前 Agent 生态中最热门的协议之一,Agent 通过 MCP 调用各类工具和服务。然而,目前 MCP 调用链上的数据流动几乎缺乏安全保障。

龙蜥的做法是:在 MCP 服务上使用 TNG 构建基于硬件远程认证的安全通信信道。一方面保护数据的机密性和完整性,另一方面实时验证 MCP 服务运行的软硬件环境是否可信。

这意味着什么?当你的 Agent 调用一个 MCP 工具时,你可以在硬件层面验证:该工具确实运行在未被篡改的环境中,且通信内容未被窃取。

从“可信推理”延伸至“可信 Agent 工具调用”,机密计算的保护边界正在不断扩大。这对于金融、医疗、政务等对合规有硬性要求的行业尤为关键。以往的“AI 安全”多聚焦于模型对齐与内容安全;如今,“AI 安全”拥有了基础设施层面的硬约束——这正是操作系统应当承担的责任。

亮点四:OS 开始用 AI“维护自己”

在 AI 全面重塑计算架构的时代背景下,龙蜥社区始终秉持一个核心信念:AI 不应仅是被调度的负载,更是驱动操作系统架构演进的内生动力。 这一理念并非短期策略,而是贯穿了龙蜥近年来技术发展的主线。

基于此,龙蜥操作系统 Anolis OS 面向 AI 时代一直秉持两条主线协同演进,并逐步工程化落地为龙蜥操作系统的发行版特性和能力:

  • System for AI:面向智能体与推理时代,规划推理基础设施、强隔离运行时与以 Python SBOM 为核心的供应链能力,逐步工程化落地为龙蜥操作系统的特性与基础能力。
  • AI for System:用 AI 反哺系统工程,把运维从命令行走向自然语言,把研发从经验驱动走向证据链闭环,提升评审、测试、回归定位与 CVE 处置能力。

白皮书里还有什么?

以上仅仅总结了 4 个核心要点,完整版白皮书对九大技术方向、双产品线演进路线、各行业落地案例都有详细展开。

如果你想深入了解,获取方式很简单:关注公众号【OpenAnolis 龙蜥】,后台回复“白皮书”三个字,或点击下方链接就能拿到完整版。


白皮书链接:https://openanolis.cn/assets/static/OpenAnolisWhitepaper2025.pdf

 

—— 完 ——

 

关于龙蜥

龙蜥社区(OpenAnolis)是立足中国面向国际的 Linux 服务器操作系统开源根社区,引领云智融合技术浪潮下国产操作系统的创新发展。

经过五年发展,龙蜥社区目前已汇聚 25 家理事会成员,海光信息与 AMD 于 2025 年分别晋升为副理事长及理事单位,象征着国际主流芯片厂商对龙蜥生态的高度认可。同时,龙蜥操作系统累计装机量已突破 1000 万套,装机量从社区成立之初的百万级跃升至千万级,增比超 900%。超过 2 万名开发者与 1000 余家全产业链伙伴在此共建,服务覆盖金融、通信、政务、能源、交通、互联网及 AI 模型等众多行业,惠及超过 200 万用户。


相关文章
|
6月前
|
人工智能 运维 安全
|
C++
在C++语言中比较两个数的大小的方法
在C++语言中比较两个数的大小的方法
3028 1
|
16天前
|
缓存 安全 网络协议
Anolis OS 不受 Fragnesia(CVE-2026-46300) 漏洞影响
经龙蜥社区安全团队评估,Anolis OS 各版本均不受 CVE-2026-46300 影响。
|
24天前
|
缓存 人工智能 运维
SysOM Agent智能运维系列:Pod内存高告警,一次对话30秒定位根因
让内存诊断从"靠经验排查"变成"可解释、可复现、可执行"的工程化流程。
|
2天前
|
运维 供应链 Cloud Native
打破黑盒:基于可重复构建实现托管型 Trustee 的可信验证
本文介绍的基于可重复构建的托管型 Trustee 验证方案,成功构建了一条从“源码”到“发布制品”,再到“运行时”的强可信链路。
|
2天前
|
缓存 弹性计算 运维
运维不再需要“老师傅”——OS 运维 Skills 发布,欢迎体验
让任何运维 Agent 具备资深内核专家的诊断能力。
|
4月前
|
人工智能 供应链 安全
龙蜥社区第七届理事大会召开,丁津泰、包云岗、章文嵩等专家加入第二届顾问团
2026 年这一承前启后之年凝聚共识,共同规划下一个五年发展。
|
机器学习/深度学习 存储 人工智能
开年首场智算沙龙!龙蜥X SGLang邀你共探软硬件协同“最后一公里”,欢迎报名
欢迎大家报名参加,为大模型效能提升与自主算力平台落地提供创新思路。
|
5月前
|
人工智能 运维 测试技术
龙蜥社区两大委员会月度会议召开:新增3位委员、回顾技术研发和运营关键进展
围绕社区重点运营项目、3 大运营目标进展、2026 年社区活动规划等进行了同步和探讨。

热门文章

最新文章