产学研共话 AI Infra：龙蜥智算联盟探索大模型全场景落地新路径-阿里云开发者社区

产学研共话 AI Infra：龙蜥智算联盟探索大模型全场景落地新路径

2026-02-09 68

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 清晰勾勒出大模型时代 AI 基础设施的演进方向。

1 月 31 日，龙蜥×SGLang MeetUp 在北京市成功举办。在主题为“智算新生态：异构 AI 算力底座如何驱动大模型全场景落地？”的圆桌讨论中，汇聚了来自龙蜥智算联盟的多位产业与学术专家，围绕大模型推理中的核心挑战——KV Cache 管理、异构算力调度、软硬件协同与超节点架构——展开深入探讨。本次圆桌由 Mooncake 核心贡献者马腾主持，邀请了龙蜥社区智算联盟主席宋卓、摩尔线程副总裁王华、沐曦股份研究院院长李兆石、中兴通讯 Al Infra 资深架构师孙洪峰、浪潮信息系统软件研发经理 Andy Cao、中国科学技术大学特任副研究员白有辉 6 位技术专家，与现场嘉宾讨论涵盖国产 GPU 在量化与存储访问上的创新潜力、CXL 与 RDMA 网络在跨节点 KV 传输的应用、稀疏 Attention 算法的工业落地路径，以及超节点环境下分层存储体系的演进趋势，共同展望中国 AI Infra 生态的未来发展。

1、KV Cache 与显存瓶颈：硬件与算法的协同优化

摩尔线程副总裁王华指出，面对百万级上下文带来的显存压力，硬件层面可通过融合量化、反量化与计算的算子优化来降低访存开销，但物理上限决定了必须结合系统级优化（如压缩、分层存储）。他强调，硬件厂商需与社区紧密协作，共同定义和验证优化方案。

沐曦股份研究院院长李兆石则从硬件实现角度补充，量化（如 BF16 到 INT4）虽能压缩容量、提升带宽利用率，但其数值稳定性（如累加精度、微缩放、截断）高度依赖底层算子实现细节。他指出，量化需由算法牵引，通过社区反复验证才能落地。

中国科学技术大学特任副研究员白有辉分析，量化之所以被广泛采用，是因为它属于算子级改动，对系统软件影响小；而稀疏注意力（Sparse Attention）或线性注意力（Linear Attention）等方案则涉及系统级重构（如数据加载模式、内存管理），实现复杂度高，导致工业落地缓慢。他强调，稀疏注意力在解码阶段的动态选择机制（如 DeepSeek）虽有前景，但其与分布式 KV Cache 池的结合，将形成“全量 KV 在外部，热点 Top-K 在 GPU 缓存”的多级复杂系统，亟需系统层面的创新。

2、跨节点 KV Cache 传输：网络与协议的革新

中兴通讯 AI Infra 资深架构师孙洪峰分享，中兴基于定海网卡和凌云交换机，实现了对 KV Cache 的精细流控与优速带宽控制，保障了 P/D 分离场景下的低延迟传输。他透露，中兴已研发出全局 KV Cache 管理系统，并计划全面拥抱开源，向 SGLang 社区贡献技术。

浪潮信息系统软件研发经理 Andy Cao 则认为，当前互联拓扑（如 400G RDMA）已不再是瓶颈，关键在于如何利用高性能网络提升算力利用率。他提出，CXL 协议的出现为 KV Cache 传输提供了新思路，它既能作为高速内存扩展，又能作为存储接口，支持小数据、离散数据的高效传输。近日，浪潮信息已基于 Mooncake 社区开展 CXL 相关集成工作。

3、异构算力调度：统一管理与资源池化

龙蜥社区智算联盟主席宋卓强调，在包含多种 GPU 的集群中，不应盲目混用所有卡型，而应基于业务负载（计算密集型、存储密集型），如：长上下文等，制定明确的调度策略。他提出，需结合 KV Cache 池进行分级管理，并对不同算力的硬件差异能够 aware 感知，同时建立完善的容量评估，SLO 保障、资源监控与运维体系。

浪潮信息系统软件研发经理 Andy Cao 补充，浪潮信息的核心理念是“以应用为导向，以系统设计为核心”。他认同宋卓的观点，认为调度需区分不同 Workload，将计算密集型任务分配给算力强的 GPU，带宽密集型任务分配给带宽强的 GPU。同时，资源池化是关键，通过将 KV Cache 从单一节点解耦，形成共享池，可更灵活地匹配不同应用的复用需求，最大化整体资源利用率。

4、学术成果向工业实践的转化

中国科学技术大学特任副研究员白有辉认为，学术界在稀疏 KV Cache 存储方案上的研究（如动态 Top-K 选择）已相对成熟，但落地困难。主要原因在于：工业界对算法精度存疑，以及系统改造成本高。他建议，应通过开源共享研究成果，并与有真实需求的公司合作，搭建基于特定算法的 KV Cache 服务平台，是推动落地的有效路径。

5、软硬件协同：从适配到引领

摩尔线程副总裁王华指出，软硬件协同是核心，需从底层硬件（显存、带宽）到驱动、算子库、编程接口提供全面支持。他强调，优化需结合特定硬件（如 H800 与H20）的特性进行定制，形成从框架调度到底层算子的全栈优化。

沐曦股份研究院院长李兆石展望未来，认为国内生态已进入“引领创新”的阶段。他预测，随着 DeepSeek 等开源项目推动的 PD 分离等架构被国外广泛借鉴，未来国内的 AI Infra（如 Mooncake、SGLang）将反向驱动国内硬件创新，例如 GPU 直接访问对象存储、绕开 CPU 的新型存储栈等。

6、超节点场景下的KV Cache与系统演进

摩尔线程副总裁王华对 CXL 用于超节点的 KV Cache Offload 持保留态度，认为其需经 CPU 中转，延迟优势不明显，分布式存储才是更可靠的方案。他看好 CXL+DRAM+SSD 的异构分层系统。

沐曦股份研究院院长李兆石认为，超节点（如 GB200/GB300）的出现使 KV Cache 的分层存储更具经济性和必要性。浪潮信息系统软件研发经理 Andy Cao 指出，若 CXL Switch 普及，GPU 可直接通过南向互联访问 CXL 内存，有望将传统四层（HBM→Local SSD→Ethernet）简化为两层，核心在于计算能否覆盖传输延迟。

中国科学技术大学特任副研究员白有辉总结，当前 KV Cache 系统呈现 L1（HBM）、L2（CPU 内存）、L3（分布式池）的三层结构。随着上层应用（Agent）和算法（如动态稀疏）的演进，以及底层硬件（CXL、SSD）的迭代，中间层将不断丰富（如 L2.5、L4），系统将变得极为复杂。未来的关键是构建一个灵活、可扩展的系统框架，使其能包容任何硬件和算法的变革，实现“以不变应万变”。

（图/圆桌分享嘉宾）

此次圆桌讨论清晰勾勒出大模型时代 AI 基础设施的演进方向：硬件创新需与算法突破深度耦合，系统优化必须面向真实业务场景，而生态建设则依赖开源社区的协同共建。

从 KV Cache 管理到超节点架构，从异构调度到软硬件协同，每一个环节都既充满技术挑战，也蕴含弯道超车的机遇。这要求产业界建立更加灵活、可扩展的技术框架，以"以不变应万变"的系统思维，包容算法与硬件的快速迭代。龙蜥智算联盟将持续凝聚产学研力量，推动国内 AI 基础设施走向开放、高效的新阶段。

最后，感谢各位嘉宾的精彩分享，也感谢金美琴、宋卓、章津楠、潘珏君、李军等智算联盟成员对本场圆桌的组织和支持。

产学研共话 AI Infra：龙蜥智算联盟探索大模型全场景落地新路径

1、KV Cache 与显存瓶颈：硬件与算法的协同优化

2、跨节点 KV Cache 传输：网络与协议的革新

3、异构算力调度：统一管理与资源池化

4、学术成果向工业实践的转化

5、软硬件协同：从适配到引领

6、超节点场景下的KV Cache与系统演进

龙蜥操作系统

热门文章

最新文章

相关电子书