1 月 31 日,龙蜥×SGLang MeetUp 在北京市成功举办。在主题为“智算新生态:异构 AI 算力底座如何驱动大模型全场景落地?”的圆桌讨论中,汇聚了来自龙蜥智算联盟的多位产业与学术专家,围绕大模型推理中的核心挑战——KV Cache 管理、异构算力调度、软硬件协同与超节点架构——展开深入探讨。本次圆桌由 Mooncake 核心贡献者马腾主持,邀请了龙蜥社区智算联盟主席宋卓、摩尔线程副总裁王华、沐曦股份研究院院长李兆石、中兴通讯 Al Infra 资深架构师孙洪峰、浪潮信息系统软件研发经理 Andy Cao、中国科学技术大学特任副研究员白有辉 6 位技术专家,与现场嘉宾讨论涵盖国产 GPU 在量化与存储访问上的创新潜力、CXL 与 RDMA 网络在跨节点 KV 传输的应用、稀疏 Attention 算法的工业落地路径,以及超节点环境下分层存储体系的演进趋势,共同展望中国 AI Infra 生态的未来发展。
1、KV Cache 与显存瓶颈:硬件与算法的协同优化
摩尔线程副总裁王华指出,面对百万级上下文带来的显存压力,硬件层面可通过融合量化、反量化与计算的算子优化来降低访存开销,但物理上限决定了必须结合系统级优化(如压缩、分层存储)。他强调,硬件厂商需与社区紧密协作,共同定义和验证优化方案。
沐曦股份研究院院长李兆石则从硬件实现角度补充,量化(如 BF16 到 INT4)虽能压缩容量、提升带宽利用率,但其数值稳定性(如累加精度、微缩放、截断)高度依赖底层算子实现细节。他指出,量化需由算法牵引,通过社区反复验证才能落地。
中国科学技术大学特任副研究员白有辉分析,量化之所以被广泛采用,是因为它属于算子级改动,对系统软件影响小;而稀疏注意力(Sparse Attention)或线性注意力(Linear Attention)等方案则涉及系统级重构(如数据加载模式、内存管理),实现复杂度高,导致工业落地缓慢。他强调,稀疏注意力在解码阶段的动态选择机制(如 DeepSeek)虽有前景,但其与分布式 KV Cache 池的结合,将形成“全量 KV 在外部,热点 Top-K 在 GPU 缓存”的多级复杂系统,亟需系统层面的创新。
2、跨节点 KV Cache 传输:网络与协议的革新
中兴通讯 AI Infra 资深架构师孙洪峰分享,中兴基于定海网卡和凌云交换机,实现了对 KV Cache 的精细流控与优速带宽控制,保障了 P/D 分离场景下的低延迟传输。他透露,中兴已研发出全局 KV Cache 管理系统,并计划全面拥抱开源,向 SGLang 社区贡献技术。
浪潮信息系统软件研发经理 Andy Cao 则认为,当前互联拓扑(如 400G RDMA)已不再是瓶颈,关键在于如何利用高性能网络提升算力利用率。他提出,CXL 协议的出现为 KV Cache 传输提供了新思路,它既能作为高速内存扩展,又能作为存储接口,支持小数据、离散数据的高效传输。近日,浪潮信息已基于 Mooncake 社区开展 CXL 相关集成工作。
3、异构算力调度:统一管理与资源池化
龙蜥社区智算联盟主席宋卓强调,在包含多种 GPU 的集群中,不应盲目混用所有卡型,而应基于业务负载(计算密集型、存储密集型),如:长上下文等,制定明确的调度策略。他提出,需结合 KV Cache 池进行分级管理,并对不同算力的硬件差异能够 aware 感知,同时建立完善的容量评估,SLO 保障、资源监控与运维体系。
浪潮信息系统软件研发经理 Andy Cao 补充,浪潮信息的核心理念是“以应用为导向,以系统设计为核心”。他认同宋卓的观点,认为调度需区分不同 Workload,将计算密集型任务分配给算力强的 GPU,带宽密集型任务分配给带宽强的 GPU。同时,资源池化是关键,通过将 KV Cache 从单一节点解耦,形成共享池,可更灵活地匹配不同应用的复用需求,最大化整体资源利用率。
4、学术成果向工业实践的转化
中国科学技术大学特任副研究员白有辉认为,学术界在稀疏 KV Cache 存储方案上的研究(如动态 Top-K 选择)已相对成熟,但落地困难。主要原因在于:工业界对算法精度存疑,以及系统改造成本高。他建议,应通过开源共享研究成果,并与有真实需求的公司合作,搭建基于特定算法的 KV Cache 服务平台,是推动落地的有效路径。
5、软硬件协同:从适配到引领
摩尔线程副总裁王华指出,软硬件协同是核心,需从底层硬件(显存、带宽)到驱动、算子库、编程接口提供全面支持。他强调,优化需结合特定硬件(如 H800 与H20)的特性进行定制,形成从框架调度到底层算子的全栈优化。
沐曦股份研究院院长李兆石展望未来,认为国内生态已进入“引领创新”的阶段。他预测,随着 DeepSeek 等开源项目推动的 PD 分离等架构被国外广泛借鉴,未来国内的 AI Infra(如 Mooncake、SGLang)将反向驱动国内硬件创新,例如 GPU 直接访问对象存储、绕开 CPU 的新型存储栈等。
6、超节点场景下的KV Cache与系统演进
摩尔线程副总裁王华对 CXL 用于超节点的 KV Cache Offload 持保留态度,认为其需经 CPU 中转,延迟优势不明显,分布式存储才是更可靠的方案。他看好 CXL+DRAM+SSD 的异构分层系统。
沐曦股份研究院院长李兆石认为,超节点(如 GB200/GB300)的出现使 KV Cache 的分层存储更具经济性和必要性。浪潮信息系统软件研发经理 Andy Cao 指出,若 CXL Switch 普及,GPU 可直接通过南向互联访问 CXL 内存,有望将传统四层(HBM→Local SSD→Ethernet)简化为两层,核心在于计算能否覆盖传输延迟。
中国科学技术大学特任副研究员白有辉总结,当前 KV Cache 系统呈现 L1(HBM)、L2(CPU 内存)、L3(分布式池)的三层结构。随着上层应用(Agent)和算法(如动态稀疏)的演进,以及底层硬件(CXL、SSD)的迭代,中间层将不断丰富(如 L2.5、L4),系统将变得极为复杂。未来的关键是构建一个灵活、可扩展的系统框架,使其能包容任何硬件和算法的变革,实现“以不变应万变”。
(图/圆桌分享嘉宾)
此次圆桌讨论清晰勾勒出大模型时代 AI 基础设施的演进方向:硬件创新需与算法突破深度耦合,系统优化必须面向真实业务场景,而生态建设则依赖开源社区的协同共建。
从 KV Cache 管理到超节点架构,从异构调度到软硬件协同,每一个环节都既充满技术挑战,也蕴含弯道超车的机遇。这要求产业界建立更加灵活、可扩展的技术框架,以"以不变应万变"的系统思维,包容算法与硬件的快速迭代。龙蜥智算联盟将持续凝聚产学研力量,推动国内 AI 基础设施走向开放、高效的新阶段。
最后,感谢各位嘉宾的精彩分享,也感谢金美琴、宋卓、章津楠、潘珏君、李军等智算联盟成员对本场圆桌的组织和支持。