产学研共话 AI Infra:龙蜥智算联盟探索大模型全场景落地新路径

简介: 清晰勾勒出大模型时代 AI 基础设施的演进方向。

1 月 31 日,龙蜥×SGLang MeetUp 在北京市成功举办。在主题为“智算新生态:异构 AI 算力底座如何驱动大模型全场景落地?”的圆桌讨论中,汇聚了来自龙蜥智算联盟的多位产业与学术专家,围绕大模型推理中的核心挑战——KV Cache 管理、异构算力调度、软硬件协同与超节点架构——展开深入探讨。本次圆桌由 Mooncake 核心贡献者马腾主持,邀请了龙蜥社区智算联盟主席宋卓、摩尔线程副总裁王华、沐曦股份研究院院长李兆石、中兴通讯 Al Infra 资深架构师孙洪峰、浪潮信息系统软件研发经理 Andy Cao、中国科学技术大学特任副研究员白有辉 6 位技术专家,与现场嘉宾讨论涵盖国产 GPU 在量化与存储访问上的创新潜力、CXL 与 RDMA 网络在跨节点 KV 传输的应用、稀疏 Attention 算法的工业落地路径,以及超节点环境下分层存储体系的演进趋势,共同展望中国 AI Infra 生态的未来发展。

1、KV Cache 与显存瓶颈:硬件与算法的协同优化

摩尔线程副总裁王华指出,面对百万级上下文带来的显存压力,硬件层面可通过融合量化、反量化与计算的算子优化来降低访存开销,但物理上限决定了必须结合系统级优化(如压缩、分层存储)。他强调,硬件厂商需与社区紧密协作,共同定义和验证优化方案。

沐曦股份研究院院长李兆石则从硬件实现角度补充,量化(如 BF16 到 INT4)虽能压缩容量、提升带宽利用率,但其数值稳定性(如累加精度、微缩放、截断)高度依赖底层算子实现细节。他指出,量化需由算法牵引,通过社区反复验证才能落地。

中国科学技术大学特任副研究员白有辉分析,量化之所以被广泛采用,是因为它属于算子级改动,对系统软件影响小;而稀疏注意力(Sparse Attention)或线性注意力(Linear Attention)等方案则涉及系统级重构(如数据加载模式、内存管理),实现复杂度高,导致工业落地缓慢。他强调,稀疏注意力在解码阶段的动态选择机制(如 DeepSeek)虽有前景,但其与分布式 KV Cache 池的结合,将形成“全量 KV 在外部,热点 Top-K 在 GPU 缓存”的多级复杂系统,亟需系统层面的创新。

2、跨节点 KV Cache 传输:网络与协议的革新

中兴通讯 AI Infra 资深架构师孙洪峰分享,中兴基于定海网卡和凌云交换机,实现了对 KV Cache 的精细流控与优速带宽控制,保障了 P/D 分离场景下的低延迟传输。他透露,中兴已研发出全局 KV Cache 管理系统,并计划全面拥抱开源,向 SGLang 社区贡献技术。

浪潮信息系统软件研发经理 Andy Cao 则认为,当前互联拓扑(如 400G RDMA)已不再是瓶颈,关键在于如何利用高性能网络提升算力利用率。他提出,CXL 协议的出现为 KV Cache 传输提供了新思路,它既能作为高速内存扩展,又能作为存储接口,支持小数据、离散数据的高效传输。近日,浪潮信息已基于 Mooncake 社区开展 CXL 相关集成工作。

3、异构算力调度:统一管理与资源池化

龙蜥社区智算联盟主席宋卓强调,在包含多种 GPU 的集群中,不应盲目混用所有卡型,而应基于业务负载(计算密集型、存储密集型),如:长上下文等,制定明确的调度策略。他提出,需结合 KV Cache 池进行分级管理,并对不同算力的硬件差异能够 aware 感知,同时建立完善的容量评估,SLO 保障、资源监控与运维体系。

浪潮信息系统软件研发经理 Andy Cao 补充,浪潮信息的核心理念是“以应用为导向,以系统设计为核心”。他认同宋卓的观点,认为调度需区分不同 Workload,将计算密集型任务分配给算力强的 GPU,带宽密集型任务分配给带宽强的 GPU。同时,资源池化是关键,通过将 KV Cache 从单一节点解耦,形成共享池,可更灵活地匹配不同应用的复用需求,最大化整体资源利用率。

4、学术成果向工业实践的转化

中国科学技术大学特任副研究员白有辉认为,学术界在稀疏 KV Cache 存储方案上的研究(如动态 Top-K 选择)已相对成熟,但落地困难。主要原因在于:工业界对算法精度存疑,以及系统改造成本高。他建议,应通过开源共享研究成果,并与有真实需求的公司合作,搭建基于特定算法的 KV Cache 服务平台,是推动落地的有效路径。

5、软硬件协同:从适配到引领

摩尔线程副总裁王华指出,软硬件协同是核心,需从底层硬件(显存、带宽)到驱动、算子库、编程接口提供全面支持。他强调,优化需结合特定硬件(如 H800 与H20)的特性进行定制,形成从框架调度到底层算子的全栈优化。

沐曦股份研究院院长李兆石展望未来,认为国内生态已进入“引领创新”的阶段。他预测,随着 DeepSeek 等开源项目推动的 PD 分离等架构被国外广泛借鉴,未来国内的 AI Infra(如 Mooncake、SGLang)将反向驱动国内硬件创新,例如 GPU 直接访问对象存储、绕开 CPU 的新型存储栈等。

6、超节点场景下的KV Cache与系统演进

摩尔线程副总裁王华对 CXL 用于超节点的 KV Cache Offload 持保留态度,认为其需经 CPU 中转,延迟优势不明显,分布式存储才是更可靠的方案。他看好 CXL+DRAM+SSD 的异构分层系统。

沐曦股份研究院院长李兆石认为,超节点(如 GB200/GB300)的出现使 KV Cache 的分层存储更具经济性和必要性。浪潮信息系统软件研发经理 Andy Cao 指出,若 CXL Switch 普及,GPU 可直接通过南向互联访问 CXL 内存,有望将传统四层(HBM→Local SSD→Ethernet)简化为两层,核心在于计算能否覆盖传输延迟。

中国科学技术大学特任副研究员白有辉总结,当前 KV Cache 系统呈现 L1(HBM)、L2(CPU 内存)、L3(分布式池)的三层结构。随着上层应用(Agent)和算法(如动态稀疏)的演进,以及底层硬件(CXL、SSD)的迭代,中间层将不断丰富(如 L2.5、L4),系统将变得极为复杂。未来的关键是构建一个灵活、可扩展的系统框架,使其能包容任何硬件和算法的变革,实现“以不变应万变”。

(图/圆桌分享嘉宾)


此次圆桌讨论清晰勾勒出大模型时代 AI 基础设施的演进方向:硬件创新需与算法突破深度耦合,系统优化必须面向真实业务场景,而生态建设则依赖开源社区的协同共建。

从 KV Cache 管理到超节点架构,从异构调度到软硬件协同,每一个环节都既充满技术挑战,也蕴含弯道超车的机遇。这要求产业界建立更加灵活、可扩展的技术框架,以"以不变应万变"的系统思维,包容算法与硬件的快速迭代。龙蜥智算联盟将持续凝聚产学研力量,推动国内 AI 基础设施走向开放、高效的新阶段。

最后,感谢各位嘉宾的精彩分享,也感谢金美琴、宋卓、章津楠、潘珏君、李军等智算联盟成员对本场圆桌的组织和支持。

相关文章
|
5天前
|
人工智能 监控 API
Claude Code终于有仪表盘了:3条命令装个HUD,上下文用了多少一眼就知道
老金我最近用Claude Code,遇到一个特别烦的事。 写着写着,突然蹦出来一句"context window is getting full"。 然后AI就开始犯傻了——回答变短、逻辑变乱、之前说好的方案全忘了。 每次遇到这种情况,老金我都想骂人。 问题出在哪? Claude Code的终端界面,压根看不到上下文用了多少。 你只能输入 /context手动查,但谁写代码的时候
|
5天前
|
存储 人工智能 测试技术
基于 VectorDBBench 的性能评测与架构解析:Lindorm 向量引擎的优化实践
阿里云Lindorm向量检索服务重磅升级,依托CBO/RBO混合优化器与自适应混合索引,实测QPS达5.6万(百万级)、2.4万+(千万级),P99延迟低至2ms,融合检索性能行业领先,全面支撑AI时代高并发、低延迟、强一致的生产级向量应用。
82 4
|
16天前
|
弹性计算 网络协议 应用服务中间件
99计划:阿里云99元服务器ECS经济型e实例及性能测,你关心的问题都在这!
阿里云“99计划”推出超值ECS经济型e实例:2核2G、3M固定带宽、40G ESSD云盘,首年及续费均仅99元/年(限活动期内,截至2027.3.31),新老用户实名认证后均可购,不限流量、独享IP,适合博客、WordPress等轻量应用。
104 8
|
5天前
|
人工智能 前端开发 Linux
2026年新手零门槛部署OpenClaw(Clawdbot)详细步骤及集成Web页面教程
对于零基础的新手小白来说,部署AI工具已是不易,再要将其集成到Web页面更是难上加难。2026版OpenClaw(原Clawdbot)针对阿里云环境和Web集成场景推出了“小白专属一键部署方案”,把环境配置、服务部署、Web集成的全流程封装成可直接复制的脚本和代码片段,全程无需懂后端开发、无需手动调接口,跟着教程“抄作业”,25分钟就能完成从阿里云部署OpenClaw到Web页面集成的全流程。本文专为新手设计,每一步都标注“复制即用”的命令和代码,确保小白照做就能成功。
199 6
|
2天前
|
机器学习/深度学习 存储 弹性计算
阿里云服务器价格表【2026最新】一年、1个月和1小时收费标准(透明公开)
2026年阿里云服务器最新价格表:轻量应用服务器低至38元/年,ECS年付99元起,GPU服务器月付1681元起;支持中国大陆及海外多地域部署,提供年付、月付、按小时计费三种模式,并可灵活选配带宽与系统盘。
|
5天前
|
人工智能 测试技术 API
让大模型真正为你工作:一文读懂RAG与微调的选择逻辑
本文深入解析RAG(开卷考试)与微调(封闭特训)两大私有知识注入技术:RAG实时更新、可追溯但依赖检索质量;微调风格统一、响应快但成本高、难迭代。结合实践案例与评估方法,重点推荐2024主流“混合架构”——RAG管“说什么”,微调管“怎么说”,兼顾准确性与规范性。
119 8
|
存储 算法 数据处理
从零搭建向量数据库:实现文本语义检索实战
本文带你从零实现一个最小可用的文本语义检索系统,剖析向量数据库核心模块:文本嵌入、向量存储、近似最近邻搜索、元数据过滤等。不追求极致性能,重在理解工程设计权衡。通过亲手搭建,掌握系统瓶颈与优化方向,真正用好成熟方案。
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
模型训练篇|多阶段ToolRL打造更可靠的AI导购助手
芝麻租赁推出AI导购“租赁小不懂”,针对长周期、重决策租赁场景,首创“One-Model + Tool-Use”架构与两阶段强化学习,攻克需求难匹配、决策效率低、服务被动三大痛点,实现响应提速78%、推荐成功率提升14.93%,打造贴切、沉浸、信任的场景化租赁体验。(239字)
162 25
模型训练篇|多阶段ToolRL打造更可靠的AI导购助手
|
15天前
|
人工智能 关系型数据库 Serverless
2 天,用函数计算 AgentRun 爆改一副赛博朋克眼镜
2 天将吃灰的 Meta 眼镜改造成“交警Copilot”:通过阿里云函数计算 AgentRun 实现端-管-云协同,利用 Prompt 驱动交通规则判断,结合 OCR 与数据库查询,打造可动态扩展的智能执法原型,展现 Agent 架构在真实场景中的灵活与高效。
299 44
|
15天前
|
数据采集 监控 安全
数据治理怎么做?一文讲清数据治理实施的步骤流程
本文深入浅出解析数据治理:从识别数据混乱痛点(如字段不一、脏数据)出发,系统阐述其本质是建立数据资产的全局规则与持续管控体系;并提供从规划、盘点、建模到组织建设、质量与安全落地、常态化运营的五步实操路径,助力企业让数据真正可信、可用、可控。
115 12

热门文章

最新文章