产学研共话 AI Infra:龙蜥智算联盟探索大模型全场景落地新路径

简介: 清晰勾勒出大模型时代 AI 基础设施的演进方向。

1 月 31 日,龙蜥×SGLang MeetUp 在北京市成功举办。在主题为“智算新生态:异构 AI 算力底座如何驱动大模型全场景落地?”的圆桌讨论中,汇聚了来自龙蜥智算联盟的多位产业与学术专家,围绕大模型推理中的核心挑战——KV Cache 管理、异构算力调度、软硬件协同与超节点架构——展开深入探讨。本次圆桌由 Mooncake 核心贡献者马腾主持,邀请了龙蜥社区智算联盟主席宋卓、摩尔线程副总裁王华、沐曦股份研究院院长李兆石、中兴通讯 Al Infra 资深架构师孙洪峰、浪潮信息系统软件研发经理 Andy Cao、中国科学技术大学特任副研究员白有辉 6 位技术专家,与现场嘉宾讨论涵盖国产 GPU 在量化与存储访问上的创新潜力、CXL 与 RDMA 网络在跨节点 KV 传输的应用、稀疏 Attention 算法的工业落地路径,以及超节点环境下分层存储体系的演进趋势,共同展望中国 AI Infra 生态的未来发展。

1、KV Cache 与显存瓶颈:硬件与算法的协同优化

摩尔线程副总裁王华指出,面对百万级上下文带来的显存压力,硬件层面可通过融合量化、反量化与计算的算子优化来降低访存开销,但物理上限决定了必须结合系统级优化(如压缩、分层存储)。他强调,硬件厂商需与社区紧密协作,共同定义和验证优化方案。

沐曦股份研究院院长李兆石则从硬件实现角度补充,量化(如 BF16 到 INT4)虽能压缩容量、提升带宽利用率,但其数值稳定性(如累加精度、微缩放、截断)高度依赖底层算子实现细节。他指出,量化需由算法牵引,通过社区反复验证才能落地。

中国科学技术大学特任副研究员白有辉分析,量化之所以被广泛采用,是因为它属于算子级改动,对系统软件影响小;而稀疏注意力(Sparse Attention)或线性注意力(Linear Attention)等方案则涉及系统级重构(如数据加载模式、内存管理),实现复杂度高,导致工业落地缓慢。他强调,稀疏注意力在解码阶段的动态选择机制(如 DeepSeek)虽有前景,但其与分布式 KV Cache 池的结合,将形成“全量 KV 在外部,热点 Top-K 在 GPU 缓存”的多级复杂系统,亟需系统层面的创新。

2、跨节点 KV Cache 传输:网络与协议的革新

中兴通讯 AI Infra 资深架构师孙洪峰分享,中兴基于定海网卡和凌云交换机,实现了对 KV Cache 的精细流控与优速带宽控制,保障了 P/D 分离场景下的低延迟传输。他透露,中兴已研发出全局 KV Cache 管理系统,并计划全面拥抱开源,向 SGLang 社区贡献技术。

浪潮信息系统软件研发经理 Andy Cao 则认为,当前互联拓扑(如 400G RDMA)已不再是瓶颈,关键在于如何利用高性能网络提升算力利用率。他提出,CXL 协议的出现为 KV Cache 传输提供了新思路,它既能作为高速内存扩展,又能作为存储接口,支持小数据、离散数据的高效传输。近日,浪潮信息已基于 Mooncake 社区开展 CXL 相关集成工作。

3、异构算力调度:统一管理与资源池化

龙蜥社区智算联盟主席宋卓强调,在包含多种 GPU 的集群中,不应盲目混用所有卡型,而应基于业务负载(计算密集型、存储密集型),如:长上下文等,制定明确的调度策略。他提出,需结合 KV Cache 池进行分级管理,并对不同算力的硬件差异能够 aware 感知,同时建立完善的容量评估,SLO 保障、资源监控与运维体系。

浪潮信息系统软件研发经理 Andy Cao 补充,浪潮信息的核心理念是“以应用为导向,以系统设计为核心”。他认同宋卓的观点,认为调度需区分不同 Workload,将计算密集型任务分配给算力强的 GPU,带宽密集型任务分配给带宽强的 GPU。同时,资源池化是关键,通过将 KV Cache 从单一节点解耦,形成共享池,可更灵活地匹配不同应用的复用需求,最大化整体资源利用率。

4、学术成果向工业实践的转化

中国科学技术大学特任副研究员白有辉认为,学术界在稀疏 KV Cache 存储方案上的研究(如动态 Top-K 选择)已相对成熟,但落地困难。主要原因在于:工业界对算法精度存疑,以及系统改造成本高。他建议,应通过开源共享研究成果,并与有真实需求的公司合作,搭建基于特定算法的 KV Cache 服务平台,是推动落地的有效路径。

5、软硬件协同:从适配到引领

摩尔线程副总裁王华指出,软硬件协同是核心,需从底层硬件(显存、带宽)到驱动、算子库、编程接口提供全面支持。他强调,优化需结合特定硬件(如 H800 与H20)的特性进行定制,形成从框架调度到底层算子的全栈优化。

沐曦股份研究院院长李兆石展望未来,认为国内生态已进入“引领创新”的阶段。他预测,随着 DeepSeek 等开源项目推动的 PD 分离等架构被国外广泛借鉴,未来国内的 AI Infra(如 Mooncake、SGLang)将反向驱动国内硬件创新,例如 GPU 直接访问对象存储、绕开 CPU 的新型存储栈等。

6、超节点场景下的KV Cache与系统演进

摩尔线程副总裁王华对 CXL 用于超节点的 KV Cache Offload 持保留态度,认为其需经 CPU 中转,延迟优势不明显,分布式存储才是更可靠的方案。他看好 CXL+DRAM+SSD 的异构分层系统。

沐曦股份研究院院长李兆石认为,超节点(如 GB200/GB300)的出现使 KV Cache 的分层存储更具经济性和必要性。浪潮信息系统软件研发经理 Andy Cao 指出,若 CXL Switch 普及,GPU 可直接通过南向互联访问 CXL 内存,有望将传统四层(HBM→Local SSD→Ethernet)简化为两层,核心在于计算能否覆盖传输延迟。

中国科学技术大学特任副研究员白有辉总结,当前 KV Cache 系统呈现 L1(HBM)、L2(CPU 内存)、L3(分布式池)的三层结构。随着上层应用(Agent)和算法(如动态稀疏)的演进,以及底层硬件(CXL、SSD)的迭代,中间层将不断丰富(如 L2.5、L4),系统将变得极为复杂。未来的关键是构建一个灵活、可扩展的系统框架,使其能包容任何硬件和算法的变革,实现“以不变应万变”。

(图/圆桌分享嘉宾)


此次圆桌讨论清晰勾勒出大模型时代 AI 基础设施的演进方向:硬件创新需与算法突破深度耦合,系统优化必须面向真实业务场景,而生态建设则依赖开源社区的协同共建。

从 KV Cache 管理到超节点架构,从异构调度到软硬件协同,每一个环节都既充满技术挑战,也蕴含弯道超车的机遇。这要求产业界建立更加灵活、可扩展的技术框架,以"以不变应万变"的系统思维,包容算法与硬件的快速迭代。龙蜥智算联盟将持续凝聚产学研力量,推动国内 AI 基础设施走向开放、高效的新阶段。

最后,感谢各位嘉宾的精彩分享,也感谢金美琴、宋卓、章津楠、潘珏君、李军等智算联盟成员对本场圆桌的组织和支持。

相关文章
|
2月前
|
存储 人工智能 测试技术
基于 VectorDBBench 的性能评测与架构解析:Lindorm 向量引擎的优化实践
阿里云Lindorm向量检索服务重磅升级,依托CBO/RBO混合优化器与自适应混合索引,实测QPS达5.6万(百万级)、2.4万+(千万级),P99延迟低至2ms,融合检索性能行业领先,全面支撑AI时代高并发、低延迟、强一致的生产级向量应用。
389 4
|
2月前
|
人工智能 弹性计算 自然语言处理
阿里云推出OpenClaw极简部署方案,一键创建专属AI助手!
阿里云OpenClaw是开源、本地优先的AI智能代理平台,支持自然语言指令执行文件处理、日程管理、跨平台操作等任务。提供极简一键部署方案,无需技术基础,7×24小时专属AI助手即刻上线。
390 5
|
2月前
|
缓存 达摩院 数据库
RISC-V 基金会 Data Center SIG 第六次会议圆满结束,推动数据中心缺口改进及引入
重点围绕“在 RISC-V 架构中引入持久化内存(Persistent Memory,PMem)相关支持”等的方向展开讨论。
|
4月前
|
API
WhatsApp Business 账号被封怎么办?一文掌握 Meta 审核规则与恢复策略
当您的 WhatsApp Business API(WABA)账号因违反 Meta 政策被封禁时,可能导致企业消息服务中断。本文详细介绍 WABA 被封的常见原因、官方申诉流程、解封操作步骤。
752 1
|
20天前
|
JSON Go PHP
告别阻塞!用 PHP TrueAsync 实现 PHP 脚本提速 10 倍
本文介绍如何用 PHP TrueAsync 构建高性能进程池:基于 `proc_open` 与 NDJSON 协议实现非阻塞进程通信,结合 Channel 任务分发、TaskGroup 协程管理及 Supervisor 自愈机制,让同步 PHP 函数在协程中高效并行,轻松提速 10 倍。
156 19
|
3月前
|
XML 前端开发 Serverless
自建一个 Agent 很难吗?一语道破,万语难明
本文分享了在奥德赛TQL研发平台中集成BFF Agent的完整实践:基于LangGraph构建状态图,采用Iframe嵌入、Faas托管与Next.js+React框架;通过XML提示词优化、结构化知识库(RAG+DeepWiki)、工具链白名单及上下文压缩(保留近3轮对话)等策略,显著提升TQL脚本生成质量与稳定性。
910 33
自建一个 Agent 很难吗?一语道破,万语难明
|
9月前
|
人工智能 监控 API
API即生产力:电商行业如何用“数字接口”重构竞争壁垒?
电商API作为连接平台、商家、物流与支付的“数字钥匙”,正系统性破解数据孤岛、运营低效、决策滞后与体验断层等传统电商痛点。通过数据实时同步、流程自动化、智能分析与服务闭环,API助力企业提升效率、优化决策、增强用户体验,并推动全行业向智能化、数字化跃迁。
|
4月前
|
人工智能 运维 监控
JMeter自搭与压测平台:2025年效率成本对比及平台推荐
2025年企业性能测试需求增长,自搭JMeter与SaaS压测平台在效率、成本等方面差异明显。自建方案灵活但成本高,适合技术强团队;SaaS平台即开即用、弹性资源,适配快速迭代场景。文章对比两者痛点、主流方案优劣,给出选择建议及实践参考。
|
9月前
|
JSON API 开发者
产品列表获取API接口详解
本文详解如何设计与调用产品列表获取API接口,涵盖核心概念、实现步骤、Python代码示例及最佳实践,助你高效构建数据驱动应用。
278 0
|
5月前
|
存储 人工智能 安全
阿里云服务器购买之后如何申请发票?发票申请流程及常见问题解答
当我们完成阿里云服务器的购买后,如何顺利申请发票便成为众多企业用户关注的重点问题。特别是对于初次接触阿里云服务器的用户而言,发票申请流程可能并不熟悉。本文将为大家介绍在购买阿里云服务器后如何申请发票,以及在申请过程中可能遭遇的各类常见问题,助力大家轻松完成发票申请。
902 6

热门文章

最新文章