当高性能推理引擎与国产算力深度交织,AI 落地还能塞进多少可能?6 月 6 日(本周六),沐曦股份携手龙蜥社区、 SGLang 社区等生态伙伴,在北京 · 融科资讯中心 B 座 B2-融荟举办“沐‘蜥’芯生,开源共创——SGLang 技术交流 Meetup”。本次活动聚焦 SGLang 开源生态、国产 GPU 深度适配、Mooncake 推理架构、Al 性能分析工具等社区共建议题,以技术分享与圆桌对话为载体,推动国产算力与开源系统协同演进。
活动现场,龙蜥社区还为参会开发者准备了丰厚的礼品,包括实用四件套、定制双肩包、环保帆布袋以及精美本笔套装等。期待大家在碰撞前沿技术的同时,也能满载社区的心意与惊喜而归!
本次 MeetUp 部分演讲亮点一览:
1、演讲主题:SGLang Roadmap:面向大模型与多模态模型的高性能开源推理系统
嘉宾:童心源,SGLang Core Maintainer
简介:SGLang 是一个面向大语言模型与多模态模型的高性能开源推理框架,支持从单卡到大规模分布式集群的低延迟、高吞吐部署。本次分享将介绍 SGLang 的最新进展与未来路线图,涵盖高效运行时、模型与硬件支持、工业界应用、开源社区协作,以及其在 RL / post-training rollout 后端中的实践。希望通过本次分享,让大家了解 SGLang 如何支撑下一代开放、可扩展的大模型服务生态。
2、演讲主题:从全链路可观测到智能分析:AI 性能分析范式的演进与实践
嘉宾:苏峰,龙蜥社区 SGLang 项目开发者;常怀鑫,龙蜥社区智算联盟委员
简介:随着 AI Agent 加速落地,性能分析正经历从“人工专家驱动”向“Agent 自主智能”的深刻变革。过去,我们依托 SGLang Tracing 深入 Runtime 底层,通过可视化追踪精准捕获调度、KV Cache 及 GPU 执行指标,实现了推理黑盒的透明化。如今,结合 Agent 与 LLM 的强大能力,我们不仅能延续对底层指标的敏锐洞察,更能实现自动化的瓶颈定位与根因分析。本次分享将回顾 SGLang 可观测性建设历程,并重点探讨如何利用新一代 AI 技术重构性能分析工作流,为构建高效、稳定的大模型服务提供坚实支撑。
3、演讲主题:记忆感知驱动——基于 Mooncake 的多智能体推理架构优化
嘉宾:马腾,阿里云高级技术专家
简介:本次报告将围绕“记忆感知驱动的多智能体推理优化”展开,重点介绍以 KVCache 为中心的开源大模型服务框架——Mooncake。我们将深入探讨一种全新的视角:将大模型推理引擎中的 KVCache 视作智能体系统最核心的“物理工作记忆”载体。通过打破传统推理中计算与存储的强耦合,Mooncake 实现了 Prefill 与 Decode 的分离式架构(Disaggregated Architecture),并构建了全局共享的 KVCache 池。这种设计使得多智能体在频繁交互与协同工作时,能够通过跨节点的底层张量零拷贝与高效复用,实现记忆的“一次计算、全局共享”。
4、演讲主题:SGLang HiCache + Mooncake 的深度优化与企业级落地
嘉宾:陈凯悦,腾讯云高级工程师
简介:本次分享将围绕腾讯云异构计算团队基于 SGLang HiCache + Mooncake 的生产落地实践展开:在将社区能力规模化部署到内部推理集群与外部企业客户的过程中,我们与 SGLang、Mooncake 社区紧密协作,针对大规模并发启动、MTP 投机推理兼容、跨实例缓存共享,RadixTree节点分裂导致数据无法缓存等真实场景中暴露出的边界问题,与社区共同完成了多项稳定性与性能优化,并向上游贡献了多个 PR。落地后 Prefill 命中率从 61.9% 提升至 89.1%,TTFT 加速 2.6×,端到端延迟加速 4×,长上下文 Input 吞吐提升 152%,并在客户环境中稳定运行。
5、演讲主题:沐曦 GPU 对 SGLang 的深度适配与工程实践
嘉宾:杨鑫,沐曦股份 SGL 推理引擎核心开发者
简介:本次分享主要介绍 SGLang 在 Metax GPU 的适配流程和最新模型支持情况,SGLang 在 Metax GPU 的性能优化实践,以及 2026 年的 Roadmap。
6、圆桌会议:异构算力下的推理效能革命——SGLang 前沿优化与企业落地实践
主持人:李兆石,沐曦股份 AI 研究院院长
嘉宾:童心源,SGLang Core Maintainer
常怀鑫,龙蜥社区 SGLang 项目开发者
马腾,阿里云高级技术专家
王志鹏,沐曦股份 SGL 推理引擎核心开发者
陈凯悦,腾讯云高级工程师
更多详细议程见下方海报: