亮点抢先看！沐曦x龙蜥xSGLang 技术 MeetUp 即将在北京举办-阿里云开发者社区

亮点抢先看！沐曦x龙蜥xSGLang 技术 MeetUp 即将在北京举办

2026-06-04 23

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 6月6日，北京见。

当高性能推理引擎与国产算力深度交织，AI 落地还能塞进多少可能？6 月 6 日（本周六），沐曦股份携手龙蜥社区、 SGLang 社区等生态伙伴，在北京 · 融科资讯中心 B 座 B2-融荟举办“沐‘蜥’芯生，开源共创——SGLang 技术交流 Meetup”。本次活动聚焦 SGLang 开源生态、国产 GPU 深度适配、Mooncake 推理架构、Al 性能分析工具等社区共建议题，以技术分享与圆桌对话为载体，推动国产算力与开源系统协同演进。

活动现场，龙蜥社区还为参会开发者准备了丰厚的礼品，包括实用四件套、定制双肩包、环保帆布袋以及精美本笔套装等。期待大家在碰撞前沿技术的同时，也能满载社区的心意与惊喜而归！

本次 MeetUp 部分演讲亮点一览：

1、演讲主题：SGLang Roadmap：面向大模型与多模态模型的高性能开源推理系统

嘉宾：童心源，SGLang Core Maintainer

简介：SGLang 是一个面向大语言模型与多模态模型的高性能开源推理框架，支持从单卡到大规模分布式集群的低延迟、高吞吐部署。本次分享将介绍 SGLang 的最新进展与未来路线图，涵盖高效运行时、模型与硬件支持、工业界应用、开源社区协作，以及其在 RL / post-training rollout 后端中的实践。希望通过本次分享，让大家了解 SGLang 如何支撑下一代开放、可扩展的大模型服务生态。

2、演讲主题：从全链路可观测到智能分析：AI 性能分析范式的演进与实践

嘉宾：苏峰，龙蜥社区 SGLang 项目开发者；常怀鑫，龙蜥社区智算联盟委员

简介：随着 AI Agent 加速落地，性能分析正经历从“人工专家驱动”向“Agent 自主智能”的深刻变革。过去，我们依托 SGLang Tracing 深入 Runtime 底层，通过可视化追踪精准捕获调度、KV Cache 及 GPU 执行指标，实现了推理黑盒的透明化。如今，结合 Agent 与 LLM 的强大能力，我们不仅能延续对底层指标的敏锐洞察，更能实现自动化的瓶颈定位与根因分析。本次分享将回顾 SGLang 可观测性建设历程，并重点探讨如何利用新一代 AI 技术重构性能分析工作流，为构建高效、稳定的大模型服务提供坚实支撑。

3、演讲主题：记忆感知驱动——基于 Mooncake 的多智能体推理架构优化

嘉宾：马腾，阿里云高级技术专家

简介：本次报告将围绕“记忆感知驱动的多智能体推理优化”展开，重点介绍以 KVCache 为中心的开源大模型服务框架——Mooncake。我们将深入探讨一种全新的视角：将大模型推理引擎中的 KVCache 视作智能体系统最核心的“物理工作记忆”载体。通过打破传统推理中计算与存储的强耦合，Mooncake 实现了 Prefill 与 Decode 的分离式架构（Disaggregated Architecture），并构建了全局共享的 KVCache 池。这种设计使得多智能体在频繁交互与协同工作时，能够通过跨节点的底层张量零拷贝与高效复用，实现记忆的“一次计算、全局共享”。

4、演讲主题：SGLang HiCache + Mooncake 的深度优化与企业级落地

嘉宾：陈凯悦，腾讯云高级工程师

简介：本次分享将围绕腾讯云异构计算团队基于 SGLang HiCache + Mooncake 的生产落地实践展开：在将社区能力规模化部署到内部推理集群与外部企业客户的过程中，我们与 SGLang、Mooncake 社区紧密协作，针对大规模并发启动、MTP 投机推理兼容、跨实例缓存共享，RadixTree节点分裂导致数据无法缓存等真实场景中暴露出的边界问题，与社区共同完成了多项稳定性与性能优化，并向上游贡献了多个 PR。落地后 Prefill 命中率从 61.9% 提升至 89.1%，TTFT 加速 2.6×，端到端延迟加速 4×，长上下文 Input 吞吐提升 152%，并在客户环境中稳定运行。

5、演讲主题：沐曦 GPU 对 SGLang 的深度适配与工程实践

嘉宾：杨鑫，沐曦股份 SGL 推理引擎核心开发者

简介：本次分享主要介绍 SGLang 在 Metax GPU 的适配流程和最新模型支持情况，SGLang 在 Metax GPU 的性能优化实践，以及 2026 年的 Roadmap。

6、圆桌会议：异构算力下的推理效能革命——SGLang 前沿优化与企业落地实践

主持人：李兆石，沐曦股份 AI 研究院院长

嘉宾：童心源，SGLang Core Maintainer

常怀鑫，龙蜥社区 SGLang 项目开发者

马腾，阿里云高级技术专家

王志鹏，沐曦股份 SGL 推理引擎核心开发者

陈凯悦，腾讯云高级工程师

更多详细议程见下方海报：

亮点抢先看！沐曦x龙蜥xSGLang 技术 MeetUp 即将在北京举办

龙蜥操作系统

热门文章

最新文章

相关电子书