亮点抢先看!沐曦x龙蜥xSGLang 技术 MeetUp 即将在北京举办

简介: 6月6日,北京见。

当高性能推理引擎与国产算力深度交织,AI 落地还能塞进多少可能?6 月 6 日(本周六),沐曦股份携手龙蜥社区、 SGLang 社区等生态伙伴,在北京 · 融科资讯中心 B 座 B2-融荟举办“沐‘蜥’芯生,开源共创——SGLang 技术交流 Meetup”。本次活动聚焦 SGLang 开源生态、国产 GPU 深度适配、Mooncake 推理架构、Al 性能分析工具等社区共建议题,以技术分享与圆桌对话为载体,推动国产算力与开源系统协同演进。


活动现场,龙蜥社区还为参会开发者准备了丰厚的礼品,包括实用四件套、定制双肩包、环保帆布袋以及精美本笔套装等。期待大家在碰撞前沿技术的同时,也能满载社区的心意与惊喜而归!

本次 MeetUp 部分演讲亮点一览:

1、演讲主题:SGLang Roadmap:面向大模型与多模态模型的高性能开源推理系统

嘉宾:童心源,SGLang Core Maintainer

简介SGLang 是一个面向大语言模型与多模态模型的高性能开源推理框架,支持从单卡到大规模分布式集群的低延迟、高吞吐部署。本次分享将介绍 SGLang 的最新进展与未来路线图,涵盖高效运行时、模型与硬件支持、工业界应用、开源社区协作,以及其在 RL / post-training rollout 后端中的实践。希望通过本次分享,让大家了解 SGLang 如何支撑下一代开放、可扩展的大模型服务生态。


2、演讲主题从全链路可观测到智能分析:AI 性能分析范式的演进与实践

嘉宾:苏峰,龙蜥社区 SGLang 项目开发者;常怀鑫,龙蜥社区智算联盟委员

简介随着 AI Agent 加速落地,性能分析正经历从“人工专家驱动”向“Agent 自主智能”的深刻变革。过去,我们依托 SGLang Tracing 深入 Runtime 底层,通过可视化追踪精准捕获调度、KV Cache 及 GPU 执行指标,实现了推理黑盒的透明化。如今,结合 Agent 与 LLM 的强大能力,我们不仅能延续对底层指标的敏锐洞察,更能实现自动化的瓶颈定位与根因分析。本次分享将回顾 SGLang 可观测性建设历程,并重点探讨如何利用新一代 AI 技术重构性能分析工作流,为构建高效、稳定的大模型服务提供坚实支撑。


3、演讲主题:记忆感知驱动——基于 Mooncake 的多智能体推理架构优化

嘉宾:马腾,阿里云高级技术专家

简介:本次报告将围绕“记忆感知驱动的多智能体推理优化”展开,重点介绍以 KVCache 为中心的开源大模型服务框架——Mooncake。我们将深入探讨一种全新的视角:将大模型推理引擎中的 KVCache 视作智能体系统最核心的“物理工作记忆”载体。通过打破传统推理中计算与存储的强耦合,Mooncake 实现了 Prefill 与 Decode 的分离式架构(Disaggregated Architecture),并构建了全局共享的 KVCache 池。这种设计使得多智能体在频繁交互与协同工作时,能够通过跨节点的底层张量零拷贝与高效复用,实现记忆的“一次计算、全局共享”。


4、演讲主题:SGLang HiCache + Mooncake 的深度优化与企业级落地

嘉宾陈凯悦,腾讯云高级工程师

简介本次分享将围绕腾讯云异构计算团队基于 SGLang HiCache + Mooncake 的生产落地实践展开:在将社区能力规模化部署到内部推理集群与外部企业客户的过程中,我们与 SGLang、Mooncake 社区紧密协作,针对大规模并发启动、MTP 投机推理兼容、跨实例缓存共享,RadixTree节点分裂导致数据无法缓存等真实场景中暴露出的边界问题,与社区共同完成了多项稳定性与性能优化,并向上游贡献了多个 PR。落地后 Prefill 命中率从 61.9% 提升至 89.1%,TTFT 加速 2.6×,端到端延迟加速 4×,长上下文 Input 吞吐提升 152%,并在客户环境中稳定运行。


5、演讲主题:沐曦 GPU 对 SGLang 的深度适配与工程实践

嘉宾杨鑫,沐曦股份 SGL 推理引擎核心开发者

简介本次分享主要介绍 SGLang 在 Metax GPU 的适配流程和最新模型支持情况,SGLang 在 Metax GPU 的性能优化实践,以及 2026 年的 Roadmap。


6、圆桌会议:异构算力下的推理效能革命——SGLang 前沿优化与企业落地实践

主持人:李兆石,沐曦股份 AI 研究院院长

嘉宾:童心源,SGLang Core Maintainer

常怀鑫,龙蜥社区 SGLang 项目开发者

马腾,阿里云高级技术专家

王志鹏,沐曦股份 SGL 推理引擎核心开发者

陈凯悦,腾讯云高级工程师


更多详细议程见下方海报:

相关文章
|
15天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
5815 29
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
10天前
|
存储 定位技术 数据库
CodeGraph 如何让 Claude Code减少 7 成工具调用?
CodeGraph 为 Coding Agent 提供本地代码知识图谱,把函数、类、调用链和框架路由提前整理成“项目地图”,减少盲目搜索和文件读取。它不是新 Agent,而是上下文基础设施,让 Agent 更快找到正确代码路径,平均减少 7 成工具调用。
1169 2
|
7天前
|
人工智能 安全 定位技术
CodeGraph深度解析 让Claude Code工具调用直降七成的核心原理与实操教程
如今以Claude Code为代表的AI编程智能体已经成为开发者日常编码、项目重构、漏洞修复的必备工具。但在长期使用过程中,几乎所有开发者都会遇到同一个明显痛点:AI虽然具备强大的代码生成与分析能力,却常常陷入盲目探索的循环中。
946 1
|
17天前
|
人工智能 自然语言处理 供应链
|
8天前
|
人工智能 弹性计算 安全
阿里云618活动时间、活动入口、优惠活动详细解读
2026年阿里云618创新加速季已全面开启,作为年度力度最大的云产品促销活动,本次大促覆盖轻量应用服务器、ECS云服务器、GPU云服务器、数据库、AI算力、安全服务、CDN等全品类产品,推出5亿元算力补贴、新用户限时秒杀、普惠满减、企业专享、免费试用、云大使返佣等多重福利,个人开发者、中小企业、AI团队均可享受专属低价。本文将系统梳理2026年阿里云618活动的完整时间节点、官方参与入口、各类优惠细则、使用规则、热门产品推荐及实操代码,帮助用户精准参与、高效省钱,以最低成本完成上云部署。
742 4
|
23天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
3834 15
|
8天前
|
运维
欢迎报名|2026 Agentic AICon—智能体基础设施与AgentOps专场,邀您参会
欢迎报名|2026 Agentic AICon—智能体基础设施与AgentOps专场,邀您参会
1427 0

热门文章

最新文章