活动回顾:Arm 龙蜥齐携手,共筑 AI 时代开源 OS 新生态

简介: 共同探讨了开源操作系统与 Arm Neoverse 平台在人工智能(AI)时代的深度融合与创新实践。

12 月 11 日下午,在一个温暖和煦的冬日,“龙蜥社区走进系列”之走进 Arm Meetup 在上海成功举办。本次活动吸引了来自云计算、互联网、半导体等领域的众多专家学者齐聚一堂,围绕 Arm 生态、开源社区、AI 基础设施及大模型推理等领域的技术突破,共同探讨了开源操作系统与 Arm Neoverse 平台在人工智能(AI)时代的深度融合与创新实践。


现场通过一系列主题分享,集中展示了 Arm Neoverse 平台、AI 性能分析工具、异构推理框架及优化等技术成果。这些成果不仅体现了产业链上下游协同创新与开源共建的精神,也加速了 AI 与云计算在 Arm 架构上的落地,为开源操作系统行业提供了更高效、可靠的解决方案。

(图/活动现场嘉宾合影)


活动伊始,阿里云智能集团编译器技术总监、Java 标准委员会委员(JCP-EC),Java Champion、龙蜥社区 Java 语言与虚拟机 SIG Maintainer 李三红做开场致辞。发言聚焦阿里云在倚天 Arm 架构上的深耕,首先以全栈自研为核心,从芯片、操作系统到编译器全面优化,提升云原生场景的性能与性价比。其次重申对开源的长期投入,积极参与龙蜥社区建设,持续贡献稳定高效的操作系统能力。最后强调通过社区、理事单位和生态伙伴的合作,携手 Arm 共建完整生态,共同推动企业更好地使用 Arm 技术。与此同时,他也鼓励大家在活动中积极交流,共促行业发展。

(图/李三红)


接下来,来自阿里云、龙蜥社区、趋境科技、鸿钧微电子以及安谋科技的技术和市场专家针对基于 Arm Neoverse 平台,围绕开源龙蜥操作系统 Anolis OS 的各个层面在 AI 浪潮中的变革和演进,进行了精彩的分享与思想碰撞。


首先由安谋科技云人工智能事业部总监侯科鑫和阿里云智能集团弹性计算高级架构师张先国带来了题为《Arm 基础设施加速云计算智能驾驶》的联合演讲。

侯科鑫女士回顾了 AI 浪潮中若干行业趋势,强调 AI 的快速发展正在推动基础设施技术的重大转型,Arm 参与其中并重新定义计算。Arm 帮助合作伙伴在通用计算以及智能计算定制化平台上取得了不菲的成绩。Arm Neoverse 已成为这一转型中多个关键领域的首选平台。演讲深入介绍了 Arm Neoverse CSS,以及 Arm 的技术创新是如何帮助合作伙伴在 AI 时代加速产品上市。此外 Arm 在软件生态系统上也持续投入,通过与阿里云等合作伙伴的深度协作,Arm 平台不断推动 AI 基础设施创新,满足智能驾驶行业对高可靠性、弹性扩展和绿色算力的迫切需求,助力企业快速应对 AI 时代的挑战与机遇。

(图/侯科鑫)


张先国则针对智能驾驶场景,重点展示了 Arm 基础设施在智能驾驶场景中的云计算加速能力,围绕智能驾驶全流程——从数据采集、存储、标注,到模型训练、仿真验证及端侧集成,深入剖析行业痛点,包括数据规模庞大、算力消耗高、模型迭代快、训练成本高。针对这些挑战,提出了阿里云弹性计算解决方案,包括高性能、弹性伸缩的 AI 基础设施,支持十万核级资源快速调度,结合容器化算力、Serverless 调度、GPU 切分等创新技术,显著降低运维成本并提升性能(Spark场景优化 10% 以上,MRACC 算子优化 35%以上)。此外,方案还涵盖视频抽帧、点云处理、分布式训练及大规模仿真,为智能驾驶业务提供端到端的高效云端加速能力,助力行业实现 高可靠、低成本、快速迭代的目标。

(图/张先国)


安谋科技主任软件工程师方方明做了《RTP-LLM:Arm平台全面支持》的主题演讲。Arm 同龙蜥社区、阿里巴巴在很多技术领域都有深度合作,包括推理引擎。在 AI 时代,基于 Arm CPU,团队实现了对阿里巴巴大模型推理引擎 RTP-LLM 的全面支持,通过与生态伙伴的深度合作,RTP-LLM 不仅实现了对倚天等云端 CPU 的高效适配,还支持主流大模型(如 Qwen、Llama、DeepSeek、Bert 等)及多种量化格式(FP32、FP16、INT8、INT4、GPTQ 等),并集成了 Arm KleidiAI 等高性能 AI 内核库,极大提升了推理效率和灵活性。详细的技术亮点包括:1. 利用 Arm 的加速指令对算子的极致性能优化;2. 全面支持 MoE 架构(如 DeepSeek V3、Qwen3),使用专家融合提高并行计算能力,MoE 推理性能最高提升 4 倍;3. 多种量化与矩阵乘优化方案,显著降低内存占用并提升算力利用率;4. 端到端测试与高效部署,支持云到边多场景落地;5. 性能对比显示,RTP-LLM 在 Arm 平台上推理速度和资源效率均优于同类方案。

(图/方方明)

随着 AI 时代的到来,Java 在 AI 相关负载中扮演越来越重要的角色。阿里云智能集团高级 JVM 工程师邢其正做了《阿里巴巴 Dragonwell JDK:为 AI 时代而生》的主题演讲。阿里云推出的 Dragonwell 21 AI 增强版,包含 Native 加速、热代码重排和 JTune 三大核心技术。具体来说:

  • Native 加速:通过高度优化的原生实现,显著提升 AI 相关计算性能,远超传统 JNI 方案,助力 Elasticsearch 向量搜索、Spark 等场景性能提升 18%-60%。
  • 热代码重排:智能管理 JVM Code Cache,提升 JIT 编译代码的命中率和运行效率。
  • 智能调优:AI驱动的自动调优框架,降低JVM参数复杂度,实现更高效的资源利用和运维自动化。

Dragonwell JDK 不仅让 Java 在 RAG、大数据、智能驾驶等 AI 场景下实现性能飞跃,还兼顾企业级系统集成与运维需求,推动 Java 成为 AI 时代的主流生产力工具。

(图/邢其正)


ModelSight 是龙蜥社区自研的 AI 性能分析工具,基于 eBPF 实现 GPU、CPU、框架事件一体化观测,实现 AI 场景下端到端的性能诊断。阿里云智能集团技术专家、龙蜥社区智算基础设施联盟委员王鹏和常怀鑫联合带来了题为《ModelSight:端到端 AI 性能分析框架》的演讲。两位嘉宾分享了如何利用 ModelSight 对 235B 参数的 Qwen3 推理链路进行压测、热点定位与瓶颈可视化,并结合 TP/PP/EP 并行策略在 SGLang 框架中的落地,最终实现 2.12 倍性能提升。通过优化 SGLang overlap schedule,TTFT(首 Token 响应时间)平均提升 20%+。ModelSight 让 AI 性能分析更智能、更高效,助力企业迈向 AI 时代算力极致优化!

鸿钧微电子产品营销经理吴喆《鸿钧微电子开源社区实践》话题进行了深度分享。他介绍了鸿钧微电子基于 Arm Neoverse 平台的服务器 CPU 产品的规格特点与主要适配的应用场景,并详细阐述其开源社区策略:积极拥抱开源、服务社区;取之于社区,也回馈社区。基于龙蜥操作系统进行芯片验证、驱动适配与性能优化,并向 Linux kernel、Qemu 等社区贡献多项驱动与功能补丁。在应用层面,鸿旻处理器在内存数据库 (Redis,Memcached)、视频编解码 (X265)、大数据 (Spark、Flink) 等场景展现出卓越的性能与能效优势,助力 Arm 架构服务器在云计算、AI、大数据等领域实现突破。基于高效能 Arm Neoverse 平台的服务器 CPU,鸿钧微电子将持续推动开源协作与生态繁荣。

(图/吴喆)

KTransformers 专注于大语言模型的高效推理和微调,通过 CPU-GPU 异构计算实现资源受限环境下的大模型部署,探索 Arm CPU+GPU 平台下的本地极致推理和个性化微调方案。趋境科技技术专家、KTransformers 核心开发人员袁子为带来了题为《KTransformers:在 Arm CPU 上实现大模型异构推理》的主题演讲,就 KTransformers 的以下创新亮点进行了细致探讨:支持 DeepSeek、Qwen、GLM、LLaMa 等主流大模型,灵活适配多种硬件平台;创新“Expert Deferral”机制,推理吞吐提升 45%,精度无损;针对 Arm 架构深度优化,NUMA 亲和、SVE/SME 指令集加速,矩阵运算性能提升 1.5倍;支持 LoRA 微调,已集成进 Llama-Factory 和 SGLang,便于本地微调与多 GPU 加速。

(图/袁子为)

最后,安谋科技主任软件工程师刘亮亮就话题《llama.cpp 跨 NUMA 节点部署优化实践》展开详细探讨。刘亮亮介绍了 llama.cpp 在 Arm 架构服务器部署中跨 NUMA 节点的性能问题及优化方案。主要通过以下两种优化手段:通过“分治”优化 GGML barrier 大幅度减少跨 NUMA 节点原子操作;性能瓶颈 MUL_MAT 算子通过 dst_tensor=src0_tensor * wdata_tensor 进行 Tensor 的乘积操作,为了实现 MUL_MAT 算子的 NUMA 感知内存访问,避免跨 NUMA 内存访问。对其中的 src0 Tensor 以及 dst Tensor 进行内存分割,实现处在一个 NUMA 节点中的线程只访问本地 NUMA 内存。而 wdata Tensor 是通过在量化的时候同时在不同的 NUMA 节点计算成基于 NUMA 节点的多副本。该方案已在 Arm Neoverse N2 平台实测,实现了 S_TG t/s提升 55%,S t/s 提升 53.2%,内存带宽分布也更为均衡。

(图/刘亮亮)


最后,感谢本次活动各位嘉宾的精彩演讲,也感谢龙蜥社区伙伴及 Arm 工作人员:刘捷、蔡佳丽、吴永霞、倪俊雄(以上排名不分先后)等人的组织与配合,使得本次走进 Arm MeetUp 活动圆满结束。未来,期待龙蜥社区与 Arm 持续深化合作,在 AI 浪潮中共筑开放、创新、可持续的开源操作系统新生态!

本次 MeetUp 回顾视频及 PPT 后续会陆续上传至龙蜥官网,欢迎大家持续关注。

—— 完 ——

相关文章
|
tengine 运维 Kubernetes
阿里巴巴重磅开源云原生网关: Higress
Higress 源自阿里巴巴内部电商、交易等核心生产场景的实践沉淀,遵循 Ingress/Gateway API 标准,将流量网关、微服务网关、安全网关三合一,并在此基础上扩展了服务管理插件、安全类插件和自定义插件,高度集成 K8s 和微服务生态,包括 Nacos 注册和配置、Sentinel 限流降级等能力,并支持规则变更毫秒级生效等热更新能力。
阿里巴巴重磅开源云原生网关: Higress
|
9月前
|
存储 弹性计算 容灾
阿里云基础设施高可用最佳实践沙龙北京站圆满举办!
2025年3月19日,阿里云在北京举办高可用最佳实践沙龙,探讨云端业务连续性与架构设计。活动涵盖数据备份、故障切换、多活架构等主题,结合电商、金融等行业案例,分享高可用建设经验。专家强调,高可用不仅是技术命题,更是业务战略,助力企业实现“永不宕机”目标。系列沙龙将持续全国落地,推动企业云上容灾体系建设。
阿里云基础设施高可用最佳实践沙龙北京站圆满举办!
|
10月前
|
人工智能 云计算 数据中心
阿里云当选UALink联盟董事会成员,推进新一代GPU互连技术!
阿里云当选UALink联盟董事会成员,推进新一代GPU互连技术!
494 2
|
9月前
|
人工智能 智能设计 安全
2024云栖大会《设计的未来&未来的设计》全记录
2024云栖大会《设计的未来&未来的设计》全记录
|
人工智能 大数据 调度
【云栖2023】林伟:大数据AI一体化的解读
本文根据2023云栖大会阿里云研究员,阿里云计算平台事业部首席架构师,阿里云人工智能平台PAI和大数据开发治理平台DataWorks负责人---林伟演讲实录整理而成,演讲主题:”大数据AI一体化的解读“。
|
存储 人工智能 分布式计算
ALink System亮相CCF中国存储大会 凝聚Scale Up互连共识
在首届CCF中国存储大会上,阿里云服务器研发团队带来最新的UALink联盟进展,以及ALink System产业生态在国内的落地现状。
|
存储 弹性计算 人工智能
阿里云Alex Chen:普惠计算服务,助力企业创新
本文整理自阿里云弹性计算产品线、存储产品线产品负责人陈起鲲(Alex Chen)在2024云栖大会「弹性计算专场-普惠计算服务,助力企业创新」中的分享。在演讲中,他分享了阿里云弹性计算,如何帮助千行百业的客户在多样化的业务环境和不同的计算能力需求下,实现了成本降低和效率提升的实际案例。同时,基于全面升级的CIPU2.0技术,弹性计算全线产品的性能、稳定性等关键指标得到了全面升级。此外,他还宣布了弹性计算包括:通用计算、加速计算和容器计算的全新产品家族,旨在加速AI与云计算的融合,推动客户的业务创新。
107255 10
|
人工智能 弹性计算 编解码
GTC 2023 | 阿里云弹性计算团队专家演讲推荐
了解云上弹性磅礴算力背后的关键技术
GTC 2023 | 阿里云弹性计算团队专家演讲推荐
|
运维 资源调度 监控
阿里云天基斩获2022年度中国IDC产业创新发展奖
第十七届中国IDC 产业年度大典(IDCC2022)在北京国家会议中心召开,阿里云天基凭借领先的核心能力与创新技术,获得2022年度中国IDC产业创新发展奖。
1988 0
阿里云天基斩获2022年度中国IDC产业创新发展奖