OCP China Day 2022:vODLA异构计算资源池化技术架构和实践

简介: OCP会议信息8月10日,由OCP社区主办、浪潮信息承办的OCP China Day 2022(开发计算中国技术峰会)在北京举行。开放计算正式成为当前及至未来数据中心的创新主力,通过全球化协作的创新模式,解决数据中心基础设施可持续发展的重大问题。OCP China Day作为开放计算领域生态覆盖最广且最具影响力的亚洲最大年度技术峰会,迄今已经成功举办4届。本届峰会以“开放.向未来:绿色、融合、赋能

OCP会议信息

8月10日,由OCP社区主办、浪潮信息承办的OCP China Day 2022(开发计算中国技术峰会)在北京举行。

开放计算正式成为当前及至未来数据中心的创新主力,通过全球化协作的创新模式,解决数据中心基础设施可持续发展的重大问题。OCP China Day作为开放计算领域生态覆盖最广且最具影响力的亚洲最大年度技术峰会,迄今已经成功举办4届。

本届峰会以“开放.向未来:绿色、融合、赋能”为主题,汇聚来自OCP Foundation、浪潮信息、Intel、Meta、三星、西部数据、燧原科技、NVIDIA、微软、阿里云、百度、腾讯云、清华大学等30多家知名公司、高校与研究机构的专家学者,聚焦数据中心基础设施创新、可持续发展以及产业生态等话题。

vODLA异构计算资源池化技术架构和实践 

本次OCP会上阿里云异构计算和编译团队分享了基于阿里云震旦异构计算平台的资源池化技术vODLA的架构和实践。这个也是继承OCP 2021分享的震旦异构计算平台的轻量级AI异构计算编译框架(HALO)和异构硬件统一接口规范(ODLA)相关内容的延续。

在本次OCP大会上,我们重点把vODLA池化的面向算力的用户界面、pod业务与集群调度协同的基础架构进行了交流。本次也恰好遇到腾讯TKE的同学,和他们探讨了一下不同虚拟化的集群调度技术。

ODLA算力技术栈和vODLA池化方案介绍 

  • 如下图左边是异构AI全本技术,震旦异构计算平台(HALO+ODLA)其主要功能是向上屏蔽AI框架差异、向下屏蔽异构算力差异。同时做一些硬件感知等编译优化。
  • 如下图的右边是本次重点介绍的面向算力的用户界面,为了实现屏蔽资源虚拟化和算力的差异,我们基于震旦异构计算平台设计了下图右边的vODLA资源池化软件栈,实现了单机更加好的弹性伸缩,并且以算力的方式给用户呈现,降低了AI的入门门槛。

vODLA算力池化整体架构 

  • vODLA池化基础设施是在AI技术栈中处于芯片之上AI框架之下的软硬件协同方案。
  • vODLA技术特点:
    • 通过池化架构,算力流动实现了“一个架构,边云部署”。
    • 通过统一API,支持多种算力硬件,实现了“一套接口,多种算力”。
    • 通过集群形态统一,训练和推理混合部署,实现“一种集群,大小算力”。
    • 通过算力多级虚拟,支持多厂家AI芯片,实现“一个设备,多种芯片”。

vODLA Auto-turning池化智慧调度技术 

通过k8s资源扩展技术,基于CRDs对算力和虚拟化能力进行详细描述,pod内的算力自适应可以查询、创建和删除CRD资源,并且还能实现接收metrics数据,从而实现反馈优化,做到pod业务和集群调度的协同或者HALO编译器可以实现感知资源拓扑的优化能力。

vODLA池化共建项目的实践 

介绍了和某客户共建项目的成果,分享了基础流程。

ODLA池化MLPerf打榜情况 

通过设计单机多卡的弹性伸缩能力的MLPerf用例,证明池化技术的性能损耗可以在1%以内,线性度可以控制在1左右。

vODLA池化技术演进 

介绍了震旦异构计算的开源平台,表达通过vODLA池化技术做强开源生态的意愿,分享后续演进策略。

参考文档:

  1. OCP China Day 2022官网宣传介绍
  2. 2021年云栖大会《AI算力池化技术创新研究与应用》

相关文章
|
2月前
|
数据采集 监控 API
移动端性能监控探索:iOS RUM SDK 技术架构与实践
阿里云 RUM SDK 作为一款性能体验监控采集工具,可以作为辅助 App 运维的强有力助手,提升您的问题排查效率。
251 24
|
2月前
|
存储 运维 分布式计算
零售数据湖的进化之路:滔搏从Lambda架构到阿里云Flink+Paimon统一架构的实战实践
在数字化浪潮席卷全球的今天,传统零售企业面临着前所未有的技术挑战和转型压力。本文整理自 Flink Forward Asia 2025 城市巡回上海站,滔搏技术负责人分享了滔搏从传统 Lambda 架构向阿里云实时计算 Flink 版+Paimon 统一架构转型的完整实战历程。这不仅是一次技术架构的重大升级,更是中国零售企业拥抱实时数据湖仓一体化的典型案例。
217 0
|
3月前
|
数据采集 运维 数据可视化
AR 运维系统与 MES、EMA、IoT 系统的融合架构与实践
AR运维系统融合IoT、EMA、MES数据,构建“感知-分析-决策-执行”闭环。通过AR终端实现设备数据可视化,实时呈现温度、工单等信息,提升运维效率与生产可靠性。(238字)
|
3月前
|
数据采集 存储 运维
MyEMS:技术架构深度剖析与用户实践支持体系
MyEMS 是一款开源能源管理系统,采用分层架构设计,涵盖数据采集、传输、处理与应用全流程,支持多协议设备接入与多样化能源场景。系统具备高扩展性与易用性,结合完善的文档、社区、培训与定制服务,助力不同技术背景用户高效实现能源数字化管理,降低使用门槛与运维成本,广泛适用于工业、商业及公共机构等场景。
164 0
|
2月前
|
存储 SQL 消息中间件
从 ClickHouse 到 StarRocks 存算分离: 携程 UBT 架构升级实践
查询性能实现从秒级到毫秒级的跨越式提升
|
3月前
|
消息中间件 缓存 监控
中间件架构设计与实践:构建高性能分布式系统的核心基石
摘要 本文系统探讨了中间件技术及其在分布式系统中的核心价值。作者首先定义了中间件作为连接系统组件的"神经网络",强调其在数据传输、系统稳定性和扩展性中的关键作用。随后详细分类了中间件体系,包括通信中间件(如RabbitMQ/Kafka)、数据中间件(如Redis/MyCAT)等类型。文章重点剖析了消息中间件的实现机制,通过Spring Boot代码示例展示了消息生产者的完整实现,涵盖消息ID生成、持久化、批量发送及重试机制等关键技术点。最后,作者指出中间件架构设计对系统性能的决定性影响,
|
3月前
|
机器学习/深度学习 人工智能 vr&ar
H4H:面向AR/VR应用的NPU-CIM异构系统混合卷积-Transformer架构搜索——论文阅读
H4H是一种面向AR/VR应用的混合卷积-Transformer架构,基于NPU-CIM异构系统,通过神经架构搜索实现高效模型设计。该架构结合卷积神经网络(CNN)的局部特征提取与视觉Transformer(ViT)的全局信息处理能力,提升模型性能与效率。通过两阶段增量训练策略,缓解混合模型训练中的梯度冲突问题,并利用异构计算资源优化推理延迟与能耗。实验表明,H4H在相同准确率下显著降低延迟和功耗,为AR/VR设备上的边缘AI推理提供了高效解决方案。
466 0
|
边缘计算 Kubernetes 物联网
Kubernetes 赋能边缘计算:架构解析、挑战突破与实践方案
在物联网和工业互联网快速发展的背景下,边缘计算凭借就近处理数据的优势,成为解决云计算延迟高、带宽成本高的关键技术。而 Kubernetes 凭借统一管理、容器化适配和强大生态扩展性,正逐步成为边缘计算的核心编排平台。本文系统解析 Kubernetes 适配边缘环境的架构分层、核心挑战与新兴解决方案,为企业落地边缘项目提供实践参考。
368 0
|
2月前
|
Cloud Native Serverless API
微服务架构实战指南:从单体应用到云原生的蜕变之路
🌟蒋星熠Jaxonic,代码为舟的星际旅人。深耕微服务架构,擅以DDD拆分服务、构建高可用通信与治理体系。分享从单体到云原生的实战经验,探索技术演进的无限可能。
微服务架构实战指南:从单体应用到云原生的蜕变之路