OCP China Day 2022:vODLA异构计算资源池化技术架构和实践

简介: OCP会议信息8月10日,由OCP社区主办、浪潮信息承办的OCP China Day 2022(开发计算中国技术峰会)在北京举行。开放计算正式成为当前及至未来数据中心的创新主力,通过全球化协作的创新模式,解决数据中心基础设施可持续发展的重大问题。OCP China Day作为开放计算领域生态覆盖最广且最具影响力的亚洲最大年度技术峰会,迄今已经成功举办4届。本届峰会以“开放.向未来:绿色、融合、赋能

OCP会议信息

8月10日,由OCP社区主办、浪潮信息承办的OCP China Day 2022(开发计算中国技术峰会)在北京举行。

开放计算正式成为当前及至未来数据中心的创新主力,通过全球化协作的创新模式,解决数据中心基础设施可持续发展的重大问题。OCP China Day作为开放计算领域生态覆盖最广且最具影响力的亚洲最大年度技术峰会,迄今已经成功举办4届。

本届峰会以“开放.向未来:绿色、融合、赋能”为主题,汇聚来自OCP Foundation、浪潮信息、Intel、Meta、三星、西部数据、燧原科技、NVIDIA、微软、阿里云、百度、腾讯云、清华大学等30多家知名公司、高校与研究机构的专家学者,聚焦数据中心基础设施创新、可持续发展以及产业生态等话题。

vODLA异构计算资源池化技术架构和实践 

本次OCP会上阿里云异构计算和编译团队分享了基于阿里云震旦异构计算平台的资源池化技术vODLA的架构和实践。这个也是继承OCP 2021分享的震旦异构计算平台的轻量级AI异构计算编译框架(HALO)和异构硬件统一接口规范(ODLA)相关内容的延续。

在本次OCP大会上,我们重点把vODLA池化的面向算力的用户界面、pod业务与集群调度协同的基础架构进行了交流。本次也恰好遇到腾讯TKE的同学,和他们探讨了一下不同虚拟化的集群调度技术。

ODLA算力技术栈和vODLA池化方案介绍 

  • 如下图左边是异构AI全本技术,震旦异构计算平台(HALO+ODLA)其主要功能是向上屏蔽AI框架差异、向下屏蔽异构算力差异。同时做一些硬件感知等编译优化。
  • 如下图的右边是本次重点介绍的面向算力的用户界面,为了实现屏蔽资源虚拟化和算力的差异,我们基于震旦异构计算平台设计了下图右边的vODLA资源池化软件栈,实现了单机更加好的弹性伸缩,并且以算力的方式给用户呈现,降低了AI的入门门槛。

vODLA算力池化整体架构 

  • vODLA池化基础设施是在AI技术栈中处于芯片之上AI框架之下的软硬件协同方案。
  • vODLA技术特点:
    • 通过池化架构,算力流动实现了“一个架构,边云部署”。
    • 通过统一API,支持多种算力硬件,实现了“一套接口,多种算力”。
    • 通过集群形态统一,训练和推理混合部署,实现“一种集群,大小算力”。
    • 通过算力多级虚拟,支持多厂家AI芯片,实现“一个设备,多种芯片”。

vODLA Auto-turning池化智慧调度技术 

通过k8s资源扩展技术,基于CRDs对算力和虚拟化能力进行详细描述,pod内的算力自适应可以查询、创建和删除CRD资源,并且还能实现接收metrics数据,从而实现反馈优化,做到pod业务和集群调度的协同或者HALO编译器可以实现感知资源拓扑的优化能力。

vODLA池化共建项目的实践 

介绍了和某客户共建项目的成果,分享了基础流程。

ODLA池化MLPerf打榜情况 

通过设计单机多卡的弹性伸缩能力的MLPerf用例,证明池化技术的性能损耗可以在1%以内,线性度可以控制在1左右。

vODLA池化技术演进 

介绍了震旦异构计算的开源平台,表达通过vODLA池化技术做强开源生态的意愿,分享后续演进策略。

参考文档:

  1. OCP China Day 2022官网宣传介绍
  2. 2021年云栖大会《AI算力池化技术创新研究与应用》

相关文章
|
12天前
|
搜索推荐 NoSQL Java
微服务架构设计与实践:用Spring Cloud实现抖音的推荐系统
本文基于Spring Cloud实现了一个简化的抖音推荐系统,涵盖用户行为管理、视频资源管理、个性化推荐和实时数据处理四大核心功能。通过Eureka进行服务注册与发现,使用Feign实现服务间调用,并借助Redis缓存用户画像,Kafka传递用户行为数据。文章详细介绍了项目搭建、服务创建及配置过程,包括用户服务、视频服务、推荐服务和数据处理服务的开发步骤。最后,通过业务测试验证了系统的功能,并引入Resilience4j实现服务降级,确保系统在部分服务故障时仍能正常运行。此示例旨在帮助读者理解微服务架构的设计思路与实践方法。
60 16
|
13天前
|
存储 消息中间件 小程序
转转平台IM系统架构设计与实践(一):整体架构设计
本文描述了转转IM为整个平台提供的支撑能力,给出了系统的整体架构设计,分析了系统架构的特性。
55 10
|
15天前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器ECS架构区别及选择参考:X86计算、ARM计算等架构介绍
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下这些架构各自的主要性能及适用场景,以便大家了解不同类型的架构有何不同,主要特点及适用场景有哪些。
|
1月前
|
弹性计算 Java 关系型数据库
Web应用上云经典架构实践教学
Web应用上云经典架构实践教学
Web应用上云经典架构实践教学
|
19天前
|
负载均衡 Serverless 持续交付
云端问道9期实践教学-省心省钱的云上Serverless高可用架构
详细介绍了云上Serverless高可用架构的一键部署流程
47 10
|
20天前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
21天前
|
运维 监控 安全
天财商龙:云上卓越架构治理实践
天财商龙成立于1998年,专注于为餐饮企业提供信息化解决方案,涵盖点餐、收银、供应链和会员系统等。自2013年起逐步实现业务上云,与阿里云合作至今已十年。通过采用阿里云的WA体系,公司在账号管理、安全保障、监控体系和成本管控等方面进行了全面优化,提升了业务稳定性与安全性,并实现了显著的成本节约。未来,公司将持续探索智能化和全球化发展,进一步提升餐饮行业的数字化水平。
|
21天前
|
运维 安全 架构师
架构师工具箱:Well-Architected云治理提效实践
本次分享基于阿里云Well-Architected Framework的最佳实践案例,涵盖企业从上云到优化的全过程。安畅作为国内领先的云管理服务提供商(Cloud MSP),拥有800多名员工,其中70%为技术工程师,为企业提供架构安全、数据智能等技术服务。内容包括Landing Zone与Well-Architected的关系、企业云治理现状及需求分析,重点探讨了安全合规、成本优化、资源稳定性和效率提升等方面的最佳实践,并通过具体客户案例展示了如何通过自动化工具和定制化解决方案帮助企业提升云上业务价值。
|
1月前
|
存储 机器学习/深度学习 人工智能
【AI系统】计算图优化架构
本文介绍了推理引擎转换中的图优化模块,涵盖算子融合、布局转换、算子替换及内存优化等技术,旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用,显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案,包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外,文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现,展示了如何通过图优化提高模型推理性能的具体示例。
63 4
【AI系统】计算图优化架构
|
1月前
|
机器学习/深度学习 人工智能 API
【AI系统】昇腾异构计算架构 CANN
本文介绍了昇腾 AI 异构计算架构 CANN,涵盖硬件层面的达·芬奇架构和软件层面的全栈支持,旨在提供高性能神经网络计算所需的硬件基础和软件环境。通过多层级架构,CANN 实现了高效的 AI 应用开发与性能优化,支持多种主流 AI 框架,并提供丰富的开发工具和接口,助力开发者快速构建和优化神经网络模型。
56 1

热门文章

最新文章