CPU推理性能优化再上新台阶 阿里云斩获MLPerf最新榜单多项第一

简介: CPU推理性能优化再上新台阶,阿里云斩获MLPerf2022榜单多项第一

首图-图标.png

【阅读原文】戳:CPU推理性能优化再上新台阶 阿里云斩获MLPerf最新榜单多项第一


近日,全球权威AI基准评测组织MLCommons公布了最新一期推理性能榜单,阿里云震旦异构计算加速平台以其稳定、强大的软硬协同优化能力,结合磐久服务器M系列自研芯片和整体系统的领先性、RISC-V玄铁C906处理器功耗和指令集上的优势,分别在数据中心边缘计算和IoT领域的多项测试场景中获得最高分,其中阿里云磐久服务器M系列获得CPU领域提交数据性能第一,再次证明了在AI算力需求爆发增长时代下,软硬协同优化带来的业务价值,以及震旦平台优异的算力优化能力。

新-内页说明介绍组织.png


MLPerf是目前全球最具影响力的国际AI性能基准测试,用于测试机器学习模型和相应的软硬件系统协同工作性能,为行业从业人员衡量系统性能提供详细的数据参考。

●  2018年首次发布测试性能榜单之后,迅速得到了各大厂商、科研机构和高校的支持和参与。


●  2020年12月,开发MLPerf的各大厂商宣布成立非盈利组织MLCommons,每年交叉发布2次MLPerf™训练性能和2次MLPerf™推理性能榜单。


作为一个开源且基于同行相互审核的基准测试平台,MLPerf™为业界提供了一个公平公正的竞争平台。


2021年9月,阿里云震旦异构平台荣获MLPerf™推理V1.1边缘计算场景冠军,相比六个月前发布的推理性能V1.1榜单,此次V2.0榜单提交数据量呈现了40%以上的增长,其中部分系统依靠模型优化技术甚至达到了近倍性能提升,证明了软件栈优化在AI算力优化领域的巨大潜力




开放式全栈优化  数据中心边缘计算领域再续辉煌


近年来,各大厂商和机构性能数据提交竞争最激烈的是数据中心和边缘计算场景,其中封闭组对优化手段有明确限制,只能基于少数硬件平台提交数据,因此各家成绩差距不大,这就导致在开放规则组里的竞争异常激烈,包括阿里云在内的多家公司在模型优化方面展开竞争。

1.png

基于搭载自研ARM架构处理器的磐久服务器M系列,阿里云震旦异构计算加速平台利用模型优化工具SinianML进行了针对图像分类的神经网络架构搜索(Neural Architecture Search)和模型压缩,并通过震旦算子Autotune能力得到适配ARM架构处理器的最佳算子实现,在保证达到基准测试精度目标同时,能得到远高于标准ResNet50 v1.5的计算效率。


此外,震旦平台进行了多层次算子融合并对ARM架构处理器优化,从而大大提高了CPU算力利用率。依靠软硬协同优化,阿里云磐久服务器M系列成为MLPerf有史以来首个获得CPU Only推理性能第一的服务器,且单颗芯片的总体性能在数据中心和边缘侧均是第一。




端到端联合优化 IoT领域RISC-V处理器崭露头角


Tiny场景是MLPerf近年新增的性能测试分类,有别于Datacenter等大规模、高算力的情景,Tiny聚焦于低功耗、高性价比的IoT场景,用于展示各厂商在日益广泛的IoT智能应用场景下的软硬件性能和优化能力。在此次公布的MLPerf Tiny 0.7性能数据榜单中,震旦异构计算加速平台结合平头哥自研RISC-V玄铁C906处理器在MLPerf Tiny所有4项Benchmark上的CPU性能数据均是第一并大幅领先第二名

2.png

在MLPerf Tiny 0.7榜单上提交的性能数据是阿里巴巴不同业务软硬件综合优化的结果。硬件方面,平头哥自研RISC-V玄铁C906处理器和工具链提供了强大的硬实力;软件层面,阿里云震旦异构计算加速平台SinianML对各个benchmark的神经网络进行了压缩、蒸馏、伸缩、网络结构搜索等多方位的优化,在满足模型精度要求的同时,得到了远高于标准模型的计算效率,同时集成阿里IoT、蚂蚁IoT、达摩院语音实验室在各自领域的优化经验和能力,在细分领域进一步拓展优化。


今天,MLPerf™ 测试标准俨然已成为业界最权威的机器学习测试标准。在数据中心和边缘计算场景,提交的数据点成倍数增加;Tiny作为MLPerf的一个重要应用场景,补充完善了MLPerf在IoT场景性能测试的空缺,为IoT领域的AI应用提供了软件和硬件性能标杆。从参与者角度看,随着硬件性能红利不断逼近极限,越来越多的参与者正尝试通过优化模型和底层软件来达到更极致的推理速度。


阿里巴巴副总裁、阿里云基础设施负责人周明表示:

随着越来越多的业务迁移到阿里云,不同的业务特征对数据中心的计算资源造成越来越大的压力。高效挖掘计算效率,不仅能大幅降低数据中心资源和运行的开销,同时对阿里云碳中和目标也有很大的推动作用。阿里云震旦异构计算加速平台的软硬一体、全栈式深度优化将为当前数据中心的AI计算效率瓶颈找到一个重要突破口


作为MLCommons的创始会员,阿里云一直积极参与MLPerf性能测试数据的提交,并在此过程中不断总结和优化震旦异构计算加速平台。震旦异构计算加速平台已在阿里巴巴双11搜索推荐、菜鸟驿站、天猫精灵等云、边、端场景中应用,助力业务实现了数倍的效能和性价比提升


创立造为难悉数,新路苍海通方蓬!在日趋丰富的AI终端应用场景驱动下,阿里云震旦异构计算加速平台坚持软硬协同,不断推动技术创新,为云计算、人工智能和物联网打造了一个更加先进的算力基础设施!未来,平台还将通过阿里云对外提供产品和服务能力,赋能行业伙伴,为上层生态平台构建一个统一的算力资源池,优化终端应用场景的算力效率!



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~ 

相关文章
|
1月前
|
弹性计算 人工智能 Serverless
阿里云ACK One:注册集群云上节点池(CPU/GPU)自动弹性伸缩,助力企业业务高效扩展
在当今数字化时代,企业业务的快速增长对IT基础设施提出了更高要求。然而,传统IDC数据中心却在业务存在扩容慢、缩容难等问题。为此,阿里云推出ACK One注册集群架构,通过云上节点池(CPU/GPU)自动弹性伸缩等特性,为企业带来全新突破。
|
7月前
|
存储 固态存储 安全
阿里云4核CPU云服务器价格参考,最新收费标准和活动价格
阿里云4核CPU云服务器多少钱?阿里云服务器核数是指虚拟出来的CPU处理器的核心数量,准确来讲应该是vCPU。CPU核心数的大小代表了云服务器的运算能力,CPU越高,云服务器的性能越好。阿里云服务器1核CPU就是一个超线程,2核CPU2个超线程,4核CPU4个超线程,这样云服务器可以同时处理多个任务,计算性能更强。如果网站流程较小,少量图片展示的企业网站,建议选择2核及以上CPU;如果网站流量较大,动态页面比较多,有视频等,建议选择4核、8核以上CPU。
阿里云4核CPU云服务器价格参考,最新收费标准和活动价格
|
7月前
|
存储 弹性计算 固态存储
阿里云服务器CPU内存配置详细指南,如何选择合适云服务器配置?
阿里云服务器配置选择涉及CPU、内存、公网带宽和磁盘。个人开发者或中小企业推荐使用轻量应用服务器或ECS经济型e实例,如2核2G3M配置,适合低流量网站。企业用户则应选择企业级独享型ECS,如通用算力型u1、计算型c7或通用型g7,至少2核4G配置,公网带宽建议5M,系统盘可选SSD或ESSD云盘。选择时考虑实际应用需求和性能稳定性。
977 6
|
6月前
|
机器学习/深度学习 算法 开发工具
【YOLOv8量化】普通CPU上加速推理可达100+FPS
【YOLOv8量化】普通CPU上加速推理可达100+FPS
849 0
|
4月前
|
人工智能 云计算 数据中心
云计算演进问题之阿里云自研CPU倚天710的部署如何解决
云计算演进问题之阿里云自研CPU倚天710的部署如何解决
|
4月前
|
弹性计算 固态存储 ice
阿里云服务器2核16G、4核32G、8核64G配置不同ECS实例规格收费标准和CPU性能差异
2024年阿里云提供2核16G、4核32G及8核64G等多种服务器配置,用户可根据需求选择不同实例规格如内存型r8i、通用算力型u1等。以华北2(北京)为例,2核16G月费从286.2至385.99元不等;4核32G为572.4至771.97元;8核64G则在1144.8至1543.94元区间。公网带宽与系统盘(如ESSD云盘)亦有多样化选择与价格方案。长期租赁可享折扣,具体价格请访问阿里云官网确认。
167 7
|
5月前
|
存储 弹性计算 固态存储
阿里云服务器CPU内存配置怎么选?ECS实例规格有啥区别?
阿里云服务器配置选择需考虑ECS实例规格、CPU内存、公网带宽与系统盘。个人开发者或中小企业推荐轻量应用服务器或ECS经济型e实例(2核2G3M带宽,99元/年),适合搭建低流量网站。企业用户应选择企业级独享型如通用算力型u1、计算型c7或通用型g7实例,至少2核4G内存起,推荐5M公网带宽以平衡成本与性能。系统盘推荐ESSD云盘以获得更好的性能。更多详情及链接参见原文。
119 3
|
5月前
|
存储 弹性计算 程序员
新手程序员如何阿里云服务器配置?新人开发者CPU内存带宽存储怎么选?
对于新手开发者、个人或学生选择阿里云服务器,推荐ECS经济型e实例(ecs.e-c1m1.large),适用于小型网站或轻量应用。配置2核2G内存、3M固定带宽、40G ESSD系统盘,仅99元/年且续费同价。
|
5月前
|
缓存 弹性计算 数据库
阿里云2核4G服务器支持多少人在线?程序效率、并发数、内存CPU性能、公网带宽多因素
2核4G云服务器支持的在线人数取决于多种因素:应用效率、并发数、内存、CPU、带宽、数据库性能、缓存策略、CDN和OSS使用,以及用户行为和系统优化。阿里云的ECS u1实例2核4G配置,适合轻量级应用,实际并发量需结合具体业务测试。
87 0
阿里云2核4G服务器支持多少人在线?程序效率、并发数、内存CPU性能、公网带宽多因素
|
6月前
|
弹性计算 安全 前端开发
阿里云服务器ECS通用型、计算型和内存实例区别、CPU型号、性能参数表
阿里云ECS实例有计算型(c)、通用型(g)和内存型(r)系列,区别在于CPU内存比。计算型1:2,如2核4G;通用型1:4,如2核8G;内存型1:8,如2核16G。实例有第五代至第八代,如c7、g5、r8a等,每代CPU型号和主频提升。例如,c7使用Intel Ice Lake,g7支持虚拟化Enclave。实例性能参数包括网络带宽、收发包能力、IOPS等,适合不同场景,如视频处理、游戏、数据库等
174 0