PyTorch宣布支持苹果M1芯片GPU加速：训练快6倍，推理提升21倍-阿里云开发者社区

PyTorch宣布支持苹果M1芯片GPU加速：训练快6倍，推理提升21倍

2023-05-16 2187

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： PyTorch宣布支持苹果M1芯片GPU加速：训练快6倍，推理提升21倍

今年 3 月，苹果发布了其自研 M1 芯片的最终型号 M1 Ultra，它由 1140 亿个晶体管组成，是有史以来个人计算机中最大的数字。苹果宣称只需 1/3 的功耗，M1 Ultra 就可以实现比桌面级 GPU RTX 3090 更高的性能。

随着用户数量的增长，人们已经逐渐接受使用 M1 芯片的计算机，但作为一款 Arm 架构芯片，还有人在担心部分任务的兼容性问题。

昨天，通过与苹果 Metal 团队工程师合作，PyTorch 官方宣布已正式支持在 M1 版本的 Mac 上进行 GPU 加速的 PyTorch 机器学习模型训练。

此前，Mac 上的 PyTorch 训练仅能利用 CPU，但随着即将发布的 PyTorch v1.12 版本，开发和研究人员可以利用苹果 GPU 大幅度加快模型训练。现在，人们可以在 Mac 上相对高效地执行机器学习工作，例如在本地进行原型设计和微调。

苹果芯片的 AI 训练优势

PyTorch GPU 训练加速是使用苹果 Metal Performance Shaders (MPS) 作为后端来实现的。MPS 后端扩展了 PyTorch 框架，提供了在 Mac 上设置和运行操作的脚本和功能。MPS 使用针对每个 Metal GPU 系列的独特特性进行微调的内核能力来优化计算性能。新设备将机器学习计算图和原语映射到 MPS Graph 框架和 MPS 提供的调整内核上。

每台搭载苹果自研芯片的 Mac 都有着统一的内存架构，让 GPU 可以直接访问完整的内存存储。PyTorch 官方表示，这使得 Mac 成为机器学习的绝佳平台，让用户能够在本地训练更大的网络或批大小。

这降低了与基于云算力的开发相关的成本或对额外的本地 GPU 算力需求。统一内存架构还减少了数据检索延迟，提高了端到端性能。

可以看到，与 CPU 基线相比，GPU 加速实现了成倍的训练性能提升：

上图是苹果于 2022 年 4 月使用配备 Apple M1 Ultra（20 核 CPU、64 核 GPU）128GB 内存，2TB SSD 的 Mac Studio 系统进行测试的结果。系统为 macOS Monterey 12.3、预发布版 PyTorch 1.12，测试模型为 ResNet50（batch size = 128）、HuggingFace BERT（batch size = 64）和 VGG16（batch size = 64）。性能测试是使用特定的计算机系统进行的，反映了 Mac Studio 的大致性能。

有开发者推测，鉴于谷歌云服务中使用的英伟达 T4 在 FP32 任务上的浮点性能为 8 TFLOPS，而 M1 Ultra 的图形计算能力大概在 20 TFLOPS 左右。在最有利情况下，可以期望的 M1 Ultra 速度提升或可达到 2.5 倍。