ARM 推出全新 CPU 和 GPU:首次基于 Armv9 指令集,性能显著提升

简介: ARM 推出全新 CPU 和 GPU:首次基于 Armv9 指令集,性能显著提升

5 月 25 日晚,ARM 推出了新一代 CPU 和 GPU,包括其旗舰产品 Cortex-X2 和 Cortex-A710 CPU 以及 Mali-G710 GPU,新款 CPU 和 GPU 均基于全新的 Armv9 架构。Armv9 指令集于今年 3 月底发布,被称为「ARM 十年来最大的革新与进步」。这次发布的 CPU 和 GPU 是首批使用 Armv9 指令集的芯片,这意味着其性能将有大幅提升,并且具备安全性和 AI 特性。

大多数消费者可能并不熟悉手机或电脑中的 ARM 内核,但事实上 ARM 的设计——尤其是将强大的高性能内核和节能高效的内核相结合的 big.LITTLE 技术,在安卓手机中非常普遍。这意味着 ARM 此次发布的 CPU 和 GPU 将可能影响 2022 年最好的安卓手机。


重磅发布三款 CPU,性能能效显著提升

Arm 今年推出了三款面向移动设备和客户端的新一代微体系结构:旗舰级 Cortex-X2 内核,以 Cortex-A710 形式亮相的 A78 后续产品,还有名为 Cortex-A510 的全新小核心yy.pngCortex-X2 是 Arm Cortex-X 定制计划的一部分,该计划允许合作伙伴帮助设计特定用例的专用内核。Cortex-X2 是去年 Cortex-X1 的继任者,其性能相比 Cortex-X1 有望提高 16%。

Cortex-A710 是 Cortex-A78 的后续产品,ARM 表示其能效相比 A78 有 30% 的提升,性能提升 10%。

不过,ARM 此次芯片升级并未局限于性能内核。在 Cortex-A55 诞生四年后,ARM 首次引入了新的 “LITTLE” 高效内核 Cortex-A510,用于替代自 2017 年推出以来主要用于手机端的 Cortex-A55 设计。ARM 表示 Cortex-A510 将带来最大的性能飞跃:性能提升 30%,能效提升 20%。

除了三款 CPU 以外,ARM 此次还公布了新一代 CPU 集群组合方式。

yy.png

与 ARM 8.2 相比,新一代集群组合(一个 Cortex-X2、3 个 Cortex-A710 内核、4 个 Cortex-A510 内核)的性能将出现大幅提升:峰值性能提升 30%(得益于 Cortex-X2),整体效率提升 30%(得益于 Cortex-A710),「LITTLE」性能提升 35%(得益于 Cortex-A510)。


GPU 升级,覆盖低中高端产品线

在 CPU 更新之外,ARM 还推出了三款新型 GPU:旗舰产品 Mali-G710,中端产品 Mali-G510 和入门级 Mali-G310。

yy.png

在高端产品方面,Mali-G710 是 Mali-G78 的直接继承者,旨在实现较为简单直接的迭代改进:ARM 的架构师能够基于 Mali GPU 实现最高性能。新款 GPU Mali-G710 将游戏性能提升了 20%,能效提升 20%。

Mali-G510 是 2019 年 Mali-G57 的后继产品,是 ARM 中端产品的重大升级,相较于上一代产品实现了极大的性能和能效提升(性能提升 100%,能效提升 22%)。

而新款 Mali-G310 是基于 Valhall 的新型低端入门级产品,代表了基于 Bifrost 的 Mali-G31 的多代架构升级,且瞄准了以低面积效率为重点的市场和其他嵌入式市场,如智能电视。

结语

ARM 此次发布为广泛的用例提供了多种芯片设计。例如计算机可能更依赖于 Cortex-X2 处理器和独立的 GPU 解决方案,智能手机则较依赖 ARM 的 CPU 集群和 Mali-G710 GPU,此外还有使用 Cortex-A510 和 Mali-G310 的智能手表。

新的 ARM 设计出现在手机或设备上还需要一段时间:ARM 仍然需要先将设计交给合作伙伴,然后由合作伙伴制造出半导体产品(通常在年底宣布),之后这些芯片才能进入手机制造环节。

因此,新款 ARM CPU 和 GPU 设计出现在手机设备中可能要等到 2022 年初了,这还是在全球半导体产品短缺不会进一步推迟明年产品的假设下。但ARM 的最新 CPU 和 GPU 设计仍然是智能手机未来发展的一次令人兴奋的预演。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
弹性计算 人工智能 Serverless
阿里云ACK One:注册集群云上节点池(CPU/GPU)自动弹性伸缩,助力企业业务高效扩展
在当今数字化时代,企业业务的快速增长对IT基础设施提出了更高要求。然而,传统IDC数据中心却在业务存在扩容慢、缩容难等问题。为此,阿里云推出ACK One注册集群架构,通过云上节点池(CPU/GPU)自动弹性伸缩等特性,为企业带来全新突破。
|
7月前
|
存储 机器学习/深度学习 数据库
阿里云服务器X86/ARM/GPU/裸金属/超算五大架构技术特点、场景适配参考
在云计算技术飞速发展的当下,云计算已经渗透到各个行业,成为企业数字化转型的关键驱动力。选择合适的云服务器架构对于提升业务效率、降低成本至关重要。阿里云提供了多样化的云服务器架构选择,包括X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器以及高性能计算等。本文将深入解析这些架构的特点、优势及适用场景,以供大家了解和选择参考。
1207 61
|
8月前
|
存储 机器学习/深度学习 算法
阿里云X86/ARM/GPU/裸金属/超算等五大服务器架构技术特点、场景适配与选型策略
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别。本文将深入解析这些架构的特点、优势及适用场景,帮助用户更好地根据实际需求做出选择。
|
监控 异构计算
Jetson 学习笔记(八):htop查看CPU占用情况和jtop监控CPU和GPU
在NVIDIA Jetson平台上使用htop和jtop工具来监控CPU、GPU和内存的使用情况,并提供了安装和使用这些工具的具体命令。
1165 0
|
11月前
|
机器学习/深度学习 边缘计算 PyTorch
PyTorch团队为TorchAO引入1-8比特量化,提升ARM平台性能
PyTorch团队推出创新技术,在其低精度计算库TorchAO中引入低位运算符支持,实现1至8位精度的嵌入层权重量化及8位动态量化激活的线性运算符。该技术通过模块化设计和高效硬件利用,优化了资源受限环境下的深度学习计算,提升了计算效率并降低了资源消耗。新内核与PyTorch生态系统无缝集成,支持即时执行、编译优化及边缘计算,为开发者提供全方位性能优势。测试结果显示,多层次量化策略显著提升了计算效率,保持了模型精度。这一突破为深度学习框架优化开辟了多个研究方向,推动了人工智能在边缘计算等领域的广泛应用。
426 11
PyTorch团队为TorchAO引入1-8比特量化,提升ARM平台性能
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器架构有啥区别?X86计算、Arm、GPU异构、裸金属和高性能计算对比
阿里云ECS涵盖x86、ARM、GPU/FPGA/ASIC、弹性裸金属及高性能计算等多种架构。x86架构采用Intel/AMD处理器,适用于广泛企业级应用;ARM架构低功耗,适合容器与微服务;GPU/FPGA/ASIC专为AI、图形处理设计;弹性裸金属提供物理机性能;高性能计算则针对大规模并行计算优化。
903 7
|
11月前
|
人工智能 前端开发 测试技术
为RTP-LLM提供Arm CPU后端,助力Arm
本次主题是为 RTP LLM 提供 Arm CPU 后端,助力 Arm AI 软件生态持续发展。随着大语言模型(LLM)的普及与应用, AI 计算需求快速增长。许多 LLM 模型运行在基于 GPU 的硬件上,而随着 Arm 架构不仅在边缘设备,而且在数据中心领域也愈发流行,如何让 RTP LLM (实时推理框架)有效支持 Arm CPU 平台变得尤为重要。通过优化 LLM 在 Arm 平台的推理性能,可以进一步提升功耗效率和模型部署的灵活性。
484 0
|
机器学习/深度学习 人工智能 并行计算
CPU和GPU的区别
【10月更文挑战第14天】
|
机器学习/深度学习 人工智能 缓存
GPU加速和CPU有什么不同
【10月更文挑战第20天】GPU加速和CPU有什么不同
569 1

热门文章

最新文章