超越英伟达V100,这家以色列公司发布了挑战GPU的AI训练芯片

简介: 6 月 17 日,以色列芯片公司 Habana.ai 发布了 Gaudi HL-2000,这是一款定制化 AI 处理器。该公司称,全新的 Gaudi 处理器性能超过了目前在训练神经网络任务中最为强大的英伟达 Tesla V100——而且性能是后者的近四倍。

昨天,在北京举行的人工智能大会(O'Reilly AI Conference)上,Habana 向我们详细介绍了新产品的特性。


ED20033C-D8FA-4713-8B86-4496734D234F.jpeg

Habana Labs 首席商务官 Eitan Medina 在活动中向我们介绍了 Habana 的强大技术。


在这块芯片之上,Habana 也推出了 PCIe 4.0 接口板卡,以及一台 8 处理器的服务器。Habana 表示,这些设备可以成为训练超大规模数据集的基础。


Gaudi 并不是 Habana 在人工智能芯片上的第一次尝试。这家芯片公司成立于 2016 年,在去年 9 月,Habana 曾推出名为 Goya 的人工智能推理芯片,并已拥有很多客户。而在去年 11 月,Habana 完成了价值 7500 万美元的 B 轮融资,英特尔是其领投方。


领先的推理芯片 Goya


去年 9 月,Habana 公司推出的 Goya 人工智能芯片着实吸引了一把眼球。其在 ResNet-50 上,四倍于英伟达 Tesla T4 的处理性能,两倍的能耗比,仅仅 1.01ms 的处理延迟让人们感受了 ASIC 的强大能力。


「我们在 2018 年 9 月发布了推理芯片 Goya,并于年底将产品推向用户。在九个月后的现在,这款产品仍然是在市场上领先的。」Habana Labs 首席商务官 Eitan Medina 表示。


6DA1CFC3-FFCC-4838-BAF9-4A73E4892528.jpeg

Habana 拿出了英伟达在 GTC 上经常使用的比较方式:与目前最强劲的 GPU 相比,8 块 Tesla V100 的算力相当于 169 个传统 CPU————而相同情况下只需要 3 块 Goya 计算卡就能完成任务。


为何在更小的功耗下,Habana 的芯片有着更强的机器学习算力?答案在于架构。「CPU 和 GPU 的架构是以解决和深度学习完全不同的任务为导向构建的,CPU 面向通用计算,GPU 面向图形处理,」Habana 首席商务官 Eitan Medina 介绍道。「在人工智能方面,GPU 的成功几乎是『偶然』的,因为它具有更高的并行度。然而如果你从零开始,观察神经网络的特性的话,投入足够精力,你就可以获得一个更好的架构。」这就是 Habana 正在做的事。


Goya 是一种采用 PCIe 4.0 接口的计算卡,双槽位,全高全长,可以直接兼容现有服务器的接口,带来更强算力。Habana 表示,目前该公司已经获得了 20 余个客户,这些公司正在评估这种新类型的芯片。


可以「无限扩展」的 AI 训练芯片 Gaudi


人工智能的训练任务需要使用大型数据集,让模型经过前向传播、反向传播不断更新权重,从而让算法展现出「智力」。在训练模型时我们需要着重考虑准确度,同时存在大量数据吞吐及并行化的运算。


而在深度学习的推断/预测时,模型通常只需要使用前向传播,延迟成为了关注的重点。


不同的需求意味着只有使用不同种类的芯片才能在两个方面都实现高效率。目前,人们通常使用 CPU 处理推断任务,GPU 用于训练,英伟达的 GPU 很长一段时间是不分训练和推理的,但现在也有了 Tesla T4 这样专攻推理的芯片。


Habana 很早意识到了这一点,所以其产品线分为推理和训练。


最近推出的 Gaudi 芯片专门用于深度学习模型的训练,采用台积电 16nm 制程。在 ResNet-50 模型的训练中,其每秒可以处理 1650 张图片(batch = 64)。在完整服务器系统条件下的对比中,同为 650 个处理器,Gaudi 的处理能力是英伟达 Tesla V100 的 3.8 倍。


CD611979-7A07-4B25-A877-B4C20AB3D932.png


这并不是 Gaudi 唯一的优势,Habana 花费大量时间介绍了其芯片使用以太网互联的优势。「我们认为芯片之间最好的连接方式是 RDMA,它最早只出现在 Infinite Band 中,现在已能用于标准的以太网环境中了。」Medina 表示。


Gaudi 是今天唯一的,可以在芯片里集成 RDMA 的芯片。而且 Gaudi 中集成了 10 个 100GbE 带宽的 RoCE RDMA 以太网端口。这意味着 Habana 的用户可以用常规以太网环境实现扩展。这非常特别,因为其它厂商都在用特殊的连接方式,而 Gaudi 使用的是通用的以太网环境。


A4E2B8B2-5FA1-4F16-BD39-38C95CECF6D3.png

相比之下,英伟达的 Tesla V100 只有 1 个 100 Gb RDMA Nic,还需要有 PCIE Switch 进行互连——而 Habana 的产品把网络端口集成在芯片内,可以实现更强的并行化。


并行处理就是在训练过程中把任务分解到每个处理器上,再通过高速网络把运算结果联系到一起。Habana 的芯片通过以太网链接可以实现树状结构的层级化,达到接近完美的吞吐效率。


「DGX-2 的 NVLink 端口扩展性有限,最大支持 16 块 GPU 的并行处理,而 Gaudi 可以支持对外的互联,做到几百块处理器的并行化。」Medina 说道。


0ADF392B-6F80-420E-8D02-4D4E797C02E3.jpeg

在大规模并行运算的情况下,Gaudi 可以实现 Tesla V100 接近四倍的性能。Habana 称,在单卡情况下 Gaudi 的处理速度也有 Tesla V100 的 2.7 倍,而功耗仅为后者的一半。


在 Gaudi 与 Goya 芯片推出之后,Habana 已经拥有了人工智能商业化芯片的完整解决方案。


「从零开始设计芯片」


Habana 的深度学习处理架构被称为 Tensor Processor Core(TPC),而 Goya 芯片中还集成了 GEMM 矩阵乘加单元,这可以让 Goya 处理不同类型的模型。


这家公司的开发者们认为,人工智能芯片要在计算能力和延迟上都表现完美,而以往出现在很多论文中「几分钟训练 ResNet」并不是真正能够应用在生产环境中的方式。


「在 ResNet-50 的训练上,批尺寸这一参数很重要。采用 GPU 训练通常需要很大的 batch size,而 Goya 可以用很小的 batch size 实现高效率训练,在计算时可以让它设置为 1、5 和 10,这样训练延迟也可以很低。」Eitan Medina 表示。


低延迟的体验对于自动驾驶等场景具有优势。而在云计算环境下,目前的 AI 云服务无法对单卡再做虚拟化分配,但 Goya 因为计算的延迟很低,可以把一张 Goya 卡分成 7 个部分分给用户,并保持高效率。这样意味着 Habana 的客户可以进一步提高利润,降低云服务价格。


由于目前的大多数深度学习模型都在 CPU 或 GPU 上完成训练,Habana 为客户提供了一套环境,可以帮助开发者快速部署产品。其软件名为 SynapseAI,支持 ONNX、MXNet、TensorFlow、Caffe2、PyTorch 等深度学习框架与模型交换格式。


「如果人们使用其他架构训练模型,将其部署在 Goya 的推理和预测平台上不会有任何问题。」Medina 称。


Habana 正努力帮助构建开源社区,因此也收到了一些回报。去年 facebook 开源的深度学习编译环境 Glow 就首发支持了 Habana 的芯片,此外,Linux 也已集成了 Goya 的驱动。


对于期待使用专用芯片处理人工智能任务的公司来说,Habana 提供的芯片可以带来最大的灵活度。


25785A9E-9369-4193-ACAE-0418D8BF9A97.jpeg


Habana 的愿景是成为人工智能芯片领域的领导者。这家公司目前已有 150 名员工,其中大多数为研发人员。公司在以色列、波兰两地成立了研究中心,另外在美国加州和中国也设有分支机构。


「训练 AI 模型所需的算力每年都以指数级增长,硬件设备必须满足这种迫切需求,并大幅提高生产力和可扩展性。凭借 Gaudi 的创新架构,Habana 可以带来业界最强的性能,结合标准以太网连接,实现无限的可扩展性,」Habana Labs 首席执行官 David Dahan 表示。「Gaudi 将打破人工智能训练处理器的现状。」


未来,Habana 计划每 9 个月推出一款新产品。明年这家公司即将推出基于 7nm 制程的新一代推理芯片。16C9736F-6283-4E56-95C1-D5D310C0C7D4.png



本文为机器之心报道,转载请联系本公众号获得授权

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
13天前
|
人工智能 运维 Serverless
Serverless GPU:助力 AI 推理加速
近年来,AI 技术发展迅猛,企业纷纷寻求将 AI 能力转化为商业价值,然而,在部署 AI 模型推理服务时,却遭遇成本高昂、弹性不足及运维复杂等挑战。本文将探讨云原生 Serverless GPU 如何从根本上解决这些问题,以实现 AI 技术的高效落地。
|
21天前
|
人工智能 安全 芯片
【通义】AI视界|谷歌 Tensor G5 芯片揭秘:1+5+2 八核 CPU,支持光线追踪
本文由【通义】自动生成,涵盖黄仁勋宣布台积电协助修复Blackwell AI芯片设计缺陷、苹果分阶段推出Apple Intelligence、OpenAI保守派老将辞职、英伟达深化与印度合作推出印地语AI模型,以及谷歌Tensor G5芯片支持光线追踪等最新科技资讯。点击链接或扫描二维码,获取更多精彩内容。
|
7天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置选项,包括CPU+GPU、CPU+FPGA等组合,支持高性能计算需求。本文汇总了阿里云GPU服务器的价格信息,涵盖NVIDIA A10、V100、T4、P4、P100等多款GPU卡,适用于人工智能、机器学习和深度学习等场景。详细价格表和实例规格见文内图表。
|
1月前
|
人工智能 调度 开发工具
xGPU来啦!免费GPU资源开发花样AI应用!
为了降低AI应用服务和推广的门槛,解决开发者面临的实际痛点,ModelScope社区推出 xGPU 服务,让大家能够免费使用高性能 GPU 资源,托管自己的AI应用服务。
|
16天前
|
人工智能 机器人 云计算
【通义】AI视界|OpenAI据称已计划联手博通和台积电共同打造自研芯片
本文由【通义】自动生成,涵盖苹果iOS 18.2将集成ChatGPT、OpenAI联手博通和台积电自研芯片、微软指责谷歌发起影子运动、英伟达高管预测AI将呈现人类形态、OpenAI董事会主席的初创公司估值达45亿美元等热点资讯。更多精彩内容,请访问通通知道。
|
16天前
|
数据采集 人工智能 搜索推荐
【通义】AI视界|迎接Apple Intelligence,Mac家族进入M4芯片时代
本文概览了近期科技领域的五大热点:苹果宣布Apple Intelligence将于2025年4月支持中文;新款Mac将搭载M4芯片;ChatGPT周活跃用户达2.5亿,主要收入来自订阅;Meta开发AI搜索引擎减少对外部依赖;周鸿祎支持AI发展但反对构建超级智能。更多详情,访问通义平台。
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
【通义】AI视界|马斯克:特斯拉计划2025年末批量装备AI训练芯片Dojo2
本文精选了24小时内的重要AI新闻,包括特斯拉计划2025年批量装备Dojo 2芯片、英伟达股价大涨、谷歌联合创始人积极参与AI项目、中科院女工程师开源AI模型保护女性,以及快手旗下可灵AI与蓝色光标达成战略合作。更多内容敬请访问通义官网体验。
|
3月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多样化的选择,包括CPU+GPU、CPU+FPGA等多种配置,适用于人工智能、机器学习和深度学习等计算密集型任务。其中,GPU服务器整合高性能CPU平台,单实例可实现最高5PFLOPS的混合精度计算能力。根据不同GPU类型(如NVIDIA A10、V100、T4等)和应用场景(如AI训练、推理、科学计算等),价格从数百到数千元不等。详情及更多实例规格可见阿里云官方页面。
227 1
|
8天前
|
弹性计算 人工智能 Serverless
阿里云ACK One:注册集群云上节点池(CPU/GPU)自动弹性伸缩,助力企业业务高效扩展
在当今数字化时代,企业业务的快速增长对IT基础设施提出了更高要求。然而,传统IDC数据中心却在业务存在扩容慢、缩容难等问题。为此,阿里云推出ACK One注册集群架构,通过云上节点池(CPU/GPU)自动弹性伸缩等特性,为企业带来全新突破。
|
3月前
|
机器学习/深度学习 编解码 人工智能
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
随着人工智能、大数据和深度学习等领域的快速发展,GPU服务器的需求日益增长。阿里云的GPU服务器凭借强大的计算能力和灵活的资源配置,成为众多用户的首选。很多用户比较关心gpu云服务器的收费标准与活动价格情况,目前计算型gn6v实例云服务器一周价格为2138.27元/1周起,月付价格为3830.00元/1个月起;计算型gn7i实例云服务器一周价格为1793.30元/1周起,月付价格为3213.99元/1个月起;计算型 gn6i实例云服务器一周价格为942.11元/1周起,月付价格为1694.00元/1个月起。本文为大家整理汇总了gpu云服务器的最新收费标准与活动价格情况,以供参考。
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析

热门文章

最新文章

下一篇
无影云桌面