英特尔为决战英伟达这次真的拼了!20亿美元收购AI芯片公司Habana Labs

简介: 英特尔正式宣布以20亿美元收购AI芯片公司Habana Labs。这是继153亿美元收购Mobileye、3.5亿美元收购Nervana之后,英特尔第三次收购大型AI初创公司。这一举动引发业内人士热议。

微信图片_20220107181332.jpg


12月16日,英特尔正式宣布以20亿美元收购Habana Labs。这是继153亿美元收购Mobileye、3.5亿美元收购Nervana之后,英特尔第三次收购大型人工智能初创公司。


收购完成后,Habana将作为一个独立的业务部门,并将继续由当前管理团队来领导。Habana将向英特尔数据平台事业部报告,该事业部也是英特尔广泛的数据中心人工智能技术的大本营。Habana董事长Avigdor Willenz同意担任该业务部门以及英特尔的高级顾问,Habana的总部将继续设于以色列不变


对于这一收购新闻,业内人士纷纷发表了自己的看法。赛灵思 AI 业务高级总监、原深鉴科技联合创始人姚颂评论道:Intel既是当了冤大头,也变相承认了收购Nervana是彻底失败了。


微信图片_20220107181336.jpg



地平线创始人兼CEO余凯博士对Habana Labs表示认可,他认为:Intel在数据中心的AI计算是战略目标,必须与Nvidia一决高下。


微信图片_20220107181338.jpg



芯片专家唐杉也对Habana Labs表示认可:



微信图片_20220107181341.jpg


英特尔为什么收购Habana Labs?增强数据中心人工智能产品的实力


Habana Labs是众多AI初创企业之一,由3D传感器创业公司PrimeSense的两位前高管于2016年创立,PrimeSence于2013年被苹果以3.6亿美元收购。


Habana Labs的目标是创建用于深度学习训练和推理的处理器。该公司过去总共筹集了1.2亿美元,目前拥有120名员工。上一轮融资是在2018年11月,由英特尔牵头并投资7500万美元。当时,Habana首席执行官表示,英特尔没有与Habana合作的计划。

微信图片_20220107181343.jpg



这笔收购的实现是对英特尔产品组合的一个补充。在过去的几年中,英特尔一直在投资从边缘到数据中心,从CPU到ASIC(专用集成电路)的AI功能以及软件支持业务。


正如英特尔数据平台事业部执行副总裁兼总经理孙纳颐所言:“此次收购推进了我们的人工智能战略,即:从智能边缘到数据中心,为客户提供适合各种性能需求的解决方案。具体来说,通过高性能训练处理器系列产品和基于标准的编程环境,Habana Labs大大增强了我们数据中心人工智能产品的实力,以应对不断变化的人工智能负载。”

 

2016年,英特尔收购了边缘和视觉AI创业公司Movidius。同年,英特尔(据称以3.5亿美元)收购了Nervana,以进军深度学习训练芯片市场。英特尔还自行开发了面向机器学习推理任务的NNP-I芯片。本次对Habana Labs的收购表明,英特尔认为自己在AI产品组合上仍需要补足。


对标英伟达,Habana的产品究竟多厉害?


此前,Habana推出了两种针对AI和机器学习工作负载的硅产品:Gaudi AI 训练芯片和Goya AI 推理芯片。其中Gaudi训练系统的处理能力比拥有相同数量的GPU系统高4倍,Goya芯片在ResNet-50模型的推理测试中性能技术是NVIDIA Tesla T4的4倍。


Gaudi AI 训练芯片


与Nervana相似,Gaudi的体系架构也基于Tensor处理器内核(TPC),在1TBps的速率下搭载32GB的HBM2,支持PCIe 4.0,还支持流行的DL数字格式,例如INT8和BF16。


微信图片_20220107181346.jpg

 

Gaudi的一项亮眼特色是其出色的互联能力,通过互联可扩展至数百个芯片规模。它是首款搭载引擎的AI芯片,可通过融合以太网进行远程内存直接访问(RDMA),双向数据通量为2 Tbps。也就是说,Gaudi芯片可以直接访问任何其他芯片的内存(不涉及操作系统)。以太网的优点是可以使用更方便、通用的交换机,无需PCIe交换机或专用NIC。


微信图片_20220107181349.png


在性能方面,芯片热设计功耗为140W,在ResNet-50上每秒可处理1650张图像,比Nvidia的Tesla V100高出14%,功耗仅为后者的一半。每秒每瓦可处理的图像数量提升了两倍以上。


微信图片_20220107181351.jpg


随着芯片数量的增加,二者的差异变得更大。在MLPerf v0.5数据集上,640块Gaudi芯片可实现每秒8.45亿图像的吞吐量,而80台DGX-1的基于V100的系统性能为每秒21.83万图像。512芯片的Gaudi系统的相对效率为80%,而V100系统的相对效率不到30%。


Goya AI 推理芯片


Goya推理性能强劲,对标英伟达的V100 GPU、在ResNet-50上进行推理时,可提供了超过4倍的吞吐量、2倍的能效以及一半的延迟。据悉基于Goya HL-1000的 PCIe 卡可实现每秒15000张图片的吞吐量,延迟时间为1.3毫秒,功耗仅为100瓦,相比GPU等方案表现高出一到三个数量级。而且,Goya已可支持Facebook的机器学习编译器Glow,其驱动业已集成在Linux中,并可无缝从CPU或GPU中迁移。


软件支持所有标准的AI和机器学习框架


在软件方面,Habana提供了一个开发和执行环境SynapseAI,该环境具有库和JIT编译器,旨在帮助客户将解决方案部署为AI工作负载。重要的是,它支持所有标准的AI和机器学习框架(例如Google的TensorFlow和Facebook的PyTorch),以及Microsoft,IBM,华为,高通,AMD,Arm等倡导的Open Neural Network Exchange格式。


AI芯片迎来爆发式增长,英特尔这步棋下对了吗?


显然,英特尔意识到,要与该领域“重达800磅的大猩猩”NVIDIA抗衡,就需要突破性的性能和效率,并且迄今为止对Nervana所做的努力并不满意。英特尔必须把这件事做好;它不一定会有第三次机会,但现在还早,可以换马。引用Moor Insights&Strategy创始人Patrick Moorhead的话说:“我们处于AI的第一局,还有回旋的余地。”


有趣的是,英特尔表示,Habana将向英特尔数据平台事业部执行副总裁兼总经理孙纳颐汇报,而不是Nervana前首席执行官兼英特尔AI产品负责人Naveen Rao。


因此,我们现在可以猜测的是:


1)Habana的技术优于Nervana,这一观点很可能会被英特尔最大的客户们认同2)Habana的技术可能优于Graphcore和其他初创公司,否则英特尔会选择它们中的一个3)英特尔看到了一个在fabric-connected的AI训练芯片上超越NVIDIA的机会,这是接下来的重头戏


虽然Habana技术看起来很有前途,但考虑采用它的大型数据中心与英特尔打交道要比依赖一家小型初创企业舒服得多,英特尔可以将资源投入到围绕Habana构建一个即使资金充足的初创企业也无法企及的生态系统中。


AI芯片正迎来爆发式增长,英特尔的这步棋到底对不对,我们拭目以待。


参考链接:


https://venturebeat.com/2019/12/16/intel-acquires-ai-chip-startup-habana-labs-for-2-billion/


https://www.forbes.com/sites/moorinsights/2019/12/16/intel-acquires-habana-labs-for-2b/#2fd477ae19f9

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
6月前
|
人工智能 Cloud Native Java
书本大纲:从芯片、分布式到云计算AI时代
本文深入探讨并发编程、JVM原理、RPC框架、高并发系统、分布式架构及云原生技术,涵盖内存模型、同步机制、垃圾回收、网络协议、存储优化、弹性伸缩等核心议题,揭示多线程运行逻辑与高并发实现路径,助你掌握现代软件底层原理与工程实践。
226 6
|
12月前
|
人工智能 并行计算 自动驾驶
英伟达亮相CES 2025:AI新前沿背后的动力源泉
英伟达亮相CES 2025:AI新前沿背后的动力源泉
|
机器学习/深度学习 人工智能 语音技术
Fugatto:英伟达推出的多功能AI音频生成模型
Fugatto是由英伟达推出的多功能AI音频生成模型,能够根据文本提示生成音频或视频,并修改现有音频文件。该模型基于增强型的Transformer模型,支持复杂的组合指令,具有强大的音频生成与转换能力,广泛应用于音乐创作、声音设计、语音合成等领域。
428 1
Fugatto:英伟达推出的多功能AI音频生成模型
|
人工智能 并行计算 程序员
【AI系统】SIMD & SIMT 与芯片架构
本文深入解析了SIMD(单指令多数据)与SIMT(单指令多线程)的计算本质及其在AI芯片中的应用,特别是NVIDIA CUDA如何实现这两种计算模式。SIMD通过单指令对多个数据进行操作,提高数据并行处理能力;而SIMT则在GPU上实现了多线程并行,每个线程独立执行相同指令,增强了灵活性和性能。文章详细探讨了两者的硬件结构、编程模型及硬件执行模型的区别与联系,为理解现代AI计算架构提供了理论基础。
2803 12
|
人工智能 自然语言处理 知识图谱
英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快
英伟达提出nGPT(Normalized Transformer),通过单位范数归一化和超球面上的表示学习,显著提升了Transformer模型的训练速度和性能。实验显示,nGPT在处理4k长度序列时,训练速度比传统Transformer快10倍,且在多个下游任务中表现出色。论文地址:https://arxiv.org/pdf/2410.01131
272 12
|
人工智能 数据安全/隐私保护 数据中心
“芯片围城”下国产AI要放缓?答案或截然相反
12月2日,美国对华实施新一轮出口限制,将140余家中国企业列入贸易限制清单。对此,中国多个行业协会呼吁国内企业谨慎选择美国芯片。尽管受限企业表示影响有限,但此事件引发了关于AI领域芯片供应的担忧。华为云推出的昇腾AI云服务,提供全栈自主的算力解决方案,包括大规模算力集群、AI框架等,旨在应对AI算力需求,确保算力供给的稳定性和安全性,助力中国AI产业持续发展。
281 3
|
机器学习/深度学习 人工智能 缓存
基于英特尔平台加速 AI 应用及 LLM 推理性能介绍|龙蜥大讲堂第115期
本文摘自龙蜥大讲堂英特尔 AI 软件工程师黄文欢的分享,主要包括以下三个方面的内容: 1. 第五代英特尔至强处理器 2. LLM 推理加速框架 xFast Transformer 及其优化策略 3. 性能数据及 Demo 展示
369 0
|
机器学习/深度学习 人工智能 并行计算
【AI系统】芯片的编程体系
本文探讨了SIMD与SIMT的区别及联系,分析了SIMT与CUDA编程的关系,深入讨论了GPU在SIMT编程的本质及其与DSA架构的关系。文章还概述了AI芯片的并行分类与并行处理硬件架构,强调了理解AI芯片编程体系的重要性,旨在帮助开发者更高效地利用AI芯片算力,促进生态繁荣。
400 0
|
4月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1118 51