瀚博首款AI推理芯片出炉,性能超越英伟达T4,年内即将量产

简介: 瀚博推出的 AI 推理芯片,性能超过英伟达最新的 A10 与 T4,同时使用成本还更低。

7 月 7 日,在上海举行的首场发布会上,芯片创业公司瀚博半导体展示了旗下最新产品,SV100 系列云端通用 AI 推理芯片和 VA1 通用 AI 推理加速卡。刚刚推出的芯片实现了业内领先的性能指标。


微信图片_20211205214159.jpg瀚博半导体 CEO 钱军在发布会上展示 SV102 芯片。


「我们要做的是服务器级别的芯片,SV100 系列是全方位超过英伟达同类产品的芯片解决方案。」瀚博半导体创始人、CEO 钱军在发布会上说道。

本次推出的产品包括芯片 SV102,以及基于该芯片的 AI 加速卡 VA1,即将在今年第四季度投入量产。


云端通用 AI 推理芯片


瀚博推出的 SV102 是 SV100 系列的首款芯片,它面向云端的 AI 的通用化推理任务,INT8 算力高达 200TOPS,其内含多颗瀚博自主设计的 IP 核,配备通用软件栈,对于云计算客户提供了完整的解决方案。


选择推理作为突破点,是瀚博对于市场和业内竞争力分析之后作出的决定。

随着 AI 应用的逐渐成熟,落地业务的增多,目前云服务市场上推理任务的需求逐渐超过训练。相关数据显示,2021 年 AI 推理市场已超过训练市场,未来其差距还会逐渐拉大。高通则认为到 2025 年将有 90% 的算力将被用于机器学习推理。

而在推理任务上,相对更加专精的 DSA 芯片性能显著超过目前业内普遍采用的 GPU,前者可能会成为芯片领域的下一个发展方向。


微信图片_20211205214238.jpg

瀚博提出的 SV100 系列芯片,对于视频任务进行了特别的优化。当前,计算机视觉任务占据了 AI 市场的大部分,视频流占据数据流的 70%,而且比例持续攀升。这些任务需要强大的视频解码能力,对于处理延迟、吞吐量和能耗效率提出了较高要求。


SV102 是一款高性能人工智能与视频处理芯片,深度学习推理性能指标数倍于现有主流数据中心 GPU(如英伟达 T4、A10)。基于瀚博自研的,针对多种深度学习推理负载而优化的通用架构,该芯片支持计算机视觉、视频处理、自然语言处理和搜索推荐等推理应用场景,同时集成高密度视频解码,广泛适用于云端与边缘解决方案,节省设备投资、降低运营成本。


通用 AI 推理加速卡,效率超越英伟达


基于 SV102 芯片,瀚博推出了适用于云服务器的 VA1 机器学习加速卡,其提供高效率深度学习 AI 推理加速,在同等能耗下可以实现 2-10 倍于 GPU 的最高 AI 吞吐率,适合实时应用,同时兼备良好的通用性和可扩展性,支持 FP16, BF16 和 INT8 数据类型的众多主流神经网络快速部署——包括检测,分类,识别,分割,视频处理,LSTM/RNN,NLP/BERT,搜索推荐等。


微信图片_20211205214304.jpg

瀚博半导体 CTO 张磊向我们介绍了 VA1 加速卡的性能指标。


VA1 具备强大的视频处理性能:支持 64 路以上 H264,H265 或 AVS2 1080p 解码,分辨率支持最高达 8K。另一方面,作为标准半高半长 75W 功率的 PCIe 4.0 板卡,VA1 适用于绝大多数服务器,被动散热且无需额外供电,可实现高密度的部署。


和英伟达最新发布的安培架构 A10 板卡对比,在 ResNet-50(int8)任务上,瀚博芯片在 75W 功率时效率是对手的两倍以上。「即使英伟达的产品运行在 150W,我们的芯片运行在 75W 功率时性能也是超过它的,」张磊介绍道。「在 BERT int8 任务上,VA1 的性能也是 A10 在 75W 上的两倍,T4 的两倍多。」


如果以整体运行成本 TCO 的方式来计算,采用 VA1 的服务器整机算力可以达到 T4 设备的 2.5 倍以上,功耗却相对更低,可以节省超过 60% 的服务器成本。


微信图片_20211205214332.jpg


除了硬件产品外,瀚博也搭建了自己的 VastStream 软件平台,支持 TensorFlow、PyTorch、Caffe2 等主流深度学习框架模型。


今年 6 月,SV100 系列芯片宣布测试成功。瀚博创造的几个数字引人关注:在开始测试后 8 分钟全部点亮,在 40 小时之内,芯片所有功能模块基础测试全部完成。对于全新设计的高端芯片来说,这是一个奇迹。


「我们与重要合作伙伴快手的合作非常紧密。打造芯片必须理解客户的实际需求,我们打造了高性能的数据中心,会把最新的板卡插在服务器里,跑各类实际应用,验证产品的性能。」钱军表示。据介绍,目前已有多家国内外科技公司正在和瀚博合作,并等待芯片的大规模量产。


微信图片_20211205214417.jpg


除了 SV102 以外,瀚博半导体还计划推出功率为 15W 和 150W 的推理产品,覆盖更多市场。


「我们不是一个国产替代的故事,我们希望打造国际级别的产品。为了这样的目的,我们组建了有能力的团队。」钱军说道。


瀚博半导体于 2018 年底成立于上海,目前在北京、深圳、多伦多等地均设有研发中心。


这家公司的核心团队源自于 AMD,部分成员曾设计了业界首款 7nm 制程 GPU。自公司创立起,瀚博一直致力于核心 IP 的自主研发,至今已完成多个 IP、高端设计流程,并拥有完善的数据中心构建能力。目前,瀚博的员工总数已超过 200 人。


在融资方面,2019 年 3 月,瀚博获得了来自真格基金的天使轮融资,2019 年 7 月完成 Pre A 轮。2020 年 7 月,红点、快手领投了该公司的 A 轮融资;最近一轮则在今年 3 月,由中国互联网投资基金和经纬中国联合领投,融资金额高达 5 亿元人民币。


瀚博旗下首款芯片的推出,宣告了国内 AI 芯片业内又加入了一股强大的势力。随着各家的 DSA 芯片不断出炉,国内造芯的竞争已经进入了全新的阶段。



相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
3月前
|
存储 机器学习/深度学习 算法
​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​
本文深度解析FlashAttention与PagedAttention两大LLM推理优化技术:前者通过分块计算提升注意力效率,后者借助分页管理降低KV Cache内存开销。二者分别从计算与内存维度突破性能瓶颈,显著提升大模型推理速度与吞吐量,是当前高效LLM系统的核心基石。建议收藏细读。
731 125
|
2月前
|
存储 人工智能 安全
《Confidential MaaS 技术指南》发布,从 0 到 1 构建可验证 AI 推理环境
Confidential MaaS 将从前沿探索逐步成为 AI 服务的安全标准配置。
|
5月前
|
消息中间件 人工智能 资源调度
云上AI推理平台全掌握 (5):大模型异步推理服务
针对大模型推理服务中“高计算量、长时延”场景下同步推理的弊端,阿里云人工智能平台 PAI 推出了一套基于独立的队列服务异步推理框架,解决了异步推理的负载均衡、实例异常时任务重分配等问题,确保请求不丢失、实例不过载。
|
4月前
|
人工智能 Cloud Native Java
书本大纲:从芯片、分布式到云计算AI时代
本文深入探讨并发编程、JVM原理、RPC框架、高并发系统、分布式架构及云原生技术,涵盖内存模型、同步机制、垃圾回收、网络协议、存储优化、弹性伸缩等核心议题,揭示多线程运行逻辑与高并发实现路径,助你掌握现代软件底层原理与工程实践。
189 6
|
5月前
|
机器学习/深度学习 人工智能 开发者
如何让AI从简单的记忆型模型进化为具备深度推理能力的‘学霸’?—— 解析提升AI推理能力的四大核心技术
本文由AI专家三桥君探讨AI推理能力的四大核心技术:推理时间扩展、纯强化学习、标注数据+强化学习、知识蒸馏。通过对比记忆型与推理型AI的差异,分析显式与隐式推理的特点,揭示AI从"记忆答案"到"深度思考"的进化路径。三桥君指出,这些技术使AI在数学证明、编程等复杂任务中表现显著提升,但也面临算力成本与输出速度的平衡挑战。三桥君认为AI推理能力的发展将为科研、教育等领域带来革新,推动AI成为人类的"思考伙伴"。
365 0
|
5月前
|
人工智能 缓存 资源调度
云上AI推理平台全掌握 (4):大模型分发加速
为应对大模型服务突发流量场景,阿里云人工智能平台 PAI 推理服务 PAI-EAS 提供本地目录内存缓存(Memory Cache)的大模型分发加速功能,有效解决大量请求接入情况下的推理延迟。PAI-EAS 大模型分发加速功能,零代码即可轻松完成配置。
|
5月前
|
人工智能 负载均衡 安全
云上AI推理平台全掌握 (3):服务接入与全球调度
阿里云人工智能平台 PAI 平台推出的全球化的服务接入矩阵,为 LLM 服务量身打造了专业且灵活的服务接入方案,正重新定义 AI 服务的高可用接入标准——从单地域 VPC 安全隔离到跨洲际毫秒级调度,让客户的推理服务在任何网络环境下都能实现「接入即最优」。
|
3月前
|
存储 人工智能 NoSQL
用Context Offloading解决AI Agent上下文污染,提升推理准确性
上下文工程是将AI所需信息(如指令、数据、工具等)动态整合到模型输入中,以提升其表现。本文探讨了“上下文污染”问题,并提出“上下文卸载”策略,通过LangGraph实现,有效缓解长文本处理中的信息干扰与模型幻觉,提升AI代理的决策准确性与稳定性。
398 2
用Context Offloading解决AI Agent上下文污染,提升推理准确性