瀚博首款AI推理芯片出炉，性能超越英伟达T4，年内即将量产-阿里云开发者社区

瀚博首款AI推理芯片出炉，性能超越英伟达T4，年内即将量产

2021-12-05 908

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 瀚博推出的 AI 推理芯片，性能超过英伟达最新的 A10 与 T4，同时使用成本还更低。

7 月 7 日，在上海举行的首场发布会上，芯片创业公司瀚博半导体展示了旗下最新产品，SV100 系列云端通用 AI 推理芯片和 VA1 通用 AI 推理加速卡。刚刚推出的芯片实现了业内领先的性能指标。

微信图片_20211205214159.jpg 瀚博半导体 CEO 钱军在发布会上展示 SV102 芯片。

「我们要做的是服务器级别的芯片，SV100 系列是全方位超过英伟达同类产品的芯片解决方案。」瀚博半导体创始人、CEO 钱军在发布会上说道。

本次推出的产品包括芯片 SV102，以及基于该芯片的 AI 加速卡 VA1，即将在今年第四季度投入量产。

云端通用 AI 推理芯片

瀚博推出的 SV102 是 SV100 系列的首款芯片，它面向云端的 AI 的通用化推理任务，INT8 算力高达 200TOPS，其内含多颗瀚博自主设计的 IP 核，配备通用软件栈，对于云计算客户提供了完整的解决方案。

选择推理作为突破点，是瀚博对于市场和业内竞争力分析之后作出的决定。

随着 AI 应用的逐渐成熟，落地业务的增多，目前云服务市场上推理任务的需求逐渐超过训练。相关数据显示，2021 年 AI 推理市场已超过训练市场，未来其差距还会逐渐拉大。高通则认为到 2025 年将有 90% 的算力将被用于机器学习推理。

而在推理任务上，相对更加专精的 DSA 芯片性能显著超过目前业内普遍采用的 GPU，前者可能会成为芯片领域的下一个发展方向。

微信图片_20211205214238.jpg

瀚博提出的 SV100 系列芯片，对于视频任务进行了特别的优化。当前，计算机视觉任务占据了 AI 市场的大部分，视频流占据数据流的 70%，而且比例持续攀升。这些任务需要强大的视频解码能力，对于处理延迟、吞吐量和能耗效率提出了较高要求。

SV102 是一款高性能人工智能与视频处理芯片，深度学习推理性能指标数倍于现有主流数据中心 GPU（如英伟达 T4、A10）。基于瀚博自研的，针对多种深度学习推理负载而优化的通用架构，该芯片支持计算机视觉、视频处理、自然语言处理和搜索推荐等推理应用场景，同时集成高密度视频解码，广泛适用于云端与边缘解决方案，节省设备投资、降低运营成本。

通用 AI 推理加速卡，效率超越英伟达

基于 SV102 芯片，瀚博推出了适用于云服务器的 VA1 机器学习加速卡，其提供高效率深度学习 AI 推理加速，在同等能耗下可以实现 2-10 倍于 GPU 的最高 AI 吞吐率，适合实时应用，同时兼备良好的通用性和可扩展性，支持 FP16, BF16 和 INT8 数据类型的众多主流神经网络快速部署——包括检测，分类，识别，分割，视频处理，LSTM/RNN，NLP/BERT，搜索推荐等。

微信图片_20211205214304.jpg

瀚博半导体 CTO 张磊向我们介绍了 VA1 加速卡的性能指标。

VA1 具备强大的视频处理性能：支持 64 路以上 H264，H265 或 AVS2 1080p 解码，分辨率支持最高达 8K。另一方面，作为标准半高半长 75W 功率的 PCIe 4.0 板卡，VA1 适用于绝大多数服务器，被动散热且无需额外供电，可实现高密度的部署。

和英伟达最新发布的安培架构 A10 板卡对比，在 ResNet-50（int8）任务上，瀚博芯片在 75W 功率时效率是对手的两倍以上。「即使英伟达的产品运行在 150W，我们的芯片运行在 75W 功率时性能也是超过它的，」张磊介绍道。「在 BERT int8 任务上，VA1 的性能也是 A10 在 75W 上的两倍，T4 的两倍多。」

如果以整体运行成本 TCO 的方式来计算，采用 VA1 的服务器整机算力可以达到 T4 设备的 2.5 倍以上，功耗却相对更低，可以节省超过 60% 的服务器成本。

微信图片_20211205214332.jpg

除了硬件产品外，瀚博也搭建了自己的 VastStream 软件平台，支持 TensorFlow、PyTorch、Caffe2 等主流深度学习框架模型。

今年 6 月，SV100 系列芯片宣布测试成功。瀚博创造的几个数字引人关注：在开始测试后 8 分钟全部点亮，在 40 小时之内，芯片所有功能模块基础测试全部完成。对于全新设计的高端芯片来说，这是一个奇迹。

「我们与重要合作伙伴快手的合作非常紧密。打造芯片必须理解客户的实际需求，我们打造了高性能的数据中心，会把最新的板卡插在服务器里，跑各类实际应用，验证产品的性能。」钱军表示。据介绍，目前已有多家国内外科技公司正在和瀚博合作，并等待芯片的大规模量产。

微信图片_20211205214417.jpg

除了 SV102 以外，瀚博半导体还计划推出功率为 15W 和 150W 的推理产品，覆盖更多市场。

「我们不是一个国产替代的故事，我们希望打造国际级别的产品。为了这样的目的，我们组建了有能力的团队。」钱军说道。

瀚博半导体于 2018 年底成立于上海，目前在北京、深圳、多伦多等地均设有研发中心。

这家公司的核心团队源自于 AMD，部分成员曾设计了业界首款 7nm 制程 GPU。自公司创立起，瀚博一直致力于核心 IP 的自主研发，至今已完成多个 IP、高端设计流程，并拥有完善的数据中心构建能力。目前，瀚博的员工总数已超过 200 人。

在融资方面，2019 年 3 月，瀚博获得了来自真格基金的天使轮融资，2019 年 7 月完成 Pre A 轮。2020 年 7 月，红点、快手领投了该公司的 A 轮融资；最近一轮则在今年 3 月，由中国互联网投资基金和经纬中国联合领投，融资金额高达 5 亿元人民币。

瀚博旗下首款芯片的推出，宣告了国内 AI 芯片业内又加入了一股强大的势力。随着各家的 DSA 芯片不断出炉，国内造芯的竞争已经进入了全新的阶段。

瀚博首款AI推理芯片出炉，性能超越英伟达T4，年内即将量产

云端通用 AI 推理芯片

通用 AI 推理加速卡，效率超越英伟达

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

瀚博首款AI推理芯片出炉，性能超越英伟达T4，年内即将量产

云端通用 AI 推理芯片

通用 AI 推理加速卡，效率超越英伟达

热门文章

最新文章

相关课程

相关电子书

相关实验场景