单集群64卡的浪潮SR-AI整机柜,做AI的你不试试?

简介:

 前段时间,浪潮与百度联合发布了面向智慧计算的创新产品--SR-AI整机柜服务器。这款产品符合最新的天蝎2.5标准,是全球首个采用PCIe Fabric互联架构设计的AI方案,为更大规模数据集和深层神经网络领域,提供更强性能的AI计算平台。 

单集群64卡的浪潮SR-AI整机柜,做AI的你不试试?

浪潮百度联合发布SR-AI整机柜服务器

单节点16卡、单物理集群64卡的超高密扩展能力,512TFlops的性能,ns级的延迟等性能参数都让人眼前一亮。但是或许你还有些疑问,为什么要设计如此强大的AI计算设备?能够给我带来什么样的价值?这么大的功率密度下能保证稳定性么?本文就尝试解答你的这些疑惑。

从人工智能的兴衰看计算力的重要性

1950 年,著名的图灵测试诞生,按照艾伦·图灵的定义:如果一台机器能够与人类展开对话而不能被辨别出其机器身份,那么称这台机器具有智能。图灵还预言了创造出具有真正智能的机器的可能性。紧接着西洋跳棋程序和国际象棋程序相继诞生,人工智能游戏也被当着衡量人工智能进展的标准之一。

但是随着更多人工智能相关的投入,人们发现AI却没有按照预想的结果发展,由于计算机性能的瓶颈、计算复杂性的指数级增长、数据量缺失等问题,一些难题看上去好像完全找不到答案。人工智能也因此进入了低潮。

而这些问题进入21世纪才开始被逐步解决。2012年,吴恩达和Jeff Dean带领的Google Brain研究小组用1000台服务器(包含2000颗CPU、16000多个处理核心),建造了一个由10亿多个连接点构成的神经网络,从1000万张YouTube截图对这个神经网络进行训练,经由了10天时间的运转,让它认出了猫。由此可见,随着互联网数据中心的计算集群和计算能力大增,越来越多的AI应用得以实现。但其中还可以看到另外一个问题,训练一个模型使用了1000台服务器的集群,因此这是互联网巨头才能玩得起的"土豪游戏"。

单集群64卡的浪潮SR-AI整机柜,做AI的你不试试?

谷歌和斯坦福AI实验室识别猫所需要的性能对比

谷歌和斯坦福AI实验室识别猫所需要的性能对比

然而,在谷歌实验的第二年(2013年)斯坦福大学AI实验室用3台GPU服务器,12颗GPU就达到了同样的性能。GPU服务器所具备的超强并行计算能力开始被人工智能公司所重视,并由此开启了AI的大爆发。后面发生的事,大家就很熟悉了,AlphaGo战胜李世石、百度无人车路测成功···

在这些AI应用的背后是不断发展的计算平台,从单机单卡、到单机多卡、到多机多卡集群,计算密度也从2卡、4卡提升到更高的8卡。但人工智能应用对计算力的需求似乎永无止境,单机8卡的GPU服务器也不能满足单一超大规模模型的训练,而多服务器集群也因为跨节点通信的延迟导致效率损耗严重。

因此,更高的单机点计算密度,更大规模、更低延迟的计算集群,成为人工智能应用的一致诉求。近日,浪潮发布的单节点16卡、单物理集群64卡的SR-AI整机柜就成了备受期待的AI计算利器。

64块GPU卡的物理计算集群是如何炼成的

传统的GPU服务器通常为2卡、4卡最多8卡,每个节点空间和PCI-E资源有限,所能挂在的GPU设备的数量也较少。因此在训练复杂模型时,需要通过网络和相关控制软件组成一个GPU计算集群。但不同节点所挂载的GPU卡间通信,是需要走外部的网络,这样会有很高的延迟。

单集群64卡的浪潮SR-AI整机柜,做AI的你不试试?

浪潮SR-AI整机柜服务器的计算模块

反观浪潮SR-AI整机柜服务器,这是全球首个采用PCIe Fabric互联架构设计的产品。采用了完全颠覆式的架构,GPU和CPU物理解耦,使二者可灵活扩展。SR-AI整机柜中的GPU Box中仅包含16块GPU卡以及相关的主板,通过线缆的连接到PCIe Switch中,再经由Switch连接到前端的计算节点,由此组成一套完整的GPU计算系统。而PCIe Switch可以挂接4个GPU Box,也就是说单个GPU计算系统可以最大可扩展64块GPU,计算能力飙升至512TFlops以上。

更重要的是,这套系统中的64块GPU卡间的通信全部通过PCIE协议,不需要PCIE到TCP/IP协议的转化,因此延迟将会大大降低。下面就来看看浪潮SR-AI整机柜到底能够降低多少延迟。

延迟可降低50%以上,达到ns级

在传统的GPU集群中,GPU Server1如果要与Server2通信,数据首先会经过一次PCI-E线路的(0.5us延迟)才能到达Server1 的CPU,然后经过一次QPI到达IB交换机,然后经过IB网络(1us延迟)到达Server2的CPU,在经历以此QPI延迟才能到达PCI-E线路,最后还需要经历一次PCIE(0.5us延迟),才能最终到达Server2的GPU卡中。这样,跨节点GPU交互在进行通信时至少经过5次路径/协议转换,至少2us的延迟。

相比于传统GPU扩展方式,SR-AI整机柜所实现的协处理资源池化的架构,能够实现GPU之间仅依赖PCI-E进行通信,延迟可降低50%以上。并且借助GPUDirect技术,使GPU与GPU实现直接的数据交互,而不再需要经由CPU的跳转,大幅降低跨节点GPU间的通信延迟,最终使GPU计算集群的延迟下降到ns级。

超高功率密度下,如何保证系统散热?

相比CPU,GPU的TDP(Thermal Design Power,散热设计功耗)要高出很多。比如22核心的Intel至强E5-2699V4处理器TDP只有145W,而单块Nvidia P100 GPU卡的TDP则是250W。那么SR-AI整机柜服务器在单节点内部署16块GPU卡,功耗就达到了4800W。如何保证良好的散热,让GPU Box保持在适宜的温度内是维持计算系统稳定的关键。

多次精密仿真实现优异散热性能

在4U高度内给16颗大功率GPU散热,就必须在节点内实现冷热风道的隔离(因为任何被GPU加热后的风流不能再给其他GPU进行散热),这样才能够降低风扇负载,保证的稳定性。为此浪潮采用散热仿真软件Flotherm进行了大量的评估和验证,最终确定采用阶梯双风道方案(前8颗,后8颗,竖着摆放),内部通过精细的挡风板、风道设计,使风扇气流能够对每块GPU卡进行充分散热。

另外在风扇的调控上,SR-AI整机柜采用最新的PID数字风扇调控方式,该方式采用模糊控制设计思路,目标是控制发热器件时刻工作在某一较高温度,而不刻意去要求风扇具体转速,这样在系统压力不大时,风扇可以处于较低的转速,能够实现节能。作为较大型的复杂系统,SR-AI整机柜存在控制信号延迟、链路较长等问题,故而在实际操作过程中确实经过了大量设定参数的修改与修订(修改主要指实现软件的控制方式修改,修订指PID变量的不同数值的调整),整个过程贯穿了项目设计始终,最终使单节点16块GPU卡的超高密度计算集群的能够保证高负载下也能常年运行的完美状态。

目前,浪潮是业界拥有单节点2/4/8/16卡等最丰富GPU服务器阵列的厂商,在软件方面,浪潮将高效深度学习框架Caffe-MPI开源,与众多开发者共同优化,为深度学习的用户提供了更便捷、更高效的应用手段。2016年浪潮在国内人工智能计算领域的市场份额超过60%,为百度、阿里巴巴、腾讯、奇虎、科大讯飞、Face++等国内知名AI相关企业提供计算力支撑。


原文发布时间为:2017年6月19日

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
29天前
|
人工智能 监控 安全
云端问道18期实践教学-AI 浪潮下的数据安全管理实践
本文主要介绍AI浪潮下的数据安全管理实践,主要分为背景介绍、Access Point、Bucket三个部分
58 17
|
14天前
|
人工智能 编解码 安全
全球AI新浪潮:智能媒体服务的技术创新与AIGC加速出海
本文介绍了智能媒体服务的国际化产品技术创新及AIGC驱动的内容出海技术实践。首先,探讨了媒体服务在视频应用中的升级引擎作用,分析了国际市场的差异与挑战,并提出模块化产品方案以满足不同需求。其次,重点介绍了AIGC技术如何推动媒体服务2.0智能化进化,涵盖多模态内容理解、智能生产制作、音视频处理等方面。最后,发布了阿里云智能媒体服务的国际产品矩阵,包括媒体打包、转码、实时处理和传输服务,支持多种广告规格和效果追踪分析,助力全球企业进行视频化创新。
|
3月前
|
人工智能 数据可视化 数据挖掘
AI时代浪潮来袭,项目经理如何应对?
AI时代,项目经理如何顺势而为、保持核心竞争力?从角色升级到技能转型,文章揭示AI对项目管理的深刻影响,并提供项目经理应对未来的关键策略。
63 4
|
4月前
|
机器学习/深度学习 人工智能 算法
"拥抱AI规模化浪潮:从数据到算法,解锁未来无限可能,你准备好迎接这场技术革命了吗?"
【10月更文挑战第14天】本文探讨了AI规模化的重要性和挑战,涵盖数据、算法、算力和应用场景等方面。通过使用Python和TensorFlow的示例代码,展示了如何训练并应用一个基本的AI模型进行图像分类,强调了AI规模化在各行业的广泛应用前景。
58 5
|
4月前
|
机器学习/深度学习 数据采集 人工智能
【紧跟AI浪潮】深度剖析:如何在大模型时代精准捕获用户心声——提高召回率的实战秘籍
【10月更文挑战第5天】在深度学习领域,大型模型常面临召回率不足的问题,尤其在信息检索和推荐系统中尤为关键。本文通过具体代码示例,介绍如何提升大模型召回率。首先,利用Pandas进行数据预处理,如清洗和特征工程;其次,选择合适的模型架构,如使用PyTorch构建推荐系统;再者,优化训练策略,采用合适的损失函数及正则化技术;此外,选择恰当的评估指标,如召回率和F1分数;最后,通过后处理优化结果展示。以上方法不仅提升召回率,还增强了模型整体性能。
122 0
|
5月前
|
人工智能 运维 安全
专访浪潮信息:AI 原生时代,浪潮信息引领服务器操作系统创新 全面贡献龙蜥社区
分享了关于 AI 原生化趋势下服务器操作系统进化的思考,以及浪潮信息在龙蜥社区开源贡献的思路、成果与未来技术发展规划。
专访浪潮信息:AI 原生时代,浪潮信息引领服务器操作系统创新 全面贡献龙蜥社区
|
6月前
|
人工智能 自动驾驶 算法
人工智能浪潮下的伦理困境:我们准备好面对AI了吗?
【8月更文挑战第13天】本文旨在探讨人工智能快速发展下带来的伦理问题,并分析当前社会对于AI伦理挑战的准备情况。文章将围绕AI技术的应用、伦理问题的实例以及公众意识的提升等方面展开讨论,试图为读者提供一个全面的视角来审视这一复杂而紧迫的话题。
|
7月前
|
人工智能 运维 安全
龙蜥社区第五届理事大会圆满结束!深度探讨 AI 浪潮下的合作模式
围绕 CentOS 停服替代和 AI 技术浪潮下的合作契机等话题进行了深度探讨。
|
6月前
|
Java Spring 人工智能
AI 时代浪潮下,Spring 框架异步编程点亮高效开发之路,你还在等什么?
【8月更文挑战第31天】在快节奏的软件开发中,Spring框架通过@Async注解和异步执行器提供了强大的异步编程工具,提升应用性能与用户体验。异步编程如同魔法,使任务在后台执行而不阻塞主线程,保持界面流畅。只需添加@Async注解即可实现方法的异步执行,或通过配置异步执行器来管理线程池,提高系统吞吐量和资源利用率。尽管存在线程安全等问题,但异步编程能显著增强应用的响应性和效率。
69 0
|
7月前
|
人工智能 Cloud Native 数据库
“云+AI”浪潮下,阿里云&龙蜥携手打造智算时代最佳服务器操作系统
AI 时代的来临,也推动着云计算发展迎来第三次浪潮。