为深度学习而生——详解阿里云异构计算GN5规格族

简介:

随着深度学习对人工智能的巨大推动,深度学习所构建的多层神经网络模型的参数空间已从百万级上升到百亿级,这对计算能力提出了新的挑战。相比CPU,GPU更适合深度学习的神经网络模型,可进行高度统一、相互无依赖的大规模并行计算。

阿里云发布的最新一代异构计算通用GPU实例GN5规格族就是一款用于搭建深度学习加速平台的云端利器。

image


“品学兼优”的GN5采用了NVIDIA Pascal架构旗舰级P100 GPU,可在云端按需构建敏捷弹性、高性能和高性价比的深度学习平台,让用户以最简便地方式享用阿里云遍布全球的高效、稳定的云基础设施资源。

与上一代相比,GN5的单实例性能拓展了5倍,单实例最多可提供8个 NVIDIA P100 GPU,提供2万多个并行处理核心,最高75TFLOPS FP32单精度浮点、150 TFLOPS FP16半精度浮点和38 TFLOPS FP64双精度浮点运算能力。

自建GPU物理服务器经常会遇上扩容难、适配难的难题,GN5规格族提供了灵活弹性的系列化配置,可以根据深度学习计算力的要求,按需选择合适的规格,分钟级即可完成实例的创建,并可根据运算力需求进行GPU实例的“Scale-out”水平扩容或“Scale-up”垂直变配。

为了更好地发挥GN5多GPU卡并行计算效率,GN5支持GPUDirect,通过GPU卡之间点对点通信,可让GPU之间在无需CPU干预下,直接通过PCIe的总线进行高带宽低时延的互联通信,极大地提升了深度学习训练中模型参数交换效率。

image


除了GPU外,深度学习还需要有海量的数据存储能力、业务服务能力、监控能力等,这在传统模式下复杂度高、工作量大、费时费力。而GN5实现了与ECS弹性计算生态的完美结合,可与OSS对象存储、NAS文件存储等打通,满足深度学习海量训练数据的低成本存储和访问要求;通过EMR服务进行预处理;通过云监控服务进行GPU资源的监控与告警;通过负载均衡、弹性伸缩、资源编排等快速在云端搭建完整弹性GPU服务;并可搭配容器服务使用,简化部署和运维的复杂度,提供资源调度服务等。


image

GN5实例支持灵活的使用支付方式,用户可以按年支付以获得最高的使用折扣;也支持按月周期付费,以降低用户的计算资源使用一次性投入成本,并且具有相对较低的单位小时使用价格;同样支持按小时的付费方式使用户以最低的单次使用成本来应对临时性的短期使用需求。

原文链接

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
机器学习/深度学习 人工智能 调度
显著提升深度学习 GPU 利用率,阿里云拿下国际网络顶会优胜奖!
显著提升深度学习 GPU 利用率,阿里云拿下国际网络顶会优胜奖!
1022 7
|
机器学习/深度学习 弹性计算 自然语言处理
【阿里云弹性计算】深度学习训练平台搭建:阿里云 ECS 与 GPU 实例的高效利用
【5月更文挑战第28天】阿里云ECS结合GPU实例为深度学习提供高效解决方案。通过弹性计算服务满足大量计算需求,GPU加速训练。用户可按需选择实例规格,配置深度学习框架,实现快速搭建训练平台。示例代码展示了在GPU实例上使用TensorFlow进行训练。优化包括合理分配GPU资源和使用混合精度技术,应用涵盖图像识别和自然语言处理。注意成本控制及数据安全,借助阿里云推动深度学习发展。
634 2
|
机器学习/深度学习 人工智能 分布式计算
阿里云PAI:一站式AI研发平台,引领深度学习潮流
阿里云PAI:一站式AI研发平台,引领深度学习潮流 随着人工智能的飞速发展,深度学习框架已经成为AI研发的核心工具。然而,选择合适的深度学习框架并不容易,需要考虑的因素包括计算性能、易用性、支持的算法组件等多种因素。今天,我们就来介绍一款一站式AI研发平台——阿里云PAI,看看它如何解决这些痛点。
731 1
|
机器学习/深度学习 弹性计算
阿里云最新产品手册——云基础产品与基础设施——计算——云服务器ECS——应用场景——深度学习
阿里云最新产品手册——云基础产品与基础设施——计算——云服务器ECS——应用场景——深度学习自制脑图
466 1
|
机器学习/深度学习 弹性计算 PyTorch
深度学习:在阿里云上搭建notebook深度学习开发环境
随着AIGC浪潮席卷,再次迎来深度学习热潮。《动手学深度学习 PyTorch版》这本书,注重实战演练,通过手动运行、编写源码可很好的加深对深度学习理论的理解,该书在B站等网站上还有李沐录制的讲解视频,降低了学习门槛,值得推荐。 在阿里云上搭建notebook开发环境过程中踩过一些坑,此文可避免读者重复踩坑。
1313 0
|
存储 机器学习/深度学习 人工智能
喜马拉雅基于阿里云机器学习平台PAI-HybridBackend的深度学习模型训练优化实践
喜马拉雅AI云借助阿里云提供的HybridBackend开源框架,实现了其推荐模型在 GPU 上的高效训练。
|
机器学习/深度学习 人工智能 异构计算
《阿里云异构计算平台——加速AI深度学习创新》电子版地址
阿里云异构计算平台——加速AI深度学习创新
196 0
《阿里云异构计算平台——加速AI深度学习创新》电子版地址
|
机器学习/深度学习 5G TensorFlow
本地没有环境跑深度学习模型? 阿里云天池实验室它不香吗
前几天做深度学习模型训练使用 Google 的 colab 总是掉,搞得很烦。然后那天我队友 “叶伏天” 和我说有一个类似于 Google colab 的平台,可以训练,虽然也有 8 小时的限时,但是这两个我可以替换使用,甚至一起跑实验,显卡配置也可以满足我的需求训练模型的需求
3668 0
本地没有环境跑深度学习模型? 阿里云天池实验室它不香吗
|
机器学习/深度学习
《阿里云 Kubernetes+Kubeflow – 加速深度学习实验的利器》电子版地址
阿里云 Kubernetes+Kubeflow – 加速深度学习实验的利器
274 0
《阿里云 Kubernetes+Kubeflow – 加速深度学习实验的利器》电子版地址
|
机器学习/深度学习 Docker Python
深度学习模型部署阿里云服务器
本文主要描述了如何将一个深度学习模型部署到阿里云服务器,以及如何使用flask框架开发web接口
深度学习模型部署阿里云服务器

热门文章

最新文章