开发者社区 > 阿里云最佳实践 > 视频 > 正文

基于超级计算集群的自然语言处理AI训练最佳实践

发布者:知云直播 2019-12-10 13:32:02 768
视频介绍

直播主题:

AI正在深度影响各行各业,本系列视频将讲解如何利用阿里云的GPU云服务,共享存储CPFS/NAS,容器服务Kubernetes版等产品搭建AI图片训练,语音训练,图片推理等场景的最佳实践,这里还提供了相应的demo程序,可以用于快速构建真正的生产环境。同时,阿里云还提供了飞天AI加速工具,用于加速训练和推理的过程。
本系列还提供了两个使用RAPIDS加速库加速深度学习和图像搜索任务的最佳实践。

场景描述

本方案适用于自然语言训练场景,使用神龙GPU云服务器(SCCGN6)+CPFS进行NLP的训练,采用Bert模型。这里不使用容器,直接使用裸机进行NLP的Bert训练,使用飞天AI加速训练工具可以有效提升多机多卡的训练效率。

解决问题

  • 使用神龙GPU云服务器搭建NLP训练环境
  • 使用SCC的RDMA网络
  • 使用CPFS存储训练数据
  • 使用飞天AI加速训练工具加速训练

产品列表

  • 神龙GPU云服务器(SCCGN6)
  • SCC超级计算集群
  • CPFS共享存储

嘉宾介绍:

张敬海 阿里云解决方案架构师
2018年加入阿里云,之前在阿里云存储研发团队,负责并行文件存储CPFS的相关开发工作。目前专注于解决方案相关开发和支持工作,在服务AI客户方面有丰富的经验积累。


+关注
知云直播
在这里走近阿里云基础产品,了解更多应用方案。 涵盖各产品的新资讯、解决方案及应用案例、上云最佳实践等,还能遇见大咖分享洞见及故事。
文章
问答
视频
来源圈子
更多
阿里云最佳实践,是基于众多客户上云的成功案例萃取而成的最优化企业上云指导。每个最佳实践包括使用场景、多产品部署架构及部署手册。帮助客户更好地理解阿里云的产品和解决方案,降低企业上云门槛的同时满足客户自服务的需求。
+ 订阅
相关文章
更多