100倍加速！深度学习训练神器Determined AI宣布开源！更快，更简单，更强大-阿里云开发者社区

100倍加速！深度学习训练神器Determined AI宣布开源！更快，更简单，更强大

2022-01-08 1190

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 还在抱怨模型训练过于耗时？还在手动苦苦调整超参？现在，这款神器来帮你！24倍分布式训练加速，100倍智能超参优化，Determind AI宣布开源，你的模型有救了！

微信图片_20220108204746.png 微信图片_20220108204711.png

作为一名深度学习科研人员，小编我可是深受模型训练的困扰：一个模型要跑几天几夜，结果最后发现有一步错了 ...从头再来

微信图片_20220108204713.gif

超参数怎么调精度都上不去，心真的好累...

手动调整系统环境，只要错一个，就跑不起来了嗷...

常常只是为了训练一个模型，就要耗费巨大的时间，改来改去，还有经过漫长的等待，内心真的在默默哭泣有木有！

然后，我发现我竟然还能再拯救一下——Determined AI驾着七彩祥云来救我啦！

微信图片_20220108204719.png

同样受到这种苦恼，深有感触的众多深度学习研究人员，花费了数年心血，终于开发出了一个便利广大深度学习从业人员的训练神器。

这款深度学习训练平台，是由多年从事实践领域的专家，耗费三年时间构建完成的，他们的目标是帮助深度学习团队更快地训练模型，轻松共享GPU资源并有效协作。

Determined使深度学习工程师可以集中精力大规模构建和训练模型，而无需担心DevOps，或者为常见任务（如容错或实验跟踪）编写代码。

官网链接：https://determined.ai/developers/

“等一下，这里面到底有啥，能不能详细说明一下！”

好，那我就好好扒一扒，给大家看看。

专注模型训练，更快更准！

众所周知，一个完整的深度学习项目，包括了数据准备，模型训练以及模型部署等环节：

微信图片_20220108204721.png

而Determined，则可以帮助我们更好的专注于模型本身的训练，而不是把时间和精力大量花在样例代码和DevOps上。

模型训练部分，Determined可以帮助我们完成：

更快的分布式训练
智能的超参优化
实验跟踪和可视化

微信图片_20220108204723.png

这样，它就可以使我们可以专注于手头的任务——即训练模型上。

训练人员，可以立即进入为深度学习工作而创建的专用环境，然后将时间花费在来设置模型上，而完全不必担心安装，拆卸和其他样例代码的问题。

看到这里我想说，开发人员真的是太贴心了，他们很清楚我们不想花时间做什么，我真的感激*100！

微信图片_20220108204739.gif

那这个神器可以帮我们处理什么呢？

内置的训练循环抽象，可支持实验跟踪，有效的数据加载，容错，并可以灵活地进行自定义。

高性能的分布式培训，无需更改任何代码。
基于前沿研究的自动超参数优化。

有了这些功能，模型训练so easy！老板再也不用担心我的模型！

微信图片_20220108204742.gif

直接点击官网链接，就可以体验这些功能：

微信图片_20220108204744.png

接下来，我们可以看看这两个和模型训练密切相关的部分——分布式训练速度和智能超参优化具体是怎么一回事：

分布式训练

Determined主要运用了Horovod，以Horovod为起点，研究人员运用了多年的专业知识和经验，使得整个训练过程比库存配置要快得多。

这样，我们就可以更减少浪费的时间，更好的利用计算机的硬件设备，来达到高效的训练速度。在这里科普一下Horovod：

Horovod 是一套面向TensorFlow 的分布式训练框架，由Uber 构建并开源，目前已经运行于Uber 的Michelangelo 机器学习即服务平台上。Horovod 能够简化并加速分布式深度学习项目的启动与运行。当数据较多或者模型较大时，为提高机器学习模型训练效率，一般采用多 GPU 的分布式训练。TensorFlow 集群存在诸多缺点，如概念太多、学习曲线陡峭、修改的代码量大、性能损失较大等，而 Horovod 则让深度学习变得更加美好，随着规模增大，Horovod 性能基本是线性增加的，损失远小于 TensorFlow。

微信图片_20220108204746.png