DMLC：最大开源分布式机器学习项目-阿里云开发者社区

DMLC：最大开源分布式机器学习项目

2017-11-08 3442

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

为了实现分布式机器学习领域中代码的共享与共同开发，分布式机器学习社区（DMLC）近日正式发布。作为一个开源项目，DMLC的相关代码直接托管在GitHub中，并采用Apache2.0协议进行维护。DMLC项目的发起者陈天奇怪（网名）表示，项目最初的想法是减少分布式机器学习开发的成本以及新算法被大家接受测试的时间。目前，该项目已经集成了XGBoost、CXXNET及Minerva等机器学习库与rabit和参数服务器等系统组件。接下来，本文就对这些基础库及组件进行简单介绍。

XGBoost是一个大规模、分布式的通用Gradient Boosting（GBDT、TBRT或者GBM）库。它在Gradient Boosting的框架下实现了GBDT和广义线性模型等机器学习算法。通过采用分布式计算方法，XGBoost能够明显加快算法中迭代运算的速度。而作为一个快速、精确的分布式深度学习框架，CXXNET主要具有轻量、支持多GPU和分布式并行系统、非常好的可扩展性以及与其他语言之间的接口清晰等特性。它使用mshadow库为用户提供了良好的编程体验和高效的工作能力。与CXXNET不同的是，Minerva提供了一个高效灵活的并行深度学习引擎。它提供了一个类似Numpy的NDarray编程接口，并支持Python和C++语言。其天然的并行性保证了其能够高效地利用多GPU进行相关计算。

rabit是一个提供Allreduce和Broadcast容错接口的轻量通信框架。它简化了MPI的设计，在Allreduce和Boradcast操作的基础上加入了容灾的支持。其最大的特点在于可移植、可扩展以及非常可靠。另外一个通信框架——参数服务器（Parameter Server），主要负责对XGBoost等应用提供分布式的系统支持。它支持工作机与服务器之间的异步、零拷贝键值对的通信。异步的参数服务器接口加上同步的Rabit接口基本能够满足各种分布式机器学习算法中的通信需求。

https://github.com/dmlc

本文转自stock0991 51CTO博客，原文链接：http://blog.51cto.com/qing0991/1875391，如需转载请自行联系原作者

DMLC：最大开源分布式机器学习项目

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

DMLC：最大开源分布式机器学习项目

热门文章

最新文章

相关课程

相关电子书

相关实验场景