文档备案控制台

开发者社区量子位文章正文

配置机器学习训练环境太麻烦？开源工具Parris说一键就搞定

2018-01-03 1241

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本文来自AI新媒体量子位（QbitAI）

在搭建、训练机器学习模型的过程中，你的时间可能大部分都花在了那些与算法无关的事情上：收集数据、清洗数据、标注，甚至基础环境的配置，也需要不少时间。

a0c8e780e90ad627e2e504b6b40cf8849587bdd3

有一个名叫Parris的开源工具，就要让配置基础环境这个环节自动化。今天，它刚被发布到Reddit论坛上就收获了不少赞。

据作者介绍，这个工具针对云端的机器学习训练，一键完成配置服务器、安装操作系统、安装GPU驱动、为项目安装各种依赖包等等环节，同时加载要训练的模型和训练集。

另外，用户还可以为服务器设置一个自动关机时间。

3876b7310ac1f34ac6a6e195ef669c030f6b2f46

Parris目前只支持亚马逊AWS，依靠CloudFormation模板来实现一键启动训练，需要用户有AWS账户和证书。不过，据作者说，以后的版本打算支持Google云、微软Azure等等。

要使用Parris，你需要先准备好要训练的模型和数据集，安装方式如下：

2913d56fc9bd02cd9e641fb3aac6a3db95cc415f

GitHub地址：https://github.com/jgreenemi/Parris

本文作者：夏乙

原文发布时间：2018-01-02

文章标签：

算法

机器学习/深度学习

关键词：

人工智能平台 PAI配置

人工智能平台 PAI训练

人工智能平台 PAI开源

人工智能平台 PAI环境

人工智能平台 PAI工具

行者武松

目录

相关文章

阿里云大数据Al技术

|

12月前

|

机器学习/深度学习人工智能 JSON

【解决方案】DistilQwen2.5-R1蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践

阿里云的人工智能平台 PAI，作为一站式的机器学习和深度学习平台，对DistilQwen2.5-R1模型系列提供了全面的技术支持。无论是开发者还是企业客户，都可以通过 PAI-ModelGallery 轻松实现 Qwen2.5 系列模型的训练、评测、压缩和快速部署。本文详细介绍在 PAI 平台使用 DistilQwen2.5-R1 蒸馏模型的全链路最佳实践。

阿里云大数据Al技术

584 63 63

阿里云大数据Al技术

|

11月前

|

人工智能 JSON 算法

【解决方案】DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践

DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列，包括 DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。本文详细介绍DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践。

阿里云大数据Al技术

483 7 8

蚝油菜花

|

人工智能 Linux API

Omnitool：开发者桌面革命！开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台，本地运行不联网

Omnitool 是一款开源的 AI 桌面环境，支持本地运行，提供统一交互界面，快速接入 OpenAI、Stable Diffusion、Hugging Face 等主流 AI 平台，具备高度扩展性。

蚝油菜花

1451 94 95

Omnitool：开发者桌面革命！开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台，本地运行不联网

技术内容小助手

|

人工智能调度芯片

PAI训练服务：云上大模型训练新篇章

本文介绍了通用AI时代下的新训练方法及PAI平台的优化。随着大模型时代的到来，算力需求激增，硬件和网络通信成为瓶颈。PAI平台通过自动容错、3D健康检测等技术确保训练稳定性；通过资源配额、智能调度等提高性价比；并推出PAI-TorchAcc和PAI-ChatLearn两大引擎，分别实现高效训练加速和灵活的对齐训练，显著提升训练性能与效果。这些改进解决了大规模AI训练中的关键问题，提升了效率和稳定性。

技术内容小助手

754 0 0

青云交（Java大数据AI云原生Python）

|

8月前

|

机器学习/深度学习自然语言处理算法

Java 大视界 -- Java 大数据机器学习模型在自然语言处理中的对抗训练与鲁棒性提升（205）

本文探讨Java大数据与机器学习在自然语言处理中的对抗训练与鲁棒性提升，分析对抗攻击原理，结合Java技术构建对抗样本、优化训练策略，并通过智能客服等案例展示实际应用效果。

青云交（Java大数据AI云原生Python）

239 0 0

阿里云大数据Al技术

|

11月前

|

机器学习/深度学习人工智能自然语言处理

阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身

本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长，它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下，将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程，其具备多种功能模块，包括数据合成、基础和进阶蒸馏训练。通过数据合成，丰富训练集的多样性；基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化，从而提升小模型的性能。

阿里云大数据Al技术

2027 7 7

蚝油菜花

|

人工智能自然语言处理算法

MT-MegatronLM：国产训练框架逆袭！三合一并行+FP8黑科技，大模型训练效率暴涨200%

MT-MegatronLM 是摩尔线程推出的面向全功能 GPU 的开源混合并行训练框架，支持多种模型架构和高效混合并行训练，显著提升 GPU 集群的算力利用率。

蚝油菜花

931 18 18

蚝油菜花

|

机器学习/深度学习人工智能并行计算

Unsloth：学生党福音！开源神器让大模型训练提速10倍：单GPU跑Llama3，5小时变30分钟

Unsloth 是一款开源的大语言模型微调工具，支持 Llama-3、Mistral、Phi-4 等主流 LLM，通过优化计算步骤和手写 GPU 内核，显著提升训练速度并减少内存使用。

蚝油菜花

1962 3 3

Unsloth：学生党福音！开源神器让大模型训练提速10倍：单GPU跑Llama3，5小时变30分钟

阿里云大数据Al技术

|

人工智能自然语言处理物联网

阿里万相重磅开源，人工智能平台PAI一键部署教程来啦

阿里云视频生成大模型万相2.1（Wan）重磅开源！Wan2.1 在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势，轻松实现高质量的视频生成。同时，万相还支持业内领先的中英文文字特效生成，满足广告、短视频等领域的创意需求。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署阿里万相重磅开源的4个模型，可获得您的专属阿里万相服务。

阿里云大数据Al技术

1837 13 14

阿里云大数据Al技术

|

机器学习/深度学习人工智能边缘计算

DistilQwen2.5蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践

DistilQwen2.5 是阿里云人工智能平台 PAI 推出的全新蒸馏大语言模型系列。通过黑盒化和白盒化蒸馏结合的自研蒸馏链路，DistilQwen2.5各个尺寸的模型在多个基准测试数据集上比原始 Qwen2.5 模型有明显效果提升。这一系列模型在移动设备、边缘计算等资源受限的环境中具有更高的性能，在较小参数规模下，显著降低了所需的计算资源和推理时长。阿里云的人工智能平台 PAI，作为一站式的机器学习和深度学习平台，对 DistilQwen2.5 模型系列提供了全面的技术支持。本文详细介绍在 PAI 平台使用 DistilQwen2.5 蒸馏小模型的全链路最佳实践。

阿里云大数据Al技术

604 3 3

量子位

热门文章

最新文章

【机器学习】CLIP模型在有限计算资源下的性能探究：从数据、架构到训练策略

【机器学习】逻辑回归：智能垃圾邮件分类实例

【Python 机器学习专栏】基于机器学习的推荐系统实现

机器学习中空间和时间自相关的分析：从理论基础到实践应用

Google、Intel 联盟，推动机器学习、物联网发展

【Python机器学习专栏】时间序列数据的特征工程

【机器学习】Logistic 分类回归算法（二元分类 & 多元分类）

机器学习和深度学习的区别

【机器学习】贝叶斯统计中，“似然”和“后验概率”有什么区别？

基于机器学习的用户行为分析：深入洞察与精准决策

基于Python_opencv人脸录入、识别系统（应用dlib机器学习库）（下）

基于Python_opencv人脸录入、识别系统（应用dlib机器学习库）（上）

深入Scikit-learn：掌握Python最强大的机器学习库

OpenCV（Open Source Computer Vision Library）是一个开源的计算机视觉和机器学习库，它提供了大量的函数和工具，用于处理图像和视频数据。

介绍文本分类的基本概念、常用方法以及如何在Python中使用机器学习库进行文本分类

探索Scikit-learn：机器学习库的入门与进阶

深度解析Python中的机器学习库：Scikit-learn

【Python机器学习专栏】Python环境下的机器学习库概览

探秘scikit-learn：机器学习库的核心功能详解

机器学习实战第3天：手写数字识别

相关课程

更多

PAI平台学习路线：机器学习入门到应用

场景实践 - 机器学习PAI实现精细化营销

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

场景实践 - 基于机器学习进行收入预测分析

机器学习概览及常见算法

机器学习入门-概念原理及常用算法

相关电子书

更多

大规模机器学习在蚂蚁+阿里的应用

基于Spark的面向十亿级别特征的大规模机器学习

基于Spark的大规模机器学习在微博的应用

相关实验场景

更多

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

在PAI ArtLab一键设计AIGC新春红包

下一篇

PHP：将本地文件上传到阿里云OSS存储