机器学习PAI每次训练都要新建一个目录吗?我看之前的checkpoint在的话,模型会加载起来继续train。有没有办法restart?没找到相关的参数。
在使用机器学习PAI进行训练时,并不需要每次都新建一个目录。您可以在一个固定的目录下进行多次训练,但需要注意的是,每次训练的结果会对应一个新的子目录。例如,当您第一次训练一个模型时,结果将会被保存在指定的主目录下的一个以日期为名称的子目录中。而当您再次进行训练时,即使使用了相同的配置和数据,结果也会被保存在另一个以新的日期为名称的子目录中。这种方式有助于有效地管理和组织训练结果
试一下这个参数:https://github.com/alibaba/EasyRec/blob/master/pai_jobs/run.py#L174
写在 Dextra_params= 后面,此回答整理自钉群“【EasyRec】推荐算法交流群”
在机器学习 PAI 中,每次训练都不一定需要新建一个目录。通常情况下,您可以选择将训练相关的文件和资源保存在同一个目录中,以便于管理和追溯。
以下是一些常见的做法:
创建一个独立的项目目录:在开始训练之前,您可以为每个机器学习项目创建一个独立的目录。这个目录可以包含数据集、代码文件、模型配置和训练日志等。这样可以使项目文件更加整洁和有组织。
使用时间戳或版本号:如果您希望跟踪不同训练过程的结果,可以将时间戳或版本号作为目录名的一部分。例如,每次训练时根据当前时间创建一个新的目录,或者使用自定义的版本号标识每个训练实验。
利用参数化路径:在 PAI 平台上,您可以通过指定参数化的目录路径来动态创建和管理训练目录。例如,使用命令行参数、脚本变量或配置文件配置训练目录的路径,以便每次训练时自动创建一个新的目录。
在机器学习PAI中,每次训练都需要新建一个目录。如果之前有训练记录的话,模型会加载起来继续训练,而不会覆盖之前的训练记录。需要重新开始训练,可以通过清空目录的方式来进行。
具体操作是在命令行中输入
pai clear
来清空当前目录中的所有数据和配置文件,然后重新运行训练脚本即可。
在已有的训练记录上进行restart,您可以使用以下命令来恢复之前的训练状态:
pai restore -project algo_public -name <modelName> -config <configPath> -d <input_dir> -d <output_dir> -s <model_checkpoint>
modelName是模型名称,configPath是配置文件路径,input_dir和output_dir是训练数据和模型输出的路径,model_checkpoint是之前训练的模型保存路径。
---来自人工智能平台 PAI使用EasyRec构建推荐模型
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。