开发者社区 > ModelScope模型即服务 > 自然语言处理 > 正文

GPT3-2.7B用8卡训练时意外中断,如何恢复训练

用8卡拉起来的训练,ckpt被分成很多个,如下, image.png 目前官网看到恢复训练的代码是load .pth文件。

这么多个分片的参数文件如何加载?

展开
收起
游客5rty4zy6dfpts 2023-03-13 15:04:12 798 0
1 条回答
写回答
取消 提交回答
  • 您好,与文档中load模型类似,checkpoint_path 只需填写到 os.path.join(self.tmp_dir, 'epoch_1'),或是 iter_xxx 这一级即可,不用添加 .pth 后缀,读取过程后面会自动拼接文件名

    2023-03-22 22:42:09
    赞同 展开评论 打赏

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载

相关实验场景

更多