开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

机器学习PAI的EasyRec在使用DLC做分布式训练时得到如下错误怎么解决?

机器学习PAI的EasyRec在使用DLC做分布式训练时得到如下错误怎么解决? b3f2d7a9b77ffe891c463e2c33b5f079.png

展开
收起
真的很搞笑 2024-01-04 15:59:00 69 0
3 条回答
写回答
取消 提交回答
  • 这个错误是由于在分布式训练过程中,找不到指定的文件或目录导致的。为了解决这个问题,你可以尝试以下方法:

    1. 确保文件路径正确。检查/mnt/data/ctr_model_test/model_1/eval_val/events.out.tfevents.1703498245.这个路径是否存在,如果不存在,需要创建相应的目录。

    2. 检查文件权限。确保运行程序的用户有足够的权限访问该文件或目录。

    3. 检查文件名是否正确。确保文件名没有拼写错误或者大小写错误。

    4. 如果问题仍然存在,可以尝试在代码中添加日志输出,以便更好地了解问题所在。例如,可以在读取文件之前添加一行日志输出,如下所示:

    import os
    import logging
    
    file_path = "/mnt/data/ctr_model_test/model_1/eval_val/events.out.tfevents.1703498245."
    logging.info(f"Checking file: {file_path}")
    
    if os.path.exists(file_path):
        # 继续执行后续操作
        pass
    else:
        logging.error(f"File not found: {file_path}")
    

    通过查看日志输出,可以更好地了解问题所在,从而找到解决方案。

    2024-01-05 10:54:08
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在使用阿里云机器学习PAI的EasyRec进行分布式训练时遇到错误,可能的原因和解决方法有很多。首先,您需要确保您的集群配置正确,包括节点数量、CPU和内存的配置等。其次,检查网络连接是否稳定,因为分布式训练需要各个节点之间的高速通信。再次,您需要检查数据路径是否正确,以及数据集的格式是否符合要求。

    2024-01-04 20:47:54
    赞同 展开评论 打赏
  • oss挂载写events文件有问题,只能close的时候才会创建这个文件,可以先尝试用nas走通看看吗?我们再看怎么解决DLC挂载oss跑EasyRec的问题,主要是oss本身不支持标准的POSIX文件接口 ,此回答整理自钉群“【EasyRec】推荐算法交流群”

    2024-01-04 18:58:57
    赞同 展开评论 打赏

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    大规模机器学习在蚂蚁+阿里的应用 立即下载
    阿里巴巴机器学习平台AI 立即下载
    机器学习及人机交互实战 立即下载