开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

机器学习PAI 在配置文件改成PLE模型,会100%触发这一行报DataLossError。 ?

问题1:机器学习PAI easy_rec -> python -> compat -> exporter -> def _get_best_eval_result(self, event_files, curr_eval_result): 中的 for event in summary_iterator.summary_iterator(event_file): 在配置文件改成PLE模型,会100%触发这一行报DataLossError。 使用的tensorflow版本是2.3.0,使用其他模型ESMM,是偶尔触发这一行报DataLossError。这个是什么版本问题吗?
问题2:所以OdpsInputV3 还是要指定train_input_path 和 eval_input_path啊,前面说OdpsInputV3不用指定感觉很奇怪啊?要想答疑机器人回答准确,你们的文档要很详细了,因为文档上,对OdpsInputV3没写需要train_input_path 和 eval_input_path,前面CSVInput,和OdpsInputV2写了,到了OdpsInputV3就简略了。

展开
收起
真的很搞笑 2023-07-30 17:58:19 94 0
2 条回答
写回答
取消 提交回答
  • 问题1:关于在机器学习 PAI 的 easy_rec 中使用 PLE 模型时触发 DataLossError 错误的问题,可能与 TensorFlow 版本兼容性或其他因素有关。根据你提供的信息,这个问题在 TensorFlow 2.3.0 版本下使用 PLE 模型会 100% 触发,而在使用其他模型(如 ESMM)时是偶尔触发。

    这种错误通常表示数据损坏或丢失。可以尝试以下方法来解决或排查问题:

    • 确保输入数据没有损坏:检查输入数据是否完整、正确,并且没有损坏。如果可能,可以尝试重新生成或重新下载输入数据。

    • 尝试使用不同版本的 TensorFlow:由于 TensorFlow 版本之间可能存在差异,尝试使用其他版本的 TensorFlow 进行测试,看看是否仍然触发相同的 DataLossError 错误。你可以尝试降低 TensorFlow 版本或升级到较新的版本。

    • 联系技术支持团队:如果以上方法无法解决问题,建议联系机器学习 PAI 平台的技术支持团队,向他们提供详细的错误信息和配置参数,以便他们能够更好地帮助你解决问题。

    问题2:对于 OdpsInputV3,在机器学习 PAI 的文档中确实应该明确指出是否需要指定 train_input_path 和 eval_input_path。如果文档上没有明确说明,请参考示例代码、API 参考或其他相关的文档资源,以了解如何正确配置 OdpsInputV3 的 train_input_path 和 eval_input_path 参数。确保你根据实际情况正确设置这些参数,以便正确读取训练和评估的输入数据。

    2023-07-31 16:45:29
    赞同 展开评论 打赏
  • 回答1:可以参考一下这个地方:https://github.com/alibaba/EasyRec/blob/master/pai_jobs/run.py#L314
    本地运行的话,看一下这个地方:https://github.com/alibaba/EasyRec/blob/master/easy_rec/python/train_eval.py#L131
    回答2:https://easyrec.readthedocs.io/en/latest/intro.html 文档可以参考这里,此回答整理自钉群“【EasyRec】推荐算法交流群”

    2023-07-31 08:28:05
    赞同 展开评论 打赏

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    微博机器学习平台架构和实践 立即下载
    机器学习及人机交互实战 立即下载
    大数据与机器学习支撑的个性化大屏 立即下载