机器学习PAI 在配置文件改成PLE模型，会100%触发这一行报DataLossError。？

问题1：机器学习PAI easy_rec -> python -> compat -> exporter -> def _get_best_eval_result(self, event_files, curr_eval_result): 中的 for event in summary_iterator.summary_iterator(event_file): 在配置文件改成PLE模型，会100%触发这一行报DataLossError。使用的tensorflow版本是2.3.0，使用其他模型ESMM，是偶尔触发这一行报DataLossError。这个是什么版本问题吗？
问题2：所以OdpsInputV3 还是要指定train_input_path 和 eval_input_path啊，前面说OdpsInputV3不用指定感觉很奇怪啊？要想答疑机器人回答准确，你们的文档要很详细了，因为文档上，对OdpsInputV3没写需要train_input_path 和 eval_input_path，前面CSVInput，和OdpsInputV2写了，到了OdpsInputV3就简略了。

展开

收起

真的很搞笑 2023-07-30 17:58:19 94 0

2 条回答

写回答

取消提交回答

Star时光
问题1：关于在机器学习 PAI 的 easy_rec 中使用 PLE 模型时触发 DataLossError 错误的问题，可能与 TensorFlow 版本兼容性或其他因素有关。根据你提供的信息，这个问题在 TensorFlow 2.3.0 版本下使用 PLE 模型会 100% 触发，而在使用其他模型（如 ESMM）时是偶尔触发。

这种错误通常表示数据损坏或丢失。可以尝试以下方法来解决或排查问题：
- 确保输入数据没有损坏：检查输入数据是否完整、正确，并且没有损坏。如果可能，可以尝试重新生成或重新下载输入数据。
- 尝试使用不同版本的 TensorFlow：由于 TensorFlow 版本之间可能存在差异，尝试使用其他版本的 TensorFlow 进行测试，看看是否仍然触发相同的 DataLossError 错误。你可以尝试降低 TensorFlow 版本或升级到较新的版本。
- 联系技术支持团队：如果以上方法无法解决问题，建议联系机器学习 PAI 平台的技术支持团队，向他们提供详细的错误信息和配置参数，以便他们能够更好地帮助你解决问题。
问题2：对于 OdpsInputV3，在机器学习 PAI 的文档中确实应该明确指出是否需要指定 train_input_path 和 eval_input_path。如果文档上没有明确说明，请参考示例代码、API 参考或其他相关的文档资源，以了解如何正确配置 OdpsInputV3 的 train_input_path 和 eval_input_path 参数。确保你根据实际情况正确设置这些参数，以便正确读取训练和评估的输入数据。
2023-07-31 16:45:29

赞同展开评论打赏
芯在这

回答1：可以参考一下这个地方：https://github.com/alibaba/EasyRec/blob/master/pai_jobs/run.py#L314
本地运行的话，看一下这个地方：https://github.com/alibaba/EasyRec/blob/master/easy_rec/python/train_eval.py#L131
回答2：https://easyrec.readthedocs.io/en/latest/intro.html 文档可以参考这里，此回答整理自钉群“【EasyRec】推荐算法交流群”

2023-07-31 08:28:05

赞同展开评论打赏