问题1:机器学习PAI easy_rec -> python -> compat -> exporter -> def _get_best_eval_result(self, event_files, curr_eval_result): 中的 for event in summary_iterator.summary_iterator(event_file): 在配置文件改成PLE模型,会100%触发这一行报DataLossError。 使用的tensorflow版本是2.3.0,使用其他模型ESMM,是偶尔触发这一行报DataLossError。这个是什么版本问题吗?
问题2:所以OdpsInputV3 还是要指定train_input_path 和 eval_input_path啊,前面说OdpsInputV3不用指定感觉很奇怪啊?要想答疑机器人回答准确,你们的文档要很详细了,因为文档上,对OdpsInputV3没写需要train_input_path 和 eval_input_path,前面CSVInput,和OdpsInputV2写了,到了OdpsInputV3就简略了。
问题1:关于在机器学习 PAI 的 easy_rec 中使用 PLE 模型时触发 DataLossError 错误的问题,可能与 TensorFlow 版本兼容性或其他因素有关。根据你提供的信息,这个问题在 TensorFlow 2.3.0 版本下使用 PLE 模型会 100% 触发,而在使用其他模型(如 ESMM)时是偶尔触发。
这种错误通常表示数据损坏或丢失。可以尝试以下方法来解决或排查问题:
确保输入数据没有损坏:检查输入数据是否完整、正确,并且没有损坏。如果可能,可以尝试重新生成或重新下载输入数据。
尝试使用不同版本的 TensorFlow:由于 TensorFlow 版本之间可能存在差异,尝试使用其他版本的 TensorFlow 进行测试,看看是否仍然触发相同的 DataLossError 错误。你可以尝试降低 TensorFlow 版本或升级到较新的版本。
联系技术支持团队:如果以上方法无法解决问题,建议联系机器学习 PAI 平台的技术支持团队,向他们提供详细的错误信息和配置参数,以便他们能够更好地帮助你解决问题。
问题2:对于 OdpsInputV3,在机器学习 PAI 的文档中确实应该明确指出是否需要指定 train_input_path 和 eval_input_path。如果文档上没有明确说明,请参考示例代码、API 参考或其他相关的文档资源,以了解如何正确配置 OdpsInputV3 的 train_input_path 和 eval_input_path 参数。确保你根据实际情况正确设置这些参数,以便正确读取训练和评估的输入数据。
回答1:可以参考一下这个地方:https://github.com/alibaba/EasyRec/blob/master/pai_jobs/run.py#L314
本地运行的话,看一下这个地方:https://github.com/alibaba/EasyRec/blob/master/easy_rec/python/train_eval.py#L131
回答2:https://easyrec.readthedocs.io/en/latest/intro.html 文档可以参考这里,此回答整理自钉群“【EasyRec】推荐算法交流群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。