机器学习PAI线上序列传入,按照qinfo的方式传入,对序列这种特征,多值该如何分割。或者说config的配置和qinfo 怎么对应起来?
在机器学习PAI中,对于序列这种特征的多值分割,您可以借助于"qinfo"的配置来实现。具体来说,您需要在config文件中指定相应的字段类型和字段格式。比如,如果您的序列特征是由多个值组成的话,那么您可以选择将其设置为"string"类型,并使用特定的分隔符(如逗号、空格等)来区分不同的取值。这种方式可以帮助PAI正确地解析和处理序列数据中的各个元素。
目前的处理分为两步,一步是"fg",另一步是EasyRec。针对"fg",只需要确保结果符合要求即可。针对EasyRec,只需关注EasyRec配置文件的设置。对于序列中的分隔符,可以使用"separator"来指定序列之间的分隔符,并使用"seq_multi_sep"来指定多个值之间的分隔符。这些设置是针对EasyRec中的一个序列特征而言的。您提到的是三个特征,但现在的问题是序列特征中包含多个值。以"click_30d_seq__gds_id"为例,该特征是一个序列特征,序列中包含多个值,例如"1#2#3;4#5#6;7#8#9"。在这个例子中,分号";"是序列分隔符,由"separator"指定,而"#"是多个值之间的分隔符,由"seq_multi_sep"指定。这只是一个示例。至于"fg",如果您没有修改默认配置,实际输出的序列分隔符应该是分号";",而多值分隔符和其他多值一样使用一个控制字符(在示例中我用"#"代替) ,此回答整理自钉群“【EasyRec】推荐算法交流群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。