在机器学习PAI平台中,负样本的选取方式依据具体的模型和应用场景而定。从提供的参考资料来看,没有直接说明负样本Item是随机选取还是基于负反馈机制。但是,可以推测,在某些推荐系统相关的任务中,如DSSM模型或GraphSAGE算法的应用场景,负采样通常涉及到一定的策略来生成负样本:
负采样策略:在推荐系统中,负采样常用于增强模型对正负样本区分的能力,提高训练效率。负样本可能是随机选取的,确保模型能够泛化到未见过的负例;也可能是基于用户行为数据确定的负反馈,比如用户未点击、未购买的商品,这样更加贴近实际的负样本定义。
GraphSAGE算法中的负采样:在GraphSAGE算法的配置中提到了“负采样数”,这表明在图神经网络的训练过程中,会采用一定数量的负样本进行训练。虽然没有明确指出这些负样本是随机选取还是基于某种负反馈机制,但在图神经网络的上下文中,负采样往往用于构造对比学习场景,帮助模型学习节点间的关系,这些负样本可能依据图结构或节点关系来随机生成。
DSSM向量召回中的负采样:在DSSM模型的向量召回流程中,虽然没有详细描述负样本的具体生成方式,但提到了“创建负样本表,负采样时使用正样本参与训练”。这暗示了负样本的生成可能与正样本有一定关联,可能是通过某种策略(如随机或基于历史交互的负反馈)从非正向行为中抽样得到。
综上所述,负样本的选取既有可能是随机的,也可能是基于负反馈机制,具体实现方式需根据实际应用场景和模型需求来设定。在PAI平台中,通过相应的模型配置参数(如负采样数)可以调整负采样的策略和规模,以适应不同的训练需求。
相关链接
https://help.aliyun.com/zh/pai/use-cases/use-bipartite-graphsage-for-matching-recall
负采样Item的跟User侧做Target Attention。此回答整理自钉群"[EasyRec/PAI-Rec]推荐算法交流群"
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。