请问一下机器学习PAI DSSM负采样的例子当中,这个表的sample有么?我们对于如何组织负采样的样本和column有些迷惑:
DSSM(Deep Structured Semantic Model)是一种用于文本相似度计算的方法。在PAI中,DSSM的训练通常涉及到正样本和负样本。正样本是两篇相似的文本,而负样本是两篇不相似的文本。
在PAI的文档中,并没有直接给出负采样的示例。但是,我可以给你一个大致的示例,帮助你理解如何组织负采样的样本和列。
假设我们有三个文本:"我爱学习","我爱工作","我爱生活"。我们可以选择"我爱学习"和"我爱工作"作为正样本,因为它们都是关于"爱"的主题。然后,我们需要选择一些负样本。我们可以选择"我爱学习"和"我爱生活"作为负样本,因为它们并不相似。
在PAI的配置文件中,我们需要为每一对文本创建一个样本。在这个例子中,我们需要创建两个样本:一个正样本和一个负样本。
正样本的列可能如下:
columns:
- name: text1
data_type: string
values: 我爱学习
- name: text2
data_type: string
values: 我爱工作
负样本的列可能如下:
columns:
- name: text1
data_type: string
values: 我爱学习
- name: text2
data_type: string
values: 我爱生活
然后,我们就可以使用这两个样本进行DSSM的训练了。
那个是离线文本你在odps上跑的话,建这样一个表就行了
建这样的一个表,格式如上.注意特征分隔符别跟特征本身冲突了.你如果用fg的话,我记得默认的分隔符好像是chr(2).,此回答整理自钉群“【EasyRec】推荐算法交流群”
在 DSSM 模型中,负采样通常用于生成候选匹配项列表,用于对比评估原始匹配项的相关性。一般来说,负采样表应该包含两个主要的部分:
以下是一个简单的负采样表的例子:
id | text |
---|---|
1 | 我们是一支专业的团队 |
2 | 一支拥有丰富经验的团队 |
3 | 一支技术精湛的团队 |
4 | 一支追求卓越的团队 |
5 | 一支值得信赖的团队 |
在这个例子中,id 列代表了每个样本的唯一标识符(ID),text 列则包含了用于 DSSM 训练的文本特征。训练时,DSSM 会对原始匹配项(如“一支专业高效的团队”) 和 负采样表中的每一个文本特征进行对比评估,以找出最相似的文本特征。
建议在构建负采样表时保持一致性,确保每一列都有清晰明确的意义,并且所含有的数据量足够大,以便有效地评估 DSSM 的性能。还可以根据具体需求调整负采样表的结构,例如添加更多的列或进行更细致的分类等。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。