请问一下机器学习PAI DSSM负采样的例子当中，这个表的sample有么？

请问一下机器学习PAI DSSM负采样的例子当中，这个表的sample有么？我们对于如何组织负采样的样本和column有些迷惑：

展开

收起

真的很搞笑 2023-11-19 14:52:27 219 版权

3 条回答

写回答

取消提交回答

sunrr
DSSM（Deep Structured Semantic Model）是一种用于文本相似度计算的方法。在PAI中，DSSM的训练通常涉及到正样本和负样本。正样本是两篇相似的文本，而负样本是两篇不相似的文本。

在PAI的文档中，并没有直接给出负采样的示例。但是，我可以给你一个大致的示例，帮助你理解如何组织负采样的样本和列。

假设我们有三个文本："我爱学习"，"我爱工作"，"我爱生活"。我们可以选择"我爱学习"和"我爱工作"作为正样本，因为它们都是关于"爱"的主题。然后，我们需要选择一些负样本。我们可以选择"我爱学习"和"我爱生活"作为负样本，因为它们并不相似。

在PAI的配置文件中，我们需要为每一对文本创建一个样本。在这个例子中，我们需要创建两个样本：一个正样本和一个负样本。

正样本的列可能如下：
```
columns:
  - name: text1
    data_type: string
    values: 我爱学习
  - name: text2
    data_type: string
    values: 我爱工作
```
负样本的列可能如下：
```
columns:
  - name: text1
    data_type: string
    values: 我爱学习
  - name: text2
    data_type: string
    values: 我爱生活
```
然后，我们就可以使用这两个样本进行DSSM的训练了。
2023-11-29 16:15:22

赞同展开评论
芯在这

那个是离线文本你在odps上跑的话，建这样一个表就行了

建这样的一个表，格式如上.注意特征分隔符别跟特征本身冲突了.你如果用fg的话，我记得默认的分隔符好像是chr(2).，此回答整理自钉群“【EasyRec】推荐算法交流群”

2023-11-19 23:16:14

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
在 DSSM 模型中，负采样通常用于生成候选匹配项列表，用于对比评估原始匹配项的相关性。一般来说，负采样表应该包含两个主要的部分：
- 表头（header）: 这部分包含了列名和其他相关信息。
- 数据（data）: 这部分包含了负采样结果的具体数据。
以下是一个简单的负采样表的例子：

id text
1 我们是一支专业的团队
2 一支拥有丰富经验的团队
3 一支技术精湛的团队
4 一支追求卓越的团队
5 一支值得信赖的团队

在这个例子中，id 列代表了每个样本的唯一标识符（ID），text 列则包含了用于 DSSM 训练的文本特征。训练时，DSSM 会对原始匹配项（如“一支专业高效的团队”) 和负采样表中的每一个文本特征进行对比评估，以找出最相似的文本特征。
建议在构建负采样表时保持一致性，确保每一列都有清晰明确的意义，并且所含有的数据量足够大，以便有效地评估 DSSM 的性能。还可以根据具体需求调整负采样表的结构，例如添加更多的列或进行更细致的分类等。
2023-11-19 15:00:24

赞同展开评论

请问一下机器学习PAI DSSM负采样的例子当中，这个表的sample有么？

人工智能平台PAI

相关文章

热门讨论

热门文章

id	text
1	我们是一支专业的团队
2	一支拥有丰富经验的团队
3	一支技术精湛的团队
4	一支追求卓越的团队
5	一支值得信赖的团队