开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

请问一下机器学习PAI DSSM负采样的例子当中,这个表的sample有么?

请问一下机器学习PAI DSSM负采样的例子当中,这个表的sample有么?我们对于如何组织负采样的样本和column有些迷惑:4d9d5396d3bda748669ba9e821890926.png

展开
收起
真的很搞笑 2023-11-19 14:52:27 66 0
3 条回答
写回答
取消 提交回答
  • DSSM(Deep Structured Semantic Model)是一种用于文本相似度计算的方法。在PAI中,DSSM的训练通常涉及到正样本和负样本。正样本是两篇相似的文本,而负样本是两篇不相似的文本。

    在PAI的文档中,并没有直接给出负采样的示例。但是,我可以给你一个大致的示例,帮助你理解如何组织负采样的样本和列。

    假设我们有三个文本:"我爱学习","我爱工作","我爱生活"。我们可以选择"我爱学习"和"我爱工作"作为正样本,因为它们都是关于"爱"的主题。然后,我们需要选择一些负样本。我们可以选择"我爱学习"和"我爱生活"作为负样本,因为它们并不相似。

    在PAI的配置文件中,我们需要为每一对文本创建一个样本。在这个例子中,我们需要创建两个样本:一个正样本和一个负样本。

    正样本的列可能如下:

    columns:
      - name: text1
        data_type: string
        values: 我爱学习
      - name: text2
        data_type: string
        values: 我爱工作
    

    负样本的列可能如下:

    columns:
      - name: text1
        data_type: string
        values: 我爱学习
      - name: text2
        data_type: string
        values: 我爱生活
    

    然后,我们就可以使用这两个样本进行DSSM的训练了。

    2023-11-29 16:15:22
    赞同 展开评论 打赏
  • 那个是离线文本你在odps上跑的话,建这样一个表就行了d1457a90dcaa7ee4d200caf40468e2e3.png
    3926c479bdebf9a7881afb095235ac56.png
    建这样的一个表,格式如上.注意特征分隔符别跟特征本身冲突了.你如果用fg的话,我记得默认的分隔符好像是chr(2).,此回答整理自钉群“【EasyRec】推荐算法交流群”

    2023-11-19 23:16:14
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在 DSSM 模型中,负采样通常用于生成候选匹配项列表,用于对比评估原始匹配项的相关性。一般来说,负采样表应该包含两个主要的部分:

    • 表头(header): 这部分包含了列名和其他相关信息。
    • 数据(data): 这部分包含了负采样结果的具体数据。

    以下是一个简单的负采样表的例子:

    idtext
    1我们是一支专业的团队
    2一支拥有丰富经验的团队
    3一支技术精湛的团队
    4一支追求卓越的团队
    5一支值得信赖的团队

    在这个例子中,id 列代表了每个样本的唯一标识符(ID),text 列则包含了用于 DSSM 训练的文本特征。训练时,DSSM 会对原始匹配项(如“一支专业高效的团队”) 和 负采样表中的每一个文本特征进行对比评估,以找出最相似的文本特征。
    建议在构建负采样表时保持一致性,确保每一列都有清晰明确的意义,并且所含有的数据量足够大,以便有效地评估 DSSM 的性能。还可以根据具体需求调整负采样表的结构,例如添加更多的列或进行更细致的分类等。

    2023-11-19 15:00:24
    赞同 展开评论 打赏

人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。

相关产品

  • 人工智能平台 PAI
  • 热门讨论

    热门文章

    相关电子书

    更多
    大规模机器学习在蚂蚁+阿里的应用 立即下载
    阿里巴巴机器学习平台AI 立即下载
    微博机器学习平台架构和实践 立即下载