深度学习-生成式检索-论文速读-2024-09-14(下)

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 深度学习-生成式检索-论文速读-2024-09-14(下)

深度学习-生成式检索-论文速读-2024-09-14(上)+https://developer.aliyun.com/article/1628831

创新点

  1. 生成式检索与密集检索的关联:文章将生成式检索的概念与密集检索相联系,提供了一种新的视角来理解和改进生成式检索。
  2. Tied-Atomic模型:提出了Tied-Atomic模型,该模型通过结合密集检索的技术,解决了生成式检索在更新索引和扩展到大型数据集方面的挑战。
  3. 点积相似性建模:展示了生成式检索过程可以被分解为查询向量和文档向量之间的点积,这与密集检索中的相似性建模方法相似。

算法模型

  • 生成式检索:使用单一变换器模型进行索引和检索,通过生成相关文档标识符来响应查询。
  • Tied-Atomic:提出的新变体,通过将文档文本与词汇(DocID)嵌入联系起来,并使用对比损失进行训练,从而增强了生成式检索模型。

实验效果

  • 数据集:NQ320k和完整的MSMARCO数据集。
  • 性能指标:使用MRR@100(Mean Reciprocal Rank at 100)等指标进行评估。
  • 结论
  • Tied-Atomic模型在NQ320K数据集上的表现与DSI(Differentiable Search Index)模型和NCI(Neural Corpus Indexer)模型相当,甚至在某些指标上有所提升。
  • 在MSMARCO数据集上,Tied-Atomic模型表现出良好的可扩展性,与ANCE等密集检索模型相比具有竞争力。

推荐阅读指数:

★★★★☆

推荐理由

这篇文章为生成式检索领域提供了重要的见解,特别是在如何将生成式检索与密集检索相结合以提高检索系统的效率和可扩展性方面。提出的Tied-Atomic模型不仅在理论上具有创新性,而且在实验中也显示出了良好的性能和可扩展性,这对于研究人员和实践者在设计和优化检索系统时具有重要的参考价值。此外,文章的分析和实验结果为未来在这一领域的研究提供了新的方向和思路。

6. Learning to Tokenize for Generative Retrieval, NIPS, 2024

W Sun, L Yan, Z Chen, S Wang, H Zhu, P Ren, Z Chen, D Yin, M Rijke, Z Re

为生成式检索学习分词

摘要

本文提出了一种新的信息检索范式——生成式检索,它通过使用生成语言模型(LMs)直接为给定查询生成文档标识符(docids)的排名列表。文档分词是生成式检索中的一个关键问题,它决定了模型是否能够通过简单地解码其docid来精确检索任何文档。大多数现有方法采用基于规则的分词,这些方法通常是特定于场景的,并且泛化能力不强。与此相反,本文提出了一种新颖的文档分词学习方法GENRET,它通过离散自编码方法学习将完整文档语义编码到docids中。GENRET通过渐进式训练方案和多种聚类技术来捕获docids的自回归特性并稳定训练过程。在NQ320K、MS MARCO和BEIR数据集上的实验表明,GENRET在NQ320K数据集上建立了新的最先进水平,并且在未见过的文档上相比生成式检索基线取得了显著改进。

创新点

  1. 文档分词学习框架GENRET:提出了一种新的文档分词学习方法,通过离散自编码方案学习将文档编码为语义docids。
  2. 渐进式训练方案:为了稳定训练过程,提出了一种渐进式训练方案,允许通过固定优化的前缀docids来稳定模型训练。
  3. 多样化聚类技术:提出了参数初始化策略和基于多样化聚类技术的docid重新分配,以增加生成docids的多样性。

算法模型

GENRET由三个主要组件构成:

  1. 文档分词模型:将文档转换为离散的docids。
  2. 生成式检索模型:给定查询时,以自回归方式生成docids。
  3. 重构模型:使用生成的docids重构原始文档,确保docids捕获文档的语义信息。

实验效果

  • NQ320K数据集:GENRET在NQ320K数据集上取得了68.1%的R@1和75.9%的MRR,相比之前的最先进方法有显著提升。
  • MS MARCO数据集:GENRET在MS MARCO数据集上取得了47.9%的R@1和58.1%的MRR,超过了包括ANCE和Sentence-T5在内的基线方法。
  • BEIR数据集:在BEIR数据集上,GENRET在多个子数据集上展现了竞争力,平均nDCG@10为41.1,超过了包括BM25和DocT5Query在内的基线方法。

推荐阅读指数

★★★★☆

推荐理由

这篇论文在文档检索领域提出了一种创新的文档分词学习方法,通过自编码框架和渐进式训练方案,有效地提高了生成式检索模型的性能。特别是在处理未见过的文档时,GENRET展现出了良好的泛化能力。这对于信息检索、自然语言处理和机器学习领域的研究者和实践者来说,是一篇值得阅读的论文。此外,论文中提出的多样化聚类技术和渐进式训练方案,也为解决类似问题提供了有价值的思路和方法。

7. Generative Hierarchical Materials Search, 2024

S Yang, S Batzner, R Gao, M Aykol, AL Gaunt… - arXiv preprint arXiv …, 2024

https://arxiv.org/pdf/2409.06762

生成式层次化材料搜索

摘要

这篇文章介绍了一种名为生成式层次化材料搜索(GenMS)的新方法,它利用大规模训练的生成模型来产生文本、视频以及科学数据,如晶体结构。在材料科学,尤其是晶体结构的应用中,领域专家的高级指令对于自动化系统输出可行的候选晶体至关重要。文章提出了一种端到端的语言到结构生成方法,将问题表述为多目标优化问题,并设计了GenMS以可控方式生成晶体结构。GenMS包括一个语言模型,它接受高级自然语言作为输入并生成关于晶体的中间文本信息(例如化学式),以及一个扩散模型,它接受中间信息作为输入并生成低级别的连续值晶体结构。此外,GenMS还使用图神经网络来预测生成的晶体结构的属性(例如形成能)。在推理过程中,GenMS利用所有三个组件来对可能的结构空间进行前向树搜索。实验表明,GenMS在满足用户请求和生成低能结构方面,比其他直接使用语言模型生成结构的方法表现更好。

创新点

  1. 端到端语言到结构生成:提出了一种新颖的方法,将高级自然语言描述直接转换为晶体结构。
  2. 多目标优化:将语言到结构的生成问题转化为多目标优化问题,允许在化学式和结构级别进行优化。
  3. 层次化搜索:通过结合语言模型、扩散模型和图神经网络,实现了从高级语言描述到低级结构的层次化搜索。
  4. 属性预测:使用图神经网络预测生成晶体结构的属性,如形成能,以辅助选择。

算法模型

GenMS由以下三个主要组件构成:

  1. 语言模型:接收高级自然语言指令,生成关于晶体的中间文本信息,如化学式。
  2. 扩散模型:接受中间信息作为输入,生成低级别的连续值晶体结构。
  3. 图神经网络:预测生成的晶体结构的属性,如形成能。

实验效果

  • 成功率:GenMS在满足用户请求方面超过80%的成功率,而直接使用预训练的语言模型生成结构的成功率接近0%。
  • 形成能:GenMS生成的结构具有较低的形成能,通过DFT计算验证。
  • 独特性:生成的晶体结构中,有较高比例是独特的,不存在于现有的材料数据库中。
  • 匹配率:生成的结构与材料项目中的相应家族结构匹配率高。

推荐阅读指数:★★★★☆

推荐理由

这篇论文在材料科学领域提出了一种创新的方法,通过结合自然语言处理和生成模型,实现了从自然语言描述到晶体结构的自动生成。这种方法不仅提高了生成结构的准确性和效率,而且为材料设计提供了一种新的自动化工具。对于从事材料科学、计算化学以及人工智能领域的研究者和工程师来说,这篇文章提供了一种新的视角和工具,值得一读。

8. Hi-Gen: Generative Retrieval For Large-Scale Personalized E-commerce Search, ICDM, 2024.

Yanjing Wu, Yinfu Feng, Jian Wang, Wenji Zhou, Yunan Ye, Rong Xiao, Jun Xiao

Hi-Gen: 大规模个性化电子商务搜索的生成式检索

摘要

本文提出了一种用于大规模个性化电子商务搜索的生成式检索方法Hi-Gen。该方法通过设计一个度量学习模型来学习项目的特征表示,捕获语义相关性和效率信息,然后通过类别引导的层次聚类方案生成docID。此外,提出了位置感知损失来提高解码阶段语言模型的性能。Hi-Gen在公共和行业数据集上进行了广泛的实验,证明了其有效性和效率。在线AB测试实验表明,Hi-Gen在召回数量和商品交易总额上都有显著提升。

创新点

  1. 类别引导的层次聚类:利用项目嵌入和效率分数,通过层次聚类生成具有清晰语义含义的docID。
  2. 位置感知损失:在解码阶段,提出了位置感知损失来区分位置的重要性,并挖掘同一位置不同token之间的内在关系。
  3. 在线实时大规模召回的两种变体:Hi-Gen-I2I和Hi-Gen-Cluster,支持在线服务过程中的实时大规模召回。

算法模型

Hi-Gen模型包括以下几个关键组件:

  1. 表示学习模型:使用度量学习来学习项目的区分性特征表示。
  2. 类别引导的层次聚类:根据项目嵌入和效率分数,通过层次聚类生成docID。
  3. 位置感知损失:在语言模型的解码阶段使用,以提高解码性能。
  4. 在线服务优化:Hi-Gen-I2I和Hi-Gen-Cluster两种变体,用于在线大规模召回。

实验效果

  • 公共数据集AOL4PS:Hi-Gen在Recall@1和Recall@10上分别比最佳基线模型提高了3.30%和7.73%。
  • 行业数据集AEDST:Hi-Gen在Recall@1、Recall@50和Recall@100上分别比最佳基线模型提高了4.62%、25.87%和28.37%。
  • 在线AB测试:Hi-Gen在召回数量和商品交易总额上分别提高了6.89%和1.42%。

推荐阅读指数

★★★★☆

推荐理由

这篇论文针对大规模个性化电子商务搜索问题提出了一种创新的生成式检索方法。通过结合度量学习和层次聚类技术,Hi-Gen能够有效地捕获项目的语义和效率信息,并在解码阶段利用位置感知损失提高检索性能。此外,论文还提出了两种变体以支持在线服务过程中的实时大规模召回,这些方法在公共和行业数据集上的实验结果证明了其有效性。对于从事电子商务搜索、推荐系统和生成式检索研究的研究人员和工程师来说,这篇论文提供了有价值的见解和技术方案。

目录
相关文章
|
8月前
|
机器学习/深度学习 自然语言处理 数据挖掘
【论文精读】TNNLS 2022 - 基于深度学习的事件抽取研究综述
【论文精读】TNNLS 2022 - 基于深度学习的事件抽取研究综述
|
3月前
|
机器学习/深度学习 存储 自然语言处理
深度学习-生成式检索-论文速读-2024-09-14(上)
深度学习-生成式检索-论文速读-2024-09-14(上)
76 0
|
3月前
|
机器学习/深度学习 搜索推荐 算法
深度学习-点击率预估-研究论文2024-09-14速读
深度学习-点击率预估-研究论文2024-09-14速读
54 0
|
6月前
|
机器学习/深度学习 数据采集 自然语言处理
深度学习之文本检索
文本检索(Text Retrieval)是指在大量文本数据中,根据用户的查询文本找到相关文档。基于深度学习的方法通过提取文本的高层次语义特征,实现了高效和准确的文本检索。
77 3
|
8月前
|
机器学习/深度学习 编解码 人工智能
2024年2月深度学习的论文推荐
我们这篇文章将推荐2月份发布的10篇深度学习的论文
277 1
|
机器学习/深度学习 自然语言处理 算法
【论文精读】TNNLS 2022 - 基于深度学习的事件抽取研究综述
事件抽取是从海量文本数据中快速获取事件信息的一项重要研究任务。随着深度学习的快速发展,基于深度学习技术的事件抽取已成为研究热点。文献中提出了许多方法、数据集和评估指标,这增加全面更新调研的需求。
624 0
|
8月前
|
机器学习/深度学习 自然语言处理 前端开发
2024年3月最新的深度学习论文推荐
现在已经是3月中旬了,我们这次推荐一些2月和3月发布的论文。
428 0
|
28天前
|
机器学习/深度学习 传感器 数据采集
深度学习在故障检测中的应用:从理论到实践
深度学习在故障检测中的应用:从理论到实践
118 5
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习的原理与应用:开启智能时代的大门
深度学习的原理与应用:开启智能时代的大门
93 16
|
20天前
|
机器学习/深度学习 网络架构 计算机视觉
深度学习在图像识别中的应用与挑战
【10月更文挑战第21天】 本文探讨了深度学习技术在图像识别领域的应用,并分析了当前面临的主要挑战。通过研究卷积神经网络(CNN)的结构和原理,本文展示了深度学习如何提高图像识别的准确性和效率。同时,本文也讨论了数据不平衡、过拟合、计算资源限制等问题,并提出了相应的解决策略。
78 19