【论文速递】 ACL2022 - 三思而后言:为对话模型显式地生成知识

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: # 【论文速递】 ACL2022 - 三思而后言: 为回答生成任务显式地生成内隐常识

【论文速递】 ACL2022 - 三思而后言: 为回答生成任务显式地生成内隐常识

#
【论文原文】:ACL2022 - Think Before You Speak: Explicitly Generating Implicit Commonsense Knowledge for Response Generation

论文: https://aclanthology.org/2022.acl-long.88/

博主关键词:隐式常识生成, 知识匹配, prompt,可解释性

推荐相关论文

论文:Retrieval-Free Knowledge-Grounded Dialogue Response Generation with Adapters
地址: https://arxiv.org/abs/2105.06232
关联创新点:信息检索式的知识增强模型

摘要

隐式知识,如常识(common sense),是人工智能能够产生流畅人类对话的关键。目前神经回答生成(Response Generation,RG)模型通过训练直接生成回答,忽略了未说明的隐性知识。在本文中。我们提出了一种生成方法:三思而后言(Think-Before-Speaking,TBS)首先将隐性常识知识具体化(Think),然后使用这些知识来产生回(Speak)。作者认为,将内隐知识具象化能允许更有效的学习,产生更多有信息含量的回答,并使模型更容易解释。作者尝试了多种策略来收集与知识相关的对话,表达内隐知识,以及知识和对话之间的过渡。实证结果显示,在大多数指标上,TBS模型的性能优于端到端的 RG模型。经人工标注者评估,TBS模型产生了更多的有信息量的、确切的、遵循常识的回答。在85%的时间里,TBS产生了有意义的知识

简介

人类沟通的目的是为了达成共同点(common ground),包括共同的信念和常识性内容。这种共同点(common ground)不仅取决于说话,还包括有隐性的知识。例如,在Figure 1中,这种共同点(common ground)蕴含了"玫瑰是一种类型的花"这种相关隐性背景知识 。整合这种对话中的共同点是一个隐性的过程,通常被称为建立知识基础(knowledge grounding)。 最近SOTA的神经回答生成(RG)模型是基于预先训练的语言模型(LM),以端到端方式产生回答。预训练模型事先经过训练,利用历史知识做出回应。 然而由于隐知识在对话历史中未被陈述,RG 模型无法显式地学习这些知识基础(knowledge grounding),可能会产生无信息的、 幻化的知识 。Knowledge-grounded RG模型解决了这个问题, 然而,大多数方法都需要基于知识库(KB)对RG进行知识检索,受限于所使用的知识库覆盖范围。 还有一些工作将知识作为一种潜在变量去生成,这使得我们很难检验知识生成的质量以及RG模型如何使用内隐知识,提出了可解释性方面的问题。

在这里插入图片描述

在inquiry-based discovery learning方法的启发下,我们提出了 "三思而后言"(TBS)这一RG框架来显式地生成隐性知识,并使用这些知识生成回答。将端到端方式分解后有三个优点:

  1. 与传统RG相比,生成的知识增强并约束了RG模型,使得模型产生更有信息量的回答;
  2. 与知识检索模型相比,在中间过程显式地生成知识基础,有可能归纳出在知识库范围外的知识,并且与回答生成过程产生协同作用;
  3. RG中显示生成地隐性知识,可以就模型生成回答的内在原因提供更好的可解释性。

这种新的RG范式有三个主要的挑战:

  1. 如何识别与多轮对话相关的隐性常识,以训练知识生成模块;
  2. 如何在自然语言中表示结构化的知识?
  3. 如何将知识和对话整合起来,同时又能在回答中区分出隐性和显性部分。

在这里插入图片描述

针对这三个问题,本文的主要解决思路是:

  1. 为了收集与每个对话实例相关的知识,以训练TBS生成模型,本文提出了一种弱监督方法,将知识与每个对话回合自动对齐。作者使用ConceptNet作为知识库,尝试不同的匹配方法,包括Hard-Matching和基于embedding相似度的Soft-Matching来识别隐性知识。
  2. 作者探索了几种方法,将结构化为三要素的知识格式化为自然语言,以便RG模型能够轻松适应知识+回答的生成任务。作者实验了结构化的三元组、转换为自然语言的三元组、以及一种更口语化的问答格式。
  3. 为了保证知识和对话之间的平稳过渡,本文使用特殊符号或提示语作为分隔符。

另外,为了评估TBS框架,本文引入了新的评价指标,以涵盖系统的不同方面,包括回答质量、知识质量,以及TBS模型如何利用生成的知识。作者对模型的不同变体进行了广泛人工评估。实验结果表明,与端到端RG模型和其他知识增强的模型(如知识选择)相比,TBS模型产生了更有信息量,更确切,更符合常识的回答。知识质量分析表明,至少有85%的生成知识是相关且有意义的,而且生成的知识库外的新知识也有很高的质量。

文章的主要创新点如下:

  • 本文将端到端的RG模型分解,提出了一种回答生成模型的新范式,即首先显式地生成隐性知识,然后使用这些知识生成回答。
  • 本文提出了一种弱监督方法来将知识与对话自动对齐。基于外部知识库作者提出了Hard-Matching和基于embedding相似度的Soft-Matching来识别隐性知识 。
  • 本文提出了新的评价指标来衡量回答生成的质量、知识的质量以及模型利用知识的程度。TBS模型不仅比传统RG模型有更好的性能,还有更好的可解释性

【论文速递 | 精选】

论坛地址:https://bbs.csdn.net/forums/paper

目录
相关文章
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
清华EconAgent获ACL 2024杰出论文:大模型智能体革新计算经济学研究范式
近年来,人工智能的迅猛发展推动了数据驱动建模在宏观经济学领域的应用。清华大学研究团队提出的EconAgent模型,基于大型语言模型,具备类似人类的决策能力,能更准确地模拟个体行为对宏观经济系统的影响。EconAgent在个体异质性、市场动态及宏观经济因素模拟方面表现出色,并具有更好的可解释性和灵活性。然而,其高计算复杂度和部分决策过程的不透明性仍需进一步解决。该成果已在ACL 2024会议上获得杰出论文奖。论文链接:https://arxiv.org/abs/2310.10436v4
142 3
|
18天前
|
机器学习/深度学习 人工智能 算法
NeurIPS 2024:自我纠错如何使OpenAI o1推理能力大大加强?北大、MIT团队给出理论解释
在人工智能领域,大型语言模型(LLMs)的自我纠错能力正成为研究热点。北京大学和麻省理工学院的研究团队在NeurIPS 2024上发表的研究,通过基于上下文学习的理论分析,揭示了Transformer模型中关键设计在自我纠错中的作用,并提出了“Checking as Context”策略,应用于缓解社会偏见和防御LLM越狱攻击,显著提升了模型性能。然而,研究主要基于简化设置和合成数据集,存在局限性。
75 26
|
4月前
|
机器学习/深度学习 测试技术
ACL杰出论文奖:GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
【10月更文挑战第6天】约翰斯·霍普金斯大学等机构提出了一项荣获ACL杰出论文奖的研究,旨在解决大模型在心智理论(ToM)上的不足。他们发布了首个MMToM-QA多模态ToM测试集,并提出BIP-ALM方法,从多模态数据中提取统一表示,结合语言模型进行贝叶斯逆规划,显著提升了模型的ToM能力。这一成果为机器与人类自然交互提供了新思路,尽管仍面临一些局限性和技术挑战。论文详情见:https://arxiv.org/abs/2401.08743。
75 6
|
5月前
|
算法 知识图谱
ACL 2024 Oral:我们离真正的多模态思维链推理还有多远?
【9月更文挑战第5天】近年来,多模态思维链推理(MCoT)受到广泛关注,但现有基准仍面临诸多挑战。为此,研究人员提出了M$^3$CoT基准,旨在推动多领域、多步骤、多模态的推理能力发展。M$^3$CoT涵盖科学、数学等多个领域,要求模型进行多步骤推理,并结合文本和视觉信息。尽管当前视觉大语言模型(VLLMs)在M$^3$CoT上的表现不佳,但该基准为MCoT的发展提供了新机遇,未来可从模型改进、数据增强及知识融合等方面进行探索。论文详情见:https://arxiv.org/abs/2405.16473。
71 1
|
6月前
|
人工智能
ACL 2024 Oral:大模型也会被忽悠?揭秘AI的信念之旅
【8月更文挑战第28天】清华大学、上海交通大学、斯坦福大学和南洋理工大学的研究团队最新研究表明,即使是在训练过程中积累了大量知识的大语言模型(LLMs),如ChatGPT和GPT-4,在面对误导性信息时仍可能产生错误信念。研究者为此创建了Farm数据集,以系统性地生成误导信息并测试LLMs在说服性对话中的表现。结果显示,即使是先进如GPT-4,其信念也有20.7%的概率被改变。该研究不仅揭示了LLMs潜在的脆弱性,还提供了评估其鲁棒性的方法,对未来提升LLMs的安全性和准确性具有重要启示作用。论文详细内容可见[此处链接]。
67 5
|
6月前
|
机器学习/深度学习 编译器 TensorFlow
【ASPLOS2024】RECom:通过编译器技术加速推荐模型推理,论文中选并获得荣誉奖项!
2024年5月,关于推荐模型自动编译优化的论文《RECom: A Compiler Approach to Accelerate Recommendation Model Inference with Massive Embedding Columns》在系统领域顶会ASPLOS 2024上中选并进行了展示,并被授予了Distinguished Artifact Award 荣誉,以表彰RECom的易用性与结果的可复现性。
|
自然语言处理 机器人 API
GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等
GPT学术优化 (GPT Academic):支持一键润色、一键中英互译、一键代码解释、chat分析报告生成、PDF论文全文翻译功能、互联网信息聚合+GPT等等
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
16CODEIPPROMPT:顶会ICML’23 从GitHub到AI,探索代码生成的侵权风险与缓解策略的最新进展:训练数据`有限制性许可;模型微调+动态Token过滤【网安AIGC专题11.8】
16CODEIPPROMPT:顶会ICML’23 从GitHub到AI,探索代码生成的侵权风险与缓解策略的最新进展:训练数据`有限制性许可;模型微调+动态Token过滤【网安AIGC专题11.8】
153 1
|
机器学习/深度学习 自然语言处理 Java
【论文速递】ACL 2021-CLEVE: 事件抽取的对比预训练
事件抽取(EE)通过微调从预训练的语言模型(PLMs)中受益匪浅。然而,现有的预训练方法没有涉及事件特征的建模,导致所开发的EE模型不能充分利用大规模无监督数据。
148 0
|
人工智能 自然语言处理 测试技术
ACL 2022 | 一口气翻两千词,字节AI Lab提出篇章到篇章的机器翻译新思路
ACL 2022 | 一口气翻两千词,字节AI Lab提出篇章到篇章的机器翻译新思路
275 0
ACL 2022 | 一口气翻两千词,字节AI Lab提出篇章到篇章的机器翻译新思路

热门文章

最新文章