人类标注的时代已经结束?DeepMind 开源 SAFE 根治大模型幻觉问题

本文涉及的产品
轻量应用服务器 2vCPU 4GiB,适用于搭建容器环境
轻量应用服务器 2vCPU 4GiB,适用于搭建Web应用/小程序
轻量应用服务器 2vCPU 1GiB,适用于搭建电商独立站
简介: Google DeepMind和斯坦福大学的研究人员发布了《衡量大型语言模型长篇事实性》论文,提出了新数据集LongFact(含2,280个问题)和评估方法SAFE,用于检查AI模型在生成长文时的事实准确性、连贯性和详尽性。

最近,AI 大模型在自然语言处理领域内风头正劲,它们在生成文本、回答问题等多种任务上展现出的强大实力受到了广泛的关注。然而,大模型在生成长段落文本时,经常做不到保持内容事实的准确性、连贯性和详尽性。

为了检验模型在生成具有一定长度的文章或叙述时,能否确保所产出的信息真实可靠、逻辑清晰且细节丰富,出现了一个全新评价标准:长篇事实性(long-form factuality)。

如果你没懂,其实也不用担心,因为 Google 已经出手杀死了比赛。Google DeepMind 的人工智能专家团队和斯坦福大学的研究者发布了一篇名为《衡量大型语言模型长篇事实性》(Long-form factuality in large language models)的研究论文,研究者们对长篇事实性问题进行了深度探究,并对语言模型在长篇事实性上的表现进行了全面评估。

他们推出了一套新的数据集——LongFact,其中包含了 2,280 个涵盖 38 个不同话题的引导问题;同时,提出了一个新颖的评估方法——SAFE(Self-contained Accuracy with Google Evidence),该方法运用语言模型代理人和Google搜索查询技术来进行评估。

  • GitHub:

https://github.com/google-deepmind/long-form-factuality

  • 论文链接:

https://arxiv.org/abs/2403.18802

以往的研究主要集中在语言模型对较短文本进行事实核查的能力上,而在生成较长、内容丰富且准确无误的文本方面,对其能力的考察则相对较少。这种能力对于实际应用来说十分重要,因为很多应用场景下我们期待语言模型能够连续、可信地输出信息,而不只是给出简洁的答案或片段。

ChatGPT 等大模型在过去几年中经常出现在新闻里——它们可以撰写论文、回答问题甚至解决数学问题。但他们面临一个同样的问题:准确性。模型获得的每一个结果都必须经过人工手动检查,以确保结果正确。

当前用于衡量长篇事实性的标准资源要么规模不够大,要么只针对某一特定领域,这让全面比较各类模型的表现变得困难重重。因此,急需建立一个覆盖面广、包含多元化主题的标准化基准,以便精准评估语言模型在长篇事实性上的能力。

为了填补这一空白,论文给出的方法是“以毒攻毒“,用 AI 检查 AI 生成的答案结果,并自动指出不准确之处。

LongFact 数据集

研究者们创建了 LongFact 数据集,它包含了 2,280 个涉及历史、科学、政治、体育等 38 个不同主题的高质量引导问题。这些问题源自维基百科、新闻报道等多个权威来源,通过自动化筛选和人工复核双重把关,确保问题既能检验模型的知识深度,又能避免出现事实错误或主观偏见。这样一来,LongFact 就成为了衡量语言模型长篇事实性的一项坚实基础。

SAFE

研究者们提出了名为 SAFE 的创新评估方法,该方法利用语言模型自身及其与 Google 搜索引擎的交互,来自动评估模型所生成文本的每个知识点是否准确、相关,并能自圆其说。与传统的依赖人工评判或仅注重表面上的正确性的方式不同,SAFE 借助 Google 搜索,能够在现实世界的情境下核实模型生成事实的准确性,并检测模型生成有意义信息的能力。

为了更准确地衡量长篇事实性,研究者引入了一个名为 K 的超参数,代表用户期望的理想回复长度。然后采用 F1@K 指标,该指标兼顾了信息的相关性和准确性,同时也考虑到了不同的回复长度。

在 LongFact 数据集上,研究者对来自四大系列(Gemini、GPT、Claude、PaLM-2)的共 13 个语言模型进行了基准测试。结果显示,规模更大的语言模型通常在长篇事实性上表现更好。SAFE 在 72% 的情况下与人工判断结果一致,并在随机选取的 100 个争议案例中有 76% 获得了更高的认可。此外,SAFE 比雇佣人工标注团队的效率高出了 20 倍以上,展现了其作为评估大型语言模型长篇事实性的一种高效手段。

展望未来

目前的语言模型在生成长篇、准确且相关事实信息方面还有进步的空间,所以 DeepMind 为此指出了几个未来研究方向。比如,可以通过改进预训练和微调方法,或者整合外部工具来提升模型这方面的能力。尽管本文重点关注的是与世界常识相关的事实准确性,但在长篇内容中识别和减少模型产生臆想信息的问题仍然有待进一步解决,这也为后续研究提供了新的机遇。

实验数据显示,SAFE 不仅在准确度上超过了人类水平,而且在成本效益上优于人工评判。此外,通过对多种模型进行基准测试,表明通过增大模型规模有望显著提高长篇事实性。这项研究旨在激发更多的研究者关注和提升语言模型在处理长篇内容时的准确性,并强调了获取高质量数据集、完善模型评估技术和合理选择评估指标在准确评价语言模型能力上的重要性。LongFact 和 SAFE 的源代码已对外公开,方便其他研究者查阅和复现,以推动该领域的持续发展。

  • GitHub:

https://github.com/google-deepmind/long-form-factuality


版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。                  

原文链接:https://blog.csdn.net/csdnnews/article/details/137251498

好啦!小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

相关文章
|
23天前
|
机器学习/深度学习 Web App开发 测试技术
NIPS 2024:代码模型自我进化超越GPT-4o蒸馏!UIUC伯克利等提出自对齐方法
在NIPS 2024上,UIUC、UC Berkeley等高校联合提出SelfCodeAlign方法,通过自我对齐使代码生成的大型语言模型(LLMs)在无需大量人工注释或蒸馏的情况下显著提升性能。该方法利用基础模型生成多样化编码任务并自我验证,最终选择通过测试的示例用于指令微调。实验表明,SelfCodeAlign微调的模型在多个编码任务上显著优于其他方法。论文地址:https://arxiv.org/pdf/2410.24198。
41 11
|
2月前
|
自然语言处理
Nature:人类亲吻难题彻底难倒LLM,所有大模型全部失败!LLM根本不会推理,只是工具
近期,《自然》杂志发表的研究显示,所有大型语言模型(LLM)在解释特定情境下人类亲吻行为时均失败。尽管LLM在语言处理和文本生成上表现出色,但在理解和推理复杂人类行为方面存在显著限制,表明其缺乏对人类情感、社会及文化背景的深入理解。专家认为LLM更像是工具而非智能体,虽在客户服务、内容创作等领域有价值,但在复杂推理和理解方面仍显不足。
97 37
|
2月前
|
机器学习/深度学习 人工智能 算法
NeurIPS 2024:自我纠错如何使OpenAI o1推理能力大大加强?北大、MIT团队给出理论解释
在人工智能领域,大型语言模型(LLMs)的自我纠错能力正成为研究热点。北京大学和麻省理工学院的研究团队在NeurIPS 2024上发表的研究,通过基于上下文学习的理论分析,揭示了Transformer模型中关键设计在自我纠错中的作用,并提出了“Checking as Context”策略,应用于缓解社会偏见和防御LLM越狱攻击,显著提升了模型性能。然而,研究主要基于简化设置和合成数据集,存在局限性。
90 26
|
3月前
|
人工智能 计算机视觉
幻觉不一定有害,新框架用AI的幻觉优化图像分割技术
在图像分割领域,传统方法依赖大量手动标注数据,效率低下且难以适应复杂场景。为解决这一问题,研究人员提出了“任务通用可提示分割”方法,利用多模态大型语言模型(MLLM)生成实例特定提示。然而,MLLM常出现幻觉,影响分割精度。为此,研究团队开发了“Prompt-Mask Cycle”(ProMaC)框架,通过迭代生成和验证提示及掩码,有效利用幻觉信息,提高了分割精度和效率。实验结果表明,ProMaC在多个基准数据集上表现出色,为图像分割技术的发展提供了新思路。
53 6
|
5月前
|
机器学习/深度学习 算法 安全
大模型进阶微调篇(二):基于人类反馈的强化学习RLHF原理、优点介绍,但需要警惕LLMs的拍马屁行为
本文探讨了基于人类反馈的强化学习(RLHF)方法的优缺点。作者指出,虽然RLHF能够使模型更好地满足用户需求,但也存在缺乏多样性、创新不足、偏好固化和难以适应动态变化等问题。文章通过具体实验和示例代码,详细解析了RLHF的工作原理,并强调了其在实际应用中的潜在风险。
530 6
|
5月前
|
机器学习/深度学习 人工智能 算法
【大语言模型-论文速读】GPT的不确定性判断
【大语言模型-论文速读】GPT的不确定性判断
66 0
|
8月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
51 2
|
10月前
|
人工智能 自然语言处理 搜索推荐
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
【4月更文挑战第5天】DeepMind推出开源工具SAFE,挑战大模型的幻觉,提升事实评估准确性和效率。通过自动化和搜索引擎验证,SAFE在成本上比人类标注便宜20倍,且在72%的时间与人类一致,显示了在大规模事实验证中的潜力。然而,依赖谷歌搜索和易受长文本信息过载影响是其局限性。
109 13
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
|
10月前
|
机器学习/深度学习 人工智能
谷歌提出大规模ICL方法——强化和无监督
【5月更文挑战第26天】谷歌DeepMind团队提出Many-Shot ICL,一种强化和无监督学习方法,用于提升大型语言模型处理多样化任务的能力。通过提供更多示例,模型无需权重更新即可学习新任务。研究还引入Reinforced ICL和Unsupervised ICL,减少对人类生成输出的依赖。Many-Shot ICL能有效克服预训练偏见,但示例顺序对其性能至关重要。然而,NLL作为评估指标的局限性被指出,且增加示例数量可能降低性能。该研究为改进LLMs提供了新视角,但仍需在更多模型和场景中验证。[链接: https://arxiv.org/abs/2404.11018]
109 1
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
论文介绍:自我对弈微调——将弱语言模型转化为强语言模型的新方法
【5月更文挑战第17天】论文《自我对弈微调》提出了一种新方法,名为SPIN,用于在无需额外人工标注数据的情况下增强大型语言模型(LLM)。SPIN利用自我对弈机制,让模型通过与自身历史版本交互生成自我训练数据,实现性能提升。该方法在多个基准数据集上表现出色,超越了传统监督微调和直接偏好优化。SPIN还为生成对抗网络研究提供了新思路,展示了自我对弈在强化学习和深度学习中的潜力。实验表明,SPIN有效提升了模型性能,为未来研究奠定了基础。[[arxiv](https://arxiv.org/abs/2401.01335v1)]
100 3