人类标注的时代已经结束?DeepMind 开源 SAFE 根治大模型幻觉问题

简介: Google DeepMind和斯坦福大学的研究人员发布了《衡量大型语言模型长篇事实性》论文,提出了新数据集LongFact(含2,280个问题)和评估方法SAFE,用于检查AI模型在生成长文时的事实准确性、连贯性和详尽性。

最近,AI 大模型在自然语言处理领域内风头正劲,它们在生成文本、回答问题等多种任务上展现出的强大实力受到了广泛的关注。然而,大模型在生成长段落文本时,经常做不到保持内容事实的准确性、连贯性和详尽性。

为了检验模型在生成具有一定长度的文章或叙述时,能否确保所产出的信息真实可靠、逻辑清晰且细节丰富,出现了一个全新评价标准:长篇事实性(long-form factuality)。

如果你没懂,其实也不用担心,因为 Google 已经出手杀死了比赛。Google DeepMind 的人工智能专家团队和斯坦福大学的研究者发布了一篇名为《衡量大型语言模型长篇事实性》(Long-form factuality in large language models)的研究论文,研究者们对长篇事实性问题进行了深度探究,并对语言模型在长篇事实性上的表现进行了全面评估。

他们推出了一套新的数据集——LongFact,其中包含了 2,280 个涵盖 38 个不同话题的引导问题;同时,提出了一个新颖的评估方法——SAFE(Self-contained Accuracy with Google Evidence),该方法运用语言模型代理人和Google搜索查询技术来进行评估。

  • GitHub:

https://github.com/google-deepmind/long-form-factuality

  • 论文链接:

https://arxiv.org/abs/2403.18802

以往的研究主要集中在语言模型对较短文本进行事实核查的能力上,而在生成较长、内容丰富且准确无误的文本方面,对其能力的考察则相对较少。这种能力对于实际应用来说十分重要,因为很多应用场景下我们期待语言模型能够连续、可信地输出信息,而不只是给出简洁的答案或片段。

ChatGPT 等大模型在过去几年中经常出现在新闻里——它们可以撰写论文、回答问题甚至解决数学问题。但他们面临一个同样的问题:准确性。模型获得的每一个结果都必须经过人工手动检查,以确保结果正确。

当前用于衡量长篇事实性的标准资源要么规模不够大,要么只针对某一特定领域,这让全面比较各类模型的表现变得困难重重。因此,急需建立一个覆盖面广、包含多元化主题的标准化基准,以便精准评估语言模型在长篇事实性上的能力。

为了填补这一空白,论文给出的方法是“以毒攻毒“,用 AI 检查 AI 生成的答案结果,并自动指出不准确之处。

LongFact 数据集

研究者们创建了 LongFact 数据集,它包含了 2,280 个涉及历史、科学、政治、体育等 38 个不同主题的高质量引导问题。这些问题源自维基百科、新闻报道等多个权威来源,通过自动化筛选和人工复核双重把关,确保问题既能检验模型的知识深度,又能避免出现事实错误或主观偏见。这样一来,LongFact 就成为了衡量语言模型长篇事实性的一项坚实基础。

SAFE

研究者们提出了名为 SAFE 的创新评估方法,该方法利用语言模型自身及其与 Google 搜索引擎的交互,来自动评估模型所生成文本的每个知识点是否准确、相关,并能自圆其说。与传统的依赖人工评判或仅注重表面上的正确性的方式不同,SAFE 借助 Google 搜索,能够在现实世界的情境下核实模型生成事实的准确性,并检测模型生成有意义信息的能力。

为了更准确地衡量长篇事实性,研究者引入了一个名为 K 的超参数,代表用户期望的理想回复长度。然后采用 F1@K 指标,该指标兼顾了信息的相关性和准确性,同时也考虑到了不同的回复长度。

在 LongFact 数据集上,研究者对来自四大系列(Gemini、GPT、Claude、PaLM-2)的共 13 个语言模型进行了基准测试。结果显示,规模更大的语言模型通常在长篇事实性上表现更好。SAFE 在 72% 的情况下与人工判断结果一致,并在随机选取的 100 个争议案例中有 76% 获得了更高的认可。此外,SAFE 比雇佣人工标注团队的效率高出了 20 倍以上,展现了其作为评估大型语言模型长篇事实性的一种高效手段。

展望未来

目前的语言模型在生成长篇、准确且相关事实信息方面还有进步的空间,所以 DeepMind 为此指出了几个未来研究方向。比如,可以通过改进预训练和微调方法,或者整合外部工具来提升模型这方面的能力。尽管本文重点关注的是与世界常识相关的事实准确性,但在长篇内容中识别和减少模型产生臆想信息的问题仍然有待进一步解决,这也为后续研究提供了新的机遇。

实验数据显示,SAFE 不仅在准确度上超过了人类水平,而且在成本效益上优于人工评判。此外,通过对多种模型进行基准测试,表明通过增大模型规模有望显著提高长篇事实性。这项研究旨在激发更多的研究者关注和提升语言模型在处理长篇内容时的准确性,并强调了获取高质量数据集、完善模型评估技术和合理选择评估指标在准确评价语言模型能力上的重要性。LongFact 和 SAFE 的源代码已对外公开,方便其他研究者查阅和复现,以推动该领域的持续发展。

  • GitHub:

https://github.com/google-deepmind/long-form-factuality


版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。                  

原文链接:https://blog.csdn.net/csdnnews/article/details/137251498

好啦!小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

相关文章
|
3月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
316 2
|
4月前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
384 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
3月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
968 2
|
3月前
|
人工智能 数据库 索引
超越幻觉:检索增强生成如何为AI大模型“装上”事实核查系统
超越幻觉:检索增强生成如何为AI大模型“装上”事实核查系统
298 107
|
4月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
567 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
3月前
|
人工智能 自然语言处理 搜索推荐
超越幻觉:RAG如何为AI大模型注入“真实”的灵魂
超越幻觉:RAG如何为AI大模型注入“真实”的灵魂
250 81
|
3月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
1602 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
4月前
智谱发布GLM-4.5V,全球开源多模态推理新标杆,Day0推理微调实战教程到!
视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外,逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。
743 0

热门文章

最新文章