人类标注的时代已经结束？DeepMind 开源 SAFE 根治大模型幻觉问题-阿里云开发者社区

人类标注的时代已经结束？DeepMind 开源 SAFE 根治大模型幻觉问题

2024-04-03 170

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

轻量应用服务器 2vCPU 4GiB，适用于搭建容器环境

轻量应用服务器 2vCPU 4GiB，适用于搭建Web应用/小程序

轻量应用服务器 2vCPU 1GiB，适用于搭建电商独立站

简介： Google DeepMind和斯坦福大学的研究人员发布了《衡量大型语言模型长篇事实性》论文，提出了新数据集LongFact（含2,280个问题）和评估方法SAFE，用于检查AI模型在生成长文时的事实准确性、连贯性和详尽性。

最近，AI 大模型在自然语言处理领域内风头正劲，它们在生成文本、回答问题等多种任务上展现出的强大实力受到了广泛的关注。然而，大模型在生成长段落文本时，经常做不到保持内容事实的准确性、连贯性和详尽性。

为了检验模型在生成具有一定长度的文章或叙述时，能否确保所产出的信息真实可靠、逻辑清晰且细节丰富，出现了一个全新评价标准：长篇事实性（long-form factuality）。

如果你没懂，其实也不用担心，因为 Google 已经出手杀死了比赛。Google DeepMind 的人工智能专家团队和斯坦福大学的研究者发布了一篇名为《衡量大型语言模型长篇事实性》（Long-form factuality in large language models）的研究论文，研究者们对长篇事实性问题进行了深度探究，并对语言模型在长篇事实性上的表现进行了全面评估。

他们推出了一套新的数据集——LongFact，其中包含了 2,280 个涵盖 38 个不同话题的引导问题；同时，提出了一个新颖的评估方法——SAFE（Self-contained Accuracy with Google Evidence），该方法运用语言模型代理人和Google搜索查询技术来进行评估。

GitHub：

https://github.com/google-deepmind/long-form-factuality

论文链接：

https://arxiv.org/abs/2403.18802

以往的研究主要集中在语言模型对较短文本进行事实核查的能力上，而在生成较长、内容丰富且准确无误的文本方面，对其能力的考察则相对较少。这种能力对于实际应用来说十分重要，因为很多应用场景下我们期待语言模型能够连续、可信地输出信息，而不只是给出简洁的答案或片段。

ChatGPT 等大模型在过去几年中经常出现在新闻里——它们可以撰写论文、回答问题甚至解决数学问题。但他们面临一个同样的问题：准确性。模型获得的每一个结果都必须经过人工手动检查，以确保结果正确。

当前用于衡量长篇事实性的标准资源要么规模不够大，要么只针对某一特定领域，这让全面比较各类模型的表现变得困难重重。因此，急需建立一个覆盖面广、包含多元化主题的标准化基准，以便精准评估语言模型在长篇事实性上的能力。

为了填补这一空白，论文给出的方法是“以毒攻毒“，用 AI 检查 AI 生成的答案结果，并自动指出不准确之处。

LongFact 数据集

研究者们创建了 LongFact 数据集，它包含了 2,280 个涉及历史、科学、政治、体育等 38 个不同主题的高质量引导问题。这些问题源自维基百科、新闻报道等多个权威来源，通过自动化筛选和人工复核双重把关，确保问题既能检验模型的知识深度，又能避免出现事实错误或主观偏见。这样一来，LongFact 就成为了衡量语言模型长篇事实性的一项坚实基础。

SAFE

研究者们提出了名为 SAFE 的创新评估方法，该方法利用语言模型自身及其与 Google 搜索引擎的交互，来自动评估模型所生成文本的每个知识点是否准确、相关，并能自圆其说。与传统的依赖人工评判或仅注重表面上的正确性的方式不同，SAFE 借助 Google 搜索，能够在现实世界的情境下核实模型生成事实的准确性，并检测模型生成有意义信息的能力。

为了更准确地衡量长篇事实性，研究者引入了一个名为 K 的超参数，代表用户期望的理想回复长度。然后采用 F1@K 指标，该指标兼顾了信息的相关性和准确性，同时也考虑到了不同的回复长度。

在 LongFact 数据集上，研究者对来自四大系列（Gemini、GPT、Claude、PaLM-2）的共 13 个语言模型进行了基准测试。结果显示，规模更大的语言模型通常在长篇事实性上表现更好。SAFE 在 72% 的情况下与人工判断结果一致，并在随机选取的 100 个争议案例中有 76% 获得了更高的认可。此外，SAFE 比雇佣人工标注团队的效率高出了 20 倍以上，展现了其作为评估大型语言模型长篇事实性的一种高效手段。

展望未来

目前的语言模型在生成长篇、准确且相关事实信息方面还有进步的空间，所以 DeepMind 为此指出了几个未来研究方向。比如，可以通过改进预训练和微调方法，或者整合外部工具来提升模型这方面的能力。尽管本文重点关注的是与世界常识相关的事实准确性，但在长篇内容中识别和减少模型产生臆想信息的问题仍然有待进一步解决，这也为后续研究提供了新的机遇。

实验数据显示，SAFE 不仅在准确度上超过了人类水平，而且在成本效益上优于人工评判。此外，通过对多种模型进行基准测试，表明通过增大模型规模有望显著提高长篇事实性。这项研究旨在激发更多的研究者关注和提升语言模型在处理长篇内容时的准确性，并强调了获取高质量数据集、完善模型评估技术和合理选择评估指标在准确评价语言模型能力上的重要性。LongFact 和 SAFE 的源代码已对外公开，方便其他研究者查阅和复现，以推动该领域的持续发展。

GitHub：

https://github.com/google-deepmind/long-form-factuality

原文链接：https://blog.csdn.net/csdnnews/article/details/137251498

好啦！小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽，请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

人类标注的时代已经结束？DeepMind 开源 SAFE 根治大模型幻觉问题

云服务器ECS

热门文章

最新文章

相关课程

相关电子书

相关实验场景