禁止大型语言模型胡编乱造,给点外部知识,推理靠谱的很

简介: 禁止大型语言模型胡编乱造,给点外部知识,推理靠谱的很

作者:Hangfeng He等

机器之心编译

辑:王楷

该研究提出的 RR(Rethinking with Retrieval)方法不需要额外的训练或微调,也不受大型语言模型(LLM)输入长度限制,在常识推理、时间推理和表格推理任务中显著提高了 LLM 性能。


大型语言模型 (LLM) 已通过 In-context Learning 在各种复杂任务上展现出卓越的性能,并且无需针对特定任务进行训练或微调,近期 prompt 和解码方面取得的进展也使 LLM 解决复杂推理任务变成了现实。

然而,LLM 可能会存储过时、不全面或不正确的知识,要将 LLM 成功部署到实际应用中,外部知识来源(例如维基百科)至关重要。此前,人们尝试将知识用于较小的语言模型 (LM),例如 T5、BERT 和 RoBERTa,但这些方法通常需要额外的训练或微调,成本高昂,对于 LLM 来说完全不切实际。

基于此,来自罗彻斯特大学、腾讯 AI Lab 和宾夕法尼亚大学的研究者联合提出了一种称为 Rethinking with Retrieval (RR) 的后处理方法,以在 LLM 中利用外部知识。


论文地址:https://arxiv.org/pdf/2301.00303v1.pdf

该研究的思路是首先使用思维链 (chain-of-thought,CoT) prompting 方法生成一组不同的推理路径,类似于 Wang et al. (2022) 的方法。然后该研究使用这些路径中的每个推理步骤来检索相关的外部知识,让 RR 方法可以提供更合理的解释和更准确的预测。


该研究使用 GPT-3 175B 和几种常见的外部知识源(维基百科、维基数据、WordNet 和 Conceptnet)来评估 RR 方法在三个复杂推理任务上的有效性,包括常识推理、时序推理和表格推理。实验结果表明,无需额外的训练或微调,RR 在这三项任务上始终优于其他方法,这表明 RR 方法在利用外部知识来提高 LLM 性能方面具有很大优势。

利用检索进行重新思考

实际上,尽管 LLM 已准确捕捉了回答问题所需的要素,但这些模型有时还是会生成错误的结果。这种现象说明 LLM 存储和检索知识的方式存在一些问题,包括:

  • 预训练语料库中存在过时、不正确或缺失的相关知识;
  • 预训练时对相关知识的存储有误;
  • 推理阶段对相关知识的错误检索。


RR 方法的大致思路如下:给定一个输入问题 Q,RR 方法先利用思维链(chain-of though)prompting 生成一组不同的推理路径 R_1、R_2、……、R_N,其中每个推理路径 R_i 由解释 E_i 和跟在其后的预测 P_i 组成,然后再从合适的知识库 KB 中检索相关知识 K_1、……、K_M 来支持每个推理路径中的解释,并选择最符合该知识的预测

思维链(CoT)prompting。与标准 prompting 明显不同,CoT prompting 包括在 prompting 中进行分步推理实例演示来生成一系列捕获推理过程的短句。

例如,给定输入问题:「亚里士多德使用笔记本电脑吗?」CoT prompting 旨在生成完整的推理路径:

CoT prompting 的推理过程为:「亚里士多德死于公元前 322 年。第一台笔记本电脑于 1980 年发明。因此,亚里士多德没有使用笔记本电脑。所以答案是 no。」而非简单地输出「No」。

对不同的推理路径采样。与 Wang et al. (2022) 相似,该研究对一组不同的推理路径 R_1、R_2、……、R_N 进行了采样,而不是像 Wei et al. (2022) 那样只考虑最优比例路径(greedy path)。对于「亚里士多德是否使用笔记本电脑?」这一问题,可能的推理路径如下:

(R_1) 亚里士多德死于 2000 年。第一台笔记本电脑发明于 1980 年。因此,亚里士多德使用过笔记本电脑。所以该问题的答案为是。

(R_2) 亚里士多德于公元前 322 年去世。第一台笔记本电脑发明于 2000 年。因此,亚里士多德没有使用过笔记本电脑。所以答案为否。

知识检索。不同的知识库可以用来处理不同的任务。例如,为了解决「亚里士多德使用笔记本电脑了吗?」这个问题,我们可以使用维基百科作为外部知识库 KB。信息检索技术可用于基于分解的推理步骤从维基百科中检索相关知识 K_1、……K_M。理想情况下,针对此问题我们可以从维基百科中获得以下两段内容:

(K_1) 亚里士多德(公元前 384 至公元前 322 年)是古希腊古典时期的希腊哲学家和博学大师

(K_2) 第一台笔记本电脑 Epson HX-20 于 1980 年发明……

忠实的推理。我们可以使用函数 f_KB(R_i)来估算每个推理路径 R_i 的置信度,该函数建立在从知识库 KB 检索的相关知识 K_1、……、K_M 基础之上。最终的预测可以通过运用以下推断过程来获得:


实验评估

本节中,该研究介绍了 RR 在三个复杂推理任务上的评估:常识推理、时序推理和表格推理。

实验设置。在所有实验中,除非另有说明,该研究都使用 GPT-3 text-davinci-002。实验完成期间生成的最大 token 数量被设置为 256,zero-shot、few-shot 以及 chain-of-thought prompting,温度参数(temperature)固定设置为 0。

结果。如表 1 所示,本文提出的方法 RR,在所有三个推理任务上始终优于所有基准,而无需额外的训练或微调。这些结果凸显出了 RR 在利用外部知识提高 LLM 表现方面的有效性。


该研究在 StrategyQA 数据集上展示了带有 CoT prompting 方法的关于 GPT-3 的分析。在仔细检查 GPT-3 的输出后,该研究观察到 RR 可以为许多问题提供合理的解释和正确的预测。例如,当给出「佐治亚州的奥尔巴尼会在纽约州的奥尔巴尼之前先达到十万名住户吗?」这个问题时,GPT-3 产生了以下输出:


总体来看对于问题的输出答案质量很高。然而,该研究也观察到 GPT-3 可能偶尔会为其解释提供不正确的事实支持,或为其预测做出不正确的推理,尽管它通常能够识别出合适的观点。

错误的支持事实。如表 2 所示,GPT-3 为 Lil Jon 在 Billboard 榜单中排名最高的歌曲提供了错误的事实支持,指出排名最高的歌曲是 Get Low 而非正确答案 Yeah。另外,GPT-3 还做出了错误的推理,即富士山的山顶不会高于日本海,而不是正确答案会高于。


更多技术细节请参阅原论文。

相关文章
|
存储 负载均衡 数据库
VTP技术(一)
VTP技术(一)
414 0
|
负载均衡 Nacos 数据安全/隐私保护
SpringCloud(Gateway 网关负载均衡) | 学习笔记
快速学习 SpringCloud(Gateway 网关负载均衡)
SpringCloud(Gateway 网关负载均衡) | 学习笔记
|
11月前
|
人工智能 缓存 Cloud Native
DeepSeek-R1 来了,从 OpenAI 平滑迁移到 DeepSeek的方法
Higress 作为一款开源的 AI 网关工具,可以提供基于灰度+观测的平滑迁移方案。
2131 235
|
8月前
|
人工智能 编解码 异构计算
Neo-1:全球首个原子级生成式AI模型!这个AI模型把10年药物研发周期压缩到1个月
VantAI推出的Neo-1是全球首个统一分子生成与原子级结构预测的AI模型,采用潜在空间扩散技术,结合大规模训练和定制数据集,显著提升药物研发效率。
434 15
Neo-1:全球首个原子级生成式AI模型!这个AI模型把10年药物研发周期压缩到1个月
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
32B小模型竟能吊打百亿参数?GLM-4-Air-0414:智谱AutoGLM沉思背后的模型,智能体开发迎来新纪元
GLM-4-Air-0414是智谱公司推出的320亿参数开源基座模型,通过优化预训练数据和对齐策略,在工具调用、联网搜索和代码生成等智能体任务中展现出卓越性能。
485 15
32B小模型竟能吊打百亿参数?GLM-4-Air-0414:智谱AutoGLM沉思背后的模型,智能体开发迎来新纪元
|
8月前
|
人工智能 API 计算机视觉
AI-ClothingTryOn:服装店老板连夜下架试衣间!基于Gemini开发的AI试衣应用,一键生成10种穿搭效果
AI-ClothingTryOn是基于Google Gemini技术的虚拟试衣应用,支持人物与服装照片智能合成,可生成多达10种试穿效果版本,并提供自定义提示词优化功能。
676 18
AI-ClothingTryOn:服装店老板连夜下架试衣间!基于Gemini开发的AI试衣应用,一键生成10种穿搭效果
|
10月前
|
人工智能 运维 Serverless
DeepSeek模型部署全过程实践,轻松上手就在阿里云
随着人工智能技术的不断发展,越来越多的企业和个人开始探索如何利用深度学习模型来提升业务效率和用户体验。阿里云推出的【零门槛、轻松部署您的专属 DeepSeek 模型】解决方案为用户提供了多种便捷的部署方式,包括**基于百炼 API 调用满血版、基于人工智能平台 PAl 部署、基于函数计算部署以及基于 GPU 云服务器部署**。本文将从多个维度对这些部署方式进行详细评测,并分享个人的实际体验和观点。
2179 26
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
Fin-R1:上海财大开源金融推理大模型!7B参数竟懂华尔街潜规则,评测仅差满血版DeepSeek3分
Fin-R1是上海财经大学联合财跃星辰推出的金融领域推理大模型,基于7B参数的Qwen2.5架构,在金融推理任务中表现出色,支持中英双语,可应用于风控、投资、量化交易等多个金融场景。
703 5
Fin-R1:上海财大开源金融推理大模型!7B参数竟懂华尔街潜规则,评测仅差满血版DeepSeek3分
|
9月前
|
机器学习/深度学习 人工智能 数据库
Mureka V6:10语种AI音乐工厂!昆仑万维「声场黑科技」颠覆作曲
昆仑万维推出的Mureka V6 AI音乐创作基座模型,支持10种语言歌词生成和纯音乐创作,通过自研ICL技术实现声场优化,覆盖爵士/电子/流行等多元风格,为音乐爱好者和专业创作者提供高效工具。
494 11
|
8月前
|
传感器 人工智能 机器人
杭州六小龙最新开源「空间理解模型」,保姆级教程来了!
前几天,“杭州六小龙”之一「群核科技」在GTC 2025大会开源了空间理解模型:SpatialLM。
411 3