备案控制台

开发者社区机器之心文章正文

参数量仅为4%，性能媲美GPT-3：开发者图解DeepMind的RETRO

2023-05-13 261

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 参数量仅为4%，性能媲美GPT-3：开发者图解DeepMind的RETRO

构建越来越大的模型并不是提高性能的唯一方法。

从 BERT 到 GPT-2 再到 GPT-3，大模型的规模是一路看涨，表现也越来越惊艳。增大模型规模已经被证明是一条可行的改进路径，而且 DeepMind 前段时间的一些研究表明：这条路还没有走到头，继续增大模型依然有着可观的收益。

但与此同时，我们也知道，增大模型可能并不是提升性能的唯一路径，前段时间的几个研究也证明了这一点。其中比较有代表性的研究要数 DeepMind 的 RETRO Transformer 和 OpenAI 的 WebGPT。这两项研究表明，如果我们用一种搜索 / 查询信息的方式来增强模型，小一点的生成语言模型也能达到之前大模型才能达到的性能。

在大模型一统天下的今天，这类研究显得非常难能可贵。

在这篇文章中，擅长机器学习可视化的知名博客作者 Jay Alammar 详细分析了 DeepMind 的 RETRO（Retrieval-Enhanced TRansfOrmer）模型。该模型与 GPT-3 性能相当，但参数量仅为 GPT-3 的 4%。

RETRO 整合了从数据库中检索到的信息，将其参数从昂贵的事实和世界知识存储中解放出来。

在 RETRO 之前，研究社区也有一些工作采用了类似的方法，因此本文并不是要解释它的新颖性，而是该模型本身。

将语言信息和世界知识信息分离开来

一般来讲，语言模型的任务就是做填空题，这项任务有时候需要与事实有关的信息，比如

但有时候，如果你对某种语言比较熟悉，你也可以直接猜出空白部分要填什么，例如：

这种区别非常重要，因为大型语言模型将它们所知道的一切都编码到模型参数中。虽然这对于语言信息是有意义的，但是对于事实信息和世界知识信息是无效的。加入检索方法之后，语言模型可以缩小很多。在文本生成过程中，神经数据库可以帮助模型检索它需要的事实信息。

随着训练数据记忆量的减少，我们可以使用较小的语言模型来加速训练。任何人都可以在更小、更便宜的 GPU 上部署这些模型，并根据需要对它们进行调整。

从结构上看，RETRO 是一个编码器 - 解码器模型，就像原始的 Transformer。然而，它在检索数据库的帮助下增加了输入序列。该模型在数据库中找到最可能的序列，并将它们添加到输入中。RETRO 利用它的魔力生成输出预测。

在探索模型架构之前，让我们先深入挖掘一下检索数据库。

RETRO 的检索数据库

此处的数据库是一个键值存储（key-value store）数据库。其中 key 是标准的 BERT 句子嵌入，value 是由两部分组成的文本：

Neighbor，用于计算 key；
Completion，原文件中文本的延续。

RETRO 的数据库包含基于 MassiveText 数据集的 2 万亿个多语言 token。neighbor chunk 和 completion chunk 的长度最多为 64 个 token。

RETRO 数据库内部展示了 RETRO 数据库中键值对的示例。

RETRO 将输入提示分成多个 chunk。为简单起见，此处重点关注如何用检索到的文本扩充一个 chunk。但是，模型会针对输入提示中的每个 chunk（第一个 chunk 除外）执行此过程。

数据库查找

在点击 RETRO 之前，输入提示进入 BERT。对输出的上下文向量进行平均以构建句子嵌入向量。然后使用该向量查询数据库。

使用 BERT 处理输入提示会生成上下文化的 token 嵌入。对它们求平均值会产生一个句子嵌入。

然后将该句子嵌入用于近似最近邻搜索。检索两个最近邻，它们的文本成为 RETRO 输入的一部分。

BERT 句子嵌入用于从 RETRO 的神经数据库中检索最近邻。然后将这些添加到语言模型的输入中。

现在 RETRO 的输入是：输入提示及其来自数据库的两个最近邻（及其延续）。

从这里开始，Transformer 和 RETRO 块将信息合并到它们的处理中。

检索到的近邻被添加到语言模型的输入中。然而，它们在模型内部的处理方式略有不同。

高层次的 RETRO 架构

RETRO 的架构由一个编码器堆栈和一个解码器堆栈组成。

RETRO Transformer 由一个编码器堆栈（处理近邻）和一个解码器堆栈（处理输入）组成。

编码器由标准的 Transformer 编码器块（self-attention + FFNN）组成。Retro 使用由两个 Transformer 编码器块组成的编码器。

解码器堆栈包含了两种解码器 block：

标准 Transformer 解码器块（ATTN + FFNN）
RETRO 解码器块（ATTN + Chunked cross attention (CCA) + FFNN）

构成 RETRO 的三种 Transformer 模块。

编码器堆栈会处理检索到的近邻，生成后续将用于注意力的 KEYS 和 VALUES 矩阵。

解码器 block 像 GPT 一样处理输入文本。它对提示 token 应用自注意力（因此只关注之前的 token），然后通过 FFNN 层。

只有到达 RETRO 解码器时，它才开始合并检索到的信息。从 9 开始的每个第三个 block 是一个 RETRO block（允许其输入关注近邻）。所以第 9、12、15…32 层是 RETRO block。

下图展示了检索到的信息可以浏览完成提示所需的节点步骤。

原文链接：http://jalammar.github.io/illustrated-retrieval-transformer/

文章标签：

自然语言处理

机器学习/深度学习

数据可视化

异构计算

NoSQL

数据库

存储

开发者

关键词：

媲美GPT

性能GPT

性能媲美GPT

-开发达人-

目录

相关文章

阿里云新鲜事

|

API 云栖大会

通义千问升级旗舰模型Qwen-Max，性能接近GPT-4o

通义旗舰模型Qwen-Max全方位升级，性能接近GPT-4o

阿里云新鲜事

5980 12 13

蚝油菜花

|

11月前

|

人工智能 Python

JoyCaption：开源的图像转提示词生成工具，支持多种风格和场景，性能与 GPT4o 相当

JoyCaption 是一款开源的图像提示词生成工具，支持多种生成模式和灵活的提示选项，适用于社交媒体、图像标注、内容创作等场景，帮助用户快速生成高质量图像描述。

蚝油菜花

1674 21 22

JoyCaption：开源的图像转提示词生成工具，支持多种风格和场景，性能与 GPT4o 相当

楠竹11

|

9月前

清华UCSD提出全新微调方法，8B小模型媲美GPT-4o！科学问题正确率提高28%

清华大学与UCSD研究人员提出了一种创新微调方法，通过“世界知识蒸馏”和“工具使用适应”两组件，显著提升大型语言模型（LLM）解决科学问题的能力，同时保持其基本推理能力。实验结果显示，该方法在多个科学领域基准数据集上大幅提高了答案准确性和工具使用精度。论文地址：https://arxiv.org/abs/2411.00412

楠竹11

179 2 2

蚝油菜花

|

11月前

|

人工智能语音技术 iOS开发

MiniCPM-o 2.6：面壁智能开源多模态大模型，仅8B参数量就能媲美GPT-4o，支持实时交互，在ipad等终端设备上运行

MiniCPM-o 2.6 是面壁智能开源的多模态大模型，支持视觉、语音和多模态直播，性能媲美GPT-4o，能够在端侧设备上高效运行。

蚝油菜花

899 10 10

MiniCPM-o 2.6：面壁智能开源多模态大模型，仅8B参数量就能媲美GPT-4o，支持实时交互，在ipad等终端设备上运行

蚝油菜花

|

11月前

|

人工智能编解码算法

Doubao-1.5-pro：字节跳动最新豆包大模型，性能超越GPT-4o和Claude 3.5 Sonnet

豆包大模型1.5是字节跳动推出的最新大模型，采用大规模稀疏MoE架构，支持多模态输入输出，具备低时延语音对话能力，综合性能优于GPT-4o和Claude 3.5 Sonnet。

蚝油菜花

1977 2 2

Doubao-1.5-pro：字节跳动最新豆包大模型，性能超越GPT-4o和Claude 3.5 Sonnet

modelscope

|

数据采集人工智能数据可视化

InternVL 2.5，首个MMMU超过70%的开源模型，性能媲美GPT-4o

近期Internvl2.5发布，性能与GPT-4o和Claude-3.5-sonnet等领先的商业模型相媲美，成为首个在MMMU上超过70%的开源模型，通过链式思考（CoT）推理实现了3.7个百分点的提升，展示了强大的测试时间可扩展性潜力。

modelscope

917 25 27

楠竹11

|

机器学习/深度学习人工智能自然语言处理

o1医学领域大胜GPT-4，性能暴涨！顶尖华人团队激动发文：离AI医生越来越近了

【10月更文挑战第29天】近日，一支顶尖华人团队发布论文《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》，揭示了OpenAI最新语言模型o1在医学领域的卓越表现。研究显示，o1在概念识别、文本总结、问答等任务上远超GPT-4，显著提升了医学领域的AI应用水平，向实现AI医生的目标迈进了一大步。

楠竹11

261 3 3

-编程工程师-

|

人工智能安全测试技术

忘掉GPT-5！OpenAI推出全新AI模型系列o1，声称性能达到博士级

忘掉GPT-5！OpenAI推出全新AI模型系列o1，声称性能达到博士级

-编程工程师-

322 5 5

楠竹11

|

机器学习/深度学习数据采集人工智能

Llama 8B搜索100次超越GPT-4o！推理+搜索即可提升性能，新Scaling Law诞生？

【9月更文挑战第8天】在人工智能领域，理查德·萨顿提出了一项重要观点，即利用通用计算方法最终是最有效的途径，这一理念在诸如计算机象棋、围棋、语音识别及视觉等多个子领域中得到了验证。萨顿强调，计算能力的指数增长使得依赖大量计算的技术更加吸引人，并且从长远来看，计算能力将是唯一重要的因素。尽管他的观点强调了搜索和学习方法的力量，但也有人批评其忽略了领域知识和其他因素的重要性。

楠竹11

141 2 2

布客飞龙

|

存储 SQL 数据库

Python 金融编程第二版（GPT 重译）（四）（4）

Python 金融编程第二版（GPT 重译）（四）

布客飞龙

186 3 3

热门文章

最新文章

GPT-4 太贵？试试这 6 个免费且优秀的替代方案

OpenAI重磅开源，全面拥抱GPT-3

DB-GPT V0.7.0版本更新：支持MCP协议、集成DeepSeek R1模型、GraphRAG检索链路增强、架构全面升级等

一文带你了解爆火的Chat GPT

GPT、BERT、XLM、GPT-2、BART…你都掌握了吗？一文总结文本生成必备经典模型（2）

使用PyTorch实现GPT-2直接偏好优化训练：DPO方法改进及其与监督微调的效果对比

（建议收藏深读）GPT 高阶玩法 - 万字 GPT 模型自动化应用指南（ javaScript 示例）（下）

面向GPT-4编程的时代来了：GitHub Copilot大升级，首次集成聊天功能

GPT-3 vs Bert vs GloVe vs Word2vec 文本嵌入技术的性能对比测试

1.6万亿参数，秒杀GPT-3！谷歌推出超级语言模型Switch Transformer，比T5快4倍

123_自监督任务变体：Causal LM详解 - GPT-style下一词预测机制与训练优化

34_GPT系列：从1到5的架构升级_深度解析

从CLIP到GPT-4V：多模态RAG背后的技术架构全揭秘

阿里云开发者必备：GPT 从核心原理到企业级部署的全流程指南

阿里云开发者的共性痛点 ——「自建 GPT + 云服务」方案？

Dify x AiOnly平台：手把手教你调用GPT-5从零构建AI工作流！

快速集成GPT-4o：下一代多模态AI实战指南

现代AI工具深度解析：从GPT到多模态的技术革命与实战应用

通过 Cursor CLI 使用 GPT-5 的教程

全网最全的GPT-5测评文章！1.8万字详细实战测评！国内直接使用！

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

相关实验场景

更多

通过GPU云服务器训练GPT-2

下一篇

安全设备篇——WAF