Gato之后,谷歌也推出「通才型」智能体Multi-Game Decision Transformers

简介: Gato之后,谷歌也推出「通才型」智能体Multi-Game Decision Transformers

在自然语言处理、计算机视觉和二者的交叉领域中,通过训练大量与任务无关的数据集,建立大规模的通用模型来解决许多任务,已经成为主流方法。这些模型可以适应新的任务(例如翻译) ,利用不相关的数据(例如使用高资源语言来改进低资源语言的翻译) ,甚至可以通过将图像投影到语言空间来纳入新的模式。

这些方法的成功很大程度上来自于可扩展模型架构、大量未标注的任务无关数据以及高性能计算基础设施的不断改进。至关重要的是,标度律表明,规模带来的性能提升尚未达到饱和点。

在最近的一项工作中,谷歌研究院的成员们提出,类似的进展在强化学习领域是可能发生的,并且他们采取可扩展的方法的初步步骤,生成了表现优越的通才型智能体。与视觉和语言领域相反,强化学习通常倡导使用更小的模型,模型也通常用于解决单一任务,或在同一环境中的多个任务。重要的是,跨越多种环境的训练的研究数量并不多,很少有人研究横跨不同动力学、奖励、视觉效果和智能体实施方式的东西。


论文链接:https://arxiv.org/pdf/2205.15241.pdf

具体地说,研究者调研了是否可以从大量的专家和非专家经验中训练一个单一的模型(具有单一的一组参数)在多种环境中行动。他们在一组 41 个 Atari 游戏上进行训练,用来满足多样性方面的要求,并提出了一个问题:「模型能从玩很多视频游戏的过程中学到一些通用的东西吗?」

为了训练这个模型,研究者只使用了先前从 Agarwal et al. [1]中收集到的轨迹,但是交互式地评估了本研究的智能体。研究者表示,他们并不是在追求特定游戏智能体所能达到的精通程度或效率,因为这项研究仍处于早期阶段。相反,他们要探索的是,在语言和视觉领域观察到的相同趋势,是否也适用于大规模的通才型强化学习?

研究发现,在对离线专家数据集和非专家数据集进行训练之后,智能体可以在所有游戏中同时达到人类级别性能的 126%,如图 1 所示。此外,研究者还发现了与语言和视觉领域相似的趋势:用很少的数据快速适应从未见过的游戏(第 4.5 节) ,性能和模型大小之间的幂律关系(第 4.4 节) ,以及为更大的模型提供更快的训练进度。

值得注意的是,并非所有现有的多环境训练方法都有效。他们研究了几种方法,包括将问题处理为基于离线决策 Transformer 的序列建模 [14,34]、在线 RL [51]、离线时间差分方法[41]、对比表征[54] 和行为克隆[58]。

研究者发现,基于决策 Transformer 的模型在多环境下提供了最好的性能和扩展特性。然而,为了实现对专家和非专家轨迹的训练,有必要使用从语言建模引导生成技术来生成专家级别的动作,这与标准的决策 Transformer 有很大的不同。

实验

为了回答一系列假设提问,研究者进行了多项实验,如下:

不同的在线和离线方法在多博弈体制中的表现如何?

研究比较了多博弈机制和单游戏机制下不同在线和离线算法,发现单游戏专家模型仍然是最高效的。在多博弈通用模型中,多博弈决策 Transformer 模型最接近专家性能,多博弈在线 RL 与非 Transformer 模型排在第二位,而离线非 Transformer 模型很难获得好的表现。

可以注意到,多博弈在线 C51 DQN 中位数得分为 68% (附录 D) ,这与多博弈 Impala 中位数得分为 70% 的得分相似,这是根据 [20] 报告的结果计算得出的。

不同的方法如何与模型尺寸相比较?

在大型语言和视觉模型中,最低可实现的训练损失通常随着模型大小的增加而可预测地减少。Kaplan et al. [37]证明了一个语言模型的容量 (next-token 自回归生成模型的 NLP 术语) 与其性能之间的经验幂律关系(在对抗数据上的负对数似然)。这些趋势在许多数量级的模型尺寸中得到了验证,包括从几百万参数的模型到数千亿参数的模型。

研究者调查了交互式游戏中的表现是否存在类似的趋势(而不仅仅是训练损失),并显示类似的幂律性能趋势,如图 5(a)。多博弈决策 Transformer 的性能实现了两个数量级的增加,而其他方法要么饱和,要么性能增长缓慢得多。他们还发现,较大的模型训练更快,在观察相同数量的 token 后,能达到更高的游戏性能。附录 G 中进一步讨论了这些结果。

不同的方法转换到新游戏的效果如何?

尽管雅达利游戏是一项自然而且动机良好的任务,但是由于它与人类如何将知识转移到新游戏的相关性问题,对于快速适应新游戏的预训练还没有被广泛探讨。Nachum 和 Yang 针对 Atari 的大型离线数据和小型专家数据进行了预训练,并与基于互模拟的一系列状态表征学习目标进行了比较,但是他们的预训练和微调使用的是同一个游戏。相反,本文研究者感兴趣的是经过训练的智能体迁移到新游戏的能力。

图 6 展示了对抗游戏中的微调性能。带有 DT 目标的预训练在所有游戏中表现最好,所有预训练的方法都比从零开始的训练有效,这证实了本研究的假设,即针对其他游戏的预训练确实有助于智能体快速学习一项新游戏。CPC 和 BERT 的表现不如 DT,这表明仅仅学习状态表征不足以达到理想的迁移效果。虽然 ACL 为 BERT 增加了一个动作预测辅助损失,但效果不明显,这表明在离线数据上正确建模动作对于获得良好的传输性能非常重要。此外,研究者还发现微调性能会随着 DT 模型变大而提高,而 CQL 微调性能与模型大小并不一致(参见图 5b)。

多博弈决策 Transformer 是否改进了训练数据?

研究者想要评估的是,带有专家行动推理的决策 Transformer 是否能够超越最好的演示在训练中展现的能力。为了做到这一点,研究者看了表现 top 3 的决策 Transformer 模型的 rollout。他们使用了 top 3 的 rollout,而不是所有 rollout 的平均值,以更公平地比较最好的演示,而不是一个普通的专家演示。图 7 中展示了对比单个游戏的最佳演示得分提高的百分比,在一些比赛中,实现了训练数据的显著改善。

最佳行为推理是否改进了行为克隆?

图 8 展示了所有游戏得分的平均值和标准差。虽然行为克隆有时可能会产生高回报的 episode,但这种情况此时不太可能发生。研究者发现,在 41 个游戏中,有 31 个游戏的决策 Transformer 的性能优于行为克隆。

专家和非专家数据混合训练是否比仅专家训练更有益?

与从专家示范中学习相比,从包括一些专家数据但主要是非专家数据的大型多样化数据集中学习有助于学习和提高性能。为了验证这个假设,研究者根据 episodic returns 过滤了每个游戏的训练数据,并且只保留前 10% 的轨迹,以生成一个专家的数据集 (详情见附录 E)。他们使用了这个专家数据集来训练多博弈决策 Transformer(DT-40M) 和基于 Transformer 的行为克隆模型(BC-40M)。图 9 比较了这些模型训练的专家数据和 DT-40M 训练的所有数据。

使用 Transformer 架构有什么好处?

决策 Transformer 是一个 Upside-Down RL (UDRL)实现,它使用 Transformer 体系架构,并将 RL 视为序列建模问题。为了理解 Transformer 体系架构的好处,研究者将其与使用前馈、卷积 Impala 网络的 UDRL 实现进行比较。

图 10 展示了使用 Impala 架构的决策 Transformer 相对于 UDRL 的明显优势。在比较 UDRL (Impla)和 CQL (在评估的每个模型尺寸上使用相同的 Impla)时,可以观察到 UDRL (impla)优于 CQL。结果表明,本文方法的好处不仅来自于使用的网络架构,同时来自于 UDRL 公式。

尽管由于设计空间的因素,将 Transformer 与所有可能的卷积架构进行比较是不可行的,但研究者相信这些经验性的结果仍然显示了一个明显的趋势,对于 UDRL 和 Transformer 架构都是有益的。

相关文章
|
1月前
|
机器学习/深度学习 数据采集 人工智能
三模联盟,谷歌DeepMind缔造终身学习智能体!
【9月更文挑战第1天】在人工智能领域,谷歌DeepMind提出了一种名为Diffusion Augmented Agents(DAAG)的创新框架,结合了大型语言模型、视觉语言模型和扩散模型,旨在提升强化学习中具身智能体的样本效率和迁移学习能力。DAAG通过利用扩散模型对智能体的过去经验进行重标记,使其与目标指令保持一致,从而减少新任务所需奖励标记数据量,提高学习效率。然而,该方法仍面临计算资源需求高、输出质量受限于输入数据质量和多样性等挑战。实验结果显示,DAAG能显著提高智能体的学习效率和迁移学习能力。
45 3
|
5月前
|
人工智能 API
谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
【2月更文挑战第24天】谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
130 1
谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
|
2月前
|
存储 人工智能
|
7天前
|
Python 机器学习/深度学习 人工智能
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
【10月更文挑战第1天】本文通过构建一个简单的强化学习环境,演示了如何创建和训练智能体以完成特定任务。我们使用Python、OpenAI Gym和PyTorch搭建了一个基础的智能体,使其学会在CartPole-v1环境中保持杆子不倒。文中详细介绍了环境设置、神经网络构建及训练过程。此实战案例有助于理解智能体的工作原理及基本训练方法,为更复杂应用奠定基础。首先需安装必要库: ```bash pip install gym torch ``` 接着定义环境并与之交互,实现智能体的训练。通过多个回合的试错学习,智能体逐步优化其策略。这一过程虽从基础做起,但为后续研究提供了良好起点。
30 4
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
|
3天前
|
机器学习/深度学习 人工智能 算法
打造你的超级Agent智能体——在虚拟迷宫中智斗未知,解锁AI进化之谜的惊心动魄之旅!
【10月更文挑战第5天】本文介绍了一个基于强化学习的Agent智能体项目实战,通过控制Agent在迷宫环境中找到出口来完成特定任务。文章详细描述了环境定义、Agent行为及Q-learning算法的实现。使用Python和OpenAI Gym框架搭建迷宫环境,并通过训练得到的Q-table测试Agent表现。此项目展示了构建智能体的基本要素,适合初学者理解Agent概念及其实现方法。
26 9
|
28天前
|
人工智能 JSON 数据格式
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
【9月更文挑战第6天】RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
|
1月前
|
人工智能 算法 自动驾驶
用AI自动设计智能体,数学提分25.9%,远超手工设计
【9月更文挑战第18天】《智能体自动设计(ADAS)》是由不列颠哥伦比亚大学等机构的研究者们发布的一篇关于自动化设计智能体系统的最新论文。研究中提出了一种创新算法——“Meta Agent Search”,此算法通过迭代生成并优化智能体设计,从而实现更高效的智能体系统构建。实验表明,相比人工设计的智能体,Meta Agent Search生成的智能体在多个领域均有显著的性能提升。然而,该方法也面临着实际应用中的有效性与鲁棒性等挑战。论文详细内容及实验结果可于以下链接查阅:https://arxiv.org/pdf/2408.08435。
76 12
|
22天前
|
人工智能 自然语言处理 API
深入浅出 LangChain 与智能 Agent:构建下一代 AI 助手
我们小时候都玩过乐高积木。通过堆砌各种颜色和形状的积木,我们可以构建出城堡、飞机、甚至整个城市。现在,想象一下如果有一个数字世界的乐高,我们可以用这样的“积木”来构建智能程序,这些程序能够阅读、理解和撰写文本,甚至与我们对话。这就是大型语言模型(LLM)能够做到的,比如 GPT-4,它就像是一套庞大的乐高积木套装,等待我们来发掘和搭建。
|
1月前
|
人工智能 JSON 自然语言处理
你的Agent稳定吗?——基于大模型的AI工程实践思考
本文总结了作者在盒马智能客服的落地场景下的一些思考,从工程的角度阐述对Agent应用重要的稳定性因素和一些解法。
100 12
|
1月前
|
存储 机器学习/深度学习 人工智能
深入浅出 AI 智能体(AI Agent)|技术干货
随着人工智能技术的发展,智能体(AI Agents)逐渐成为人与大模型交互的主要方式。智能体能执行任务、解决问题,并提供个性化服务。其关键组成部分包括规划、记忆和工具使用,使交互更加高效、自然。智能体的应用涵盖专业领域问答、资讯整理、角色扮演等场景,极大地提升了用户体验与工作效率。借助智能体开发平台,用户可以轻松打造定制化AI应用,推动AI技术在各领域的广泛应用与深度融合。
697 0