强化学习中的Transformer发展到哪一步了？清华、北大等联合发布TransformRL综述（1）-阿里云开发者社区

强化学习中的Transformer发展到哪一步了？清华、北大等联合发布TransformRL综述（1）

2023-05-21 368

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 强化学习中的Transformer发展到哪一步了？清华、北大等联合发布TransformRL综述

作者：Wenzhe Li等

机器之心编译

编辑：rome rome

受监督学习的启发，人们对把 Transformer 用于强化学习产生了浓厚的兴趣。

强化学习（RL）为顺序决策提供了一种数学形式，深度强化学习（DRL）近年来也取得巨大进展。然而，样本效率问题阻碍了在现实世界中广泛应用深度强化学习方法。为了解决这个问题，一种有效的机制是在 DRL 框架中引入归纳偏置。

在深度强化学习中，函数逼近器是非常重要的。然而，与监督学习（SL）中的架构设计相比，DRL 中的架构设计问题仍然很少被研究。大多数关于 RL 架构的现有工作都是由监督学习 / 半监督学习社区推动的。例如，在 DRL 中处理基于高维图像的输入，常见的做法是引入卷积神经网络（CNN）[LeCun et al., 1998; Mnih et al., 2015]；处理部分可观测性（partial observability）图像的常见做法则是引入递归神经网络（RNN） [Hochreiter and Schmidhuber, 1997; Hausknecht and Stone, 2015]。

近年来，Transformer 架构 [Vaswani et al., 2017] 展现出优于 CNN 和 RNN 的性能，成为越来越多 SL 任务中的学习范式 [Devlin et al., 2018; Dosovitskiy et al., 2020; Dong et al., 2018]。Transformer 架构支持对长程（long-range）依赖关系进行建模，并具有优异的可扩展性 [Khan et al., 2022]。受 SL 成功的启发，人们对将 Transformer 应用于强化学习产生了浓厚的兴趣，希望将 Transformer 的优势应用于 RL 领域。

Transformer 在 RL 中的使用可以追溯到 Zambaldi 等人 2018 年的一项研究，其中自注意力（self-attention）机制被用于结构化状态表征的关系推理。随后，许多研究人员寻求将自注意力应用于表征学习，以提取实体之间的关系，从而更好地进行策略学习 [Vinyals et al., 2019; Baker et al., 2019]。

除了利用 Transformer 进行表征学习，之前的工作还使用 Transformer 捕获多时序依赖，以处理部分可观测性问题 [Parisotto et al., 2020; Parisotto and Salakhutdinov, 2021]。离线 RL [Levine et al., 2020] 因其使用离线大规模数据集的能力而受到关注。受离线 RL 的启发，最近的研究表明，Transformer 结构可以直接作为顺序决策的模型 [Chen et al., 2021; Janner et al., 2021] ，并推广到多个任务和领域 [Lee et al., 2022; Carroll et al., 2022]。

实际上，在强化学习中使用 Transformer 做函数逼近器面临一些特殊的挑战，包括：

强化学习智能体（agent）的训练数据通常是当前策略的函数，这在学习 Transformer 的时候会导致不平稳性（non-stationarity）；
现有的 RL 算法通常对训练过程中的设计选择高度敏感，包括模型架构和模型容量 [Henderson et al., 2018]；
基于 Transformer 的架构经常受制于高性能计算和内存成本，这使得 RL 学习过程中的训练和推理都很昂贵。

例如，在用于视频游戏的 AI 中，样本生成的效率（在很大程度上影响训练性能）取决于 RL 策略网络和估值网络（value network）的计算成本 [Ye et al., 2020a; Berner et al., 2019]。

为了更好地推动强化学习领域发展，来自清华大学、北京大学、智源人工智能研究院和腾讯公司的研究者联合发表了一篇关于强化学习中 Transformer（即 TransformRL）的综述论文，归纳总结了当前的已有方法和面临的挑战，并讨论了未来的发展方向，作者认为 TransformRL 将在激发强化学习潜力方面发挥重要作用。

论文地址：https://arxiv.org/pdf/2301.03044.pdf

论文的总体结构如下：

第 2 章介绍了 RL 和 Transformer 的背景知识，然后简要介绍了这两者是如何结合在一起的；
第 3 章描述了 RL 中网络架构的演变，以及长期以来 RL 中阻碍广泛探索 Transformer 架构的挑战；
第 4 章论文作者对 RL 中的 Transformer 进行了分类，并讨论了目前具有代表性的方法；
第 5 章总结并指出了未来潜在的研究方向。

核心内容从论文第 3 章开始，下面我们来看一下论文的主要内容。

RL 中的网络架构

在介绍 TransformRL 的分类方法之前，论文回顾了 RL 中网络架构设计的早期进展，并总结了其存在的挑战。作者认为 Transformer 是一种先进的神经网络架构，将有助于深度强化学习（DRL）的发展。

函数逼近器的架构

自 Deep Q-Network [Mnih et al., 2015] 的开创性工作以来，人们为 DRL 智能体的网络架构做了许多努力。强化学习中网络架构的改进主要分为两类。

一类是设计新的结构，结合 RL 归纳偏置来降低训练策略或价值函数的难度。例如 [Wang et al. 2016] 提出决斗（dueling）网络架构，其中一个网络用于状态价值函数，另一个用于状态相关的行动优势函数（action advantage function），这种架构设计结合了归纳偏置。

另一类是研究常用的神经网络技术（如正则化、残差连接（skip connection）、批归一化）是否可以应用于 RL。例如，[Ota et al. 2020] 发现在使用在线特征提取器增强状态表征的同时增加输入维度，会有助于提高 DRL 算法的性能和样本效率。[Sinha et al. 2020] 为 DRL 智能体提出了一种深度密集架构，使用残差连接进行有效学习，并使用归纳偏置来缓解数据处理不平等问题。[Ota et al. 2021] 使用 DenseNet [Huang et al., 2017] 和解耦表征学习来改善大型网络的信息流和梯度。最近，由于 Transformer 的优越性能，研究人员尝试将 Transformer 架构应用于策略优化算法，但发现普通的 Transformer 设计无法在 RL 任务中达到理想的性能 [Parisotto et al., 2020]。

面临的挑战

虽然过去几年基于 Transformer 的架构在 SL 领域取得了诸多进展，但将 Transformer 应用于 RL 并不简单。实际上，这存在多个特有的挑战。从 RL 的角度看，许多研究指出现有的 RL 算法对深度神经网络的架构非常敏感 [Henderson et al., 2018; Engstrom et al., 2019; Andrychowicz et al., 2020]。首先，RL 中数据收集和策略优化之间的范式交替导致训练的不平稳。其次，RL 算法通常对训练过程中的设计选择高度敏感。[Emmons et al. 2021] 证明仔细选择模型架构和正则化对于 DRL 智能体的性能至关重要。

从 Transformer 的角度看，基于 Transformer 的架构存在内存占用大、延迟高的问题，这阻碍了它们的高效部署和推理。最近，许多研究围绕原始 Transformer 架构对计算和内存效率进行改进，但其中大部分工作都集中在 SL 领域。

在 RL 领域，Parisotto 和 Salakhutdinov 提出把基于大容量 Transformer 的学习器模型转变为小容量的 actor 模型，以避免 Transformer 的高推理延迟。然而，这种方法在内存和计算方面仍然很昂贵。目前，RL 社区还未充分探索高效或轻量级的 Transformer。

强化学习中的 Transformer尽管 Transformer 已成为大多数监督学习研究的基础模型，但由于前述挑战，它在 RL 社区长期未得到广泛应用。实际上，TransformRL 的大多数早期尝试都将 Transformer 用于状态表征学习或提供记忆信息（memory information），同时仍然将标准 RL 算法用于智能体学习，例如时序差分学习和策略优化。因此，尽管引入 Transformer 作为函数逼近器，这些方法仍然受到传统 RL 框架的挑战。直到最近，离线 RL 使得从大规模离线数据中学习最优策略成为可能。受离线 RL 的启发，最近的工作进一步将 RL 问题视作固定经验的条件序列建模问题。这样做有助于绕过传统 RL 中的 bootstrapping error 挑战，从而使 Transformer 架构释放其强大的顺序建模能力。

论文回顾了 TransformRL 的进展，并按分类展示现有方法。作者将现有方法分为四类：表征学习、模型学习、顺序决策和通用智能体。图 2 显示相关分类的概览。

强化学习中的Transformer发展到哪一步了？清华、北大等联合发布TransformRL综述（1）

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

强化学习中的Transformer发展到哪一步了？清华、北大等联合发布TransformRL综述（1）

热门文章

最新文章

相关电子书