当AI学会回忆：Deepmind提出长期信度分配新算法，登上Nature子刊-阿里云开发者社区

当AI学会回忆：Deepmind提出长期信度分配新算法，登上Nature子刊

2019-12-02 2004

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在进行目标导向的决策时，人类经常通过回忆过去的经验进行决策。这种回忆不仅是讲故事，还改变了我们未来的行动，并赋予我们跨时间地将行动和后果联系起来的重要计算能力。

在进行目标导向的决策时，人类经常通过回忆过去的经验进行决策。这种回忆不仅是讲故事，还改变了我们未来的行动，并赋予我们跨时间地将行动和后果联系起来的重要计算能力。

对于AI，这种能力有助于解决长期信度分配问题(long-term credit assignment)：即如何评估行为在长期行为序列中的效用。但人工智能中现有的信度分配方法无法解决行动与结果之间存在长时间延迟的任务。

DeepMind最近发表在Nature Communications上的论文为解决这个问题提出了一种新的算法——TVT(Temporal Value Transport)。该算法也基于情景记忆检索，使AI智能体能够执行长期的信度分配。

DeepMind的研究人员介绍了一个范式，其中智能体使用特定记忆的回忆来信任过去的行为，允许它们解决现有算法难以解决的问题。这一范式拓宽了人工智能研究的范围，提供了一种对行为的机械性解释，可能会激发神经科学、心理学和行为经济学的模型。

在深度强化学习基础上引入长期信度分配的原则

人类如何表达偏好，并做出决定来确保未来的利益？这是一个长期存在的问题，最早可以追溯到效用理论的起源。在包括经济学和心理学在内的多个领域中，关于如何采用适当形式来解释未来长期决策中的结果评估，仍然是一个未解决的问题。

在人工智能研究中，长期评估单个动作的效用的问题被称为“信度分配问题”。这类评估可以对过去的行动或计划的未来行动进行评分。利用深度学习和强化学习（RL）相结合，可以产生一类体系结构和算法，用于评估这类问题。

显而易见，人类和动物证明了最新的（无模型）深度强化学习尚无法模拟某些行为。尤其是，在没有即时奖励或直接反馈的情况下做出许多行为。比如对于潜伏学习、前瞻记忆和跨时选择等行为，目前还没有有效的标准模型。另一方面，很多人类的学习和决策都是在没有任务奖励的情况下做出的，或者是在距离决策点的未来很长时间，才会获得奖励的情况下做出的。

有人认为，只有当出现通过心理时间旅行和计划进行长期信度分配的新策略时，原始的人的认知能力才真正成为现代人，从而导致突然的文化转变和社会复杂性的巨大变化。LTCA问题(long-term credit assignment)的算法进展可能会有助于可通过计算解决的决策问题。

本文实例建立在深度强化学习基础上，引入了长期信度分配的原则。首先，智能体必须编码并存储感知和事件记忆；第二，智能体必须通过识别和访问过去事件的记忆，来预测未来的回报；第三，智能体必须根据其对未来奖励的贡献，来重新评估这些过去的事件。

基于这些原理，时间价值传输（TVT）算法使用神经网络注意力记忆机制，将遥远的过去的行为归功于以后的奖励。该算法会自动将时间线上不连续的事件拼接在一起，这些事件由任务相关性及其相互关联程度来标识，从而让智能体可以将某一行为与其后果联系起来。该算法并非没有启发式元素，但我们证明了这种算法在需要LTCA的一系列任务中的有效性，而这些任务目前给深度强化学习带来了很大的困难。

实验和结果：TVT学习算法解决两类基本任务

为了研究长时间延迟和干预活动下的决策，我们将任务结构形式化为两种基本类型。每个类型由三个阶段P1-P3组成(图1a)。

图1：任务设置和Reconstructive Memory Agent

在第一种任务类型(信息获取任务)中，在P1，agent必须在没有即时奖励的情况下探索一个环境来获取信息；在P2，agent长时间从事一项不相关的干扰任务，并获得了许多附带奖励；在P3，agent必须利用P1中获取的信息获取远端奖励。

在第二种任务类型(因果任务)中，agent必须采取行动触发P1中的某个事件，该事件只有长期因果后果。P2同样是一个分散注意力的任务，但在P3中，agent必须利用其在P1中的活动所引起的环境变化来取得成功。

由于我们提出的解决方案的一个关键部分涉及到记忆编码和检索，所以我们认为P1是由随后的记忆编码的动作组成，P2是干扰因素，P3是利用(图1a)。

图1a：3阶段的任务结构。在P1，没有奖励，但是agent必须寻找信息或者触发事件。在P2，agent执行一个提供奖励的干扰任务。在P3， agent可以根据其在P1中的行为获得远端奖励。

虽然我们有时会报告P2中的性能，但为了确保agent在执行干扰任务时的性能是相同的，我们将主要关注P3中agent获得的性能。挑战在于在P1中产生有助于P3表现的行为，从而实现LTCA。虽然这种任务结构是设计的，但它使我们能够系统地控制延迟时间和干扰奖励的差异。

在这些假设下，我们可以通过在策略梯度估计中定义一个引起P1行为适应的信噪比(SNR)来理解为什么干扰阶段会对LTCA造成损害。

重建记忆智能体(Reconstructive Memory Agent, RMA)

我们使用一个AI智能体来解决这个任务，将其命名为RMA(图1c)，它是从以前的模型简化而来的。关键的是，这个模型结合了一个重建过程来压缩有用的感官信息和记忆存储，这些存储可以通过基于内容的寻址查询来通知agent的决策。RMA本身不具有支持LTCA的专门功能，但是为TVT算法的操作提供了基础。

现在我们转到需要LTCA的第1类的信息获取任务，即Active Visual Match。这里，在P1阶段，agent必须主动地在一个两个房间的迷宫中随机找到一个彩色正方形，这样它才能决定P3中的匹配项(图2a)。

如果一个agent在P1中偶然发现了视觉线索，那么它可以在P3中使用这个信息，但这只能是随机成功的。在被动的视觉匹配中，agent在P2阶段执行一个30秒的收集苹果干扰任务。

图2：Temporal Value Transport 和第一类信息获取任务。

Temporal Value Transport

TVT是一种学习算法，它增强了基于记忆的智能体解决LTCA问题的能力。我们可以将注意力记忆访问与RL结合起来，通过自动发现如何忽略它来有效地将问题转换成一个没有延迟的问题，从而对抗偏差。

RL里的一个标准技术是通过bootstrapping来估计策略梯度计算的收益：使用学习的值函数，它是确定的，因此方差小，但有偏差，以减少回报计算中的方差。

在图2c中，我们强调了TVT背后的基本原理。在之前的Passive Visual Match 任务中，我们看到RMA读取机制学会了从P1中检索记忆，以生成P3中的值函数预测和策略。

当应用于具有较大干扰奖励的Active Visual Match 任务时，具有TVT的RMA模型在P1阶段学习了正确的行为，甚至比没有干扰奖励的RMA更快。(图2 b, d)。学习行为的差异是戏剧性的：TVT可靠地找到了P1中的彩色方块，而RMA表现随机(图3)。

图3：主动视觉匹配任务中agent的分析

TVT还可以解决第二类因果关系任务，其中，agent不需要为P3获取P1中的信息，而是必须引起将影响P3中环境状态的事件。这里我们研究的是Key-to-Door(KtD)任务，在这个任务中，一个agent必须学会在P1中捡起一把钥匙，这样它才能打开P3中的一扇门，从而获得奖励(图4a)。

图4：第二类因果任务。

在确定TVT能够解决简单问题之后，我们现在将在两个更复杂的场景中演示TVT的能力。第一个是KtD和Active Visual Match 任务的结合，演示了跨多个阶段的TVT——捡钥匙开门到匹配任务(KtDtM)；在这种情况下，agent必须表现出两个非连续行为才能获得远端奖赏。

这个任务有P1–P5五个阶段(Fig. 5a).

图5：Transport across multiple phases.

最后，我们来看一个更丰富的任务——潜在信息获取(图6a)。

TVT agent单独完成了任务(图6b，黑色曲线)，通常在P1中接触所有三个对象(图6d)，而RMA平均只接触一个对象(图6b，其他颜色)。在P1中，对象被放置在6个可能位置的网格中(与P3位置无关)。只有TVT学习到一种探索性的扫描行为，可以有效地覆盖对象所在的位置(图6c)；RMA移动到同一角落，因此意外地触及了一个物体。

图6：更复杂的信息获取任务

该研究的代码已开源：

https://github.com/deepmind/deepmind-research/tree/master/tvt

文章来源：新智元