DeepMind重磅论文:通过奖励模型,让AI按照人类意图行事

简介:

如何让AI符合人类的意图?

这个问题是将AI系统部署到真实世界、帮助人类解决复杂问题的最大障碍之一。

DeepMind将这个问题定义为“智能体对齐问题”(agent alignment problem),并提出依赖于奖励建模,正面解决agent alignment问题的研究方向。

7d9f66bb1c845b67c1ae70476e55031acfded775

这篇文章基于DeepMind的新论文Scalable agent alignment via reward modeling: a research direction,概述了解决agent alignment问题的研究方向。所提出的方法依赖于奖励建模的递归应用,以符合用户意图的方式解决复杂的现实世界问题。

近年来,强化学习在许多复杂游戏环境中取得了令人瞩目的成绩,从Atari游戏、围棋、象棋到Dota 2和星际争霸II,AI智能体在越来越复杂的领域迅速超越了人类水平。游戏是开发和测试机器学习算法的理想平台。它们提出了需要多种认知能力才能完成的具有挑战性的任务,反映出解决现实世界问题所需的技能。机器学习研究人员可以在云上并行运行数千个模拟实验,生成系统学习所需的训练数据。

至关重要的是,游戏通常都有一个明确的目标,以及一个近似于实现该目标的进展的分数。这个分数为强化学习智能体提供了有用的奖励信号,使我们能够得到关于哪些算法和架构选择最有效的快速反馈。

智能体对齐问题

AI发展的终极目标是让人类受益,让我们能够应对现实世界中日益复杂的挑战。但现实世界并没有内置的奖励机制。这就带来了挑战,因为现实世界任务的表现不容易定义。我们需要一种好的方式来提供反馈,并使AI能够可靠地理解我们想要什么,以帮助我们实现目的。

换句话说,我们想用人类反馈的方式训练AI系统,使AI的行为与我们的意图一致。为了达到这个目的,我们将智能体对齐问题(agent alignment problem)定义如下:

如何创建符合用户意图的智能体?

对齐问题可以在强化学习框架中构建,不同之处是,智能体可以通过交互协议与用户交互,而不是接收数字奖励信号。这个交互协议允许用户向智能体传达他们的意图。协议可以采用多种形式:例如,用户可以提供演示、偏好、最佳操作或传达奖励函数。Agent alignment问题的解决方案之一是根据用户的意图行事的策略。

DeepMind的新论文概述了正面解决agent alignment问题的研究方向。基于我们之前对AI安全问题分类的研究,以及对众多AI安全问题的论述,我们描绘了这些领域的进展如何能够产生一个解决agent alignment问题的方案。这将为构建能够更好地理解如何与用户交互、如何从用户的反馈中学习、以及如何预测用户偏好的系统打开大门。

通过奖励模型进行对齐

我们研究方向的要点是基于奖励建模(reward modeling):训练一个奖励模型,其中包含来自用户的反馈,从而捕捉他们的意图。与此同时,我们通过强化学习训练一个策略,使奖励模型的奖励最大化。换句话说,我们把学习做什么(奖励模型)学习怎么做(策略)区分开来。

056b67fa463ec49907cbea2c1e6f2e23fef5eff1

奖励建模的示意图:根据用户的反馈训练奖励模型,以获取用户的意图;这个奖励模型为经过强化学习训练的智能体提供奖励。

例如,在以前的工作中,我们教智能体根据用户偏好做一个后空翻,根据目标状态示例将对象排列成特定形状,以及根据用户偏好和专家演示玩Atari游戏。未来,我们希望设计能够学习适应用户提供反馈的方式(例如使用自然语言)的算法。

扩大奖励模型的规模

从长远来看,我们希望将奖励模型的规模扩大到人类无法直接评估的过于复杂的领域。要做到这一点,我们需要提高用户评估结果的能力。我们将讨论如何递归地应用奖励建模:可以使用奖励建建模来训练agent,让agent帮助用户进行评估过程。如果评估比行为更容易,就可以从简单的任务过渡到更加普遍、更加复杂的任务。这可以看作是一个迭代扩增(iterated amplification)的实例。

b7ba0fbc6b8118b2a0187b7056b2c430488c97b1

递归奖励建模的示意图:使用递归奖励建模训练的agent(右边的小圆圈)帮助用户评估当前正在训练的agent(大圆圈)产生的结果。

例如,假设我们想训练一个agent来设计计算机芯片。为了评估某个提议的芯片设计,我们使用奖励建模训练其他的“helper”智能体,以对芯片的模拟性能进行基准测试、计算散热、估计芯片的寿命、查找安全漏洞,等等。总的来说,这些helper agents的输出使用户能够通过协助评估所提议的芯片设计来训练芯片设计agent。虽然helper agent必须解决一系列非常困难的任务,但这些任务总比直接设计一个芯片更容易执行:要设计一个计算机芯片,你必须理解每一项评估任务,但反过来则不然。从这个意义上说,递归奖励建模可以让我们“支持”agent来解决越来越难的任务,同时保持与用户意图一致。

研究挑战

为了对这些复杂的问题进行奖励建模,需要解决几个挑战性问题。下面列出了其中的五项挑战,论文中对这些挑战及其解决办法进行了更深入的描述。

956922ee5e08bad256588b7a609f5656d27abbb0

我们希望扩大奖励建模时遇到的挑战(左)和有前景的解决方法(右)。

那么就来到了agent alignment的最后一个重要组成部分:在现实世界中部署AI智能体时,我们需要向用户提供证据,证明我们的智能体确实已经充分对齐了。

本文讨论了五种不同的研究途径,可以帮助增加对agent的信任:设计选择、测试、可解释性、形式验证和理论保证

我们的一个雄心勃勃的目标是制作安全证书(safety certificates):可以用来证明负责任的技术开发工作,并让用户对依赖训练好的智能体有信心。

未来研究方向

虽然我们相信递归奖励建模是训练对齐智能体的一个非常有前景的方向,但目前还不知道它可以如何扩展(需要更多的研究)。幸运的是,追求agent alignment还有其他一些研究方向:

 ●  模仿学习
 ●  短视强化学习(Myopic reinforcement learning)
 ●  逆强化学习(Inverse reinforcement learning)
 ●  合作逆强化学习
 ●  迭代扩增
 ●  Debate
 ●  Agent foundations

本文进一步探讨它们的异同。

正如对计算机视觉系统相对对抗性输入的鲁棒性的积极研究对于当今的ML应用程序是至关重要的一样,对齐研究对于在复杂的现实世界中部署ML系统也是至关重要的。我们有理由保持乐观:虽然我们希望在扩大奖励模型时面对挑战,但这些挑战是我们可以取得进展的具体技术研究问题。从这个意义上说,我们的研究方向已经准备就绪,可以对深度强化学习智能体进行实证研究。


原文发布时间为:2018-11-22

本文作者:Jan Leike

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:DeepMind重磅论文:通过奖励模型,让AI按照人类意图行事

相关文章
|
2月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
1777 120
|
2月前
|
人工智能 物联网 调度
边缘大型AI模型:协作部署与物联网应用——论文阅读
论文《边缘大型AI模型:协作部署与物联网应用》系统探讨了将大模型(LAM)部署于边缘网络以赋能物联网的前沿框架。针对传统云端部署高延迟、隐私差的问题,提出“边缘LAM”新范式,通过联邦微调、专家混合与思维链推理等技术,实现低延迟、高隐私的分布式智能。
743 6
边缘大型AI模型:协作部署与物联网应用——论文阅读
|
3月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1645 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
2月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
309 120
|
3月前
|
机器学习/深度学习 人工智能 资源调度
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
本文探讨智能家居中AI决策的可解释性,提出以人为中心的XAI框架。通过SHAP、DeepLIFT等技术提升模型透明度,结合用户认知与需求,构建三层解释体系,增强信任与交互效能。
311 19
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
680 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
3月前
|
人工智能 负载均衡 API
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
大家好,我是Immerse,独立开发者、AGI实践者。分享编程、AI干货、开源项目与个人思考。关注公众号“沉浸式趣谈”,获取独家内容。Vercel新推出的AI Gateway,统一多模型API,支持自动切换、负载均衡与零加价调用,让AI开发更高效稳定。一行代码切换模型,告别接口烦恼!
425 1
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
|
3月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
255 10
|
2月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
583 42