朱松纯团队新作:让AI「读懂」人类价值观!登上Science Robotics

简介: 朱松纯团队新作:让AI「读懂」人类价值观!登上Science Robotics

今日(7月14日),国际顶级学术期刊<Science Robotics >发表了朱松纯团队(UCLA袁路遥、高晓丰、北京通用人工智能研究院郑子隆、北京大学人工智能研究院朱毅鑫等作者)的最新研究成果——实时双向人机价值对齐 Bidirectional human-robot value alignment。





论文地址:https://www.science.org/doi/10.1126/scirobotics.abm4183

本论文提出了一个可解释的人工智能(XAI)系统,阐述了一种机器实时理解人类价值观的计算框架,并展示了机器人如何与人类用户通过实时沟通完成一系列复杂人机协作任务。朱松纯团队长期从事可解释人工智能相关工作。此文是团队第二篇发表在 Science Robotics 的关于可解释人工智能的论文。这项研究涵盖了认知推理、自然语言处理、机器学习、机器人学等多学科领域,是朱松纯教授团队交叉研究成果的集中体现。

在这个人机共存的时代,为了让机器更好地服务于人类,理想的人机协作应该是什么样的?我们不妨借鉴一下人类社会的协作,在人类团队合作过程中,共同的价值观和目标是保证团队之间齐心协力、高效合作的基础。当前机器智能大多数基于数据驱动(且很多情况下获取不了数据)、且是单方面接受人类指令(一种是人类观测受限的情况下是没法给到指令的)

为了解决上述问题,以及为了让机器能够进行更好地 “自主” 探索,我们要让机器学会 “读懂” 人类价值观,因此我们提出 “实时双向价值对齐”。这就要求人类要想办法一次次地给到 AI 反馈,逐渐地教会 AI“读懂” 人类的价值观,也就是让机器和人类的 “价值观” 保持一致。

这个问题也被称为价值对齐(value alignment),即如何保证人工智能在执行任务过程中所实现的价值和用户所在意的价值是一致的?

可以说,价值对齐是人机协作过程中达成共识(common ground)的基础,具有非常重要的研究价值。价值对齐也是未来的一个重要发展方向,是让机器实现 “自主智能” 的关键所在,也是实现通用人工智能的必经之路。鉴于此,北京通用人工智能研究院院长朱松纯团队一直在致力于此方向的研究。

一、研究背景

理想的人机协作应该是什么样的?在人工智能发展方兴未艾之时,控制论之父诺伯特 - 维纳(Norbert Wiener)就提出了人机协作的基础:

“如果我们使用一个机器来实现我们的目标,但又不能有效地干预其运作方式... 那么我们最好能笃定,输入给机器的目标是我们真正所预期的。”

近几年来,一系列研究进展都表明:高效的人机协作依赖于团队之间拥有一致的价值观、目标,以及对任务现状的理解。这就要求人类通过与机器的沟通来高效地建立整个团队对任务的共识,每个团队成员都采取其他伙伴更容易理解的行为决策来完成协作。在大多数情况下,队友之间的沟通过程都是双向的,即每个成员都要扮演着倾听者和表达者两种角色。这样的双向价值对齐决定了人机协作中的沟通是否能够成功,即机器人是否能准确地推断出用户的价值目标,并有效地解释自己的行为。如果这两个条件没有得到满足,队友间彼此的不理解和误判很可能会导致协作失败。因此,想要使人工智能更好地服务于人类社会,必须让它们在与人类互动时扮演好这两种角色。

从倾听者的角度来看,传统人工智能算法(如逆强化学习(IRL)等)能够将交互数据与机器学习算法相结合,以学习特定任务中用户的价值目标,即通过输入用户在特定任务中的行为方式,来恢复行为背后的奖励函数。然而,在众多实际且重要(如军事和医疗领域)的应用中,数据的获取经常十分昂贵。这些机器学习方法对大型数据集的依赖是无法应对即时互动的人机协作场景的。

从表达者的角度来看,可解释人工智能(XAI)的引入是为了促进人机之间达成共识。当前的 XAI 系统通常强调的是对 “模型如何产生决策过程” 的解释。然而,不管用户有多少主动的输入或互动,都只能影响机器 “生成解释” 的过程,而不影响机器 “做出决策” 的过程。这是一种单向的价值目标对齐,我们称之为静态机器 - 动态用户的交流,即在这种协作过程中只有用户对机器或任务的理解发生了变化。

二、研究方法

为了完成人与机器之间价值目标的双向对齐,需要一种人类价值主导的、动态机器 - 动态用户的交流模式。在这样一种新的模式中,机器人除了揭示其决策过程外,还将根据用户的价值目标即时调整行为,从而使机器和人类用户能够合作实现一系列的共同目标。为了即时掌握用户信息,我们采用通讯学习取代了传统数据驱动的机器学习方法,机器将根据所推断出的用户的价值目标进行合理解释。这种合作导向的人机协作要求机器具有心智理论(ToM),即理解他人的心理状态(包括情绪、信仰、意图、欲望、假装与知识等)的能力。心智理论最早在心理学和认知科学中被研究,现已泛化到人工智能领域。心智理论在多智能体和人机交互环境中尤为重要,因为每个智能体都要理解其他智能体(包括人)的状态和意图才能更好地执行任务,其决策行为又会影响其他智能体做出判断。设计拥有心智理论的系统不仅在于解释其决策过程,还旨在理解人类的合作需求,以此形成一个以人类为中心、人机兼容的协作过程。

为了建立一个具有上述能力的 AI 系统,本文设计了一个 "人机协作探索" 游戏。在这个游戏中,用户需要与三个侦察机器人合作完成探索任务并最大化团队收益。本游戏设定:1、只有侦察机器人能直接与游戏世界互动,用户不能直接控制机器人的行为;2、用户将在游戏初始阶段选择自己的价值目标(例如:最小化探索时间,收集更多的资源,探索更大的区域等),机器人团队必须通过人机互动来推断这个价值目标。这样的设置真实地模仿了现实世界中的人机合作任务,因为许多 AI 系统都需要在人类用户的监督下,自主地在危险的环境中运行(如在核电站有核泄漏的情况下)。

要成功地完成游戏,机器人需要同时掌握 “听” 和“说”的能力来实现价值双向对齐。首先,机器人需要从人类的反馈中提取有用的信息,推断出用户的价值函数(描述目标的函数)并相应地调整它们的策略。其次,机器人需要根据它们当前的价值推断,有效地解释它们 "已经做了什么" 和 "计划做什么",让用户知道机器人是否和人类有相同的的价值函数。同时,用户的任务是指挥侦查机器人到达目的地,并且使团队的收益最大化。因此,用户对机器人的评价也是一个双向的过程,即用户必须即时推断侦察机器人的价值函数,检查其是否与人类的价值函数相一致。如果不一致,则选择适当的指令来调整他们的目标。最终,如果系统运行良好,侦察机器人的价值函数应该与人类用户的价值函数保持一致,并且用户应该高度信任机器人系统自主运行。

图 1. 人机价值对齐过程总览。

图 1 介绍了游戏中的双向价值调整过程。在游戏互动过程中,存在着三个价值目标,分别是用户的真实价值;机器人对用户价值的估计(在游戏中,侦察机器人没有自己的价值,所以他们以人类用户价值的估计为依据采取行动);用户对机器人价值的估计。基于这三个价值目标产生了两种价值对齐——机器人从用户给出的反馈中学习用户的价值;: 用户从机器人给出的解释和互动中了解机器人的价值。最终,三种价值目标将汇聚于人 - 机团队将形成相互信任和高效的协作。

本文提出的 XAI 系统旨在共同解决以下两个问题:

1. 在即时互动和反馈过程中,机器如何准确估计人类用户的意图?2. 机器如何解释自己,以便人类用户能够理解机器的行为,并提供有用的反馈来帮助机器做出价值调整?

在本文提出的系统中,机器人提出任务计划的建议,并要求人类用户给出反馈(接受或拒绝建议),从人类反馈中推断出任务目标背后人类真实的价值意图。在协作游戏中,如果用户知道机器人正在积极学习他的价值目标,那么用户就会倾向于提供更加有用的反馈,以促进价值保持对齐。特别地,每条信息都传达了两方面的意义,包括(1)基于价值目标的语义信息和(2)基于不同解释方式之间区别的语用信息。利用这两方面的含义,XAI 系统以一种多轮的、即时的方式展示了价值的一致性,在一个问题搜索空间大的团队合作任务中实现了高效的人机互动交流。为了使机器人的价值目标与用户保持一致,XAI 系统生成解释、揭示机器人对人类价值的当前估计、并证明提出规划的合理性。在每一步的互动中,为了避免解释内容过于冗长,机器人会提供定制化的解释,比如省略重复的已知信息并强调重要的更新。在收到机器人的解释并向它们发送反馈后,用户向机器人提供提示,说明他们对最新建议和解释的满意程度。利用这些反馈,机器人会不断地更新解释的形式和内容。

为了评估本文 XAI 系统的性能,我们邀请了人类用户进行了一系列实验,以此考察人类 - 机器双向价值协调是否成功。我们采用了三种类型的解释,并将用户随机分配到三组中的一组。实验结果表明,我们所提出的 XAI 系统能够以有效地实现即时双向的价值对齐,并用于协作任务;机器人能够推断出人类用户的价值,并调整其价值估计被用户所理解。此外,有必要进行多样化的解释,以提高机器的决策性能和它们的社会智能。合作式的人工智能的目标是减少人类的认知负担,并协助完成任务,我们相信,主动即时推断人类的价值目标,并促进人类对系统的理解,将会为通用智能体的人机合作铺平道路。

三、游戏设置

如图 2 所示,在我们设计的合作游戏中,包含一个人类指挥官和三个侦察机器人。游戏的目标是需要在一张未知的地图上找到一条从基地(位于地图的右下角)到目的地(位于地图的左上角)的安全路径。该地图被表示为一个部分可见的 20×20 网格图,每个格子都可能有一个不同的装置,只有在侦察机器人靠近它之后才可见。

在游戏中,人类指挥官和侦察机器人具有结构性的相互依赖关系,一方面人类指挥官需要依靠侦察机器人探索危险区域并排除爆炸物,另一方面,侦察机器人需要依赖人类指挥官提供的反馈更好地理解当前任务的目标。


图 2:侦察探索游戏的用户界面。从左到右,图例面板显示游戏地图中的图例。价值函数面板显示这局游戏的价值函数,侦察机器人不知道这个函数,用户也不能修改。中心地图显示当前地图上的信息。分数面板显示了用户的当前分数。总分的计算方法是将各个目标的分数用价值函数加权后的总和。状态面板显示系统的当前状态。提议面板显示侦察机器人当前的任务计划提议,用户可以接受 / 拒绝每个建议。解释面板显示侦察机器人提供的解释。

我们为侦察机器人制定了在寻找到路径时额外的一系列目标,包括 1)尽快到达目的地,2)调查地图上的可疑装置,3)探索更大的区域,以及 4)收集资源。游戏的表现是由侦察机器人完成这些目标的情况和它们的相对重要性(权重)来衡量的,其中的权重就是人类用户的价值函数。例如,如果人类指挥官更注重时效而不是获取更多的资源,那么侦察机器人则应该忽略沿途上的部分资源以保证尽快到达目的地。(注,这个价值函数只在游戏开始时向人类用户透露,而不对侦察机器人透露。图 3 总结了人机互动的流程。)

在不清楚人类指挥官价值取向的情况下,机器人侦察兵小队必须快速推断出人类的价值判断,在每一步行动中,机器人侦察小队每一个成员都要给出下一步行动方案,由人类指挥官选择。为了帮助指挥官进行决策,侦察机器人小队将解释行动方案的依据。结合指挥官的反馈,以往的互动历史和当前的地图情况,侦察机器人小队将调整其对指挥官当前价值观的判断,并采取相应的行动。

图 3:侦查探索游戏的设计。时间线(A)表示在一轮游戏中发生的事件,从机器人收到环境信号开始,到它们的下一步动作结束。时间线(B)和(C)分别描述了机器人和用户的心智变化过程。

四、即时双向价值对齐模型

为了估计人类指挥官在通信过程中的价值函数,我们将两个层次的心智理论整合到我们的计算模型中。第 1 层心智理论考虑合作性假设。也就是说,给定一个合作的人类指挥官,被他接受的来自机器人的提议,更有可能与正确的价值函数相一致。第 2 层心智理论进一步将用户的教育方法纳入模型,使机器人更接近人类指挥官真实价值的反馈比其他反馈更容易被人类指挥官选择。建模人类指挥官的教育倾向(pedagogical inclination)需要更高一层的心智理论。结合这两个层次的心智理论,我们将人类指挥官的决策函数写成一个由价值函数参数化的分布,并开发出一种新的学习算法。

值得注意的是,与我们的人机合作框架有可比性但不同的方法是逆强化学习。逆强化学习的目的是在一个被动的学习环境中,根据预先录制的、来自专家的演示(demonstration)来恢复底层的奖励函数(reward function)。与之不同的是,在我们的环境中,侦察机器人被设计为从人类指挥官给出的稀缺监督中进行交互学习。更重要的是,我们的设计要求机器人在任务进行的过程中即时地、主动地推断人类指挥官的价值。此外,为了完成合作,侦察机器人不仅必须迅速理解人类指挥官的意图,还要阐明自己的决策依据,以确保在整个游戏过程中与人类指挥官顺利沟通。总体来看,机器人的任务是通过推断人类用户的心智模型,积极提出建议,并评估人类用户的反馈来进行价值调整。这些都需要机器对人类用户进行复杂的心智建模,并具有即时更新模型的能力。


五、总结

本文提出的 XAI 系统成功地证明了双向人机价值对齐框架的可行性。从倾听者的角度来看,所有三个解释组中的机器人都可以在游戏进度达到 25% 时,通过对至少 60% 的目标重要性进行正确排序,快速与用户的价值进行对齐。从表达者的角度来看,通过提供适当的解释,机器人可以向用户说明其意图,并帮助人类更好的感知机器人的价值,当给机器提供”完整解释 “时,只需在游戏进度达到 50% 时即可实现人类用户价值与机器人价值的统一,而当只提供” 简要解释“时,游戏进度需要达到 75% 时才能完成价值的统一。

我们从上述两个角度得到了令人信服的证据,实现了双向价值对齐的过程,具体来说:

1. 通过接收人类的反馈,机器人逐渐更新其价值函数来与人类的价值保持一致;2. 通过不断地与机器人交互,人类用户逐渐形成对系统能力和意图的感知。虽然机器人系统的价值在游戏的上半场没有与人类用户实现统一,但用户对机器人价值评估能力的感知仍然可以提高。

最终,当机器人的价值变得稳定时,用户对机器人的评估也变得稳定。从机器人对用户价值的评估到用户价值的真实值,以及从用户对机器人价值的评估到机器人当前价值的收敛配对,形成了由用户真实价值锚定的双向价值对齐。

总的来说,我们提出了一个双向人机价值对齐框架,并使用 XAI 系统验证其可行性。我们提出的 XAI 系统表明,当把心智理论集成到机器的学习模块中,并向用户提供适当的解释时,人类和机器人能够通过即时交互的方式实现心智模型的对齐。我们提出的计算框架通过促进人和机器之间共享心智模型的形成,为解决本文的核心问题 "理想的人机协作应该是什么样的?" 提供了全新的解答。

在这个游戏任务中,我们的工作侧重于以价值和意图为核心对心智进行建模,对齐这些价值可以极大地帮助人类和机器为面向任务的协作建立共同基础,使其可以胜任更加复杂的场景何任务。因此,我们的工作是在人机协作中朝着更通用的心智模型对齐迈出的第一步。在未来的工作中,我们计划探索哪些因素能够进一步增强人类用户信任(例如,允许对机器人进行反事实查询),验证 "对齐" 对任务性能的影响,并将我们的系统应用于涉及更复杂环境和价值函数的任务。

相关文章
|
2月前
|
人工智能 安全 搜索推荐
北大计算机学院再登国际AI顶刊!张铭教授团队揭露医疗AI致命漏洞
【10月更文挑战第17天】北京大学计算机学院张铭教授团队在国际顶级人工智能期刊上发表重要成果,揭示了医疗AI系统中的致命漏洞——“模型反演”。该漏洞可能导致误诊和医疗事故,引起学术界和工业界的广泛关注。研究强调了医疗AI系统安全性评估的重要性。
42 1
|
1天前
|
人工智能 数据挖掘
AI长脑子了?LLM惊现人类脑叶结构并有数学代码分区,MIT大牛新作震惊学界!
麻省理工学院的一项新研究揭示了大型语言模型(LLM)内部概念空间的几何结构,与人脑类似。研究通过分析稀疏自编码器生成的高维向量,发现了概念空间在原子、大脑和星系三个层次上的独特结构,为理解LLM的内部机制提供了新视角。论文地址:https://arxiv.org/abs/2410.19750
25 12
|
7天前
|
人工智能
带上团队一起来做 AI 编程实践丨通义灵码联合TGO鲲鹏会开启 AI 大课
带上团队一起来做 AI 编程实践丨通义灵码联合TGO鲲鹏会开启 AI 大课
|
9天前
|
人工智能 自然语言处理 数据挖掘
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
田渊栋团队提出Agent-as-a-Judge框架,利用智能体自身评估其他智能体的性能,不仅关注最终结果,还能提供中间反馈,更全面准确地反映智能体的真实能力。该框架在DevAI基准测试中表现出色,成本效益显著,为智能体的自我改进提供了有力支持。
19 7
|
17天前
|
人工智能 自然语言处理 Swift
探索面向开放型问题的推理模型Marco-o1,阿里国际AI团队最新开源!
阿里国际AI团队发布的新模型Marco-o1,不仅擅长解决具有标准答案的学科问题(如代码、数学等),更强调开放式问题的解决方案。该模型采用超长CoT数据微调、MCTS扩展解空间等技术,提升了模型在翻译任务及复杂问题解决上的表现。研究团队还开源了部分数据和模型,供社区使用和进一步研究。
|
1月前
|
机器学习/深度学习 人工智能 机器人
何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能暴涨超20%
【10月更文挑战第29天】在机器人学习领域,训练通用模型面临数据异构性的挑战。近期研究“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”提出异构预训练Transformer(HPT),通过大规模预训练学习跨不同本体和任务的共享表示,显著提升了性能。实验结果显示,HPT在未见过的任务上表现优异,性能提升超过20%。
64 6
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
o1医学领域大胜GPT-4,性能暴涨!顶尖华人团队激动发文:离AI医生越来越近了
【10月更文挑战第29天】近日,一支顶尖华人团队发布论文《A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?》,揭示了OpenAI最新语言模型o1在医学领域的卓越表现。研究显示,o1在概念识别、文本总结、问答等任务上远超GPT-4,显著提升了医学领域的AI应用水平,向实现AI医生的目标迈进了一大步。
50 3
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
转载:【AI系统】AI的领域、场景与行业应用
本文概述了AI的历史、现状及发展趋势,探讨了AI在计算机视觉、自然语言处理、语音识别等领域的应用,以及在金融、医疗、教育、互联网等行业中的实践案例。随着技术进步,AI模型正从单一走向多样化,从小规模到大规模分布式训练,企业级AI系统设计面临更多挑战,同时也带来了新的研究与工程实践机遇。文中强调了AI基础设施的重要性,并鼓励读者深入了解AI系统的设计原则与研究方法,共同推动AI技术的发展。
转载:【AI系统】AI的领域、场景与行业应用
|
2天前
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建
|
2天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
12月05日,由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·电子科技大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营