【越好奇,越强大】伯克利研究人员使用内在激励,教AI学会好奇

简介: 伯克利研究人员正在开发具有好奇心的AI。他们想创造有内在自我驱动能力的AI,而不是依赖人类指令的伪智能。相比外在的奖惩机制,建立方法让智能体拥有内在的好奇心更加重要。研究人员将让AI感到“吃惊”的指数,即对环境预测的误差,作为内在激励函数。吃惊越大,奖励越多,以此让AI迅速掌握环境。

你可能不记得第一次玩“超级马里奥兄弟”是什么感觉,但试着想像一下:蓝色的天空,棋盘石的地面,还有一个蹲着的红色男人在静静等待。他面向右方,你把他推到那个方向。再多走几步,就会看到一排砖块在头顶盘旋,看起来像是一个愤怒的蘑菇。这个人跳起来,他的四像素拳头指向天空。

对于20世纪80年代长大的人来说,这个场景听起来很熟悉,但是你可以在Pulkit Agrawal的YouTube频道上看到一个更年轻的玩家。 Agrawal是加利福尼亚大学伯克利分校的一位计算机科学研究人员,正在研究天生的好奇心如何使学习新内容更加高效,比如第一次玩超级马里奥兄弟。

然而,Agrawal视频中的新手玩家并不是人类。像马里奥一样,它只是一个软件。但这个软件配备了Agrawal和同事Deepak Pathak,Alexei A. Efros和Trevor Darrell在伯克利人工智能研究实验室设计的一个实验性的机器学习算法,这个算法有一个惊人的目的:让机器具有好奇心。


Agrawal说:“你可以把好奇心看作是内部产生的一种奖励,以便更多地探索它的世界。”这种内部产生的奖励信号在认知心理学中被称为“内在激励”。

人类也会回应外在激励。计算机科学家应用强化学习来训练算法:软件在执行所需任务时获得“分数”,而惩罚遵循不想要的行为。

但是这种“胡萝卜加大棒”式的机器学习方法有其局限性,AI研究人员开始将内在激励视为软件代理的一个重要组成部分,使机器更像人类和动物,可以高效而灵活地学习。这种在人工智能中使用内在激励的方法,灵感源于心理学和神经生物学。

虽然代理程序现在仅仅在视频游戏上接受训练,但是“开发有好奇心的AI”这件事意义非常重大。“选择你最喜欢的应用领域,我会给你一个例子,”伯克利人工智能实验室的联合主任Darrell说。“在家里,我们想让机器做家务。我们需要能够在复杂路况中自动驾驶的车辆,以及可以探索建筑物的救援机器人,并找到需要救援的人员。在所有这些情况下,我们试图弄清楚这个非常困难的问题:如何制造一台可以弄清楚自己任务的机器?

奖励机制的问题

强化学习是帮助Google的AlphaGo击败顶尖人类棋手的重要技术。在特定领域使用强化学习的细节很复杂,但总体思路很简单:给予一个学习算法(或“代理”)一个奖励函数,即一个数学定义的信号来寻找和最大化。然后把它放在一个环境中,真实或虚拟环境皆可。当代理在环境中运行时,增加奖励函数价值的行为将得到加强。重复多次后,算法学会了使奖励功能最大化的行为模式。理想情况下,这些模式将使算法达到理想的最终状态(如“在围棋中取胜”),程序员或工程师不必手动编码代理程序需要采取的每一步。

换句话说,奖励功能就是把强化学习驱动的代理锁定在目标上的引导系统。目标的定义越清楚,代理人的表现就越好。这就是为什么他们当中的很多人目前都是在老的视频游戏上进行测试,而这些视频游戏通常会提供基于积分的简单的外在奖励计划。 块状的二维图形也很有用:因为游戏相对比较简单,研究人员可以快速运行和重复实验。

然而“在现实世界中,这没有任何意义,” Agrawal说。计算机科学家希望让他们的创作能够探索新的环境,而不是预先加载可量化的目标。

此外,如果环境不能快速和规律地提供外部奖励,“算法就不知道是否做对或错,”Houthooft说。

而且,即使精心定义的外在奖励功能可以指导算法展示出令人印象深刻的智能行为,如果不经过大规模的修改,也无法轻易推广到其他领域

研究人员想要创造的是有内在自我驱动能力的AI,而不是依赖人类指令的伪智能。Agrawal,“人类有一个内在的自我奖励机制。世界上并不存在一个神灵告诉你做这个就会加一分’,做那个就减一分


加州大学伯克利分校的计算机科学家Pulkit Agrawal

好奇心至关重要

伯克利人工智能实验室的研究人员Pathak认为,“好奇心这个词只不过是说一种能够引导代理在噪声环境中高效探索环境的模型’”

但在2016年,Pathak曾对强化学习的稀疏奖励问题感兴趣。以强化学习技术为基础的深度学习最近在玩简单的得分驱动的Atari游戏(例如Space Invaders和Breakout)方面取得了重大进展。但像超级马里奥兄弟等稍微复杂一些的游戏,仍然超出了AI的能力范围。


加州大学伯克利分校的计算机科学家Deepak Pathak

Pathak、Agrawal、Darrell、Efros四人合作,給学习代理配备了他们所称的内在好奇模块( intrinsic curiosity module ICM),这一模块的设计意图是在代理没有失去控制的情况下推进游戏。毕竟,算法完全不了解如何玩超级马里奥兄弟游戏。

事实上,Agrawal和Pathak分别从伯克利和麻省理工学院的发展心理学家Alison Gopnik和Laura Schulz的作品中得到了灵感,他们表明,婴幼儿自然而然地被吸引到最令他们惊讶的物体上,而不是用于实现某些外在目标的对象。 Agrawal说:“解释这种对儿童的好奇心的一种方式就是,儿童建立了他们对世界了解的模型,然后进行实验,以更多地了解他们不知道的东西。”

在Pathak和Agrawal的例子中(这种由惊讶驱动的机器的好奇心),AI首先用数学方法表示当前超级马里奥兄弟的视频框架。然后AI预测游戏看起来有几个框架。目前深度学习可以做到这样。但是Pathak和Agrawal的ICM做了更多的事情。它产生了一个内在的奖励信号,这个信号是去证明预测模型的错误。错误率越高,(或者说,越惊讶),其内在奖励函数的值越高。换句话说,“惊讶”等同于“注意到事情没有如预期般发生” ,那么就是错了,Pathak和Agrawal的系统会因惊讶而获得奖励。

这个内部产生的信号将代理引向游戏中未开发的状态,它对尚未知道的东西感到好奇。而且,随着代理不断学习,预测模型的错误率越来越低,ICM的奖励信号就会减少。这时代理就会通过探索别的令它吃惊的情况,来使收到的奖励信号最大化。Pathak说:“这使探索的效率加快。”

这个反馈回路还可以让AI快速引导自己脱离几乎空白的无知状态。起初,代理对屏幕上的任何基本动作感到好奇。然而,不断的提高,会产生各种不可预测的影响:有时候马里奥会直线上升,有时他短暂跳,其他时间跳远。所有这些结果在代理的预测模型中都记录为错误,从而收到来自ICM的奖励信号,这使得代理不断尝试该行为。向右移动具有类似的好奇吸引效果。在Agrawal的演示视频中可以清楚地看到向上和向右移动的冲动:在几秒钟内,由AI控制的Mario开始像一个多动的幼儿一样向右跳跃,导致越来越不可预知的效果(如碰到悬停的砖块,不小心压扁了一个蘑菇),所有这一切都推动了进一步的学习。

避免新奇性陷阱 

自20世纪90年代初以来,好奇心一直是人工智能研究的主题。一种程式化定义好奇心的方式是:代理程序被编程为探索环境中不熟悉的状态。这个广义的定义似乎对好奇心的经验有一个直观的理解,但在实践中,它可能导致代理陷入满足其内在激励的状态,但阻止任何进一步的探索。

例如,想象一个电视屏幕上只显示静态的东西。这会很快引起一个纯粹寻求新奇的代理的好奇心,因为从定义上来说,一个随机闪烁的视觉噪声的方块从一个时刻到另一个时刻是完全不可预测的。由于每种静态模式对代理来说都是完全新颖的,所以它的内在奖励功能将确保它永远不会停止关注环境中这一单一无用的特征。它被困住了。

事实证明,这种毫无意义的新奇事物在虚拟或物理的丰富特色环境中无处不在 ,人工智能必须学会应对,才能变得真正有用。

Agrawal 和Pathak 不得不想出一个方法来保持代理好奇,但不能太好奇。使用深度学习和计算机视觉对代理的视野进行全面的时间整体建模使得它很难过滤潜在干扰。计算成本也很昂贵。

所以,伯克利的研究人员将代理设计为从原始像素的视觉输入转化为现实的抽象版本。这种抽象只包含可能影响代理(或代理可以影响)的环境特征。实质上,如果代理人不能与某个事物互动,那么它就不会被首先感知到。使用这个精简的“特征空间”(相对于未处理的“像素空间”而言)不仅简化了代理的学习过程,而且巧妙地避开了新奇性陷阱。

人造好奇心的局限性

Darrell 承认,这种好奇心模式并不完美。他说:“这个系统知道什么是相关的,但是不能保证它总能正确地做到。”事实上,代理程序在达到局部最佳状态之前,只能通过超级马里奥兄弟的第一级。Agrawal说:“代理必须跨越一个巨大的间隙,这需要以特定顺序执行15或16个连续的行动。因为它永远无法跳过这个缝隙,每次去那里都会死亡。而且,当它学会准确地预测这个结果时,就不会再有好奇心继续在游戏中前进了。” 


伯克利人工智能研究实验室的联合主任Trevor Darrell

人造好奇心的问题在于,即使是研究内在激励多年的研究人员仍然无法精确定义好奇心是什么。领导明尼苏达大学计算机认知与行动实验室的神经科学家保罗·施拉特(Paul Schrater)表示,伯克利模型“是短期内让代理自动学习新环境的最明智之举”,但他认为与“运动的学习和控制”相比,“直观的好奇心”更少。他说:“它控制着认知之下的东西,更多的是控制身体的细节。”

法国Inria公司研究总监Pierre-Yves Oudeyer表示,好奇心也许还需要代理至少在环境中有一定的体现才能具备真正的意义。 Oudeyer十多年来一直在创造好奇心的计算模型。他指出,世界是如此之大而丰富,以至于代理可以在任何地方找到惊喜。但是这不够。 Oudeyer说:“如果你有一个无实体的代理利用好奇心去探索一个大的特征空间,那么它的行为最终会看起来像随机探索,因为它没有任何行动上的限制。”

但是并不是所有实体化的代理都需要内在激励,正如工业机器人的历史所表明的那样。对于更简单的任务,比方说,使用机器人将货物从一个地方送到另一个地方 ,增加好奇并不是明智之举。


原文发布时间为:2017-11-20

本文作者:Cecilia

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:【越好奇,越强大】伯克利研究人员使用内在激励,教AI学会好奇

相关文章
|
2月前
|
存储 人工智能 安全
拔俗AI临床大数据科研分析平台:让医学研究更智能、更高效
阿里云原生AI临床大数据科研平台,打通异构医疗数据壁垒,实现智能治理、可视化分析与多中心安全协作,助力医院科研提速增效,推动精准医疗发展。
|
6月前
|
机器学习/深度学习 人工智能 文字识别
UGPhysics:本科物理推理评估基准发布,助力AI+Physics交叉研究
近年来,人工智能快速发展,大语言模型(LLM)在数学、代码等领域展现出强大的推理和生成能力,正在被广泛应用于各种场景。
212 0
|
人工智能 大数据 安全
拔俗AI临床大数据科研分析平台:用智能技术加速医学研究新突破
AI临床大数据科研平台基于云原生架构,融合医疗NLP、联邦学习与智能分析技术,破解非结构化数据处理难、多源数据融合难、统计周期长等痛点,实现数据治理、智能分析与安全协作全链路升级,赋能医学科研高效、安全、智能化发展。
|
11月前
|
人工智能 自然语言处理 算法
谷歌DeepMind研究再登Nature封面,隐形水印让AI无所遁形
近日,谷歌DeepMind团队在《自然》期刊上发表了一项名为SynthID-Text的研究成果。该方法通过引入隐形水印,为大型语言模型(LLM)生成的文本添加统计签名,从而实现AI生成文本的准确识别和追踪。SynthID-Text采用独特的Tournament采样算法,在保持文本质量的同时嵌入水印,显著提高了水印检测率。实验结果显示,该方法在多个LLM中表现出色,具有广泛的应用潜力。论文地址:https://www.nature.com/articles/s41586-024-08025-4。
382 26
|
5月前
|
机器学习/深度学习 人工智能 自动驾驶
AI Agent多模态融合策略研究与实证应用
本文从多模态信息融合的理论基础出发,构建了一个结合图像与文本的AI Agent模型,并通过PyTorch代码实现了完整的图文问答流程。未来,多模态智能体将在医疗、自动驾驶、虚拟助手等领域展现巨大潜力。模型优化的核心是提升不同模态的协同理解与推理能力,从而打造真正“理解世界”的AI Agent。
AI Agent多模态融合策略研究与实证应用
|
5月前
|
机器学习/深度学习 人工智能 算法
深度强化学习在异构环境中AI Agent行为泛化能力研究
随着人工智能技术的迅猛发展,AI Agent 在游戏、智能制造、自动驾驶等场景中已逐步展现出强大的自适应能力。特别是深度强化学习(Deep Reinforcement Learning, DRL)的引入,使得智能体能够通过与环境的交互,自动学习最优的行为策略。本文将系统性地探讨基于深度强化学习的AI Agent行为决策机制,并结合代码实战加以说明。
深度强化学习在异构环境中AI Agent行为泛化能力研究
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
原来AI也能“读心术”?——聊聊AI在心理学研究中的那些突破
原来AI也能“读心术”?——聊聊AI在心理学研究中的那些突破
222 1
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI 驱动:如何用AI直接生成矢量 Logo? 技术研究与工具选择
AI 技术革新品牌标志设计,通过深度学习分析数据,精准把握市场趋势,智能生成高辨识度 Logo。矢量格式(SVG)确保清晰不失真,适配各类展示场景。AI 工具高效便捷,支持个性化定制,助力品牌快速打造专业视觉形象,成为市场竞争中的有力武器。
346 0
|
8月前
|
机器学习/深度学习 人工智能 搜索推荐
AutoGLM沉思:智谱AI推出首个能"边想边干"的自主智能体!深度研究+多模态交互,颠覆传统AI工作模式
AutoGLM沉思是由智谱AI推出的一款开创性AI智能体,它突破性地将深度研究能力与实际操作能力融为一体,实现了AI从被动响应到主动执行的跨越式发展。
758 16
AutoGLM沉思:智谱AI推出首个能"边想边干"的自主智能体!深度研究+多模态交互,颠覆传统AI工作模式
|
6月前
|
数据采集 人工智能 定位技术
AI尝鲜:DeerFlow,可以使用MCP的深度研究工具
DeerFlow(Deep Exploration and Efficient Research Flow)是一个社区驱动的深度研究框架,它建立在开源社区的杰出工作基础之上。我们的目标是将语言模型与专业工具(如网络搜索、爬虫和 Python 代码执行)相结合,同时回馈使这一切成为可能的社区。