谷歌大脑提出并发RL算法,机器人也可以「边行动边思考」

简介: 由谷歌大脑、UC伯克利、X实验室发表在 ICLR 2020 的一篇论文中提出了一种并发RL算法,使机器人能够像人一样「边行动边思考」。该项研究表明,机械手臂在并发模型中抓取速度比在阻塞模型中的速度提高49%。

微信图片_20220108223202.jpg


近年来,尽管深度强化学习(DRL)已经在视频游戏、零和博弈、机器人抓取和操纵任务中取得了成功,但大多数AI算法都使用了阻塞性的「观察-思考-行动」范式

 

这个范式是,智能体在「思考」时假定所处的环境保持静态,其行动将在计算的相同状态下执行。这种假设在静态仿真模拟境中很是适用,而智能体在观察并决定下个动作时,现实环境已然发生了变化。

 

举个例子,让智能体去接球。我们不可能让球停在半空中,让智能体去观察,做出接球动作的决定后再接球。显然,这种「观察-思考-行动」范式并不能让智能体顺利实现接球这一动作。

 

      微信图片_20220108223205.gif

 

最近谷歌大脑与加州大学伯克利分校、X 实验室共同提出一种并发 RL 算法,使机器人能够像人一样「边行动边思考」。

       微信图片_20220108223207.png  

 

该团队的研究想法是,让智能体去模仿人和动物的行为模型,让其在将来处理问题时更强大,不易发生故障。「思考和行动并行」才能确保智能体在上一个动作完成之后与下一个动作无缝衔接。

 

为了开发此类并发控制问题的算法框架,研究者将先从连续时间公式开始探索。

 

通过将现有基于值的深度强化学习算法进行简单的结构扩展,研究团队提出一类新型近似动态规划,并对模拟基准任务和「边行动边思考」的机器人抓取任务进行了评估。

 

目前,该论文已被 ICLR 2020 接收。

     

微信图片_20220108223209.png


思考与行动并行,机器人真的可以


这项研究将在以下环境中进行强化学习:在受控系统随着时间演变的过程中同时对动作进行采样。也就是说,当机器人在执行当下动作时必须思考下一个动作。

 

就如同人和动物一样,机器人需要一边行动一边思考。机器人需要在上个动作完成之后紧随下个动作。

 

下面分别是在仿真环境与真实环境中,机器人抓取任务视图:


QQ图片20220108223748.pngQQ图片20220108223752.png


该团队的研究目的是:在深度学习中开发可以处理并发环境的算法框架。

 

研究方式:利用标准强化学习公式(可以让智能体在完成任务后得到奖励),让智能体在多种可能的状态中接收一个状态,并根据策略在可能的动作中选择并决定该执行的动作。

 

除了前一个动作之外,还有两个额外的特性:动作选择时间和走动向量(VTG),有助于封装并发知识。研究人员将VTG定义为在测量环境状态的瞬间执行的最后一个动作。

 

并发动作环境获取智能体执行前一个动作时的状态,以及前个动作结束后的状态。在此期间,不管智能体前一个动作是否完成,即便是中断,根据策略也要选择并执行下一个动作。


在并发环境中基于值的深度学习


「并发环境」是什么?

 

智能体在观察并决定执行下个动作时,其环境发生变化,与智能体「思考」前所观察的环境不同,研究者将其称为「并发环境」。


       微信图片_20220108223217.png

 

图(a)表示在阻塞环境(blocking environment)中,获取状态与推断策略是瞬间完成的。图(b)中表示的并发环境(concurrent environment)在获取状态与推断策略与动作的执行都是并行的。

 

接下来,研究人员从连续时间强化学习的角度开始探索,因为它可以容易地表示出系统的并发特征。


之后研究证明,基于连续时间强化学习得出的结论同样适用于随后在所有实验中更为常用的离散环境。


实验表明:并发模型比阻塞模型提高49%

 

研究人员分别在仿真与机械手臂上进行了实验,它们的任务是抓取并移动垃圾箱中的各种物体。


微信图片_20220108223219.png


仿真手臂与机械手臂的实验

   微信图片_20220108223222.png


表 1 通过对无条件模型与并发知识模型进行比较总结了阻塞和并发模式的性能。并发知识模型能够学习更快的轨迹,其周期持续时间与阻塞模型相比减少了 31.3%。


      微信图片_20220108223224.png


研究人员表示,「这些模型在抓取成功方面性能相当,但就策略持续时间(用来衡量策略总执行时间)而言,并发模型比阻塞模型快49%。而且,并发模型能够执行更流利的动作。

 

合著者认为,「他们研究的方法可以促进机器人的发展,让机器人在真实环境中完成任务,如在多层仓库和履行中心之间运输材料。」

 

参考链接:

https://arxiv.org/pdf/2004.06089.pdfhttps://sites.google.com/view/thinkingwhilemovinghttps://venturebeat.com/2020/04/15/googles-ai-enables-robots-to-make-decisions-on-the-fly/


相关文章
|
机器学习/深度学习 人工智能 算法
“探秘神经算法:如何用人工智能模拟大脑处理信息“
“探秘神经算法:如何用人工智能模拟大脑处理信息“
339 0
|
人工智能 关系型数据库 分布式数据库
沉浸式学习PostgreSQL|PolarDB 9: AI大模型+向量数据库, 提升AI通用机器人在专业领域的精准度, 完美诠释柏拉图提出的“知识是回忆而不是知觉”
越来越多的企业和个人希望能够利用LLM和生成式人工智能来构建专注于其特定领域的具备AI能力的产品。目前,大语言模型在处理通用问题方面表现较好,但由于训练语料和大模型的生成限制,对于垂直专业领域,则会存在知识深度和时效性不足的问题。在信息时代,由于企业的知识库更新频率越来越高,并且企业所拥有的垂直领域知识库(例如文档、图像、音视频等)往往是未公开或不可公开的。因此,对于企业而言,如果想在大语言模型的基础上构建属于特定垂直领域的AI产品,就需要不断将自身的知识库输入到大语言模型中进行训练。
1931 0
|
机器学习/深度学习 人工智能 机器人
NeurIPS 2024:机器人操纵世界模型来了,成功率超过谷歌RT-1 26.6%
PIVOT-R是一种新型世界模型,专注于预测与任务相关的路点,以提高语言引导的机器人操作的性能和效率。该模型由路点感知世界模型(WAWM)和轻量级动作预测模块组成,辅以异步分层执行器(AHE),在SeaWave基准测试中表现优异,平均相对改进达19.45%,执行效率提高28倍。
376 26
|
机器学习/深度学习 算法
强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法
Richard Sutton领导的团队提出了一种称为“奖励中心化”的方法,通过从观察到的奖励中减去其经验平均值,使奖励更加集中,显著提高了强化学习算法的性能。该方法在解决持续性问题时表现出色,尤其是在折扣因子接近1的情况下。论文地址:https://arxiv.org/pdf/2405.09999
380 15
|
人工智能 自然语言处理 机器人
谷歌将大模型集成在实体机器人中,能看、听、说执行57种任务
【9月更文挑战第17天】近年来,人工智能在多模态大模型领域取得显著进展。谷歌最新研发的Mobility VLA系统,将大模型与实体机器人结合,实现了视觉、语言和行动的融合,使机器人能理解并执行复杂多模态指令,如“我应该把这个放回哪里?”系统在真实环境测试中表现出色,但在计算资源、数据需求及伦理问题上仍面临挑战。相关论文发布于https://arxiv.org/abs/2407.07775。
415 9
|
机器学习/深度学习 人工智能 自然语言处理
深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature
【9月更文挑战第24天】近年来,深度学习在人工智能领域取得巨大成功,但在连续学习任务中面临“损失可塑性”问题,尤其在深度强化学习中更为突出。加拿大阿尔伯塔大学的研究人员提出了一种名为“持续反向传播”的算法,通过选择性地重新初始化网络中的低效用单元,保持模型的可塑性。该算法通过评估每个连接和权重的贡献效用来决定是否重新初始化隐藏单元,并引入成熟度阈值保护新单元。实验表明,该算法能显著提升连续学习任务的表现,尤其在深度强化学习领域效果明显。然而,算法也存在计算复杂性和成熟度阈值设置等问题。
354 3
|
机器学习/深度学习 编解码 算法
中科大提出PE-YOLO | 让YOLO家族算法直击黑夜目标检测
中科大提出PE-YOLO | 让YOLO家族算法直击黑夜目标检测
481 0
|
传感器 Web App开发 运维
5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度
5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度
341 1
|
机器学习/深度学习 机器人 计算机视觉
耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类
耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类
188 0

热门文章

最新文章