李飞飞提出深度进化强化学习新框架:创建具身智能体学会动物进化法则

简介: 6亿多年的进化中,动物表现出显著的具身智能,利用进化学习复杂的任务。研究人员称,AI智能体也可以很快学会动物的这种智能行为,但目前推动具身认知面临很多挑战。最近斯坦福李飞飞教授等人的研究「深度进化强化学习」有了突破,首次证明了「鲍德温效应」。

微信图片_20220112143758.jpg


智能体/代理(Agents)是人工智能领域的一个主要研究课题,分为非具身智能具身智能

 

而创建具身智能体是一个非常具有挑战的任务,所以当前人工智能领域更加关注「非具身认知」。

 

最近,李飞飞和其他几名学者提出了一个新的计算框架——深度进化强化学习——Deep Evolutionary Reinforcement Learning (DERL),基于该框架,具身智能体可以在多个复杂环境中执行多个任务。


微信图片_20220112143800.jpg

 

此外,本研究还首次通过「形态学习」(morphological learning)证明了进化生物学中的「鲍德温效应」

 

微信图片_20220112143802.png


1953年,美国古生物学家George Gaylord Simpson创造了术语「鲍德温效应」,其中提到了美国哲学家和心理学家JM Baldwin的1896年论文中进化的一个新的因素。

 

在进化生物学中,鲍德温效应提出,在进化过程的早期世代一生中最初学会的行为将逐渐成为本能,甚至可能遗传给后代。

 

在过去的6亿年里,进化带来了无数形态的美从古老的两侧对称的昆虫到各种各样的动物形态。


微信图片_20220112143802.png


这些动物还表现出显著的具身智能,利用进化学习复杂的任务。

 

具身认知的研究人员认为,AI智能体可以很快地学会这种智能行为,而且它们的形态也能很好地适应环境。

 

然而,人工智能领域更注重「非具身认知」,如语言、视觉或游戏。

 

当AI智能体能够很好地适应环境时,它们就可以在各种复杂环境中学习控制性任务。然而,由于以下原因,创建这样的智能体非常具有挑战性。

 

这需要在大量潜在模式中进行搜索。通过终身学习评估一个智能体的适应性需要大量的计算时间。

 

因此,以往的研究要么是在极其有限的形态学搜索空间中使智能体实现进化,要么是在给定的人工设计形态学下寻找最优参数

 

评估适应性的困难使得以前的研究避免了直接在原始感官观察的基础上学习自适应控制器;

 

学习使用少量参数(≤100)手动设计控制器; 学习预测一种形式的适应性;

 

模仿拉马克进化而不是达尔文进化,直接跨代传递学习的信息。

 

微信图片_20220112143805.png

 

此外,以前的研究主要局限于在地面上移动的简单任务。


智能体自由度(DoF)比较少 ,或者由多个立方体构成,这就进一步简化了控制器的学习问题。

 

三种维度:环境、形态和控制,具身智能体可以执行哪些任务?


 斯坦福大学李飞飞和Agrim Gupta,Silvio Savarese,Surya Ganguli研究人员提出的新型计算框架——深度进化强化学习(DERL)可以在环境,形态和控制这三种复杂维度同时扩展创建具身智能体的规模

 

微信图片_20220112143807.png

 

DERL为计算机模拟实验中的大规模具身智能体创建活动打开了一扇门,这有助于获得有关学习和进化如何协作以在环境复杂性,形态智能和控制的可学习性之间建立复杂关系的科学见解。

 

此外,DERL还减少了强化学习的样本低效性的情况。智能体的创建不仅可以使用更少的数据,而且可以泛化和解决各种新任务。

 

DERL通过模仿达尔文进化论中错综复杂的代际进化过程来搜索形态空间,并通过终生神经学习的智能控制解决复杂任务来评估给定形态的速度和质量。

微信图片_20220112143810.png

斯坦福大学教授,论文的作者李飞飞表示,「这项研究不仅提出了一种新的计算框架,即深度进化强化学习(DERL),而且通过形态学习首次证明了达尔文-鲍德温效应。形态学习对于自然界中的动物进化至关重,现已在我们创建的 AI 智能体中展现」

 

微信图片_20220112143810.png

 

在这项研究中创建的具身智能体可以平地(FT),多变地形(VT)和多变地形的非抓握操作(MVT)中执行巡视(patrol)、点导航(point navigation)、避障(obstacle)、探索(exploration)、逃脱(escape)、爬坡(incline)、斜坡推箱子(push box incline)和控球(manipulate ball)等任务。

 

微信图片_20220112143812.png

 

DERL:用于创建具身智能体的计算框架,Universal aniMAL 形态设计空间

 

为了学习,每个智能体仅通过接收低级自我感知和外部感受观察来感知世界,并通过由深度神经网络的参数确定的随机策略选择其动作。

 

该随机策略是通过近端的深度神经网络的参数策略优化(PPO)学习得到。

 

通常,DERL允许研究人员在1152个CPU上进行大规模实验,平均涉及10代进化,搜索和训练4000种形态,每种形式有500万智能体与环境的交互(即学习迭代)。

 

微信图片_20220112143813.png


多种形态中进化动力学

 

该研究可以在并行的异步竞赛中训练288种形态,因此在任何给定时刻,整个学习和演化过程都可以在16小时内完成。


可以理解为,这是迄今为止形态进化和RL的最大同时模拟

 

为了克服过去形态学搜索空间表达能力的局限性,本研究引入了 Universal aniMAL(UNIMAL)设计空间。

 

本研究的基因型(genotype )是运动树,它对应于通过电机驱动的铰链连接的3D刚性零件的层次结构。

 

运动树的节点由两种类型的组件组成:代表智能体头部的球体(树的根)和代表肢体的圆柱体。

 

进化通过三种类型的变异算子无性繁殖:


1 通过增加或减少肢体来收缩或生长运动树

2 改变现有肢体的物理特征,如长度和密度

3修改四肢之间关节的属性,包括自由度、旋转角度限制以及齿轮比

 

最重要的是,该研究只允许保持两侧对称的成对变异,这是动物形体构型在进化过程中最古老的特征(起源于6亿年前)。

 

一个关键的物理结果是,每个智能体的质心都位于矢状面,从而减少了学习左右平衡所需要的控制程度。

 

尽管有这一限制,但该研究提出的形态设计空间极具表达力,包含大约1018种独特的智能体形态,至少有10个肢体。

 

微信图片_20220112143815.png

 

研究小组表明, 利用DERL证明了环境复杂性、形态智能和控制的可学习性之间的关系:

 

首先,环境复杂性促进了形态智能的进化,可用形态促进新任务学习的能力来量化。

 

其次,进化快速选择学得更快的形态,从而使早期祖先一生中较晚学会的行为在其后代一生中较早表现出来

 

第三,实验表明,通过物理上更稳定、能量效率更高的形态的进化,促进学习和控制,鲍德温效应和形态智能的出现都有一个机理基础。


参考链接

https://medium.com/dataprophet/evolutionary-reinforcement-learning-derl-stanfords-li-feifei-and-other-scholars-have-proposed-eb20a2d01087论文:https://arxiv.org/pdf/2102.02202.pdf

相关文章
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
826 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
存储 人工智能
Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架
Optimus-1是由哈尔滨工业大学(深圳)和鹏城实验室联合推出的智能体框架,旨在解决开放世界环境中长期任务的挑战。该框架结合了结构化知识和多模态经验,通过混合多模态记忆模块、知识引导规划器和经验驱动反射器,显著提升了在Minecraft等环境中的长期任务性能。本文将详细介绍Optimus-1的主要功能、技术原理以及如何运行该框架。
403 7
Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架
|
人工智能 自然语言处理 JavaScript
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
1142 5
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
|
Python 机器学习/深度学习 人工智能
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
【10月更文挑战第1天】本文通过构建一个简单的强化学习环境,演示了如何创建和训练智能体以完成特定任务。我们使用Python、OpenAI Gym和PyTorch搭建了一个基础的智能体,使其学会在CartPole-v1环境中保持杆子不倒。文中详细介绍了环境设置、神经网络构建及训练过程。此实战案例有助于理解智能体的工作原理及基本训练方法,为更复杂应用奠定基础。首先需安装必要库: ```bash pip install gym torch ``` 接着定义环境并与之交互,实现智能体的训练。通过多个回合的试错学习,智能体逐步优化其策略。这一过程虽从基础做起,但为后续研究提供了良好起点。
2294 4
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
|
人工智能 API 决策智能
swarm Agent框架入门指南:构建与编排多智能体系统的利器 | AI应用开发
Swarm是OpenAI在2024年10月12日宣布开源的一个实验性质的多智能体编排框架。其核心目标是让智能体之间的协调和执行变得更轻量级、更容易控制和测试。Swarm框架的主要特性包括轻量化、易于使用和高度可定制性,非常适合处理大量独立的功能和指令。【10月更文挑战第15天】
2816 6
|
敏捷开发 机器学习/深度学习 数据采集
端到端优化所有能力,字节跳动提出强化学习LLM Agent框架AGILE
【10月更文挑战第23天】字节跳动研究团队提出AGILE框架,通过强化学习优化大型语言模型(LLM)在复杂对话任务中的表现。该框架将LLM作为核心决策模块,结合记忆、工具和专家咨询模块,实现智能体的自我进化。实验结果显示,AGILE智能体在ProductQA和MedMCQA数据集上优于GPT-4。
1004 4
|
数据采集 人工智能 自然语言处理
AI Agent 金融助理0-1 Tutorial 利用Python实时查询股票API的FinanceAgent框架构建股票(美股/A股/港股) AI Finance Agent
金融领域Finance AI Agents方面的工作,发现很多行业需求和用户输入的 query都是和查询股价/行情/指数/财报汇总/金融理财建议相关。如果需要准确的 金融实时数据就不能只依赖LLM 来生成了。常规的方案包括 RAG (包括调用API )再把对应数据和prompt 一起拼接送给大模型来做文本生成。稳定的一些商业机构的金融数据API基本都是收费的,如果是以科研和demo性质有一些开放爬虫API可以使用。这里主要介绍一下 FinanceAgent,github地址 https://github.com/AI-Hub-Admin/FinanceAgent
|
人工智能 JSON 自然语言处理
开源模型+Orchestrating Agents多智能体框架,易用、强大且可控
本文采用开源Qwen2.5-14B-instruct-GGUF来体验多智能体编排和交接,希望在体验多智能体编排和交接框架的同时,一起评估中小参数规模的模型(14B)能否较好的完成多智能体任务。
|
机器学习/深度学习 人工智能 安全
北大领衔,多智能体强化学习研究登上Nature子刊
【10月更文挑战第1天】近日,北京大学领导的研究团队在《Nature》子刊上发表了一篇关于多智能体强化学习的论文,提出了一种高效且可扩展的框架,解决了大规模网络控制系统中的决策问题。该框架通过局部通信避免了集中式和独立学习的缺点,在交通、电力等领域的实验中展现了卓越性能。然而,其在更复杂系统中的效果及计算复杂度仍需进一步验证。论文链接:https://www.nature.com/articles/s42256-024-00879-7。
346 3
|
存储 人工智能 自然语言处理
AI经营|多Agent择优生成商品标题
商品标题中关键词的好坏是商品能否被主搜检索到的关键因素,使用大模型自动优化标题成为【AI经营】中的核心能力之一,本文讲述大模型如何帮助商家优化商品素材,提升商品竞争力。
1553 62
AI经营|多Agent择优生成商品标题

热门文章

最新文章