如何让强化学习走进现实世界?DeepMind要用“控制套件”推动

简介:
本文来自AI新媒体量子位(QbitAI)

火遍全球的AlphaGo让我们知道了强化学习打游戏究竟有多6,这么强大的算法什么时候才能打破次元壁,走进现实、控制物理世界中的物体呢?

DeepMind已经开始往这方面努力。他们昨天发布的控制套件“DeepMind Control Suite”,就为设计和比较用来控制物理世界的强化学习算法开了个头。

就像ALE(Arcade Learning Environment)极大推动了用强化学习打电子游戏的研究一样,DeepMind希望他们的Control Suite也能推动用强化学习控制实体的研究,比如说先让模拟环境中的机器人学会行走、游泳、搬东西等等。

Control Suite设计了一组有着标准化结构、可解释奖励的连续控制任务,还为强化学习Agent提供一组性能测试指标

这些任务基于MoJoCo物理引擎,所用的语言是Python。DeepMind在GitHub上放出的源代码中,就包含基于MoJoCo的Python强化学习环境,以及为MoJoCo提供Python绑定的软件库。

59801837dc0cfbcce9245b274da284a90d02e0ae

如上图所示,Control Suite中的任务可以分为14个领域,也就是14类物理模型,上排从左到右分别是:

体操机器人Acrobot,(两节钟摆)、杯中小球、倒立摆、猎豹形机器人、手指、鱼、单足跳跃机器人,下排从左到右分别是人形机器人、机械手、钟摆、质点、形似两节手臂的Reacher、游泳机器人、步行者。

DeepMind还测试了A3C、DDPG和D4PG强化学习算法在这些任务上的表现,:

eb76924a677167d0c505517703f7b59d5349bf89

这些结果也是强化学习完成控制任务的基线数据。

DeepMind Control Suite似乎很受欢迎,截止量子位发稿,已经在GitHub上收获了300多个星标。

6039ba15db376ec998a8daf0a3efe14a454311c1

Twitter网友们也在热烈讨论这个Control Suite。不过,DeepMind官推为这个套件所选的配图,可谓骨骼清奇,被不少网友质疑:这是……最优跑步方式?

O(∩_∩)O 最后放出来,给大家来观赏一下:

3ed43cf67206c3662934e120091890968b863ab0

请勿模仿,请勿模仿,请勿模仿。

如果受伤了还怎么看下面的论文和代码呢~

论文:
https://arxiv.org/pdf/1801.00690.pdf

代码:
https://github.com/deepmind/dm_control

本文作者:夏乙
原文发布时间:2018-01-04
相关文章
|
22天前
|
人工智能 安全 Linux
OpenClaw(龙虾AI)保姆级部署(阿里云+Windows/Mac/Linux)+ 免费大模型配置+国民应用集成指南
2026年,AI圈最火的词非“养虾”莫属。这里的“虾”,不是餐桌上的海鲜,而是开源AI智能体OpenClaw的中文昵称——因图标形似小龙虾得名,更因“能干活、真落地”的核心能力,成为个人与企业追捧的“数字员工”。它打破了传统AI“只说不做”的局限,不再是单纯的聊天工具,而是能直接操控电脑、自动完成任务的自动化引擎,口号“THE AI THAT ACTUALLY DOES THINGS”精准点出其价值。
1606 1
|
网络协议 算法 网络安全
|
12月前
|
存储 安全 Java
Spring Security 入门与详解
Spring Security 是 Spring 框架中的核心安全模块,提供认证、授权及防护功能。本文详解其核心概念,包括认证(Authentication)、授权(Authorization)和过滤器链(Security Filter Chain)。同时,通过代码示例介绍基本配置,如 PasswordEncoder、UserDetailsService 和自定义登录页面等。最后总结常见问题与解决方法,助你快速掌握 Spring Security 的使用与优化。
2744 0
|
人工智能 自然语言处理 前端开发
用通义灵码,从 0 开始打造一个完整APP,无需编程经验就可以完成
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。本教程完全免费,而且为大家准备了 100 个降噪蓝牙耳机,送给前 100 个完成的粉丝。获奖的方式非常简单,只要你跟着教程完成第一课的内容就能获得。
12757 17
|
JavaScript Java API
基于代理和单例模式的 electron 多窗口管理方案
基于代理和单例模式的 electron 多窗口管理方案
1205 0
|
存储 人工智能 Serverless
搭建文生图AI系统
随着人工智能的发展,**文本生成图像(文生图)**技术在广告创意、视觉设计、内容营销等领域应用广泛。阿里云通义千问作为先进的大语言模型,不仅具备强大的文本理解能力,还能与图像生成技术结合,实现根据文本描述自动生成高质量图像。 本博客将展示如何使用通义千问与阿里云的其他产品(如函数计算、API 网关、对象存储 OSS)搭建一个简单的文生图系统,实现用户输入文本并生成相应图像的功能。
1075 6
|
并行计算 Ubuntu PyTorch
Ubuntu 18.04 + CUDA 11.3.0 + CUDNN 8.2.1 + Anaconda + Pytorch 1.10(下)
Ubuntu 18.04 + CUDA 11.3.0 + CUDNN 8.2.1 + Anaconda + Pytorch 1.10(上)
774 0
|
人工智能 算法 安全
智能时代的伦理困境
随着人工智能技术的迅猛发展,人类社会正面临着前所未有的伦理挑战。本文将深入探讨AI技术所带来的隐私泄露、数据安全、偏见与歧视以及失业问题等四大伦理困境,并从法律、政策和个人隐私保护等方面提出应对策略。同时,通过分析具体的AI应用案例,揭示伦理问题的复杂性和紧迫性,以期在技术与道德之间找到平衡点,确保AI技术的发展造福于全人类。
|
SQL 存储 算法
ads创建普通表详解
【8月更文挑战第12天】
471 1