Open AI如何用“自我对局”训练AI机器人变身“摔角王”?

简介: 本文讲的是Open AI如何用“自我对局”训练AI机器人变身“摔角王”?,OpenAI 于近日的一项研究中发现,在一个非明确的技能训练的环境中,AI 能够通过“自我对局”的训练掌握一系列动作技能,比如进攻、躲避、假动作、踢、抓等等。
本文讲的是Open AI如何用“自我对局”训练AI机器人变身“摔角王”?,

OpenAI 于近日的一项研究中发现,在一个非明确的技能训练的环境中,AI 能够通过“自我对局”的训练掌握一系列动作技能,比如进攻、躲避、假动作、踢、抓等等。“自我对局”训练确定了环境对于提升AI系统的重要性。Dota2在“自我对局”训练中的表现和结果让团队越来越相信,“自我对局”训练不久将会成为AI系统的核心。雷锋网AI科技评论对本文进行编译,全文如下:

论文原文:https://arxiv.org/abs/1710.03748

代码:https://github.com/openai/multiagent-competition

我们在几个3D机器人之间设置了一些基本的游戏竞赛,利用一些简单的目标(比如:将对手推到场地圈外;到达场地的另一边,并阻止对手到达;把球踢进对手的网内,而不让对手的球踢进自己的网内等。)对每个机器人进行训练,并且分析机器人在完成目标时所使用的技能和策略。

一开始,机器人会因为站立、前进这样的行为而获得丰厚的奖励,但最后这些奖励会被清零,只有胜利的机器人才会获得奖励。除了这些简单的奖励以外,机器人还会学到一系列动作技能,比如进攻、躲避、假动作、踢、抓等等。在这个过程中,每个机器人的神经网络都单独接受了“近端策略优化” 的训练。

为了弄清楚在这些目标和竞赛的压力面前,机器人会作出如何复杂的行动,我们不妨分析一下机器人的“摔角相扑”比赛吧。在这个比赛中,为了训练机器人行走,我们在比赛前期给机器人设置了丰厚的奖励;增加了从这个圆形场地中心起的负L2距离,并且将其设置为机器人获得的丰厚奖励。机器人一开始的时候可以使用这些奖励在比赛场地内作出一些动作和反应,但是我们会在训练中把奖励悄悄地清零。这样一来,在接下来的训练迭代中,机器人才会为了得到更多的奖励,自觉地对自己的动作和技能进行优化。

设计出有助于这些技能训练的任务和环境并非不可能,但这不仅需要研究员耗费大量的精力,还需要他们具备独到的创意。此外,机器人的行为也可能会因为人类设计师在设计中出现的问题而变得更复杂。通过成千上万次的迭代优化,我们能够开发出更好的机器人,进而可以创造出功能强大的AI系统,该系统能够自我引导,并完成性能自我优化。在Dota2项目中我们也能发现类似的自我优化现象。在Dota2项目中,“自我对局”训练让我们成功创造出了一个能够在电子竞技的solo版本中击败顶级人类玩家的强化学习机器人。

迁移学习

刚刚完成“摔角相扑”训练的机器人,现在又要开始应对“强风”了。

这些机器人还能进行“迁移学习”,它们能够把在一场景学习到的技能运用于另一个从未接触过的场景。在一个案例中,我们给那些经过了“摔角相扑”训练的机器人设置了一个任务,让它们在强风中始终保持站立。结果是,那些无视这个强风环境的机器人能够始终保持直立,而接受过传统强化学习训练的机器人在尝试行走时则会立刻摔倒。

过拟合

我们的机器人会与“co-learning策略”发生过拟合,该策略是针对某些特定的对手而设计的,但是在面对新的对手时,这个策略就会失效。针对这一问题,我们的解决方案是——让机器人与多个不同的对手进行“较量”。这些对手来自于一系列的策略,其中有同步训练或早期训练的策略。面对这些各式各样、风格不一的对手,机器人就必须学习更多通用的策略和技术,这样才能“来者不惧”。






本文作者:图普科技
本文转自雷锋网禁止二次转载,原文链接
目录
相关文章
|
14天前
|
机器学习/深度学习 存储 人工智能
【科普向】我们所说的AI模型训练到底在训练什么?
人工智能(AI)模型训练类似于厨师通过反复实践来掌握烹饪技巧。它通过大量数据输入,自动优化内部参数(如神经网络中的权重和偏置),以最小化预测误差或损失函数,使模型在面对新数据时更加准确。训练过程包括前向传播、计算损失、反向传播和更新权重等步骤,最终生成权重文件保存模型参数,用于后续的应用和部署。理解生物神经网络的工作原理为人工神经网络的设计提供了灵感,后者广泛应用于图像识别、自然语言处理等领域。
|
1月前
|
传感器 人工智能 自然语言处理
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
RDT(Robotics Diffusion Transformer)是由清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量,能够在无需人类操控的情况下自主完成复杂任务,如调酒和遛狗。
113 22
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
|
14天前
|
人工智能 物联网
如何将Together AI上基于Qwen2-7B训练的模型部署到ModelScope平台
如何将Together AI上基于Qwen2-7B训练的模型部署到ModelScope平台
56 10
|
28天前
|
人工智能 安全 机器人
OpenAI重拾规则系统,用AI版机器人定律守护大模型安全
在人工智能领域,大语言模型(LLM)展现出强大的语言理解和生成能力,但也带来了安全性和可靠性挑战。OpenAI研究人员提出“规则基于奖励(RBR)”方法,通过明确规则引导LLM行为,确保其符合人类价值观和道德准则。实验显示,RBR方法在安全性与有用性之间取得了良好平衡,F1分数达97.1。然而,规则制定和维护复杂,且难以完全捕捉语言的多样性。论文:https://arxiv.org/pdf/2411.01111。
78 13
|
1月前
|
机器学习/深度学习 存储 人工智能
【AI系统】感知量化训练 QAT
本文介绍感知量化训练(QAT)流程,旨在减少神经网络从FP32量化至INT8时的精度损失。通过在模型中插入伪量化节点(FakeQuant)模拟量化误差,并在训练中最小化这些误差,使模型适应量化环境。文章还探讨了伪量化节点的作用、正向与反向传播处理、TensorRT中的QAT模型高效推理,以及QAT与PTQ的对比,提供了实践技巧,如从良好校准的PTQ模型开始、采用余弦退火学习率计划等。
91 2
【AI系统】感知量化训练 QAT
|
1月前
|
机器学习/深度学习 存储 人工智能
【AI系统】训练后量化与部署
本文详细介绍了训练后量化技术,涵盖动态和静态量化方法,旨在将模型权重和激活从浮点数转换为整数,以优化模型大小和推理速度。通过KL散度等校准方法和量化粒度控制,文章探讨了如何平衡模型精度与性能,同时提供了端侧量化推理部署的具体实现步骤和技术技巧。
56 1
【AI系统】训练后量化与部署
|
22天前
|
人工智能 智能硬件
SPAR:智谱 AI 推出自我博弈训练框架,基于生成者和完善者两个角色的互动,提升了执行准确度和自我完善能力
SPAR 是智谱团队推出的自我博弈训练框架,旨在提升大型语言模型在指令遵循方面的能力,通过生成者和完善者的互动以及树搜索技术优化模型响应。
48 0
SPAR:智谱 AI 推出自我博弈训练框架,基于生成者和完善者两个角色的互动,提升了执行准确度和自我完善能力
|
1月前
|
人工智能 PyTorch 测试技术
【AI系统】并行训练基本介绍
分布式训练通过将任务分配至多个节点,显著提升模型训练效率与精度。本文聚焦PyTorch2.0中的分布式训练技术,涵盖数据并行、模型并行及混合并行等策略,以及DDP、RPC等核心组件的应用,旨在帮助开发者针对不同场景选择最合适的训练方式,实现高效的大模型训练。
67 8
|
2月前
|
人工智能 自然语言处理 算法
具身智能高校实训解决方案 ----从AI大模型+机器人到通用具身智能
在具身智能的发展历程中,AI 大模型的出现成为了关键的推动力量。高校作为培养未来科技人才的摇篮,需要紧跟这一前沿趋势,开展具身智能实训课程。通过将 AI 大模型与具备 3D 视觉的机器人相结合,为学生搭建一个实践平台。
243 64
|
28天前
|
机器学习/深度学习 人工智能 算法
人工智能与机器人的结合:智能化世界的未来
人工智能与机器人的结合:智能化世界的未来
190 32

热门文章

最新文章