Meta推出MoDem世界模型:解决视觉领域三大挑战,LeCun转发

简介: Meta推出MoDem世界模型:解决视觉领域三大挑战,LeCun转发



 新智元报道  

编辑:Joey

【新智元导读】MetaAI这次发布的MoDem解决了视觉强化学习领域的三个挑战,无需解码器,效率最高提升250%,一起看看它有多牛。


12月27日,MetaAI 负责视觉和强化学习领域的A



截止27日晚间,这篇推文的阅读量已经达到73.9k。



他表示,仅给出5个演示,MoDem就能在100K交互步骤中解决具有稀疏奖励和高维动作空间的具有挑战性的视觉运动控制任务,大大优于现有的最先进方法。


有多优秀呢?


他们发现MoDem在完成稀疏奖励任务方面的成功率比低数据机制中的先前方法高出150%-250%



Lecun也转发了这一研究,表示MoDem的模型架构类似于JEPA,可在表征空间做出预测且无需解码器。



链接小编就放在下面啦,有兴趣的小伙伴可以看看~


论文链接:https://arxiv.org/abs/2212.05698

Github链接:https://github.com/facebookresearch/modem


研究创新和模型架构


样本效率低下是实际应用部署深度强化学习 (RL) 算法的主要挑战,尤其是视觉运动控制。


基于模型的RL有可能通过同时学习世界模型并使用合成部署来进行规划和政策改进,从而实现高样本效率。


然而在实践中,基于模型的RL的样本高效学习受到探索挑战的瓶颈,这次研究恰恰解决了这些主要挑战。


首先,MoDem分别通过使用世界模型、模仿+RL和自监督视觉预训练,解决了视觉强化学习/控制领域的三个主要挑战:


  • 大样本复杂性(Large sample complexity)
  • 高维状态和动作空间探索(Exploration in high-dimensional state and action space)
  • 同步视觉表征和行为学习(Simultaneous learning of visual representations and behaviors)


这次的模型架构类似于Yann LeCun的JEPA,并且无需解码器。


作者Aravind Rajeswaran表示,相比Dreamer需要像素级预测的解码器,架构繁重,无解码器架构可支持直接插入使用SSL预训练的视觉表示。



此外基于IL+RL,他们提出了一个三阶段算法:


  • BC预训练策略
  • 使用包含演示和探索的种子数据集预训练世界模型,此阶段对于整体稳定性和效率很重要
  • 通过在线互动微调世界模型


结果显示,生成的算法在21个硬视觉运动控制任务中取得了SOTA结果(State-Of-The-Art result),包括Adroit灵巧操作、MetaWorld和DeepMind控制套件。


从数据上来看,MoDem在各项任务中的表现远远优于其他模型,结果比之前的SOTA方法提升了150%到250%。


红色线条为MoDem在各项任务中的表现


在此过程中,他们还阐明了MoDem中不同阶段的重要性、数据增强对视觉MBRL的重要性以及预训练视觉表示的实用性。


最后,使用冻结的 R3M 功能远远优于直接的 E2E 方法。这很令人兴奋,表明视频中的视觉预训练可以支持世界模型。


但8月数据强劲的E2E与冻结的R3M竞争,我们可以通过预训练做得更好。



参考资料:https://nicklashansen.github.io/modemrl/https://twitter.com/aravindr93/status/1607483342580244480

相关文章
|
2月前
|
人工智能 自然语言处理 监控
58_大模型评估与评测:构建科学的多维度评测体系
在大语言模型(LLM)技术飞速发展的今天,如何科学、全面地评估和评测这些模型的能力已成为学术界和工业界共同关注的核心问题。2025年,大模型生态系统呈现出百花齐放的态势,从参数规模、架构设计到应用场景都出现了多样化的发展路径。在这种背景下,单一的性能指标或评测方法已经无法满足对大模型进行全面评估的需求。
|
AI芯片
AIGC视频生成/编辑技术调研报告
随着图像生成领域的研究飞速发展,基于diffusion的生成式模型取得效果上的大突破。在图像生成/编辑产品大爆发的今天,视频生成/编辑技术也引起了学术界和产业界的高度关注。该分享主要介绍视频生成/编辑的研究现状,包括不同技术路线的优劣势,以及该领域当下面临的核心问题与挑战。
1987 3
AIGC视频生成/编辑技术调研报告
|
开发框架 自然语言处理 JavaScript
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。
1213 8
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
|
11月前
|
存储 人工智能 监控
《鸿蒙NEXT——为人工智能应用中的用户数据保驾护航》
鸿蒙NEXT通过星盾安全架构,实现数据最小化授权与加密传输,确保用户隐私安全。用户可精准管理应用访问特定数据,避免过度收集;系统级文件加密和TLS等协议保障数据传输安全;隐私安全中心透明化管理应用行为,增强用户掌控权。鸿蒙NEXT为人工智能应用提供全方位数据安全保障,推动AI健康发展。
472 23
|
机器学习/深度学习 算法 数据处理
SVM的优缺点是什么
SVM的优缺点是什么
994 9
|
人工智能 算法 测试技术
PAI 大语言模型评测平台现已支持裁判员模型评测
本文将为您介绍如何在 PAI 大语言模型评测平台,基于裁判员模型,评价开源模型或者微调后模型的性能。该功能限时免费,欢迎使用。
|
Prometheus 监控 Cloud Native
系统监控负载
【10月更文挑战第19天】
|
存储 分布式计算 负载均衡