Nature子刊 | 像婴儿一样学习,DeepMind新模型28小时学会物理世界规则

简介: Nature子刊 | 像婴儿一样学习,DeepMind新模型28小时学会物理世界规则
Deepmind 旨在建立一个能够学习直观物理学的模型,并剖析模型实现这种能力的原因。


AlphaFold数学推理,DeepMind 一直在尝试将 AI 和基础科学结合。现在,DeepMind 又创建了一个可以学习简单物理规则的新模型。

发育心理学家测试分析了婴儿如何通过目光来跟随物体的运动。例如,当播放视频中有一个球突然消失时,孩子们会表现出惊讶。

DeepMind 的计算机科学家 Luis Piloto 及其同事希望为人工智能 (AI) 开发类似的测试。该团队使用立方体和球等简单物体的动画视频训练了一个神经网络,该模型通过从大量数据中发现模式来学习。研究论文于 7 月 11 日发表在《Nature Human Behaviour》上。




该模型通过自动编码和跟踪对象进行物理学习,因此命名为 PLATO (Physics Learning through Auto-encoding and Tracking Objects)。PLATO 接收来自视频的原始图像和突出显示场景中每个对象目标的图像版本。PLATO 旨在开发对象物理特性的内部表征,例如它们的位置和速度。

该系统接受了大约 30 个小时的视频训练,这些视频展示了简单的运动机制(例如一个球从斜坡上滚下来),并开发了预测这些对象在不同情况下行为的能力。特别地,PLATO 学习了连续性和稳固性,保证目标的轨迹是不间断的,物体形状是持久的。随着视频的播放,模型的预测会变得更加准确。

当播放带有「不可能」事件的视频时,例如一个物体突然消失,PLATO 可以度量视频和它自己的预测之间的差异,从而提供一种「惊讶」的衡量标准。

Piloto 说:「PLATO 并非设计为婴儿行为模型,但它可以测试关于人类婴儿如何学习的假设。我们希望认知科学家最终可以使用它来模拟婴儿的行为。」

英属哥伦比亚大学的计算机科学家 Jeff Clune 表示,「将 AI 与人类婴儿的学习方式进行比较是一个重要的研究方向。PLATO 的研究者手工设计了许多赋予人工智能模型优势的先验知识。」Clune 等研究人员正试图让程序开发自己的算法来理解物理世界。

运用发展心理学的知识

为了在 AI 系统中追求更丰富的物理直觉,DeepMind 的研究团队从发展心理学中汲取灵感。研究团队构建了一个深度学习系统,该系统整合了发展心理学的核心见解,即物理学是在离散对象及其相互作用的层面上理解的。

直觉物理学的核心依赖于一组离散的概念(例如,对象的持久性、稳固性、连续性等),可以区分、操作和单独探测。传统的 AI 学习直观物理的标准方法通过视频或状态预测指标、二元结果预测、问答性能或强化学习任务来学习物理世界。这些方法似乎需要理解直觉物理学的某些方面,但并没有明确地操作或战略性地探索一组明确的概念。

另一方面,发展心理学认为一个物理概念对应于一组未来如何展开的期望。例如人们期望物体不会神奇地从一个地方突然传送到另一个地方,而是通过时间和空间追踪连续的路径,这就有了连续性的概念。因此,有一种测量特定物理概念知识的方法:违反期望 (VoE) 范式。

使用 VoE 范式探索特定概念时,研究人员向婴儿展示视觉上相似的阵列(称为探测(probe)),这些阵列与物理概念一致(物理上可能)或不一致(物理上不可能)。在这个范式中,「惊讶」是通过凝视持续时间来衡量的。


方法介绍

首先,DeepMind 提出了一个非常丰富的视频语料库 ——Physical Concepts 数据集。该数据集包含 VoE 探测视频,针对五个重要的物理概念,这些概念在发展心理学中被视为核心要素,包括连续性、目标持久性和稳固性。第四种是不可变性,用于捕捉某些目标属性 (例如形状) 不会改变的概念;第五个概念是方向惯性,涉及到运动物体在与惯性原理一致的方向上发生变化的期望。

最重要的是 Physical Concepts 数据集还包括一个单独的视频语料库作为训练数据。这些视频展示了各种程序生成的物理事件。

图 2:用于训练模型的视频数据集示例

PLATO 模型架构

Deepmind 旨在建立一个能够学习直观物理学的模型,并剖析模型实现这种能力的原因。PLATO 模型中实例化了 AI 领域一些先进的系统。

首先是目标个性化过程。目标个性化过程将视觉的连续感知输入切割成一组离散的实体,其中每个实体都有一组对应的属性。在 PLATO 中,每个分段的视频帧通过感知模块分解为一组目标代码(图 3a-c),从而实现从视觉输入到个体目标的映射。PLATO 没有学习分割场景,但给定一个分割目标,其学习一个压缩表示。

其次,目标跟踪(或目标索引)为每个目标分配一个索引,从而实现跨时间目标感知和动态属性计算之间的对应关系(图 3b,c)。在 PLATO 中,目标代码在目标缓冲区中的帧上累积和跟踪(图 3d)。

最后一个组件是这些被跟踪目标的关系处理,这一过程受到发展心理学中提出的「物理推理系统」的启发,该系统可以动态地处理物体的表征,产生新的表征,这些表征会受到物体与其他物体之间关系和互动的影响。

PLATO 学习目标内存和目标感知历史之间的交互作用(图 3d),以生成针对下一个目标的预测视频帧并更新基于目标的内存。

图 3:PLATO 包括两个组件:感知模块(左)和动态预测(右)

实验结果

在测试时,当使用五种不同的随机种子进行训练时,PLATO 在所有五个探测类别中都显示出强大的 VoE 效果。

图 5:PLATO 在 Physical Concepts 数据集的探测中显示出稳健的效果。

Physical Concepts 数据集中的训练语料库共包含 300000 个视频。用保守计算方法,大约需要 52 天的持续视觉体验。从 AI 和开发的角度来看,这存在一个问题,即在测试中产生 VoE 效果实际上需要多少训练数据。为了评估这一点,Deepmind 在大小逐渐减小的数据集上训练了三个 PLATO 动态预测器的随机种子(图 6),计算了所有五个探测类别的 VoE 效应的总平均值。

在仅对 50000 个示例进行训练后,研究结果表明,在使用少至 50000 个示例(相当于 28 小时的视觉体验)进行训练后,Deepmind 的模型中出现了稳健的 VoE 效果。


泛化测试:Deepmind 采用 ADEPT 数据集,该数据集旨在探索直观的物理知识。如图 7 所示,PLATO 对所有三个探测类别都显示出清晰的 VoE 效果。

图 7:PLATO 展示了在不可见目标和动态上的鲁棒效果,而无需任何重新训练。

更多内容,请查看原论文。

参考内容:https://www.nature.com/articles/d41586-022-01921-7https://www.deepmind.com/publications/learning-intuitive-physics-through-objects

相关文章
|
8月前
|
算法 Java 数据库连接
2025 最新 Java 面试资料及详细答案整理
这是一份全面的Java面试资料整合,涵盖基础到进阶技术知识点,包括Java核心语法、面向对象编程、异常处理、集合框架、JVM原理、多线程与并发编程、网络编程等。同时深入解析主流框架如Spring、MyBatis,以及项目实战经验分享。资料结合实例辅助理解,助你高效备考,提升面试竞争力。资源地址:[点击获取](https://pan.quark.cn/s/14fcf913bae6)。
1384 6
|
18天前
|
弹性计算 小程序 应用服务中间件
阿里云新用户和老用户最新活动参考:免费试用、云服务器特惠与优惠券相关活动介绍
2026年阿里云为新老用户提供丰富多样的优惠活动,覆盖了云服务器特惠、优惠券、免费试用等多种活动。本文为大家整理汇总了阿里云目前的各类优惠活动与政策,特别是针对新用户的专属福利,以供大家上云之前参考。
164 9
|
8月前
|
缓存 Java 索引
2025 年 Java 面试必备最常见 200 + 面试题及答案解析
这是一份针对Java面试的综合技术方案与应用实例文档,涵盖Java基础(JDK/JRE、字符串、IO流)、容器(ArrayList/LinkedList、HashMap)、多线程(线程创建、同步、线程池)、数据库(MySQL索引、Redis缓存穿透)及Spring框架(IOC容器、热部署)等核心模块。通过详细解析常见面试题,帮助读者深入理解并掌握Java核心技术,为应对面试提供全面指导。此外,还涉及反射、设计模式、JVM调优等进阶内容,助力开发者全面提升技能。代码示例可从提供的链接下载。
1246 6
|
8月前
|
存储 缓存 分布式计算
高内存场景必读!阿里云r7/r9i/r8y/r8i实例架构、性能、价格多维度对比
阿里云针对高性能需求场景,一般会在活动中推出内存型r7、内存型r9i、内存型r8y和内存型r8i这几款内存型实例规格的云服务器。相比于活动内的经济型e和通用算力型u1等实例规格,这些内存型实例在性能上更为强劲,尤其适合对内存和计算能力有较高要求的应用场景。这些实例规格的云服务器在处理器与内存的配比上大多为1:8,但它们在处理器架构、存储性能、网络能力以及安全特性等方面各有千秋,因此适用场景也各不相同。本文将为大家详细介绍内存型r7、r9i、r8y、r8i实例的性能、适用场景的区别以及选择参考。
|
安全 数据安全/隐私保护
谨防二维码陷阱:揭秘网络钓鱼攻击与保护措施
当我们深入了解二维码的世界时,了解它们的特性和潜在风险变得至关重要,揭示了伴随其广泛普及的更为阴暗的一面
626 1
|
人工智能 安全 物联网
《鸿蒙Next引领物联网产业变革,开启万物互联新时代》
鸿蒙Next打破设备互联壁垒,通过分布式软总线技术实现手机、电视、车载设备及智能家居的无缝协同,提升互操作性。它提供统一开发平台,支持一次开发、多端部署,降低开发成本。系统从底层优化安全机制,确保用户数据隐私。集成AI技术,实现智能控制和管理,推动产业标准化和规模化发展,开启万物互联新时代。
490 65
|
12月前
|
缓存 安全 Java
Volatile关键字与Java原子性的迷宫之旅
通过合理使用 `volatile`和原子操作,可以在提升程序性能的同时,确保程序的正确性和线程安全性。希望本文能帮助您更好地理解和应用这些并发编程中的关键概念。
340 21
|
搜索推荐 前端开发 开发者
「Mac畅玩鸿蒙与硬件19」鸿蒙UI组件篇9 - 自定义动画实现
自定义动画让开发者可以设计更加个性化和复杂的动画效果,适合表现独特的界面元素。鸿蒙提供了丰富的工具,支持通过自定义路径和时间控制来创建复杂的动画运动。本篇将带你学习如何通过自定义动画实现更多样化的效果。
539 11
「Mac畅玩鸿蒙与硬件19」鸿蒙UI组件篇9 - 自定义动画实现
|
存储 人工智能 NoSQL
【AI系统】LLVM IR 详解
本文深入探讨了LLVM IR(中间表示)的概念,解释了其在编译器中的重要性和作用。LLVM IR作为一种抽象程度适中的中间语言,不仅涵盖了源代码的大部分信息,还支持编译器进行灵活的代码优化。文章进一步解析了LLVM IR的三地址码表示及其优点,并通过具体示例展示了LLVM IR的设计原则和内存模型,帮助读者更好地理解编译器内部的工作机制。
493 5

热门文章

最新文章