DeepMind新建虚拟认识实验室,像研究人类一样研究AI(代码开源)

简介: DeepMind今天的官博发文,介绍他们的新工作Psychlab,这是一个建立在DeepMind Lab之上的平台,旨在构建可控环境,从心理认识的角度,更好地研究和理解AI。具体说,Psychlab有助于让研究人员了解,AI在完成一项复杂任务时,其中涉及的每一种特定行动分别起到了什么作用。

想象一下购物这个简单的任务。如果你忘记去拿名单上的某样物品,这说明了你大脑功能的什么?这可能表示,在搜索列表中的项目时,你无法将注意力从一个对象转移到另一个对象。这也可能表明记住购物清单很难,或者两者皆有。

571643a4ae9f44468b8965c407191597a030a3db

看上去就是单一的一个任务,实际上取决于多种认知能力。我们在人工智能研究中也面临类似的问题,在这种情况下,任务的复杂性往往会使智能体取得成功所需的单个技能难以分离。但是,了解智能体特定的认知技能,可能有助于改善其整体表现。

在人类身上,为了解决这个问题,心理学家花了近150年的时间来设计严格控制的实验,目的是分离出每个特定的认知能力。例如,他们可能会使用两个单独的测试来分析超市场景——一个是“视觉搜索”测试,需要被测者在一个图案中定位某个特定的形状,这可以用来检测注意力。同时,心理学家可能会要求被测者背诵一份清单,从而测试他们的记忆力。

我们相信,有可能使用类似的实验方法来更好地理解AI的行为。这就是为什么我们开发了Psychlab,Psychlab这个平台建立在DeepMind Lab之上,使我们能够直接运用认知心理学等领域的方法,研究受控环境下智能体的行为。今天,我们也将这个平台开源,供其他人使用。

Psychlab在虚拟的DeepMind Lab环境中,重建了通常用于人类心理学实验的典型设置。例如,让参与者坐在计算机显示器前,使用鼠标来响应屏幕上的任务。同样,我们的环境允许虚拟AI在虚拟计算机监视器上执行任务,使用它的注视方向进行响应。这样,人类和AI都采取相同的测试方法,最大限度地减少了实验差异。这也使结果更容易与认知心理学的现有文献联系起来,并从中获得见解。

随着Psychlab的开源版本的发布,我们构建了一系列在虚拟计算机监视器上运行的经典实验任务,并且具有灵活且易于学习的API,方便其他人能够构建自己的任务。

  • 视觉搜索(Visual search)- 测试搜索项目数组的能力。
  • 持续识别(Continuous recognition)- 为不断增长的物品列表测试内存。
  • 任意视觉运动测试(Arbitrary visuomotor mapping)- 测试对刺激-响应配对的记忆。
  • 变化检测(Change detection)- 测试检测延迟后重新出现的对象数组中有所更改的能力。
  • 视敏度和对比敏感度(Visual acuity and contrast sensitivity)- 测试识别小和低对比度刺激的能力。
  • 玻璃图案检测(Glass pattern detection)- 测试全局形式感知。
  • 随机点运动判别(Random dot motion discrimination)- 测试相干运动的能力。
  • 多对象跟踪(Multiple object tracking)- 测试随着时间的推移跟踪移动对象的能力。

所有这些任务都已被验证,表明人类结果反映了认知心理学文献中的标准结果。

以“视觉搜索”任务为例。在复杂的刺激阵列中定位对象,比如在超市货架上选择一个商品,作为理解人类选择性注意力的方法,已经得到深入的研究。

695523b2b56311c7efdf004ae82eef9517a86727

在Psychlab上演示视觉搜索任务

当要求人类“在水平线段中找出竖直线段”和“在其他颜色的线段中找出粉条的线段”的任务时,人类的反应时间不会根据屏幕上的线段数量的改变而改变。换句话说,他们的反应时间与“数据大小”是相互独立的。然而,当任务改为在不同形状和不同颜色的线段中找出粉色线段时,每增加一个线段,人的反应时间会增加大约50ms。当人类在Psychlab上完成这个任务时,我们也复现了这个结果。

b39bf7e668725dc3d1b0024daba5a246983416be

这张图片说明了在Psychlab的视觉搜索任务上人类和人工因素之间反应时间的差异

当我们对一个最先进的AI进行同样的测试时,我们发现它虽然可以执行任务,但并没有显示出与人类相似的反应时间模式。在上述三种情况下,AI都用了相同的时间来应对。在人类的情况下,这些数据表明了并行关注和串联关注的区别。而AI似乎只有并行的机制。识别出人类与我们目前的AI之间的这种差异,能够为我们改善未来AI设计提供途径。

我们设计Psychlab是作为认知心理学、神经科学和AI之间的桥接工具。通过开源,我们希望更广泛的研究团队能够在自己的研究中利用它,并帮助我们进一步发展。


原文发布时间为:2018-01-27

本文作者:Joel Leibo,研究科学家

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号

原文链接:DeepMind新建虚拟认识实验室,像研究人类一样研究AI(代码开源)

相关文章
|
2月前
|
人工智能 IDE Java
AI Coding实践:CodeFuse + prompt 从系分到代码
在蚂蚁国际信贷业务系统建设过程中,技术团队始终面临双重考验:一方面需应对日益加速的需求迭代周期,满足严苛的代码质量规范与金融安全合规要求;另一方面,跨地域研发团队的协同效率与代码标准统一性,在传统开发模式下逐渐显现瓶颈。为突破效率制约、提升交付质量,我们积极探索人工智能辅助代码生成技术(AI Coding)的应用实践。本文基于蚂蚁国际信贷技术团队近期的实际项目经验,梳理AI辅助开发在金融级系统快速迭代场景中的实施要点并分享阶段性实践心得。
550 25
AI Coding实践:CodeFuse + prompt 从系分到代码
|
2月前
|
人工智能 机器人 测试技术
AI写的代码为何金玉其外败絮其中
本文分析AI编码看着好看其实很烂的现象、原因,探索行之有效的的解决方案。并从理论上延伸到如何更好的与AI协作的方式上。
108 3
|
2月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
3900 57
|
2月前
|
机器学习/深度学习 人工智能 算法
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含2500张已标注实验室设备图片,涵盖空调、灭火器、显示器等10类常见设备,适用于YOLO等目标检测模型训练。数据多样、标注规范,支持智能巡检、设备管理与科研教学,助力AI赋能智慧实验室建设。
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
|
2月前
|
人工智能 自然语言处理 Shell
我们开源了一款 AI 驱动的用户社区
KoalaQA 是一款开源的 AI 驱动用户社区,支持智能问答、语义搜索、自动运营与辅助创作,助力企业降低客服成本,提升响应效率与用户体验。一键部署,灵活接入大模型,快速构建专属售后服务社区。
299 5
我们开源了一款 AI 驱动的用户社区
|
2月前
|
人工智能 安全 开发工具
C3仓库AI代码门禁通用实践:基于Qwen3-Coder+RAG的代码评审
本文介绍基于Qwen3-Coder、RAG与Iflow在C3级代码仓库落地LLM代码评审的实践,实现AI辅助人工评审。通过CI流水线自动触发,结合私域知识库与生产代码同仓管理,已成功拦截数十次高危缺陷,显著提升评审效率与质量,具备向各类代码门禁平台复用推广的价值。(239字)
537 24
|
2月前
|
数据采集 人工智能 JSON
Prompt 工程实战:如何让 AI 生成高质量的 aiohttp 异步爬虫代码
Prompt 工程实战:如何让 AI 生成高质量的 aiohttp 异步爬虫代码
|
2月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
583 41