《自然》:机器视觉行为理解与脑神经有内在关联?上交卢策吾团队构建映射模型

简介: 《自然》:机器视觉行为理解与脑神经有内在关联?上交卢策吾团队构建映射模型

来自上海交通大学的卢策吾教授团队多年来致力于行为理解研究,最新成果已发表在《自然》上。

当行为主体在执行某个行为时,其大脑是否产生了对应的稳定脑神经模式映射?如果存在稳定映射,是否能运用机器学习方法发现未知行为神经回路?


为了回答这一系列行为理解的本质问题,近日一项发表在《自然》上的工作对行为理解机理进行了研究。该论文的两位共同通讯作者为上海交通大学的卢策吾教授与Salk研究院Kay M. Tye教授。


论文链接:https://www.nature.com/articles/s41586-022-04507-5该成果基于计算机视觉技术定量阐释了机器视觉行为理解与脑神经的内在关联,并首次建立了其稳定映射模型。形成计算机视觉行为分析发现行为神经回路这一运用人工智能解决神经科学基础问题的新研究范式,具体为计算机智能算法通过大规模对小鼠社交和竞争行为视频的理解,发现了控制 “动物社会层级(Social Hierarchy)行为”的神经回路,面向回答哺乳动物是如何判断其他个体与自己在社会群体地位高低并做出行为决策的问题,其形成的新研究范式也进一步推动了人工智能与基础科学问题前沿交叉(AI for Science)领域的发展。

具体研究内容如下:



图1. 视觉行为检测-脑神经信号关联模型:(a)小鼠视觉行为理解(b)系统框架与模型学习。

视觉行为检测-脑神经信号关联模型:我们以小鼠群为实验对象,为每只小鼠佩戴无线电生理记录设备,以记录社交活动中的特定脑区内侧前额叶皮层 (mPFC)的序列脑神经信号。同时,通过多个摄像头跟踪定位每只小鼠,基于卢策吾教授团队研究开发的姿态估计(如alphapose)与行为分类研究成果提取行为语义标签,达到小鼠的姿态估计准确率高于人眼水平。基于提出系统自动采集的大量数据,隐马尔可夫模型训练从“小鼠mPFC脑区的神经活动信号”到“行为标签”的回归模型,发现训练后在测试集上仍然有稳定映射关系,揭示了行为视觉类型与其行为主体大脑中的脑神经信号模式存在稳定的映射关系。模型应用:控制动物社会层级(Social Hierarchy)行为神经回路发现:基于视觉行为检测-脑神经信号关联模型,我们可以发现新的行为神经回路。“动物社会层级”行为神经控制机理(比如,低等级小鼠会让高等级小鼠优先进食,低等级小鼠会表现出服从行为)一直是学界重要问题,即哺乳动物是如何判断其他个体与自己的社会群体地位高低的?其背后的神经控制机制是怎么样的?由于动物社会层级行为是复杂行为概念,该问题一直为学界未所突破的难题。我们在大规模的小鼠群体竞争视频中,定位 “动物社会层级”行为基于上述系统和模型,并同时记录到动物社会层级行为的脑部活动状态,深度解析了动物社会层级行为在大脑中的形成机制,即发现内侧前额叶皮层-外侧下丘脑(mPFC-LH)回路具有控制动物社会层级行为的功能,并得到严格生物学实验的证实。该研究形成了基于机器视觉学习发现未知行为功能神经回路的新研究范式,也进一步推动了人工智能解决基础科学问题(AI for Science)的发展。卢策吾团队行为理解研究
上述工作是卢策吾团队多年的行为理解方面积累的一部分。机器如何理解行为,需要全面地回答以下三个问题:

1. 机器认知角度:如何让机器看懂行为?2. 神经认知角度:机器认知语义与神经认知的内在关联是什么?3. 具身认知角度:如何将行为理解知识迁移到的机器人系统?

图2. 卢策吾团队围绕行为理解主要工作


此次在《自然》上发表的工作正是想回答第二个问题,对于其他两个问题团队主要工作有:

1、如何让机器看懂行为?


主要工作包括:

  • 人类行为知识引擎HAKE(Human Activity Knowledge Engine)


为探索可泛化、可解释、可扩展的行为识别方法,要克服行为模式和语义间的模糊联系、数据分布长尾等问题。区别于一般的直接深度学习“黑盒”模式,团队构建了知识引导与数据驱动的行为推理引擎HAKE(开源网站:http://hake-mvig.cn/home/):

图3. HAKE系统框架

HAKE将行为理解任务分为两阶段,首先将视觉模式映射到人体局部状态原语空间,用有限且接近完备的原子的原语表达多样的行为模式;随后将原语依据逻辑规则进行编程,以可推理行为语义。HAKE提供了大型的行为原语知识库以支持高效的原语分解,并借助组合泛化和可微神经符号推理完成行为理解,具有以下特点(发表TPAMI,CVPR等计算机视觉顶刊顶会十余篇):

(1)规则可学习:HAKE可根据少量人类行为-原语的先验知识进行逻辑规则的自动挖掘和验证,即对原语组合规则进行总结,并在实际数据上进行演绎验证,以发现有效且可泛化的规则,发现未知行为规则,如图4。

图4. 学习未见行为规则

(2)人类性能upper bound:在87类复杂行为实例级别行为检测测试集(10,000张图像)上,具备完备原语检测的HAKE系统的性能甚至可接近人类的行为感知性能,验证了其巨大潜力。

(3)行为理解“图灵测试”:

图5. 让机器(HAKE)和人类抹去部分像素使得无法理解图中行为,图灵测试表明,HAEK的“抹去手法”和人类十分相似。


我们还提出了一种特殊“图灵测试”:若机器可以从图像中抹去关键像素,使得人类被试者也无法分辨该行为时,即认为其可以较好地理解该行为。分别让HAKE和人类去做这种抹去操作。并请另一批志愿者做图灵测试,问这个抹去操作是人类还是HAKE操作。人类分辨的正确率约为59.55%(随机猜50%),说明HAKE的“抹去手法”和人类十分相似,侧面印证了在行为“可解释性”的理解上与人类相近。

  • 行为对象可泛化的脑启发计算模型(《自然•机器智能》)


对于某个特定行为(如“洗”),人类大脑能抽象出泛化的行为动态概念,适用于不同的视觉对象(如衣服、茶具、鞋),并以此做出行为识别。神经科学领域研究发现,对于连续视觉信号输入,在人类的记忆形成过程中,时空动态信息与物体对象信息是通过两个相对独立的信息通路到达海马体以形成完整的记忆,这个带来行为对象可泛化的可能性。

图6. 解耦合地处理行为对象概念和行为动态概念,带来的泛化性。

基于脑科学启发,卢策吾团队通过模仿人类的认知行为对象与动态概念在各种脑区独立工作的机制,提出了适用于高维度信息的半耦合结构模型(SCS),实现自主发掘(awareness)行为视觉对象概念与行为动态概念,将两种概念分别记忆存储在相对独立的两部分神经元上。在深度耦合模型框架下设计信息独立误差反传(decouple back-propagation)机制,约束两类神经元只关注自己的概念,初步实现了行为理解对行为主体对象的泛化。所提出半耦合结构模型工作发表在《自然•机器智能》,并获得2020年世界人工智能大会优秀青年论文奖。

                                       视频序列                                 对象神经元       动态神经元图7.可视化表征“视觉对象”与“行为动态概念”的神经元《自然•机器智能》

  • 人体姿态估计


人体姿态估计是行为理解的重要基础,该问题是一个在结构约束下获取精准感知的问题,围绕结构约束下感知问题,提出图竞争匹配、姿态流全局优化、神经-解析混合的逆运动优化等算法,系统性地解决人体运动结构感中密集人群干扰大、姿态跟踪不稳定、三维人体常识性错误严重等难题,前后发表CVPR,ICCV等计算机视觉顶会论文20多篇;

图8. 结构感知的工作。

相关研究成果积累形成开源系统AlphaPose(https://github.com/MVIG-SJTU/AlphaPose),在开源社区GitHub上获得5954 Star(Fork数为1656),GitHub排名前十万份之1.6。被传感器领域、机器人领域、医学领域、城市建设领域广泛使用。在姿态估计后,团队进一步形成开源视频行为理解开源框架Alphaction(https://github.com/MVIG-SJTU/AlphAction)。

2、如何将行为理解知识迁移到的机器人系统?

探索结合第一人称角度理解人类行为本质,从单纯考虑“她/他在做什么”到联合考虑“我在做什么”。这种研究范式也正是 “具身智能”(Embodied AI)的研究思路。探索将该理解能力与学习得到的行为知识迁移到具身智能本体(人形机器人),使机器人初步具有“人类行为能力”,最后驱动机器人完成真实世界的部分任务,为通用服务机器人奠定基础。以上科学问题的解决将:(1)大大提高行为语义检测性能和提升语义理解范围;(2)有力地提高智能体(特别是人形机器人)对真实世界的理解能力,同时根据完成任务过程中真实世界的反馈检验机器对行为概念本质的理解程度,为通用智能机器人的实现打下重要基础。

近年来卢策吾团队在具身智能领域联合非夕科技构建通用物体抓取框架GraspNet(https://graspnet.net/anygrasp.html),实现了任意场景下刚体、可变形物体、透明物体等各种类型的未见物体的抓取,首次将PPH(picks per hour)指标超越人类水平,为之前性能最优的DexNet算法的三倍,相关论文发表一年内被引用70次。物体抓取是机器人操作的第一步,为该项目打下良好基础。

相关文章
|
JSON 前端开发 API
fetchEventSource源码解析
fetchEventSource源码解析
3341 1
|
7月前
|
JSON 自然语言处理 Nacos
垂直和领域 Agent 的护城河:上下文工程
上下文工程是智能体应对复杂任务的核心能力,通过对项目状态、需求文档、团队沟通等多维度信息的结构化整合,提升大模型输出的准确性与适配性。它超越传统提示词工程,构建系统化的信息输入框架,使智能体更贴近人类思维逻辑,成为实现高质量人机协作的关键方法。
624 0
|
缓存 关系型数据库 MySQL
MySQL 索引优化以及慢查询优化
通过本文的介绍,希望您能够深入理解MySQL索引优化和慢查询优化的方法,并在实际应用中灵活运用这些技术,提升数据库的整体性能。
903 7
|
人工智能 测试技术
VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则
VideoPhy 是 UCLA 和谷歌联合推出的首个评估视频生成模型物理常识能力的基准测试,旨在衡量模型生成的视频是否遵循现实世界的物理规则。
356 9
VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则
|
机器学习/深度学习 测试技术
LeCun赞转!类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘
近日,字节跳动豆包大模型团队发布论文,探讨视频生成模型(如类Sora模型)在理解物理规律方面的能力,引起广泛关注并获Yann LeCun点赞。研究通过2D模拟平台测试扩散模型,发现其在分布内表现优异,但在分布外和组合泛化上存在不足,揭示了基于案例的泛化和特征优先级机制。这表明,仅靠视觉数据难以学习到真正的物理规律,未来需引入物理先验知识以提升模型性能。
336 16
|
监控 网络协议 Linux
【Shell 命令集合 网络通讯 】Linux 显示网络 连接、路由表和网络接口信息 netstat命令 使用指南
【Shell 命令集合 网络通讯 】Linux 显示网络 连接、路由表和网络接口信息 netstat命令 使用指南
473 1
|
Serverless 数据安全/隐私保护 前端开发
大模型代码能力体验报告之贪吃蛇小游戏《一》:Claude.ai篇 - 生成、预览和快速部署的serverless一条龙
本文介绍了通过Claude.ai生成并优化Web版贪吃蛇游戏的过程,展示了其强大的代码生成功能及用户友好的界面设计。从初始版本的快速生成到根据用户反馈调整游戏速度,再到提供多种实用工具如文件管理、版本控制和一键部署,Claude.ai不仅是一个代码助手,更像是一个全面的serverless开发平台。文中还呼吁国内厂商关注此类技术的发展。
813 2
C++从零基础到入门(2)—— (if、switch、for、while语句)
C++从零基础到入门(2)—— (if、switch、for、while语句)
C++从零基础到入门(2)—— (if、switch、for、while语句)
|
安全 网络安全 数据安全/隐私保护
代理IP地址真的安全吗?
代理IP在隐藏用户真实IP、保护隐私方面有一定效果,但并非完全安全。代理服务器可能被黑客攻击,导致数据泄露,且不能保证匿名性。使用代理涉及法律与道德问题,需选信誉良好的服务商。用户应谨慎并采取安全措施。
|
监控 数据安全/隐私保护 时序数据库
grafana的配置内容
grafana的配置内容
330 2

热门文章

最新文章