如果你看过今年春晚武术节目《武BOT》,一定会对那群与人类武者同台对打的机器人印象深刻。但在流畅的武术动作背后,是一个工程师团队连续数周针对特定舞台、特定灯光反复调试后才可能达到的动作丝滑。
为什么机器人在固定场景下表现良好,但换一个环境、任务,泛化能力就会明显下降?
究其根源,是具身行业缺少带动作标注的训练数据进行泛化学习,而互联网上大规模人类数据是极具潜力的数据来源。为了指引具身智能走向GPT时刻,像大模型一样走通大规模数据学习范式,通过人类视频数据学习通用的、跨本体的隐式动作表征是关键。
为此,团队提出了 LARYBench (Latent Action Representation Yielding Benchmark) ,一个指引从大规模的视觉数据学习到通用的隐式动作表征的系统化评测基准。实验结果表明:在动作泛化和控制精度上,通用视觉模型的表现均显著优于专门为具身智能设计的动作专家模型,具身动作表征可以从大规模人类视频数据中涌现。
当前主流的 Vision-Language-Action(VLA)模型,其泛化能力受限于一个核心矛盾:互联网上存在海量的人类视频,视觉信号极其丰富,但如何将这些视觉信息转化为机器人可用的动作表征,始终缺少高效的路径。具体表现为三个层面:
- 数据瓶颈:带精确动作标注的机器人数据依赖遥操作采集,成本高、规模小;而人类视频虽体量庞大,却天然缺失机器人可执行的动作标签,画面与动作之间存在模态断层。
- 表征瓶颈:即便从人类视频中提取信息,传统做法输出的本体动作数据高度绑定特定硬件,难以跨形态迁移。隐式动作表征通过学习“帧与帧之间的变化”来抽象与本体无关的动作语义,为打通从视觉到动作的链路提供了更具泛化潜力的中间表示。
- 范式瓶颈:长期依赖人工标注使得具身智能局限于“固定场景精调”,无法像大语言模型那样从规模化数据中涌现能力。隐式动作表征路线的本质,正是试图以无标注的人类视频驱动规模化预训练,让从视觉到动作的学习也能走上数据驱动的扩展轨道。
自 2024 年 LAPA 等早期工作提出以来,基于隐式动作表征的研究已陆续展开。然而,现有评测大多只看端到端任务成功率,始终缺少一个能独立衡量中间表征质量的标准基准——动作表征领域,还没有自己的 ImageNet。具体表现为:表征与下游策略难以解耦、跨本体泛化能力无法检验、训练策略的系统性分析缺失。
为填补这一空白,团队提出了 LARYBench ,一个从本体动作和语义动作两个粒度出发,系统评估隐式动作表征质量的基准。如图1所示,评测数据集涵盖超过一百万段精心标注的视频(总时长超过 1000 小时),涉及 151 种不同类型的动作,同时包含 62 万对图像和 59.5 万条运动轨迹,覆盖了多样化的机器人形态与操作环境。
图1:LARYBench概览
评测的核心逻辑如图2所示:输入一段视频或图像序列,通过待测的隐式动作模型(Latent Action Model, LAM)提取出动作表征 z ,随后通过浅层探测头(probing)来验证 z 的质量。
图2:LARYBench整体流程
动作的定义由细到粗分为三个层级:
- 本体动作:机器人操作的控制信号,主流使用末端位姿,包括腕部 3D 坐标、3D 旋转角及夹爪开闭等。
- 原子语义动作:本体动作聚合为可用自然语言描述的原子操作,如上下左右前后移动、夹爪开闭。
- 复合语义动作:原子动作进一步聚合为有完整语义的行为,如拿起、放下、擦拭等。
针对不同粒度的动作,评测采用不同的验证方式:
- 语义动作分类:对提取的表征 z 接入 Attentive Probing 结构,进行动作类别分类,以准确率衡量表征对高层动作语义的捕捉能力。
- 本体动作回归:对表征 z 接入 Action Expert 解码器(可选 MLP 或 Diffusion Transformer),进行连续动作回归,以均方误差(MSE)衡量表征对底层控制信号的还原能力。
针对多种粒度的动作,团队收集了主流常用的第一视角人类数据以多视角、跨本体的机器人数据,并通过自动化数据处理流程构建为动作表征数据集。处理流程包括,动作片段切片、视频描述、动作提取和归一化,最后通过人工抽检做质检校验,确保训练集准确率在 85% 以上,测试集准确率在 95% 以上。数据集涵盖 151 个明确定义的动作,以及对应的 121.5 万个标注样本。数据集覆盖的人类活动范围广泛,从常见的"pick"和"place"动作,到长尾分布的"shovel"(snow)和"float"(balloon)动作均有涉及。
图3:LARYBench 数据构建流程
为确保形态多样性,数据集涵盖 11 种不同的机器人形态,从广泛使用的 Franka 单臂操作器,到 AgiBot G1、Agilex Cobot 和 Realman 系列等复杂的双臂及半人形平台,同时包含大量人类第一视角交互数据。
为保证环境多样性,数据集记录了数千种独特的物体操作场景,涵盖模拟桌面、真实住宅厨房、商业场所和工业场景等非结构化环境。
数据分布信息如下:
- 可视化云图
- 动作分布
评测按任务类型分为两类。本体动作任务以起始帧与结束帧构成的图像对作为输入,通过浅层 Action Expert 模块将动作表征映射为末端执行器位姿参数,以均方误差(MSE)衡量回归精度。语义动作任务同样输入图像对,通过浅层分类头进行多类别分类,以分类准确率作为评估指标。
待评测模型覆盖四类动作表征范式,包括专为具身智能设计的隐式动作模型、语义级与像素级通用视觉编码器,以及在通用编码器基础上训练的隐式动作模型,以形成从专项到通用的完整能力参照。
论文实验部分围绕三个核心问题展开:
- 动作表征是否足够编码精细的控制信息
- 动作表征是否能覆盖多样化的动作类型
- 以及如何构建有效的隐式动作模型
以下从本体动作回归、语义动作分类、可视化分析和消融实验四个维度展开。
本体动作回归任务评估的是模型将视觉信号还原为末端执行器绝对位姿的能力。评测覆盖四个数据集:CALVIN(第三人称仿真单臂)、VLABench(第三人称仿真单臂)、RoboCOIN(第一人称真机双臂)和 AgiBotWorld-Beta(第一人称真机双臂)。所有模型均以均方误差(MSE)作为评估指标,数值越低表示回归精度越高。
综合来看,DINOv3 在四个数据集上的平均 MSE 低至 0.19,而具身专项模型 LAPA 的平均 MSE 高达 0.97。语义级表征(V-JEPA-2、DINOv3)的回归误差普遍略低于像素级表征(Wan2.2 VAE、FLUX.2-dev VAE),说明本体动作信息同样可以在语义级特征空间中得到有效保留。
语义动作分类评估模型对高层动作语义的识别能力,按数据来源分为原子动作、复合人类动作和复合机器人动作三类任务。综合来看,语义级通用编码器在三类任务上持续领先,具身专项模型表现普遍偏低,通用 LAM 居中。视觉自监督学习在动作语义捕捉上优于图文对比学习,前者能够兼顾视觉中的动作语义与控制细节。
为了进一步探讨以上实验结论所表现出的原因,团队进行了以下定性的可视化分析实验。
3.3.1 长尾分布分析
从 Composite Human 数据集上的分类性能随样本频率变化的分布来看,各方法在高低频动作上的趋势基本一致。在长尾部分(样本量较少的动作类别),强模型与弱模型之间的性能差距进一步拉大。这表明表征能力更强的模型在低频场景下具有更好的泛化表现。
图4:复合人类数据集中动作分类性能在长尾分布上的表现
3.3.2 表征可视化分析
对“倾倒”动作序列的可视化显示,语义级表征模型 V-JEPA-2 和 DINOv3 的注意力能够较为精准地聚焦于手部与物体的交互区域。相比之下,像素级表征模型 FLUX.2-dev VAE 和 Wan2.2 VAE 的注意力分布更为分散,部分落在手臂阴影等与动作语义关联较弱的区域。具身专项模型 LAPA 的注意力则几乎不具备明确的聚焦区域,呈现大范围的弥散分布。
这一现象的原因可能在于,像素级编码器倾向于捕捉逐像素的视觉变化(如光影、遮挡),而这些底层信号容易与动作本身的位移信息混杂。当模型未能有效区分动作相关与无关的视觉变化时,提取出的表征质量会受到影响。
图5:不同模型在9帧“倾倒”动作序列上时序池化器的交叉注意力热力图
为探究构建有效隐式动作表征的关键参数配置,实验基于 LAPA-DINOv3 框架对码本大小、序列长度、隐空间维度及学习率等因素进行了消融分析,性能演进路径如下图所示。
图6:隐式动作模型性能演进路径
综合来看,在数据量一定的条件下,调整码本大小、序列长度、隐空间维度和学习率等超参可以有效提升动作表征效果。其中,序列长度与隐空间维度在合理范围内适当增大有利于性能提升,而码本大小存在最优区间,并非越大越好。
LARYBench 作为首个在动作泛化和机器人控制上对隐式动作表征进行量化评估的系统性基准,其核心价值体现在:
- 提供了一套解耦的、跨本体、多粒度的评测标准。 通过将动作表征质量与下游策略解耦,LARYBench 使得研究者能够独立衡量通用动作表征的能力,加速指引 data-driven 的人类视频预训练朝着具身泛化方向进行迭代。评测覆盖第一人称与第三人称、真机与仿真环境、单臂与双臂平台,为跨本体泛化能力提供了统一的检验尺度。
- 揭示了当前隐式动作模型的真实能力边界与改进方向。 通用视觉基础模型在语义理解与控制精度上整体优于专门的具身 LAM ,说明有效的动作表征能够在大规模视觉预训练中自然涌现,而专门的 LAM 则可能因数据规模有限或过早受限于领域特定的低级控制,面临表征坍缩的风险。这一发现为后续模型设计提供了明确的参照系。
- 验证了人类视频数据在动作表征学习中的规模化价值。 实验结果表明,通用视觉编码器无需显式动作监督,即可从海量人类视频中习得跨形态、跨场景的动作语义。这一发现表明,与其在稀缺的机器人标注数据上从头构建动作空间,不如充分利用互联网规模的人类视频资源——通过隐式动作表征从中提取与本体无关的动作先验,再将控制策略对齐至通用视觉模型已有的鲁棒特征空间。这条路径有望帮助 VLA 模型突破数据瓶颈,真正释放人类视频的规模化红利。
团队已将 LARYBench 评测数据集及配套代码开源,并会持续维护和更新:
🚀 开源链接:
- Paper:
https://github.com/meituan-longcat/LARYBench/blob/main/LARYBench.pdf - GitHub:
https://github.com/meituan-longcat/LARYBench - HomePage:
https://meituan-longcat.github.io/LARYBench/ - HuggingFace:
https://huggingface.co/datasets/meituan-longcat/LARYBench - ModelScope:
https://modelscope.cn/datasets/meituan-longcat/LARYBench
欢迎社区开发者与研究者使用、反馈及贡献,共同完善动作表征评估体系。
#互动话题:
你认为具身智能的“GPT时刻”会先从真机训练中爆发,还是从海量人类视频中涌现?欢迎在评论区分享你的想法。尤其想请教真机派开发者:你们认为使用人类数据的困难有哪些?