集结MIT、英伟达等名校名企!FoundationMotion革新视频运动理解,开源模型竟超闭源大模型

简介: MIT、英伟达等联合推出FoundationMotion,首创全自动视频运动标注 pipeline,生成50万“视频-描述-QA”数据,覆盖7维运动语义与5类推理问题。模型微调后在MotionBench、AV-Car等评测中显著超越闭源大模型,推动视频理解迈向高精度自动标注新阶段。

集结MIT、英伟达等名校名企!FoundationMotion革新视频运动理解,开源模型竟超闭源大模型

论文标题:FoundationMotion: Auto-Labeling and Reasoning about Spatial Movement in Videos

作者团队:麻省理工学院(MIT)、英伟达(NVIDIA)、密歇根大学、加州大学伯克利分校、斯坦福大学

发布时间:2025年12月11日

👉一键直达论文

👉Lab4AI大模型实验室论文阅读

✨研究背景

运动理解是物理推理的基础,但现有视觉-语言模型在真实世界视频的运动分析上仍表现不足:缺乏大规模、细粒度的运动标注数据是关键限制。手动标注成本极高,且难以覆盖复杂运动场景,导致模型难以学习“物体如何运动、空间关系如何变化”的深层逻辑。

✨研究方法

FoundationMotion是全自动数据标注pipeline,通过“检测-跟踪-生成”三步提取视频运动信息并生成结构化数据,视频预处理裁剪片段、过滤摄像机剧烈运动视频,物体检测与跟踪含开放词汇检测、人类中心检测及时序跟踪,分别识别通用物体、聚焦人机交互、维持跨帧一致性,GPT-4o-mini将跟踪数据转为含7维度的自然语言,同时生成5类运动理解问答对,模拟运动逻辑推理需求。

✨研究结果

FoundationMotion Dataset含50万组“视频-描述-QA”对(46.7K视频/QA),标注密度1.671问题/秒;微调相关模型后运动理解性能显著提升,前者MotionBench提升至46.7%、AV-Car提升7.1%,后者提升至41.3%并超越闭源模型;边界框JSON提升QA质量,不同QA类型互补最优。

相关文章
|
5天前
|
数据采集 人工智能 安全
|
14天前
|
云安全 监控 安全
|
6天前
|
自然语言处理 API
万相 Wan2.6 全新升级发布!人人都能当导演的时代来了
通义万相2.6全新升级,支持文生图、图生视频、文生视频,打造电影级创作体验。智能分镜、角色扮演、音画同步,让创意一键成片,大众也能轻松制作高质量短视频。
1180 152
|
19天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1835 9
|
11天前
|
人工智能 自然语言处理 API
一句话生成拓扑图!AI+Draw.io 封神开源组合,工具让你的效率爆炸
一句话生成拓扑图!next-ai-draw-io 结合 AI 与 Draw.io,通过自然语言秒出架构图,支持私有部署、免费大模型接口,彻底解放生产力,绘图效率直接爆炸。
747 152
|
8天前
|
SQL 自然语言处理 调度
Agent Skills 的一次工程实践
**本文采用 Agent Skills 实现整体智能体**,开发框架采用 AgentScope,模型使用 **qwen3-max**。Agent Skills 是 Anthropic 新推出的一种有别于mcp server的一种开发方式,用于为 AI **引入可共享的专业技能**。经验封装到**可发现、可复用的能力单元**中,每个技能以文件夹形式存在,包含特定任务的指导性说明(SKILL.md 文件)、脚本代码和资源等 。大模型可以根据需要动态加载这些技能,从而扩展自身的功能。目前不少国内外的一些框架也开始支持此种的开发方式,详细介绍如下。
549 5
|
13天前
|
人工智能 安全 前端开发
AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope 重磅发布 Java 版本,拥抱企业开发主流技术栈。
689 14