ICLR2026 !SAM3重磅来袭:能“听懂人话”的分割模型,性能狂飙2倍

简介: Lab4AI.cn覆盖全周期科研支撑平台,提供论文速递、AI翻译和AI导读工具辅助论文阅读;支持投稿论文复现和Github项目复现,动手复现感兴趣的论文;论文复现完成后,您可基于您的思路和想法,开启论文创新与成果转化。

Part one :论文概述

论文标题: SAM3: Segment Anything with Concepts
作者团队: Anonymous authors
发布时间: ICLR2026
👉一键直达论文
👉Lab4AI大模型实验室论文阅读

01 摘要解析

SAM3(SegmentAnythingModel3)代表了图像和视频分割领域的重大突破,这是一个基于概念提示的统一模型,能够检测、分割和跟踪图像视频中的对象。其核心创新在于提出了可提示概念分割(PromptableConceptSegmentation,,PCS),支持通过短名词短语(如“黄色校车”)、图像范例或二者组合作为提示,为所有匹配对象实例返回分割掩码和唯一标识。传统方法相比,SAM3在图像和视频PCS任务上实现了2倍的性能提升,同时在交互式视觉分割任务中也改进了前代SAM的能力

02 研究背景与动机

计算机视觉中寻找和分割视觉场景中任何对象的能力是多模态AI的基础,支撑着机器人技术、内容创作、增强现实、数据注释和科学领域的应用。虽然SAM系列引入了通过交互式提示分割图像视频中对象的概念,但SAM1和SAM2主要关注视觉提示(点、框、掩码),且每个提示仅分割单个对象实例,存在明显局限:

  • 任务范围窄: 仅聚焦单提示单目标实例分割,无法处理“分割场景中所有某类概念目标”,如视频中所有“猫”;
  • 提示类型受限: SAM1、SAM2以视觉提示为主,对文本概念的泛化能力不足;
  • 开放性不足: 难以应对开放词汇表场景下的歧义问题(如“小窗户”的主观性边界定义)。为解决上述问题,SAM3扩展出提示性概念分割(PCS)任务,填补“概念级全实例分割”的技术空白。

03 可提示概念分割(PCS)

PCS任务的核心目标是:给定一张图像或时长≤30秒的短视频,模型根据概念提示(短名词短语、图像示例或两者结合),完成检测、分割、跟踪符合概念的对象。 该类任务的本质是开放词汇,它具有固有的模糊性或歧义。许多概念存在多种解释,例如“小窗户”是主观的(小vs大)且边界模糊(有百叶窗vs无百叶窗)。

SAM3研究团队通过三大方式缓解: 一是在SA-Co基准的Gold子集为每个数据点收集3名位专家的标注,允许“多有效解释” ;二是在数据标注阶段制定清晰指南,减少标注歧义;三是在模型中引入“歧义模块”,学习概念的不同合理解释

04 架构设计

SAM3基于SAM2与DETR架构扩展,SAM3采用检测器与跟踪器共享视觉编码器的双路径架构。PE是SAM3的“多模态特征中枢”,负责统一编码图像、文本、图像示例的特征,为检测器与跟踪器提供对齐的视觉-语言嵌入。检测器基于DETR范式设计,核心创新是“解耦识别与定位”,解决传统DETR中“单个目标查询需同时负责‘目标是否存在(识别)’与‘目标在哪里(定位)’”的矛盾。跟踪器继承SAM2的Transformer编解码器架构,核心是实现“检测器新目标检测+跟踪器掩码传播+实例匹配更新”的闭环流程,确保视频帧间实例ID的一致性与掩码精度。

简单来说就是,SAM3能理解点或者框圈出来的物体(exemplar),也能理解提示概念(a penguin)。

05 四阶段数据引擎

为解决PCS任务 “数据稀缺且概念覆盖不足” 的问题,研究团队构建了四阶段数据引擎,通过与SAM3、人类标注员和AI标注员的反馈循环迭代地生成注释数据。数据引擎分四个阶段演进,每个阶段增加AI模型的使用,将人类努力导向最具挑战性的失败案例,同时扩展视觉领域覆盖范围。

  • 阶段1:人类验证。 该阶段的目标是建立“人工标注基准”,为后续AI标注器训练提供高质量数据。
  • 阶段2:人类+AI验证。 使用第一阶段收集的人工标注数据微调Llama3.2,得到两个AI验证器:一是“掩码验证器(MVAI)”,判断掩码与概念提示的匹配度;二是“完整性验证器(EVAI)”,判断掩码是否覆盖所有实例。
  • 阶段3:扩展与领域扩展。 该阶段聚焦“长尾概念”与“多领域数据”,使用AI模型挖掘日益挑战性的案例,将领域覆盖扩展到15个数据集,通过从可用alt-text中提取NP扩展概念覆盖。
  • 阶段4:视频标注。 该阶段将数据引擎扩展到视频,聚焦“视频特有挑战”(如遮挡、快速运动、帧间实例关联)。

这种数据引擎设计使标注吞吐量翻倍,最终产生了包含400万个独特短语和5200万个掩码的高质量训练数据集,以及包含3800万个短语和14亿个掩码的合成数据集。

06 实验设计与结果分析

应用研究团队在图像/视频PCS、少样本迁移、目标计数、复杂查询分割等任务上验证SAM3性能,详细结果可见论文原文。

Part Two: 论文原文阅读

您可以跳转到Lab4AI平台上去阅读论文原文。

👉Lab4AI大模型实验室论文阅读

目前,SAM3论文的复现工作还在招募中,欢迎各位感兴趣的朋友报名参与复现创作,我们提供一定额度的H800算力作为奖励。

Lab4AI大模型实验室已经提供🔥SAM2论文的一键复现🔥,您无需准备代码、模型、数据、环境,即可一键快速体验:👉Lab4AI大模型实验室论文复现

  • Lab4AI.cn覆盖全周期科研支撑平台,提供论文速递、AI翻译和AI导读工具辅助论文阅读;
  • 支持投稿论文复现和Github项目复现,动手复现感兴趣的论文;
  • 论文复现完成后,您可基于您的思路和想法,开启论文创新与成果转化。
相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
24天前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本、点、框等提示进行图像与视频分割的统一基础模型,突破传统限制,实现开放词汇概念的精准识别与跟踪,涵盖超400万独特概念,推动视觉分割新发展。
638 6
|
26天前
|
人工智能 Linux C++
VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉
VideoLLaMA 3是2025年发布的前沿多模态模型,深度融合视觉、音频与语言,支持长视频、高分辨率图像理解及视听融合推理。基于Llama 3架构,具备强大时空因果分析能力,适用于复杂视频理解任务,已在Lab4AI平台开放复现。
VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉
|
21天前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
1031 59
Meta SAM3开源:让图像分割,听懂你的话
|
22天前
|
数据采集 人工智能 监控
[数据集]作弊行为检测数据集(1100张图片已划分)[目标检测]
基于视觉 AI 的作弊行为检测正逐渐走向成熟,从简单的屏幕监控、人工复查逐步迈向自动化、实时化与精准识别。本数据集的构建,旨在为研究者与开发者提供一套轻量但高价值的训练数据,使智能监考系统能更好地识别作弊动作,尤其是使用手机等严重违规行为。
210 49
[数据集]作弊行为检测数据集(1100张图片已划分)[目标检测]
|
27天前
|
存储 Kubernetes 数据库
K3S ——轻量化K8S 入门指南
本文介绍轻量级Kubernetes发行版K3s,适用于边缘计算、IoT等场景。涵盖其架构、安装部署(单节点/高可用/离线)、核心组件、网络存储配置及生产建议,助力快速构建轻量化容器平台。
303 4
|
小程序 安全 网络协议
Nginx配置小程序域名(HTTPS
Nginx配置小程序域名(HTTPS
Nginx配置小程序域名(HTTPS
|
1月前
|
编解码 人工智能 文字识别
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理
DeepSeek-OCR开源即获7k+星,首创“上下文光学压缩”技术,仅用100视觉token超越传统OCR模型256token性能,压缩比达10-20倍,精度仍超97%。30亿参数实现单卡日处理20万页,显著降低大模型长文本输入成本,重新定义高效文档理解新范式。
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理
|
19天前
|
存储 缓存 弹性计算
阿里云服务器实例怎么选?经济型、通用算力型、计算型、通用型、内存型区别及选择参考
在我们通过阿里云的活动选购云服务器的时候会发现,可选的云服务器实例主要以经济型、通用算力型、计算型、通用型、内存型为主,相同实例可能又分为多个实例规格(例如通用算力型u1与u2i),另外,同配置的云服务器往往有多个不同的实例可选。本文为大家详细介绍阿里云的经济型、通用算力型、计算型、通用型和内存型实例的性能特点及适用场景,以供大家选择参考。
204 25
|
18天前
|
存储 弹性计算 安全
阿里云最便宜的云服务器,38元、99元、199元云服务器配置、优势及组合优惠详解
阿里云目前有多款价格非常实惠的云服务器产品,其中轻量应用服务器仅需38元/年,经济型e实例云服务器99元/年,通用算力型u1实例云服务器199元/年,让云服务器购买变得更加亲民。本文将详细介绍这些云服务器的配置、套餐优势、购买规则、注意事项以及组合优惠等内容,帮助大家更详细的了解这几款特惠云服务器,并选择适合自己的云服务器产品。
379 18