Meta SAM3开源:让图像分割,听懂你的话

简介: Meta发布并开源SAM 3,首个支持文本、点、框等提示进行图像与视频分割的统一基础模型,突破传统限制,实现开放词汇概念的精准识别与跟踪,涵盖超400万独特概念,推动视觉分割新发展。

Meta正式发布并开源新一代Segment Anything Model 3(SAM 3),一个用于图像和视频中可提示分割的统一基础模型,能够通过文本提示或点、框、掩码等视觉提示来检测、分割和跟踪目标。

图像分割方向一直以来的难题是用户往往希望分割那些不在预定义列表中的概念,但传统模型通常只能分割特定目标。比如,现有模型可以轻松分割“人”这类常见对象,却难以处理如“红色条纹伞”这样更精细、更具体的视觉概念。

SAM 3 通过引入“可提示概念分割”能力,有效克服了这一局限:它能够根据文本提示或示例图像,自动识别并分割出所有符合该概念的实例。

SAM3跟踪一只毛发蓬松的金色寻回犬

SAM3跟踪穿白色球衣的球员

SAM 3 首次实现了对由简短文本短语或示例图像所定义的开放词汇概念的所有实例进行完整分割,能够处理数量远超以往的开放词汇提示。在Meta新构建的 SA-Co 基准测试中,该模型在包含 27 万个独特概念的数据集上达到了人类性能的 75%–80%,SAM3能支持的独特概念数量是现有基准的 50 倍以上。

开源地址:

ModelScope:

http://modelscope.cn/organization/facebook

GitHub:

https://github.com/facebookresearch/sam3?tab=readme-ov-file


01模型架构:可提示概念分割

SAM 3 的模型架构延续并融合了 Meta 在人工智能领域的多项前沿成果。其中文本编码器与图像编码器均源自“Meta Perception Encoder”——这是Meta于今年四月开源的一个模型,它能构建更强大的计算机视觉系统,辅助用户完成图像识别、目标检测等日常任务。相较于此前使用的编码器,采用 Meta Perception Encoder 使模型性能实现了显著跃升。检测器组件基于 DETR 模型,这是首个将 Transformer 应用于目标检测的开创性工作。SAM 2 中所采用的记忆库与记忆编码器,则构成了当前跟踪器(Tracker)模块的基础。此外,还整合了多个开源组件,包括公开数据集、基准测试集和模型改进方法,以推动本项工作的持续进步。


02基于人工智能与人工标注的新型数据引擎

为获取涵盖广泛类别与视觉领域的高质量标注图像,Meta构建了一个可扩展的数据引擎,将 SAM 3、人工标注员与 AI 模型整合为一个闭环系统,显著提升了标注效率:在处理“否定提示”(即图像/视频中不存在的概念)时,速度比纯人工快约 5 倍;即使在具有挑战性的细粒度领域,对于“肯定提示”,标注速度也比人工快 36%,通过这一人机协同系统,Meta构建一个包含超过400 万个独特概念的大规模、多样化训练数据集。

该引擎的流程如下:一个由 SAM 3 和基于 Llama 的图像字幕生成系统组成的 AI 管道,自动从海量图像和视频中挖掘内容,生成描述性字幕,解析为文本标签,并生成初始分割掩码(如上图中的“候选对象”)。

随后,人工标注员与 AI 标注员共同验证并修正这些候选结果,形成一个持续反馈的闭环机制——在快速扩展数据集覆盖范围的同时,不断优化数据质量。AI 标注员基于经过专门训练的 Llama 3.2v 模型,其在标注任务(如判断掩码质量是否达标、是否完整覆盖了图像中某一概念的所有实例)上的准确率,已达到甚至超越人类标注员水平。

03基准测试数据集

为评估模型在大词汇量下的检测与分割能力,我们构建了全新的基准测试——Segment Anything with Concepts(SA-Co),专门用于图像与视频中的可提示概念分割。与以往基准相比,SA-Co 要求模型识别的语义概念数量大幅增加。SA-Co 数据集也开源,支持研究复现,并推动开放视觉分割领域的持续创新。


04模型推理

环境安装:

# 1、创建新的conda环境
conda create -n sam3 python=3.12
conda deactivate
conda activate sam3
# 2、安装pytorch-cuda
pip install torch==2.7.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
# 3、克隆仓库并安装
git clone https://github.com/facebookresearch/sam3.git
cd sam3
pip install -e .
# 3、安装额外的依赖
# 跑notebook的example
pip install -e ".[notebooks]"
# 开发环境
pip install -e ".[train,dev]"

模型下载:

modelscope download --model facebook/sam3 --local_dir checkpoints

推理脚本:

import torch
#################################### For Image ####################################
from PIL import Image
from sam3.model_builder import build_sam3_image_model
from sam3.model.sam3_image_processor import Sam3Processor
# Load the model
model = build_sam3_image_model()
processor = Sam3Processor(model)
# Load an image
image = Image.open("<YOUR_IMAGE_PATH.jpg>")
inference_state = processor.set_image(image)
# Prompt the model with text
output = processor.set_text_prompt(state=inference_state, prompt="<YOUR_TEXT_PROMPT>")
# Get the masks, bounding boxes, and scores
masks, boxes, scores = output["masks"], output["boxes"], output["scores"]
#################################### For Video ####################################
from sam3.model_builder import build_sam3_video_predictor
video_predictor = build_sam3_video_predictor()
video_path = "<YOUR_VIDEO_PATH>" # a JPEG folder or an MP4 video file
# Start a session
response = video_predictor.handle_request(
    request=dict(
        type="start_session",
        resource_path=video_path,
    )
)
response = video_predictor.handle_request(
    request=dict(
        type="add_prompt",
        session_id=response["session_id"],
        frame_index=0, # Arbitrary frame index
        text="<YOUR_TEXT_PROMPT>",
    )
)
output = response["outputs"]


04更多案例

sam功能视频.mp4

点击可跳转模型链接:https://modelscope.cn/models/facebook/sam3

目录
相关文章
|
19天前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
1008 59
Meta SAM3开源:让图像分割,听懂你的话
|
28天前
|
人工智能 机器人 数据处理
ICLR2026 !SAM3重磅来袭:能“听懂人话”的分割模型,性能狂飙2倍
Lab4AI.cn覆盖全周期科研支撑平台,提供论文速递、AI翻译和AI导读工具辅助论文阅读;支持投稿论文复现和Github项目复现,动手复现感兴趣的论文;论文复现完成后,您可基于您的思路和想法,开启论文创新与成果转化。
|
22天前
|
存储 数据采集 人工智能
最佳实践丨让苏东坡“复活”!我用Qwen3-8B实现了与千古文豪的跨时空对话
随着人工智能技术的不断发展,虚拟角色不再只是冰冷的对话机器,而是能够承载历史人物的气质、知识体系乃至精神风貌的“数字化身”。今天,我们将完整揭秘如何基于Qwen3-8B大模型,借助LLaMA-Factory Online平台,打造一个沉浸式的“苏东坡数字分身”,让前沿技术为文化传承注入新的活力。
344 9
最佳实践丨让苏东坡“复活”!我用Qwen3-8B实现了与千古文豪的跨时空对话
|
16天前
|
人工智能 安全 搜索推荐
杭州AI开源生态大会·魔搭社区开发者嘉年华全回顾
11月22日,杭州AI开源生态大会暨“魔搭社区”开发者中心启用仪式在云谷中心举行。大会汇聚超3000名开发者,发布“两张清单”与AI开源政策包,启用首个线下开发者空间,推动开放、共建、共创的AI生态发展。
230 10
|
20天前
|
数据采集 人工智能 监控
[数据集]作弊行为检测数据集(1100张图片已划分)[目标检测]
基于视觉 AI 的作弊行为检测正逐渐走向成熟,从简单的屏幕监控、人工复查逐步迈向自动化、实时化与精准识别。本数据集的构建,旨在为研究者与开发者提供一套轻量但高价值的训练数据,使智能监考系统能更好地识别作弊动作,尤其是使用手机等严重违规行为。
199 49
[数据集]作弊行为检测数据集(1100张图片已划分)[目标检测]
|
2月前
|
编解码 调度 图形学
腾讯混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成_魔搭ModelScope社区-ModelScope魔搭社区
混元世界模型1.1(WorldMirror)发布,支持多视图、视频输入,单卡秒级生成3D场景。兼容CG管线,开源可部署,实现点云、深度、相机等多任务统一预测,性能领先。
304 1
|
5天前
|
数据采集 存储 编解码
智源RoboCOIN重磅开源!全球本体数最多、标注最精细、使用最便捷的高质量双臂机器人真机数据集来了
北京智源研究院联合多家机构发布全球首个“本体数最多、标注最精细、使用最便捷”的双臂机器人真机数据集RoboCOIN,覆盖15类机器人、18万条轨迹、421项任务,首创“层级能力金字塔”标注体系,推动具身智能迈向真实场景应用。
120 11
 智源RoboCOIN重磅开源!全球本体数最多、标注最精细、使用最便捷的高质量双臂机器人真机数据集来了
|
20天前
|
算法 安全 Java
压缩教程学习,文件压缩包解压推荐,BANDIZIP、win_RAR、7-Zip工作使用教程
压缩教程学习,文件压缩包解压推荐,BANDIZIP、win_RAR、7-Zip工作使用教程
482 138
|
24天前
|
人工智能 文字识别 物联网
ModelScope魔搭社区发布月报 -- 25年11月
魔搭ModelScope三周年庆!见证开源大模型从追赶到领跑,11月硬核更新不断:Qwen3-VL、MiniMax-M2等新模态齐发,AIGC生态爆发,OCR、语音、Agent全面进化。11月22日杭州AI开源生态大会,不见不散!
339 4
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
UI-Ins:让 GUI 智能体真正“看懂”用户指令的新范式
通义实验室联合人大发布全新GUI Grounding模型UI-Ins,首创“指令即推理”范式,通过多视角动态推理实现SOTA性能,在五大基准全面领先,支持开源复现与应用。
530 1

热门文章

最新文章