meta近日宣布推出第三代“分割一切”模型Segment Anything Models(SAM)——SAM 3,在图像与视频分割领域实现关键技术突破。该模型首次支持用户通过自然语言描述和图像示例,精准识别、分割及追踪视频中的任意物体,同时发布开源的3D重建模型SAM 3D,并计划将其整合至Instagram视频创作工具Edits和meta AI应用中。
SAM 3的核心创新在于引入“可提示概念分割”(Promptable Concept Segmentation,简称PCS)能力。用户仅需输入“条纹红色雨伞”等自然语言提示,模型即可自动识别并分割图像或视频中所有符合条件的实例,突破传统模型依赖固定标签集的限制。这一技术使模型能够处理更复杂的语义描述,例如“坐着但没有拿礼物盒的人”,显著提升分割的灵活性与实用性。
在性能测试中,SAM 3展现出显著优势。其处理速度在单张包含超百个物体的图像时仅需30毫秒,在五路并发目标的视频场景中仍能保持接近实时性能。SA-Co基准测试显示,其性能较现有系统提升一倍,在LVIS数据集的零样本分割任务中准确率达47.0,超越此前38.5的纪录。用户偏好测试中,其输出效果以三比一的比例优于基准模型OWLv2。
为解决传统模型在自然语言与视觉元素关联上的局限,meta构建了SA-Co基准数据集,包含21.4万个独特概念、12.4万张图像及1700个视频,概念覆盖范围是现有基准的50倍以上。SAM 3支持多种提示方式,除文本提示外,还可通过点、框、掩码等视觉提示进行分割,尤其适用于罕见或难以用文字描述的场景。当与多模态大语言模型结合时,其在ReasonSeg和OmniLabel等复杂推理分割任务中表现优异,且无需额外训练数据。
数据标注方面,meta开发了创新的人机协作引擎,将模型、人类标注者与AI系统结合,标注速度提升显著。对于负提示(图像中不存在的概念),标注效率较纯人工提升五倍;在细粒度领域,正提示标注速度提高36%。该系统已生成包含超400万个独特概念的训练集,AI标注者基于Llama 3.2v模型,在掩码质量验证等任务中达到或超越人类水平,使整体吞吐量翻倍。
同步发布的SAM 3D包含两个前沿模型:SAM 3D Objects与SAM 3D Body。前者可从单张自然图像重建3D形状、纹理及物体布局,突破物理世界3D数据瓶颈。通过多阶段训练方案,该模型标注近百万张图像,生成314万个网格模型,在人类偏好测试中以五比一的优势领先其他模型,并支持机器人等近实时3D感知应用。后者专注于人体姿势与形状估计,即使面对遮挡或异常姿势仍能保持高精度,支持交互式输入如分割掩码,训练数据集规模达800万张图像。
实际应用层面,SAM 3已拓展至科研领域。meta与Conservation X Labs合作推出SA-FARI数据集,包含超万个相机陷阱视频,覆盖100余种野生动物,每帧均标注边界框与分割掩码。海洋研究方面,FathomNet数据库开放水下图像分割掩码与实例分割基准,助力AI驱动的海洋探索。meta与Roboflow合作提供模型微调工具,用户可标注数据并定制SAM 3以满足特定需求。
尽管技术领先,SAM 3仍存在局限。在细粒度领域外概念(如医学术语“血小板”)的零样本泛化能力较弱,视频追踪成本随物体数量线性增长,且物体间缺乏通信机制。这些挑战为后续研究指明方向,推动分割技术向更精细化、场景化发展。










