meta近日在人工智能领域再掀波澜,正式推出第三代图像分割模型Segment Anything Models(SAM)——SAM 3,并同步开源3D重建模型SAM 3D。这一技术组合不仅突破了传统图像分割的固有局限,更将应用场景从二维平面延伸至三维空间,为视频创作、机器人感知、野生动物保护等多个领域带来革新性工具。
在核心功能层面,SAM 3首次实现通过自然语言与图像示例的双重提示,精准识别、分割及追踪视频中的任意物体。用户仅需输入“条纹红色雨伞”等描述性词汇,模型即可自动定位图像或视频中所有符合条件的实例,彻底摆脱传统模型对固定标签集的依赖。为验证这一能力,meta构建了SA-Co基准数据集,涵盖21.4万个独特概念、12.4万张图像及1700个视频,其概念覆盖范围达现有基准的50倍以上。测试数据显示,SAM 3在LVIS数据集的零样本分割任务中准确率达47.0,较前代提升22%;在用户偏好测试中,其输出效果以3:1的优势领先于最强基准模型OWLv2。
技术架构方面,SAM 3引入“可提示概念分割”(Promptable Concept Segmentation)机制,支持短语文本、图像示例、点选、框选等多种提示方式。这种灵活性使其既能处理“坐着但没有拿礼物盒的人”等复杂推理任务,也可应对罕见或难以用文字描述的视觉概念。当与多模态大语言模型协同工作时,SAM 3在ReasonSeg和OmniLabel等需要推理的分割基准测试中表现优异,且无需针对特定数据集进行额外训练。
数据标注效率的飞跃是SAM 3的另一大突破。meta开发的创新数据引擎将模型、人类标注者与AI系统结合,形成闭环反馈机制。对于图像中不存在的概念标注,该系统速度较纯人工提升5倍;在细粒度领域标注中,效率亦提高36%。通过这一系统,研究团队构建了包含超400万个独特概念的训练集,其中AI标注者基于Llama 3.2v模型,在掩码质量验证等任务中达到或超越人类水平,使整体标注吞吐量翻倍。
在三维重建领域,SAM 3D系列模型树立了新标杆。其包含的SAM 3D Objects可从单张自然图像重建详细3D形状、纹理及物体布局,通过扩散捷径优化,实现几秒内完成高质量纹理重建。在人类偏好测试中,该模型以至少5:1的胜率领先其他领先方案,为机器人3D感知等实时应用提供可能。另一模型SAM 3D Body则专注于人体姿态估计,即使面对异常姿势、遮挡或多人场景,仍能通过交互式输入(如分割掩码)实现精准预测。其训练数据集涵盖800万张图像,包含罕见姿势及多样化服装场景,在多个3D基准测试中表现卓越。
实际应用层面,SAM 3已渗透至科研与商业领域。meta与Conservation X Labs合作推出的SA-FARI数据集,包含超1万个相机陷阱视频,覆盖100余个物种,每帧图像均标注边界框与分割掩码,为野生动物保护提供研究工具。海洋研究方面,FathomNet数据库开放了水下图像的定制化分割掩码及实例分割基准,助力海洋探索AI工具开发。商业领域,meta与Roboflow合作,允许用户标注数据、微调模型并部署至特定场景,同时公开微调方法供社区参考。
尽管性能显著提升,SAM 3仍存在局限性。例如,其在细粒度专业领域(如医学图像)的零样本泛化能力有限,需针对特定术语进行优化;视频追踪任务中,推理成本随物体数量线性增长,且缺乏物体间交互机制。这些挑战为后续研究指明了方向,也预示着图像分割技术仍有广阔进化空间。











