meta近日宣布推出第三代“分割一切”模型Segment Anything Models(SAM)的升级版本SAM 3,同时发布面向3D重建的开源模型SAM 3D。这款新模型在图像与视频分割领域实现重大突破,首次支持通过自然语言描述和图像示例实现动态物体识别、分割与追踪。相关技术将率先整合至Instagram视频创作工具Edits及meta AI应用中,并计划通过Segment Anything Playground平台向公众开放体验。
SAM 3的核心创新在于引入“可提示概念分割”(Promptable Concept Segmentation)能力,用户仅需输入“条纹红色雨伞”等自然语言描述,模型即可自动识别并分割图像或视频中所有符合条件的实例。这一技术突破摆脱了传统模型依赖固定标签集的局限,支持开放词汇分割。在性能测试中,该模型在英伟达H200 GPU上处理单张含百余物体的图像仅需30毫秒,在五目标并发视频场景中可维持接近实时处理速度。基准测试显示,其性能较现有系统提升一倍,在LVIS数据集零样本分割任务中准确率达47.0,用户偏好测试中以三比一优势超越OWLv2模型。
为解决自然语言与视觉元素关联难题,meta构建了包含21.4万个独特概念的SA-Co基准数据集,覆盖12.4万张图像和1700个视频,概念范围达现有基准的50倍以上。SAM 3支持多种提示方式,除文本描述外,还可接受点、框、掩码等视觉提示,甚至能处理“坐着但没有拿礼物盒的人”等复杂推理型指令。当与多模态大语言模型配合时,其在ReasonSeg和OmniLabel等需要推理的分割任务中表现优异,且无需额外训练数据。
在数据处理层面,meta开发了创新型人机协作数据引擎。该系统将SAM 3、人类标注者与AI模型结合,形成自动化标注流水线:AI模型首先挖掘图像视频并生成初始分割掩码,人类与AI标注者共同验证修正,形成反馈循环。其中AI标注器基于Llama 3.2v模型训练,在掩码质量验证等任务中达到或超越人类水平。这一方案使负提示标注速度较纯人工提升5倍,细粒度领域正提示标注效率提高36%,最终构建出包含超400万个独特概念的训练集。
同步推出的SAM 3D包含两个子模型:SAM 3D Objects实现单张自然图像的3D形状、纹理与物体布局重建,通过新训练方案标注近百万张图像,生成314万个网格模型,在人类偏好测试中以五比一优势领先;SAM 3D Body则专注于复杂场景下的3D人体姿态估计,支持分割掩码等交互式输入。该模型训练数据集包含800万张图像,涵盖异常姿势、遮挡及多人场景,在多个基准测试中准确性显著提升。
实际应用方面,SAM 3已拓展至科研领域。与Conservation X Labs合作构建的SA-FARI数据集包含超1万个相机陷阱视频,覆盖100余物种,每帧动物均标注边界框与分割掩码;蒙特雷湾水族馆研究所主导的FathomNet项目则开放了水下图像分割掩码与实例分割基准。这两个数据集将助力全球AI社区开发野生动物监测与海洋保护创新方案。
meta同步宣布,上述技术将率先应用于Facebook Marketplace的“房间预览”功能,帮助用户可视化家居装饰品的摆放效果。Segment Anything Playground平台则提供零技术门槛的交互体验,用户可上传图像视频并尝试不同提示方式,直观感受AI分割技术的实际应用场景。












