meta公司近日在音频技术领域取得重大进展,正式发布全球首个多模态音频分离模型——SAM Audio。这项创新技术通过模拟人类感知声音的天然方式,实现了对复杂音频的精准解析与交互式提取。用户现在能够像“用眼睛聆听”般,从混合音频或视频中分离出特定目标声音,无论是点击画面中的乐器、输入文字描述声源,还是标记时间片段,均可一键完成操作。
该模型的核心突破在于其自研的感知编码器视听引擎(PE-AV),这一被称为模型“听觉中枢”的技术,源于meta今年4月开源的计算机视觉模型meta Perception Encoder的扩展。通过将高级视觉理解能力与音频信号深度融合,PE-AV首次实现了跨模态的声音定位与分离,为音频处理开辟了全新路径。例如,用户只需点击视频中的吉他手,系统即可瞬间提取纯净的吉他声;输入“狗吠”关键词,便能自动过滤播客中的犬类噪音;甚至通过标记时间区间,可精准剔除特定时段的干扰音。
SAM Audio提供了三种直观交互模式,支持单独或组合使用。文本提示功能允许用户通过语义描述(如“人声演唱”“汽车喇叭”)直接提取对应声源;视觉提示则通过点击视频画面中的发声物体(如说话者、敲击键盘的手)实现音频分离;时间片段提示作为行业首创功能,用户可标记目标声音出现的时间范围(如“2分30秒至3分15秒”),系统将自动处理整段录音中的同类声音。meta将这一功能类比为科幻作品中的“超梦”技术,强调其精准性与灵活性。
为推动技术标准化,meta同步开源了两项关键工具:SAM Audio-Bench作为首个基于真实场景的音频分离评测基准,为行业提供了统一的评估标准;SAM Audio Judge则是全球首个专用于音频分离质量的自动评估模型,能够量化分析分离结果的纯净度与完整性。这两项工具的开源,将加速音频处理技术的迭代与落地应用。
PE-AV引擎的潜力不仅限于音频分离领域。作为meta多模态AI生态的基础组件,该技术将赋能旗下字幕生成、视频理解与智能剪辑等系统,提升跨模态内容处理的效率与准确性。其开源特性更意味着开发者可基于此构建多样化的“视听联觉”应用,例如自动消噪的会议记录工具、沉浸式AR音频交互系统,或针对听力障碍人群的无障碍辅助设备。
在视频内容呈指数级增长的当下,SAM Audio的推出标志着音频处理正式迈入“可交互、可编辑、可理解”的新阶段。过去,用户只能被动接收混合声音;如今,通过meta的技术,人们首次获得了“选择性聆听”的能力——这一变革或许仅是多模态AI重塑人类感官体验的起点。
体验地址:
https://ai.meta.com/samaudio/
https://github.com/facebookresearch/sam-audio












