ITBear旗下自媒体矩阵:

Meta推出SAM Audio:多模态提示助力音频分离更智能高效

   时间:2025-12-18 05:36:23 来源:ITBEAR编辑:快讯 IP:北京 发表评论无障碍通道
 

meta公司近日在音频技术领域取得重大突破,正式推出全球首款统一多模态音频分离模型——SAM Audio。该模型通过融合文本、视觉及时间维度提示,实现了对复杂音频场景的智能解析,标志着音频处理技术向人性化交互迈出关键一步。

研发团队介绍,SAM Audio的核心创新在于其感知编码器视听系统(PE-AV),这项技术源自meta今年早些时候开源的感知编码器模型。通过将计算机视觉的精准识别能力与音频处理深度结合,PE-AV如同为系统装上"数字耳朵",能够准确捕捉声源特征。在实际演示中,用户仅需点击视频中的吉他,系统即可瞬间分离出纯净的吉他声,即便在交响乐合奏等复杂场景中依然保持高精度。

该模型提供三种创新交互模式:文本提示支持用户输入"婴儿啼哭"或"汽车引擎"等关键词提取特定声源;视觉提示允许通过点击视频中的发声物体实现音频分离;行业首创的时间片段提示功能更可标记特定时间段,实现跨时长音频处理。例如在播客录制场景中,用户可一次性标记所有出现手机铃声的时间段进行批量消除。

为验证模型性能,meta同步推出两大评估体系:SAM Audio-Bench作为首个真实场景音频分离基准测试,涵盖演唱会、街头采访等20类复杂声学环境;SAM Audio Judge自动评估模型则通过机器学习构建音质评分标准,实现毫秒级处理效率。这些工具将为行业提供标准化的性能评估框架。

技术文档显示,PE-AV系统在保持轻量化设计的同时,实现了参数效率的显著提升。相较于传统音频处理模型,其计算资源消耗降低40%,分离精度提升27%。该成果已应用于meta旗下多款产品的音频优化模块,开发者可通过开放接口调用核心功能。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version