阿里语音AI团队近期公布了一项重大创新,他们推出了全球首个集成链式推理功能的音频生成模型——ThinkSound。该模型凭借独特的思维链技术,成功超越了以往视频转音频技术的局限,实现了空间音频的高保真与强同步生成,标志着AI音频技术的一次飞跃式进步。
传统的视频转音频方法往往受限于对画面动态捕捉的不足,导致生成的音频与视觉事件无法精确对应。而ThinkSound则通过结合多模态大语言模型与统一音频生成架构,创新性地采用三阶段推理机制,实现了音频合成的精准控制。首先,模型解析画面的整体动态与场景语义,构建出结构化的推理链;接着,模型聚焦于具体的声源区域,结合语义信息细化声音特征;最后,用户可以通过自然语言指令实时调整音频,如添加特定环境音效或移除背景噪音。
实验数据表明,ThinkSound在多个测试集上的表现均优于主流方法。在VGGSound测试集上,其核心指标提升超过15%,在MovieGen Audio Bench测试集中更是大幅领先meta的同类模型。目前,ThinkSound的代码与预训练权重已经面向公众开源,开发者可以在GitHub、HuggingFace及魔搭社区免费获取。
ThinkSound的开源不仅为影视音效制作、音频后期处理等领域提供了新的工具,更为人机交互中的声音体验带来了无限可能。业内人士认为,这一创新将加速音频生成技术的普及,推动创作者经济向更加智能化的方向发展。用户现在可以通过访问指定的开源地址,探索并应用这一前沿技术。
开源地址:
https://github.com/FunAudioLLM/ThinkSound
https://huggingface.co/spaces/FunAudioLLM/ThinkSound
https://www.modelscope.cn/studios/iic/ThinkSound