ITBear旗下自媒体矩阵:

阿里通义ThinkSound:开创链式推理音频生成新时代

   时间:2025-07-09 11:00:13 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道

阿里语音AI团队近期公布了一项重大创新,他们推出了全球首个集成链式推理功能的音频生成模型——ThinkSound。该模型凭借独特的思维链技术,成功超越了以往视频转音频技术的局限,实现了空间音频的高保真与强同步生成,标志着AI音频技术的一次飞跃式进步。

传统的视频转音频方法往往受限于对画面动态捕捉的不足,导致生成的音频与视觉事件无法精确对应。而ThinkSound则通过结合多模态大语言模型与统一音频生成架构,创新性地采用三阶段推理机制,实现了音频合成的精准控制。首先,模型解析画面的整体动态与场景语义,构建出结构化的推理链;接着,模型聚焦于具体的声源区域,结合语义信息细化声音特征;最后,用户可以通过自然语言指令实时调整音频,如添加特定环境音效或移除背景噪音。

实验数据表明,ThinkSound在多个测试集上的表现均优于主流方法。在VGGSound测试集上,其核心指标提升超过15%,在MovieGen Audio Bench测试集中更是大幅领先meta的同类模型。目前,ThinkSound的代码与预训练权重已经面向公众开源,开发者可以在GitHub、HuggingFace及魔搭社区免费获取。

ThinkSound的开源不仅为影视音效制作、音频后期处理等领域提供了新的工具,更为人机交互中的声音体验带来了无限可能。业内人士认为,这一创新将加速音频生成技术的普及,推动创作者经济向更加智能化的方向发展。用户现在可以通过访问指定的开源地址,探索并应用这一前沿技术。

开源地址:

https://github.com/FunAudioLLM/ThinkSound

https://huggingface.co/spaces/FunAudioLLM/ThinkSound

https://www.modelscope.cn/studios/iic/ThinkSound

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version