ITBear旗下自媒体矩阵:

阿里通义实验室开源ThinkSound音频模型,实现AI为视频精准配音

   时间:2025-07-02 00:30:23 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道

阿里巴巴通义实验室近期宣布了一项重大开源成果——音频生成模型ThinkSound,这一创新之举标志着AI在音频创作领域迈出了重要一步。ThinkSound的独特之处在于,它首次引入了CoT(思维链)技术,使AI能够模拟专业音效师的思考过程,精准捕捉视觉细节,并生成与画面完美同步的高保真音频。

据悉,ThinkSound的代码和模型已在Github、HuggingFace及魔搭社区等平台全面开源,供开发者免费下载和体验。这一开放举措无疑将极大地推动音频生成技术的发展,激发更多创新应用。

在多媒体编辑和视频内容创作领域,视频生成音频(V2A)技术一直备受关注。然而,现有技术往往难以准确捕捉画面中的动态细节和时序信息,导致生成的音频与关键视觉事件错位,无法满足专业创意场景的高要求。针对这一难题,通义实验室将思维链推理引入多模态大模型,实现了对视觉事件与声音之间深度关联的精准建模。

为了进一步提升模型的性能,通义团队还构建了首个带思维链标注的音频数据集AudioCoT。该数据集融合了超过2500小时的多源异构数据,为模型在音频生成与编辑任务中提供了丰富的训练素材。得益于此,ThinkSound在开源的VGGSound测试集上表现优异,多项核心指标均超越了现有主流方法。

具体而言,在openl3空间中Fréchet 距离(FD)这一指标上,ThinkSound相比MMAudio降低了近9个点,接近真实音频分布的相似度提高了20%以上。同时,在代表模型对声音事件类别和特征判别精准度的KLPaSST 和 KLPaNNs两项指标上,ThinkSound也取得了同类模型中的最佳成绩。

在MovieGen Audio Bench测试集上,ThinkSound同样展现出了强大的实力,大幅领先于meta推出的音频生成模型Movie Gen Audio。这一表现不仅证明了ThinkSound在影视音效、音频后期等领域的广泛应用潜力,也为其在游戏与虚拟现实音效生成等前沿领域的应用奠定了坚实基础。

通义实验室在音频生成领域的布局远不止于此。此前,该实验室已推出语音生成大模型Cosyvoice和端到端音频多模态大模型MinMo等,全面覆盖了语音合成、音频生成、音频理解等多个场景。此次ThinkSound的开源,无疑将进一步巩固通义实验室在音频生成领域的领先地位。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version