ITBear旗下自媒体矩阵:

阿里通义实验室开源音频生成新模型ThinkSound,革新视频转音频技术

   时间:2025-07-05 21:04:53 来源:凤凰网科技编辑:快讯团队 IP:北京 发表评论无障碍通道

阿里通义实验室近期在音频技术领域取得了突破性进展,正式推出了名为ThinkSound的音频生成模型,并宣布将其开源。这一创新之举标志着音频生成技术迈入了一个全新的阶段,特别是将思维链(CoT)技术首次应用于音频生成领域。

据通义语音团队介绍,传统的视频转音频(V2A)技术往往难以精准捕捉视觉与声音之间的时空关联,导致生成的音频与视频中的关键事件存在错位现象。而ThinkSound模型则通过引入结构化推理机制,模拟人类音效师的工作流程,有效解决了这一问题。它首先理解视频的整体画面与场景语义,然后聚焦于具体的声源对象,最终响应用户的编辑指令,逐步生成高保真且与视频同步的音频。

为了训练ThinkSound模型,通义语音团队构建了首个支持链式推理的多模态音频数据集AudioCoT。该数据集包含了超过2531小时的高质量样本,涵盖了丰富的场景,并特别设计了面向交互编辑的对象级和指令级数据。ThinkSound模型由两个核心部分组成:一个多模态大语言模型负责“思考”推理链,而另一个统一音频生成模型则负责“输出”声音。

在多项权威测试中,ThinkSound模型的表现均优于现有的主流方法,这充分证明了其技术的先进性和实用性。目前,该模型已经正式开源,开发者可以在GitHub、Hugging Face以及魔搭社区等平台上获取相关的代码和模型文件。这一举措无疑将为音频生成技术的发展注入新的活力,推动相关领域的研究和应用不断向前迈进。

对于未来,虽然未具体提及拓展计划,但ThinkSound模型在游戏、虚拟现实(VR)/增强现实(AR)等沉浸式场景中的应用前景被广泛看好。随着技术的不断成熟和完善,相信它将为用户带来更加真实、生动的音频体验。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version