滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

阿里通义实验室开源音频生成新模型ThinkSound，引领V2A技术革新

时间：2025-07-05 16:07:37 来源：凤凰网科技编辑：快讯团队 IP：北京 发表评论无障碍通道

阿里巴巴旗下的通义实验室近期在音频技术领域迈出了重要一步，正式推出了其首个开源音频生成模型——ThinkSound。这一创新模型的最大亮点在于，它将思维链（CoT）技术首次融入音频生成过程，意在克服现有视频转音频（V2A）技术在理解和表达视频动态细节及事件逻辑方面的局限。

据通义语音团队详细介绍，传统的V2A技术往往难以精确捕捉视频画面与声音之间的时空对应关系，导致生成的音频与视频中的关键事件无法准确同步。而ThinkSound通过引入一种结构化的推理机制，模拟了人类音效师的工作流程：首先，它理解视频的整体内容和场景语义；接着，聚焦于具体的声源对象；最后，根据用户的编辑指令，逐步生成高度逼真且与视频内容同步的音频。

为了训练这一先进的模型，通义实验室构建了一个名为AudioCoT的多模态音频数据集，这是首个支持链式推理的数据集。该数据集包含了超过2531小时的高质量样本，涵盖了多种场景，并特别设计了面向交互编辑的对象级和指令级数据。ThinkSound模型本身由两部分组成：一个多模态大语言模型，负责进行“思考”和推理链的构建；以及一个统一的音频生成模型，负责“输出”最终的声音。

据悉，ThinkSound在多个权威测试中均展现出了优于现有主流方法的表现。目前，该模型已经面向开发者开源，他们可以在GitHub、Hugging Face和魔搭社区等平台上获取相关的代码和模型。这一开源举措无疑将促进音频生成技术的进一步发展和创新，同时也为游戏、虚拟现实（VR）、增强现实（AR）等沉浸式应用场景提供了更多可能性。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

互联网公司提升效率秘籍：电脑桌面监控软件助力揪出“摸鱼”行为

全员告知：在劳动合同补充条款中明确监控范围，员工签字确认隐私保障：仅在上班时间监控办公电脑的操作，午休或下班期间不进行监控数据脱敏：分析报告仅展示聚合数据，避免针对个人“审判”法律红线：依据《个人信息保护法…

07-05

云安区都杨镇无人机应用：智慧治理新路径成效显著

近年来，云安区都杨镇依托省市共建信创产业园，深化与信创企业合作，高位推动“智慧都杨”项目“智建设”“全巡航”“强支援”，切实解决辖区内村居分散、治理力量不足、社会问题多发等痛点难点问题。项目主要通过无人机飞…

07-05

无人机灯光秀点亮重庆永川夜空，上合组织国家电影节盛况空前

7月4日晚上9点，“魅力重庆”无人机灯光秀，2025上合组织国家电影节主题展演，在重庆永川凤凰湖畔举行。5000架无人机以天为幕、以光为笔，带来上合组织国家电影节无人机专场表演，吸引了超10万人现场观看。 …

07-05

美国AI狂撒金，25家创企半年融资超1亿：十大领域最热

07-05

马云低调现身比利时布鲁塞尔，保镖随行引关注

07-05

抖音平台：非遗文化传播与消费的新引擎

报告从五个维度呈现互联网平台的非遗赋能体系，包括扶持传承人、创新传播手段、搭建线上舞台、带动新消费和引领新文旅。在文旅融合方面，非遗成为地方文化标识，带动旅游消费，互联网平台通过构建场景、驱动双向赋能等提升旅…

07-05

数字时代新舞台：抖音引领非遗文化融入生活与消费潮流

本报告以抖音为例，探讨互联网平台如何助力非遗传播与消费。数字时代下，非遗保护进入新阶段，互联网短视频平台构建起全新生态体系，从多维度助力非遗融入现代生活。抖音通过算法推荐、互动机制和产业链接，让非遗突破时空限…

07-05

人机协作新突破：48毫秒感知，为机器人装上“安全雷达”

拿起一个纸抽大小的白色深度相机，褚明轻轻晃了晃说，这是整套系统中唯一的硬件设备，却能让机器人在“零穿戴”的情况下拥有360度全场景视角。研究团队巧妙利用这一特性，构建了一个实时运转的数字孪生世界：相机采集的…

07-05

天津：数字经济新试验场，展现“津式崛起”智慧风采

作为新一批国家数字经济创新发展试验区，天津不断培育壮大平台经济，推动政策创新与头部企业集聚，灵活用工、网络货运、循环经济等领域优势持续巩固，通过技术创新与产业融合，在智能制造、智慧港口、人工智能应用、数字文…

07-05

新职业探秘：从AI动画师到无人机规划师，他们如何引领行业新风潮？

为游客定制旅游路线，确定拍摄地点、拍摄风格、穿衣搭配，帮助游客“出片”，为游客提供情绪价值，记录他们在旅途中最精彩的瞬间，这就是旅拍定制师的工作内容，而这个职业也是今年人社部公示的新工种之一。这也折射出了我…

07-05

吉利银河E5纯电SUV销量突破15万辆，售价10.78万元起

07-05

日产汽车拟出口在华生产车型，N7将登陆东南亚等市场

07-05

奇瑞固态电池：广招人、攻硫化物、2027年量产

07-05

消息称特斯拉已暂停人形机器人Optimus生产计划

07-05

小米回应169元纸巾盒：车规级100℃高温也不怕

07-05

点击查看更多 +

全站最新

互联网公司提升效率秘籍：电脑桌面监控软件助力揪出“摸鱼”行为

云安区都杨镇无人机应用：智慧治理新路径成效显著

无人机灯光秀点亮重庆永川夜空，上合组织国家电影节盛况空前

苹果耐用性测试大揭秘：每台iPhone上市前需经万次“极限挑战”

魅族回归小屏市场，22系列新机剑指iPhone地位

华为苹果领跑！二季度中国智能手机销量预计微增1%

热门内容

本栏最新

无人机灯光秀点亮重庆永川夜空，上合组织国家电影节盛况空前

美国AI狂撒金，25家创企半年融资超1亿：十大领域最热

马云低调现身比利时布鲁塞尔，保镖随行引关注

抖音平台：非遗文化传播与消费的新引擎

数字时代新舞台：抖音引领非遗文化融入生活与消费潮流

人机协作新突破：48毫秒感知，为机器人装上“安全雷达”

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.