ITBear旗下自媒体矩阵：

滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

通义AI“音效师”：阿里开源首个音频模型ThinkSound

时间：2025-07-04 20:26:33 来源：凤凰网科技编辑：快讯团队 IP：北京 发表评论无障碍通道

讯 7月4日，阿里通义实验室宣布开源首个音频生成模型ThinkSound。该模型首次将思维链（CoT）技术应用于音频生成领域，旨在解决现有视频转音频（V2A）技术对画面动态细节和事件逻辑理解不足的问题。

根据通义语音团队介绍，传统V2A技术常难以精确捕捉视觉与声音的时空关联，导致生成音频与画面关键事件错位。ThinkSound通过引入结构化推理机制，模仿人类音效师的分析过程：首先理解视频整体画面与场景语义，再聚焦具体声源对象，最后响应用户编辑指令，逐步生成高保真且同步的音频。

图源：通义大模型微信公众号

为训练模型，团队构建了首个支持链式推理的多模态音频数据集AudioCoT，包含超2531小时高质量样本，覆盖丰富场景，并设计了面向交互编辑的对象级和指令级数据。ThinkSound由一个多模态大语言模型（负责“思考”推理链）和一个统一音频生成模型（负责“输出”声音）组成。

ThinkSound 音频生成模型的工作流

据悉，ThinkSound在多项权威测试中表现优于现有主流方法。该模型现已开源，开发者可在GitHub、Hugging Face、魔搭社区获取代码和模型。未来将拓展其在游戏、VR/AR等沉浸式场景的应用。

以下附上开源地址：

https://github.com/FunAudioLLM/ThinkSound

https://huggingface.co/spaces/FunAudioLLM/ThinkSound

https://www.modelscope.cn/studios/iic/ThinkSound

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

抖音副总裁李亮：禁止16岁以下直播并非新规已实施多年

07-04

吉利熊猫车型服务迁移至吉利银河App

07-04

太原天空现“瀑布云”，飞机穿梭其间如“穿云箭”美景

07-04

《星空2》外星文明概念图曝光：B社员工简历意外泄露游戏新设定

07-04

天府绛溪实验室“天绛·诸葛”大模型备案通过，赋能多元智能场景

记者了解到，“天绛·诸葛”大模型通过备案后，其实际应用价值将在多个领域逐步显现。值得一提的是，机器狗领域的突破并非终点——中心还计划将“天绛·诸葛”大模型延伸至无人机、人形机器人等更多智能设备领域，通过技…

07-04

志海俱乐部：金融科技先锋，共绘互联网金融新蓝图

这是一支汇聚多元智慧的新时代互联网金融团队，成员来自五湖四海，跨越金融、科技、教育等多个行业领域，志海俱乐部成员在全球人数超过10万+，不同的专业背景与人生阅历在此交融碰撞，为俱乐部注入源源不断的活力与创造力…

07-04

百度搜索大改版：从信息检索迈向智能生活伙伴的新征程

这种设计模糊了搜索与创造的界限，用户在搜索过程中就能直接调用这些工具，完成从想法到内容的转化，这无疑大大提升了搜索的效率和实用性。其次，其多媒体输出能力得到极大丰富，全面支持图片、视频、笔记等内容的混合排版，…

07-04

天府绛溪实验室“天绛·诸葛”大模型通过备案，赋能多领域智能化发展

同时，基于“天绛·诸葛”大模型，先进计算中心正在构建智能体矩阵AIMatrix，研发或引入市场各类专业智能体进行联合运营，打造多智能体社区生态，现已集成93个智能体。基于“天绛·诸葛”大模型，天府绛溪实…

07-04

敬业集团领跑智能制造，入选河北智能工厂名单，炼钢技术再升级

近年来，依托工业互联网、人工智能等技术，敬业集团推动钢铁生产全流程智能化改造。在炼铁、炼钢、轧钢等核心工序，实现了焊标、高炉平台巡检、打捆贴标等70余个3D岗位的机器换人；建成了高炉专家系统、加热炉智能烧炉…

07-04

抖音达人合作全攻略：五大靠谱渠道助你高效对接

三、合作达人时注意这些坑不要光看粉丝量，要看播放量+互动率；合作前最好签个简单的合作协议，包括发布时间、内容形式、结算规则等；尽量先小单测试，合作满意后再放量；如果是带货，记得监控成交数据，防止“播放好看却…

07-04

字节跳动布局AI创意领域，申请“即梦灵感助手”商标

南方财经7月4日电，天眼查财产线索信息显示，近日，北京字跳网络技术有限公司申请注册“即梦灵感助手”商标，国际分类为通讯服务、网站服务，当前商标状态均为等待实质审查。此前，该公司已申请注册“即梦”“即梦AI迷你…

07-04

微软大裁员9000人，Xbox业务放缓被指为主要原因

【综合报道】据外媒7月4日报道，微软本周宣布启动大规模裁员计划，全球范围内将削减9000个岗位，其中位于其总部所在地华盛顿州的830名员工率先受到影响。外媒指出，尽管微软2025年第一季度财报显示…

07-04

百度搜索大升级，智能框与结构化内容引领搜索新体验

什么才叫“带来体验革命的 AI搜索”，有人说是全面升级的自然语言理解能力；有人说是多模态交互，打破输入与输出内容的限定；也有做法是跳过信息呈现环节，直接接管用户决策，于是我们看到越来越多的App 集成了…

07-04

杨立昆谈Meta挖人：Meta因“开源”比OpenAI更具道德优势

他主导的Meta AI实验室以开放研究著称，公开发布代码和成果，推动行业技术共享。近日，杨立昆在社交平台间接回应了Meta声势浩大的“挖人”操作，他觉得Meta起码比OpenAI有道德优势，因为“开源”。…

07-04

内燃机牵手工业互联网，全柴动力打造智能制造新典范

中新网滁州7月4日电 (孔令佑储玮玮)在全柴天和机械生产车间里，11个5G室内分布系统正实时“分拣”着五条生产线的数据流，工人们无需离开工位，通过面前的电子面板就能完成信息交互。基于自身的发动机制造经验与…

07-04

点击查看更多 +

全站最新

华为7英寸大屏中端机将至，红米K90Pro曝光搭载潜望长焦

荣耀Magic V5深度评测：顶级配置下的折叠屏新体验，市场接受度几何？

夏日iPhone发烫？官方：无“制冷模式”，网友误解轻App功能

高温天iPhone发烫咋办？苹果客服教你正确降温方法

LG手机谢幕：正式宣布终止软件升级，全面退出智能机领域

高温天iPhone发烫怎么办？苹果客服教你正确降温方法

热门内容

本栏最新

吉利熊猫车型服务迁移至吉利银河App

太原天空现“瀑布云”，飞机穿梭其间如“穿云箭”美景

《星空2》外星文明概念图曝光：B社员工简历意外泄露游戏新设定

天府绛溪实验室“天绛·诸葛”大模型备案通过，赋能多元智能场景

志海俱乐部：金融科技先锋，共绘互联网金融新蓝图

百度搜索大改版：从信息检索迈向智能生活伙伴的新征程

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.