阿里通义实验室近日在其官方公众号上宣布了一项重要进展:其首个音频生成模型ThinkSound已正式对外开放源代码,这一创新有望颠覆以往“静默画面”的创作边界。
ThinkSound在音频生成领域首次引入了CoT(思维链)技术,使AI能够逻辑清晰地理解画面事件与声音之间的关联,从而生成高保真、高度同步的空间音频。这不仅仅是“为图配音”,而是让AI真正“理解画面并配音”。
为了训练出能够“逻辑聆听”的AI,通义实验室的语音团队精心打造了AudioCoT数据集,这是首个支持链式推理的多模态音频数据集。AudioCoT汇集了来自VGGSound、AudioSet、AudioCaps、Freesound等多个平台的2531.8小时高质量音频样本,涵盖了从动物叫声到机械运转、环境音效等多种真实场景,为模型提供了广泛的训练素材。
为了确保数据集的质量,研究团队实施了一套严格的数据筛选流程,包括多阶段的自动化质量检查和至少5%的人工抽样验证,以确保每一条数据都能有效支持AI的结构化推理能力。AudioCoT还设计了面向交互式编辑的对象级和指令级样本,以满足ThinkSound在后续细化与编辑功能上的需求。
ThinkSound由两大核心组件构成:一个是擅长“思考”的多模态大语言模型(MLLM),另一个是专注于“听觉输出”的统一音频生成模型。这两个模块的协同工作,使得系统能够分阶段解析画面内容,并最终生成与画面精确匹配的音频效果。这一过程包括理解整体画面、聚焦具体物体以及响应用户指令三个阶段。
据官方介绍,尽管近年来端到端视频到音频(V2A)生成技术取得了长足进步,但在捕捉画面动态细节和空间关系方面仍存在挑战。例如,猫头鹰何时鸣叫、何时起飞,以及树枝晃动时是否伴随摩擦声等视觉与声学之间的关联,往往被忽视,导致生成的音频过于泛化,甚至与关键视觉事件不匹配,无法满足专业创意场景中对时序和语义连贯性的高要求。
这一问题的核心在于,AI缺乏对画面事件的结构化理解,无法像人类音效师那样逐步分析、推理并合成声音。而ThinkSound的推出,正是为了解决这一难题,推动音频生成技术迈向新的高度。