ITBear旗下自媒体矩阵:

苹果携手人大创新突破:VSSFlow模型实现无声视频一键生成逼真音效与语音

   时间:2026-02-10 15:17:58 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

苹果公司与中国人民大学联合研发的VSSFlow人工智能模型,近日在音频生成领域实现重大突破。该模型通过创新性的技术架构,成功解决了传统方案中环境音效与语音生成难以兼顾的难题,能够在单一系统内同时生成与视频画面高度匹配的背景音和清晰人声。

传统音频生成技术存在显著短板:视频转声音模型(V2S)虽能捕捉环境声却难以生成清晰语音,文本转语音模型(TTS)虽可输出标准人声却无法处理复杂环境噪音。此前行业普遍采用分阶段训练方案,将两类模型串联使用,但这种架构不仅增加系统复杂度,更因任务冲突导致性能损耗。VSSFlow团队通过10层神经网络架构与"流匹配"技术的结合,使模型具备从随机噪声中自主重构目标声音信号的能力。

研发过程中,团队意外发现联合训练带来的协同效应。当模型同时接触包含环境音的视频、带字幕的说话视频及纯文本语音数据时,语音训练数据显著提升了环境音效的生成质量,而环境音效数据则优化了语音的自然度。这种数据融合训练方式,使模型能够精准区分不同声音元素的生成逻辑。

在实际运行中,VSSFlow采用双轨处理机制:以每秒10帧的速率提取视频中的视觉特征作为环境音效生成依据,同时通过文本脚本解析控制语音输出的内容与节奏。这种设计使模型既能生成雨声、脚步声等细节丰富的环境音,又能保持对话语音的清晰度和情感表达。

第三方测试数据显示,VSSFlow在环境音自然度、语音清晰度、音画同步率等核心指标上,均超越专门针对单一任务设计的竞品模型。目前研发团队已将完整代码开源至GitHub平台,并正在筹备模型权重公开及在线演示系统的开发工作。这项技术有望为影视制作、游戏开发、虚拟现实等领域提供更高效的音频生成解决方案。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version