ITBear旗下自媒体矩阵:

南开大学联合团队创新:Mutual Forcing让音视频同步生成又快又稳

   时间:2026-05-06 20:09:57 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

南开大学计算机学院联合阿里巴巴通义实验室与北京大学的研究团队,在人工智能音视频生成领域取得突破性进展。他们提出的"Mutual Forcing"框架以预印本形式发表于arXiv平台,通过创新性的双模态训练机制,实现了音视频同步生成效率与质量的双重提升。这项技术突破使实时生成高质量长视频成为可能,单块GPU即可支持每秒30帧的4K分辨率视频输出。

传统音视频生成系统面临三大核心挑战:音画同步精度、生成速度与长序列稳定性。现有技术路线多采用分阶段处理模式,先生成音频再匹配视频或反之,这种串行处理方式不仅效率低下,更导致音画错位问题频发。研究团队通过构建统一的多模态架构,将音频与视频生成模型整合为协同工作的有机整体,在保持参数规模达140亿的情况下,仍实现端到端的同步生成。

该技术的创新性体现在独特的"双阶段训练策略"。初始阶段分别训练音频与视频生成模型,确保各自模态的生成质量;联合训练阶段则通过共享自注意力机制,使两个模型能够实时交互信息。这种设计既避免了初期训练的信号干扰,又保证了后期协同工作的流畅性。实验数据显示,在Panda70M视频数据集与Emilia音频数据集的联合训练下,模型展现出卓越的跨模态理解能力。

Mutual Forcing框架的核心突破在于引入"多步-少步"双模式协同机制。多步模式承担精细生成任务,通过逐步去噪确保内容质量;少步模式则负责快速预测,将传统需要100步的生成过程压缩至4-8步。两种模式共享参数空间,通过自蒸馏技术实现能力迁移:少步模式以多步模式的输出为学习目标,逐步提升快速生成质量;多步模式则利用少步模式生成的历史帧进行训练,增强对不完美输入的鲁棒性。

针对长序列生成中的误差累积问题,研究团队设计了三维旋转位置编码方案。该方案将时间、空间维度信息解耦处理,确保音视频内容在时间轴上的精确对齐。配合流式ASR控制信号与全局文字提示,用户可实现对生成内容的细粒度控制。实验表明,在25秒长视频生成任务中,该技术仍能保持音频内容独特性评分5.41以上、视频美学分数0.46的稳定输出。

性能对比实验显示显著优势:在唇形同步精度方面,8步去噪的Mutual Forcing模型取得6.35分,超越需要100步去噪的OVI模型;语音识别词错误率低至0.11,较对比方法降低35%;音频美学评分在内容独特性等子项均领先。更引人注目的是其推理效率,单块GPU即可实现192×336分辨率实时生成,较传统方法降低80%的算力需求。

人类评估实验进一步验证技术优势。在106份有效问卷中,91.7%的参与者认为Mutual Forcing生成的视频质量显著优于Universe-1方法,在音频对齐与整体观感维度也获得56.5%-67.4%的偏好率。注意力机制分析揭示,该模型在处理历史帧时表现出更均匀的注意力分布,有效避免了对单一关键帧的过度依赖,这是其长序列稳定性的关键所在。

这项研究仍存在改进空间。当前训练数据对复杂场景的覆盖度有限,在多人对话等场景的表现有待提升。研究团队正探索上下文压缩技术与更高效的采样算法,以期在保持质量的同时实现更高分辨率的实时生成。完整技术细节可查阅arXiv编号2604.25819的论文原文。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version