滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

南开大学联合团队创新：Mutual Forcing让音视频同步生成又快又稳

时间：2026-05-06 20:09:57 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

南开大学计算机学院联合阿里巴巴通义实验室与北京大学的研究团队，在人工智能音视频生成领域取得突破性进展。他们提出的"Mutual Forcing"框架以预印本形式发表于arXiv平台，通过创新性的双模态训练机制，实现了音视频同步生成效率与质量的双重提升。这项技术突破使实时生成高质量长视频成为可能，单块GPU即可支持每秒30帧的4K分辨率视频输出。

传统音视频生成系统面临三大核心挑战：音画同步精度、生成速度与长序列稳定性。现有技术路线多采用分阶段处理模式，先生成音频再匹配视频或反之，这种串行处理方式不仅效率低下，更导致音画错位问题频发。研究团队通过构建统一的多模态架构，将音频与视频生成模型整合为协同工作的有机整体，在保持参数规模达140亿的情况下，仍实现端到端的同步生成。

该技术的创新性体现在独特的"双阶段训练策略"。初始阶段分别训练音频与视频生成模型，确保各自模态的生成质量；联合训练阶段则通过共享自注意力机制，使两个模型能够实时交互信息。这种设计既避免了初期训练的信号干扰，又保证了后期协同工作的流畅性。实验数据显示，在Panda70M视频数据集与Emilia音频数据集的联合训练下，模型展现出卓越的跨模态理解能力。

Mutual Forcing框架的核心突破在于引入"多步-少步"双模式协同机制。多步模式承担精细生成任务，通过逐步去噪确保内容质量；少步模式则负责快速预测，将传统需要100步的生成过程压缩至4-8步。两种模式共享参数空间，通过自蒸馏技术实现能力迁移：少步模式以多步模式的输出为学习目标，逐步提升快速生成质量；多步模式则利用少步模式生成的历史帧进行训练，增强对不完美输入的鲁棒性。

针对长序列生成中的误差累积问题，研究团队设计了三维旋转位置编码方案。该方案将时间、空间维度信息解耦处理，确保音视频内容在时间轴上的精确对齐。配合流式ASR控制信号与全局文字提示，用户可实现对生成内容的细粒度控制。实验表明，在25秒长视频生成任务中，该技术仍能保持音频内容独特性评分5.41以上、视频美学分数0.46的稳定输出。

性能对比实验显示显著优势：在唇形同步精度方面，8步去噪的Mutual Forcing模型取得6.35分，超越需要100步去噪的OVI模型；语音识别词错误率低至0.11，较对比方法降低35%；音频美学评分在内容独特性等子项均领先。更引人注目的是其推理效率，单块GPU即可实现192×336分辨率实时生成，较传统方法降低80%的算力需求。

人类评估实验进一步验证技术优势。在106份有效问卷中，91.7%的参与者认为Mutual Forcing生成的视频质量显著优于Universe-1方法，在音频对齐与整体观感维度也获得56.5%-67.4%的偏好率。注意力机制分析揭示，该模型在处理历史帧时表现出更均匀的注意力分布，有效避免了对单一关键帧的过度依赖，这是其长序列稳定性的关键所在。

这项研究仍存在改进空间。当前训练数据对复杂场景的覆盖度有限，在多人对话等场景的表现有待提升。研究团队正探索上下文压缩技术与更高效的采样算法，以期在保持质量的同时实现更高分辨率的实时生成。完整技术细节可查阅arXiv编号2604.25819的论文原文。

更多>同类资讯

斯坦福等高校联合研究：AI作图难题获突破，训练效率与质量双提升

05-06

高盛报告：AI智能体经济拐点将至，成本与利润曲线重塑行业未来

05-06

李飞飞联创AI游戏公司Astrocade：5600万美元助力，游戏创作零门槛时代来临

05-06

CLA反哺全球显成效奔驰深耕中国加速电动化与智能化转型

以CLA为代表的中国研发成果，引领反哺全球市场！

05-06

苹果iOS 27重大更新：引入第三方AI模型，打破Siri等系统功能封闭生态

05-06

小米REDMI新机来袭：7英寸2K屏配3nm芯片，万级大电池年底登场

05-06

小米REDMI新机或年底亮相：3nm芯片搭配万级大电池国产手机大电池混战将启

05-06

苹果iOS 27新功能来袭：开放第三方AI模型选择构建多元AI生态

05-06

苹果iOS 27即将亮相WWDC：七大新功能革新体验智能升级引领潮流

05-06

华为5月7日海外新品发布会来袭，nova 15 Max携大电池等配置亮相

05-06

小米首款增程全尺寸SUV“SKYNOMAD”谍照流出，家庭市场新选择下半年发布

PChome5月6日消息，据博主@SugarDesign在微博上展示了疑似小米首款增程全尺寸SUV“SKYNOMAD（寻天）”的低伪装路试谍照，新车内部代号为“昆仑N3”，定位低于小米主汽车品牌，不使用小米车…

05-06

Claude新功能Orbit曝光：主动AI助手，开启工作无缝对接新体验

05-06

智屏“三位一体”生态构建大屏营销新范式，助力品牌破圈增长有新招

05-06

家居消费新选择：上海实体展厅如何成为“信任”与“品质”的双重保障

05-06

雷军：新一代SU7锁单已超80000台

05-06

点击查看更多 +

全站最新

CLA反哺全球显成效奔驰深耕中国加速电动化与智能化转型

小米首款增程全尺寸SUV“SKYNOMAD”谍照流出，家庭市场新选择下半年发布

智屏“三位一体”生态构建大屏营销新范式，助力品牌破圈增长有新招

家居消费新选择：上海实体展厅如何成为“信任”与“品质”的双重保障

云南电网携手华为SPN：数智赋能，打造电力通信新“高速路”

上海非织造布展：科学布局展位空间精准视觉营销助力品牌破圈

热门内容

本栏最新

家居消费新选择：上海实体展厅如何成为“信任”与“品质”的双重保障

48天锁单破8万！小米SU7用销量实力回击质疑

小米电动平衡车双雄登场：2026款与mini款，哪款更适合你的出行需求？

小米新一代SU7：48天锁单破8万，日均新增超1600台，市场热度持续攀升

2026Q1中国学习平板市场：作业帮稳居榜首，中端AI机型成市场新宠

2026北京车展：科大讯飞以星火大模型领航智能座舱新未来

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.