滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

英伟达、南加大与MIT新突破：AI视频生成有了“记忆库”，长视频更稳定

时间：2026-06-07 03:50:51 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能视频生成领域，一个长期困扰研究者的难题是：AI在创作长视频时，常常会“遗忘”自己最初设定的角色特征或场景细节。这种“记忆缺失”导致视频中的主角可能在几分钟内从棕发变成金发，背景中的红色汽车悄然变成蓝色，甚至出现画面扭曲等严重问题。针对这一挑战，英伟达联合南加州大学与麻省理工学院的研究团队提出了一项创新解决方案——LongLive-RAG框架，通过引入智能检索机制显著提升了AI生成长视频的稳定性。

传统AI视频生成系统采用“滑动窗口注意力”机制，仅保留最近几帧作为参考依据。这种设计虽能降低计算复杂度，却导致错误像滚雪球般积累：一旦某帧出现偏差，后续所有内容都会基于错误信息继续生成。研究团队将这种现象类比为“接龙小说创作”——若作者只能参考最近五页内容，随着故事推进，主角特征可能因局部错误描述而逐渐走样。现有解决方案虽尝试通过固定锚点、位置编码改造或历史帧压缩等方式缓解问题，但均存在参考内容不精准、关键细节丢失等缺陷。

LongLive-RAG框架的核心突破在于构建了“双数据库检索系统”。该系统同时维护两个并行数据库：一个存储所有历史片段的压缩检索向量（索引卡），另一个保存原始高清画面。当AI准备生成新片段时，系统会先根据当前内容从索引数据库中快速定位最相关的历史片段，再调取原始画面作为创作参考。这种设计既保证了检索效率，又避免了压缩导致的细节损失。实验数据显示，在生成120秒视频时，该框架仅增加490毫秒计算时间，对整体生成效率影响微乎其微。

为解决检索系统可能过度依赖近期片段的问题，研究团队开发了“窗口时间差异损失”训练方法。该方法通过人为降低相邻帧的相似度权重，迫使系统关注真正具有内容差异的历史时刻。同时引入的“轨迹平滑损失”则确保检索结果随时间变化保持连贯性，避免出现参考内容剧烈跳变的情况。通过可视化热力图分析，研究人员证实这三个训练组件协同作用，使检索系统能够精准识别不同时间节点的关键画面。

在具体工作流程中，AI生成每个新片段前会执行三步操作：首先用最新片段的索引卡检索历史数据库，选出6个最相关原始片段；其次将这些片段与当前记忆窗口内容及视频开头的锚点片段组合成参考资料；最后将完整参考资料输入生成模型完成创作。为防止检索系统“偷懒”重复参考近期片段，系统特别设置了“近期保护区”，自动跳过最近5个片段的检索。这种设计确保了AI既能利用长程历史信息，又能维持视频的局部连贯性。

实证测试覆盖30秒至120秒不同长度视频，采用Causal-Forcing、Self-Forcing和LongLive三种底座模型进行对比。在VBench-Long评估体系中，LongLive-RAG在所有测试组合中均取得最佳表现。以Self-Forcing模型生成120秒视频为例，该框架使主体一致性得分从96.12提升至97.64，背景一致性从95.32提升至96.40，图像质量从61.57提升至64.16。特别值得注意的是，在动态程度指标上，该框架维持了44.10的高分，而采用压缩记忆方案的对比模型在该指标上暴跌至15.23。

消融实验进一步验证了设计决策的科学性。当检索系统随机选择历史片段时，主体一致性得分骤降至94.54；改用简单平均池化描述符后仅提升至94.77；而完整采用三个训练损失的版本则达到95.43。在检索数量测试中，6个历史片段的组合（K=6）被证明是最佳平衡点——当检索数量增至8个时，主体一致性反而下降5个百分点，背景一致性和图像质量也出现明显滑坡。

研究团队特别强调，LongLive-RAG选择在压缩潜空间而非像素空间进行检索，主要基于三方面考虑：潜空间向量与生成模型语言同源，避免语义转换损失；共享编解码器使单个检索编码器可服务多个底座模型；潜空间操作效率远高于实时解码像素级特征。这种设计使框架具有通用性，可无缝集成到不同视频生成系统中。

尽管该框架显著提升了长视频生成质量，但研究人员坦言其效果仍受限于底座模型能力。当底座模型本身存在严重缺陷时，更精准的历史检索也无法实现质的突破。目前完整论文已在arXiv平台公开（编号2606.02553），相关代码同步开源至GitHub（qixinhu11/LongLive-RAG），为视频生成领域研究者提供了新的技术路径。

更多>同类资讯

英伟达开始搞机器人自己研究机器人那套了…

06-21

台积电力推CoPoS技术，玻璃核心基板引领AI芯片封装新变革

06-21

端午假期上海浦东机场“机器人天团”上岗，智慧服务助力旅客便捷出行

在指引旅客提取行李方面，智慧服务机器人可在到达层不间断地巡游，更早提醒旅客，让第一次来浦东机场的旅客更快找到自己行李的方位。其中智能轮椅机器人支持候机楼指定区域内自动驾驶接驳，而且人机交互操作极致简化，旅客只…

06-21

SK海力士亮相HPED 2026：HBM4与CXL内存新品展示AI内存新布局

06-21

吉科职院具身机器人语音识别项目获奖推动职教产教融合迈向新高度

日前，2026吉林省数字经济发展促进大会暨第三届吉林省人工智能大会在长春举办，吉林科技职业技术学院人工智能产业学院携具身机器人语音识别系统应用开发项目亮相，成功获评2026吉林省人工智能及大模型典型应用案例。…

06-21

Take-Two前AI负责人发声：生成式AI热度或被夸大，恐牵连传统AI声誉

06-21

安洁科技正式进军AI眼镜领域依托技术优势推进研发与业务布局

06-21

2026湾区科技节深圳启幕人形机器人领衔尖端AI技术共绘智慧新篇

本次湾区科技节科创氛围浓厚，荣耀人形机器人“闪电”与“元气仔”在现场带来人机互动展演，凭借灵动趣味的智能表现频频获赞，成为全场焦点。店面以“前店后研”的创新运营模式，汇集两百余款前沿智能产品，全方位展示端侧A…

06-20

高通CEO安蒙展望：AI智能体助力，智能眼镜或成下一个手机级市场

IT之家 6 月 20 日消息，当地时间 19 日，据美国 CNBC 报道，高通 CEO 安蒙认为，AI智能体将改变人们使用应用和电子设备的方式。安蒙表示，未来的手机和新型设备都会围绕 AI 智能体重新设…

06-20

高通CEO安蒙：AI智能体赋能，智能眼镜或成未来消费电子新宠与手机比肩

IT之家 6 月 20 日消息，当地时间 19 日，据美国 CNBC 报道，高通 CEO 安蒙认为，AI智能体将改变人们使用应用和电子设备的方式。安蒙表示，未来的手机和新型设备都会围绕 AI 智能体重新设…

06-20

英特尔英伟达强强联手，AMD另辟蹊径，AI PC下半场谁主沉浮？

06-20

13人AI新秀挑战巨头：稀疏注意力突破或开启大模型效率新纪元

06-20

英特尔陈立武勾勒未来蓝图：全面拥抱AI，发力先进封装与材料创新

06-20

沐曦股份彭莉返交大毕业礼：分享“芯”路，寄语学子勇攀芯片产业高峰

06-20

英伟达再放大招：ENPIRE框架让AI agent自主操控机器人做研究

06-20

点击查看更多 +

全站最新

数字技术赋能古老石窟寺：从沉浸体验到智慧调控，文化遗产焕发新生机

钉钉换帅后首封全员信：组织架构大调整，新CEO能否引领转型新征程？

产教融合新篇章！天津仁爱学院携手两企业共筑低空技术与工程产业学院

北京车展“流量王”诞生！比亚迪E3馆人气爆棚明星大咖海外友人齐聚

EFB启停蓄电池：入门级启停车辆的高性价比适配之选

华为沪上发布鲲鹏超节点助力金融行业开启Agentic AI新时代

热门内容

本栏最新

科技赋能社区温情，人文引领生态共建|亲邻科技以创新服务重塑现代社区价值

零跑2027款焕新：从“堆料”到细节打磨，未来能否续写传奇？

比亚迪大唐EV上市：23万级全尺寸SUV新标杆，950km续航+29项全球第一

HDC 2026聚焦鸿蒙生态：AI赋能数字内容，携手伙伴共探商业新路径

长沙启幕！吉利银河星耀7MAX携五大豪华颠覆实力开启美好出行新篇

第十届南博会：AI智能机器人引领服务创新科技助力传统制造业升级

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.