ITBear旗下自媒体矩阵:

港大快手可灵团队革新长视频生成,"记忆载体"技术破解场景一致性难题

   时间:2025-08-26 20:29:53 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道
 

香港大学携手快手可灵团队,在AI视频生成领域取得了突破性进展。双方联合发布了一项名为《以记忆为脉络:基于记忆检索的场景一致交互式长视频生成》的研究成果,创新性地提出了“Context-as-Memory”方法,成功攻克了长视频生成过程中场景连贯性的技术瓶颈。

该研究的核心亮点在于,将视频生成过程中逐步累积的历史上下文视作“记忆”,借助先进的context learning技术,视频生成模型得以深入理解并模仿视频数据的上下文条件,进而在长视频的生成过程中实现前后场景的完美衔接。值得注意的是,这一过程中,模型能够自行学习到视频数据中的3D空间结构,而无需借助额外的3D建模步骤,这一发现与谷歌的Genie3项目有着异曲同工之妙。

为了应对历史帧序列不断增长带来的计算挑战,研究团队巧妙地设计了一种基于相机视野(FOV)的记忆检索机制。该机制能够智能地从历史帧中挑选出与当前生成视频高度相关的帧,作为记忆条件进行参考,从而极大地提升了计算效率,降低了训练成本。通过这一动态检索策略,系统能够根据相机轨迹的FOV重叠关系,精准判断预测帧与历史帧之间的关联程度,有效减少了需要学习的上下文数量,实现了模型训练和推理速度的显著提升。

为了验证这一技术的可行性,研究团队利用Unreal Engine5精心构建了一个包含多样化场景、且带有精确相机轨迹标注的长视频数据集。这一数据集为技术的深入测试提供了坚实的基础。在实际应用中,用户只需提供一张初始图像,即可沿着预设的相机轨迹自由探索由AI生成的虚拟世界,体验前所未有的沉浸式体验。

实验结果显示,“Context-as-Memory”方法在长达几十秒的视频生成过程中,展现出了卓越的静态场景记忆能力,并且在不同场景中均表现出良好的泛化性能。与当前最先进的SOTA方法相比,该技术在长视频生成的场景记忆方面实现了显著的性能提升,即使在未见过的开放域场景中,也能有效地保持记忆的连续性。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version