在人工智能视频生成领域,长视频的质量与连贯性始终是难以突破的瓶颈。传统方法往往陷入两难困境:要么依赖堆砌算力训练巨型模型,成本高昂且边际效益递减;要么接受生成结果中人物变形、背景错位、动作断裂等缺陷。中国科学技术大学与frameX.AI联合团队提出的Stream-T1框架,通过创新性的推理时优化策略,为这一难题提供了低成本、高效率的解决方案。
该研究的核心突破在于将"流式生成"与"推理时扩展"深度融合。不同于传统方法将视频视为不可分割的整体,Stream-T1采用分段处理模式,将长视频拆解为多个短片段逐个生成。每个片段仅需4步去噪处理,较传统方法减少90%计算量。这种"边生成边优化"的机制,使系统能在生成过程中实时评估画面质量与叙事连贯性,及时纠正偏差。
为确保片段间的自然过渡,研究团队设计了"流式缩放噪声传播"机制。该机制通过球面插值算法,使新片段的初始噪声包含前序片段的优质特征。数学公式显示,新噪声由前序噪声与全新随机噪声按特定比例混合生成,既保持统计分布的规范性,又实现风格特征的渐进传承。实验表明,该设计使相邻片段间的跳跃感降低62%,人物面部特征保持率提升至89%。
双轨评分系统是保障生成质量的另一关键创新。系统同时运行图像奖励模型与视频奖励模型:前者以帧为单位评估画面美观度,后者通过滑动窗口分析跨片段连贯性。动态加权策略根据生成进度调整评分权重——初期侧重连贯性确保叙事方向正确,后期强化画质要求提升单帧品质。这种平衡机制使生成视频在保持动作流畅的同时,关键帧的视觉质量评分提升47%。
针对长视频生成中的记忆管理难题,研究团队提出"流式缩放记忆沉降"方案。系统通过质量门控与场景切换检测双重筛选机制,智能处理被挤出记忆窗口的旧片段:低质量片段直接丢弃,平稳场景片段采用指数移动平均融合更新,场景切换片段则作为独立锚点保存。这种差异化处理策略使内存占用减少58%,同时将主体一致性评分维持在92%以上。
在5秒与30秒视频生成测试中,Stream-T1展现出显著优势。对比当前先进模型,其30秒视频的动作质量提升达114倍,文字对齐度提高9.39%,视觉质量改善49.47%。特别在长视频场景中,传统模型因动作连贯性崩溃导致评分接近零值,而Stream-T1通过持续优化维持稳定表现,形成百分比增幅的特殊现象。消融实验证实,噪声传播、奖励剪枝、记忆沉降三大组件缺一不可,共同构成系统效能的基础。
该研究为AI视频生成领域开辟了新路径。不同于依赖模型规模扩张的传统思路,Stream-T1通过优化生成策略实现质量跃升,在保持1.3B参数规模的基础上,达到甚至超越更大模型的效果。其分段处理机制与动态记忆管理方案,为处理分钟级超长视频提供了技术储备。目前研究团队已开放项目页面与论文下载,相关代码即将在GitHub平台开源。










