ITBear旗下自媒体矩阵:

苹果新模型STARFlow-V:归一化流技术赋能,长视频生成更稳更高效

   时间:2025-12-08 13:21:43 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

苹果公司近日发布了一款名为STARFlow-V的新型视频生成模型,该模型凭借独特的技术路径在行业内引发关注。与当前主流的扩散模型不同,STARFlow-V采用“归一化流”技术,通过建立随机噪声与视频数据间的直接数学映射关系,实现了单次训练即可完成视频生成的目标。这一设计显著提升了长视频片段的稳定性,同时将训练效率提升至新高度。

在性能表现上,STARFlow-V展现出与扩散模型相当的视觉质量与生成速度。尽管其输出分辨率设定为640×480像素,帧率控制在每秒16帧,但通过优化算法架构,模型在处理复杂场景时仍能保持较高的一致性。针对长序列生成中常见的错误累积问题,研发团队设计了双重架构系统:时间序列管理模块负责跨帧协调,细节优化模块则专注于单帧画面处理。这种分工机制有效减少了逐帧生成带来的偏差。

该模型的功能覆盖范围广泛,支持文本转视频、图像转视频(以指定图片作为起始帧)以及视频编辑等多种任务。在处理超长视频时,滑动窗口技术通过保留片段末尾的上下文信息,实现了连续生成的无缝衔接。不过测试数据显示,其演示片段在时间维度上的变化多样性仍有提升空间。为平衡训练稳定性与画面质量,研发人员引入可控噪声注入机制,配合并行运行的因果去噪网络,在消除颗粒感的同时确保运动轨迹的自然流畅。

训练阶段,苹果投入了7000万组文本-视频数据集,并补充400万组文本-图像数据作为辅助。通过语言模型将视频描述扩展为九种变体,模型参数在数周训练期内从30亿扩展至70亿规模。随着参数量的增长,输出分辨率与视频时长同步提升,展现出良好的扩展性。在第三方基准测试VBench中,STARFlow-V取得79.7分的成绩,虽略低于部分顶尖扩散模型,但在空间关系处理与人类动作模拟方面表现出独特优势。

技术团队透露,后续优化方向将聚焦于计算效率提升与物理规律模拟精度改进。通过调整训练数据配比和算法结构,模型有望在保持现有灵活性的基础上,进一步缩小与扩散模型在综合评分上的差距。这种差异化技术路线为视频生成领域提供了新的发展思路,其单次训练生成机制尤其适合对实时性要求较高的应用场景。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version