AI领域迎来突破性进展——“AI教母”李飞飞创办的World Labs公司,近日在社交平台X上宣布推出名为RTFM(Real-Time frame Model)的实时帧模型。该模型仅需单块英伟达H100 GPU,即可实现与用户实时交互的同时,完成高保真3D世界的动态渲染。
传统世界模型发展面临的核心瓶颈在于算力需求。据World Labs披露,现有生成式世界模型的计算复杂度远超大语言模型。以60帧/秒生成4K交互视频流为例,每秒需处理超10万个token,持续一小时则需管理超1亿token的上下文。作为对比,OpenAI的Sora虽具备部分世界建模能力,但据Factorial基金会估算,其峰值运行需72万块H100 GPU集群支持。
RTFM的突破性在于将硬件需求压缩至单GPU级别。该模型通过四项核心技术实现效率跃升:其一,采用优化的神经网络架构与推理技术,在资源受限条件下维持输出质量;其二,引入自回归扩散Transformer架构,该架构在视频生成领域表现卓越,可高效预测帧序列;其三,部署空间记忆技术,通过三维姿态建模保持大场景几何一致性;其四,创新上下文切换机制,实现历史帧数据复用,避免重复计算。
技术团队特别强调,RTFM的持久化建模能力是其核心优势。系统构建的3D世界具有时间连续性,场景元素不会因视角切换而消失,且能精准呈现反射、光滑表面、阴影等复杂视觉效果。更值得关注的是,该架构采用端到端学习范式,无需依赖显式3D建模,直接从海量视频数据中自主学习空间规律。
与仿真系统及传统视频生成模型相比,RTFM展现出本质差异。仿真依赖人工预设环境规则,缺乏自适应能力;视频生成模型仅能单向输出内容,无法理解环境动态。而世界模型通过AI与环境的交互,持续学习环境规律,既能生成逼真场景,又可为智能体提供决策依据。这种特性使其在媒体制作、机器人训练等领域具有变革潜力。
研发团队在博客中指出,AI发展应避免过度依赖人类知识注入。历史经验表明,短期有效的知识嵌入会阻碍系统长期进化。随着计算能力提升,基于自主学习与搜索的技术路线将展现更强生命力。RTFM的架构设计正体现这一理念,其可扩展性确保模型性能可随算力增长持续提升。