ITBear旗下自媒体矩阵:

世界模型新赛道:李飞飞Marble与谷歌Genie 3,技术路径分野下的探索

   时间:2025-09-19 19:21:37 来源:小AI编辑:快讯团队 IP:北京 发表评论无障碍通道
 

生成式AI领域正经历一场技术范式的转变,从文本与图像生成向"世界模型"方向加速演进。这种新型AI系统不再满足于静态内容输出,而是试图构建对物理世界的完整认知体系——既能理解"世界当前的状态",也能预测"未来可能的变化"。行业观察者指出,世界模型正在成为科技巨头与初创企业争夺的下一个战略高地。

在硅谷的实验室里,两条截然不同的技术路径正在形成。由李飞飞团队创立的World Labs推出的Marble系统,选择从空间智能切入。这个尚在测试阶段的工具能通过单张图片或文字描述,生成具有严格几何一致性的三维虚拟环境。用户在其中探索时,会发现建筑结构保持稳定,不会出现传统3D建模中常见的形变或消失现象。创作者已用它构建出海底世界、奇幻森林等复杂场景,支持从动漫到写实的多种视觉风格。

资深AI开发者Jason在体验后指出,Marble的突破性在于重构了空间生成逻辑。"它用十分钟就能构建出包含物理结构的完整空间,虽然当前版本的光影效果和细节精度有限,但开辟了空间合理性研究的新方向。"这种非实时生成但可实时探索的特性,使其更适合舞台设计、影视预演等需要稳定空间框架的场景。

与Marble的空间叙事不同,谷歌DeepMind的Genie 3项目聚焦交互逻辑的推演。这个系统能根据文本提示生成动态环境,以24帧/秒的速率运行数分钟。其核心技术在于通过视频训练自动推断交互规则——当输入游戏截图或火柴人草图时,系统能识别玩家角色并预测哪些元素可互动。这种"规则引擎"式的特性,使其更接近交互物理模拟器的定位。

两种技术路线的差异引发行业热议。有投资人形象地将Marble比作"舞台布景师",Genie 3则是"规则设定者"——前者提供静态空间容器,后者赋予动态生命力。这种互补性暗示着完整虚拟世界的构建可能需要双重技术的融合:既要有稳定的空间基础,也需要可信的交互逻辑。

在商业化路径上,不同机构展现出差异化战略。World Labs获得a16z等顶级风投的支持,其空间智能技术被视为下一代虚拟环境构建的平台级机会。而谷歌通过Genie 3巩固其在具身智能领域的前沿地位,为通用AI研究提供基础设施。从应用场景看,Marble的技术更贴近影视、游戏等内容生产行业,Genie 3则偏向科研与前沿探索。

中国创业者的实践提供了另一种可能。极佳科技凭借在自动驾驶仿真领域的技术积累,推出了世界模型平台GigaWorld。这个系统能生成开放仿真环境,已应用于车企的虚拟测试。联合创始人朱政指出,不同领域对世界模型的需求存在显著差异:计算机视觉领域关注视频连贯性,强化学习需要逼真决策环境,具身智能则强调环境理解能力。

这家中国公司的产业化路径分为三个阶段:首先通过数据生成降低真实采集成本,继而构建闭环仿真环境提升训练效率,最终发展出具备推理能力的下一代视觉-语言-动作模型。相比大厂的科研导向,中国企业的优势在于直接对接自动驾驶、工业仿真等明确市场需求,形成技术-场景的快速闭环。

但产业化进程仍面临多重挑战。生成和训练世界模型所需的算力成本高昂,创业公司难以长期承担;行业尚未建立统一的技术标准,不同技术路线之间缺乏可比性。这些因素使得世界模型的商业化道路充满不确定性,却也预示着这个领域将诞生更多创新可能。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version