“AI教母”李飞飞参与创立的初创公司World Labs近日宣布完成新一轮10亿美元融资,投资者阵容包括芯片行业巨头英伟达、AMD,知名投资机构A16Z以及软件企业欧克特等。这家公司此前在隐身模式运营一年多后,已获得2.3亿美元初始资金,此次再度获得资本青睐,引发业界对空间智能技术的高度关注。
李飞飞团队的核心突破在于将传统二维视觉认知升级为三维空间理解。其推出的商业产品Marble通过输入照片、视频、文字描述或3D草图,即可生成可编辑、可导出的完整虚拟世界。该模型突破了传统视频生成工具的局限,不仅支持精确的摄像机控制,还能呈现物体背面和底部的细节,并搭载高斯泼溅技术确保视觉真实性与几何信息并存。
在应用场景中,Marble展现出强大的创作能力。以客厅照片为例,系统能自动还原沙发位置、窗户光线等物理特征,生成可360度观察的场景。尽管边缘处理仍存在优化空间,但整体效果已达到实用标准。该系统特别设计的Chisel三维编辑器,允许用户通过结构搭建与文字描述相结合的方式生成场景——输入“奶酪房间配葡萄座椅”等指令,系统会自动填充视觉细节,这种结构与风格分离的设计理念借鉴了网页开发的分层模式。
针对大型场景需求,Marble开发了场景扩展功能。当用户接近场景边界时,系统可自动生成衔接环境;通过作曲家模式,还能将多个独立场景无缝拼接。这些特性使其区别于传统实时渲染的世界模型,生成的三维环境具有持久性,可导出为标准文件格式,直接接入游戏引擎或VR设备进行二次创作。
李飞飞将这项技术定义为“空间智能”,认为其与大语言模型形成互补:前者赋予机器观察与建造能力,后者侧重阅读与写作。她指出,当机器理解物体在三维空间的互动规律,其应用将突破娱乐领域,深入科学研究和医疗实践。这种技术愿景与图灵奖得主杨立昆的研究路径形成鲜明对比——后者专注开发预测式世界模型,强调在抽象空间中学习物理规律,更适用于机器人控制与因果推理。
两位顶尖科学家的分歧体现在技术路径选择上。李飞飞体系追求高保真视觉呈现与创作自由度,通过生成持久性三维环境服务虚拟制作;杨立昆方案则侧重底层逻辑建模,通过预测世界变化规律提升机器人决策能力。这种差异本质上是视觉导向与认知导向的技术路线之争。
在近期访谈中,李飞飞从哲学层面阐释了技术命名初衷。她认为世界既包含物理空间的几何规则,也涵盖思维层面的逻辑流动。这种双重定义贯穿其技术理念——在开发Marble时,团队始终将人类尊严置于核心位置,强调AI应作为创作者、医疗工作者的辅助工具,而非替代者。这种技术伦理观,与其推动空间智能发展的目标形成有机统一。











