斯坦福大学教授、WorldLabs联合创始人李飞飞近日发表长文《从文字到世界:空间智能是AI的下一个前沿》,深入探讨了当前人工智能技术在理解物理世界方面的局限性,并指出空间智能将成为突破这一瓶颈的关键。
李飞飞认为,以大型语言模型为代表的AI系统虽擅长处理抽象知识,却如同在黑暗中摸索,缺乏对三维世界的真实感知。她将空间智能定义为人类理解、导航并与物理环境交互的基础能力,认为这是实现机器真正智能的核心突破口。这种能力不仅关乎视觉识别,更涉及对空间关系、物理规律和动态变化的深层理解。
文章追溯了AI发展的历史脉络,指出自1950年图灵提出"机器能否思考"的问题以来,科学界对智能本质的探索从未停歇。当前生成式AI虽已能生成文本、图像和视频,但在自主机器人、科学发现等需要物理交互的领域仍显不足。李飞飞以自身25年的AI研究经历为例,强调从构建ImageNet数据集到融合计算机视觉与机器人学习的探索,始终围绕着空间智能这一核心。
空间智能在人类认知中扮演着支架角色。李飞飞举例说明,日常停车时的空间判断、消防员在烟雾中的即时决策、儿童通过互动学习世界等行为,都依赖这种直观的空间理解能力。历史上,埃拉托斯特尼计算地球周长、珍妮纺织机的空间革新、DNA结构的物理建模等重大突破,无不展现了空间智能推动文明进步的力量。
当前AI的空间能力虽取得进展,但仍存在根本局限。多模态模型虽能分析图像、生成视频,却在距离估算、物体旋转等基础空间任务上表现不佳。AI生成的视频常因缺乏物理连贯性而迅速失真,机器人操作也仅限于高度受限的环境。李飞飞指出,AI对世界的理解应是整体性的,需通过想象、推理和互动来把握空间关系,而非仅停留在描述层面。
为实现具有空间智能的AI,李飞飞提出构建"世界模型"的愿景。这种新型生成模型需具备三大能力:生成性,即创建几何和物理一致的模拟世界;多模态性,能处理图像、视频、文本等多种输入;交互性,可根据操作预测世界状态变化。她强调,世界模型的维度远超语言模型,需协调语义、几何、动态和物理等多重约束。
WorldLabs的研究团队正致力于攻克相关技术障碍,包括设计通用任务函数、开发大规模训练数据算法、探索3D/4D感知架构等。近期,团队发布了首个可通过多模态输入生成一致3D环境的世界模型Marble,允许用户在创意流程中探索和互动。这一进展标志着AI向空间智能迈出了重要一步,但李飞飞也承认,要实现人类水平的空间理解,仍需克服诸多挑战。
空间智能的发展不仅关乎理论突破,更将催生新型创意和生产力工具。从医疗机器人到沉浸式体验,从材料科学到日常辅助,具备空间理解能力的AI将深刻改变人类生活。随着研究推进,这一领域正吸引越来越多研究者、工程师和商业领袖的关注,预示着AI发展将进入一个全新阶段。












