滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

李飞飞出手了！深度解析世界模型分类，揭示AI未来新方向

时间：2026-06-05 02:17:49 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

人工智能领域中，“世界模型”这一概念正引发广泛讨论与争议。不同研究方向的科研人员纷纷宣称在开发世界模型，然而其具体内涵却存在显著差异。斯坦福大学教授李飞飞及其团队针对这一现象，发表了新文章《世界模型的功能分类》，试图为该概念建立清晰的分类体系。

世界模型的技术定义源于强化学习中的部分可观测马尔可夫决策过程（POMDP）框架。在这一框架中，智能体、动作、环境状态和观测信息构成了一个交互闭环。智能体执行动作改变环境状态，但无法直接获取完整的环境信息，只能通过观测获取部分数据，新的观测结果又指导智能体生成新动作，如此循环往复。当前各类被称作世界模型的产品，本质上都是这一闭环的不同实现方式，各自输出闭环中的部分信息。

李飞飞将世界模型划分为三大功能类别。第一类是渲染器，它以像素画面的形式输出可供人类观看的观测信息，核心评判标准是视觉还原度。例如，能够依据文本提示生成电影级航拍画面的视频模型，以及根据用户输入实时生成画面的交互式系统都属于此类。不过，这类模型并不具备对三维结构的显性认知，生成的画面可能仅在特定视角下合理，在其他视角下会出现结构崩坏的情况。

第二类是仿真器，其输出的是在几何、物理和动力学层面贴合客观规律的环境表征。与渲染器不同，仿真器不仅要满足视觉效果，更要保证结构真实性，几何结构需经得起校验，物理规则要符合牛顿定律，物体动力学表现要贴合现实规律。仿真器服务于两类使用者，一方面，建筑师、设计师、影视与游戏开发者等从业者需要精准的环境进行创作；另一方面，强化学习智能体、机器人控制器、自动驾驶等程序将仿真环境当作规模化训练场地，用于测试现实中危险、成本高昂或无法落地的场景。

第三类是规划器，它输出动作指令，依托观测信息与预设目标，给出智能体下一步的行动方案。从逻辑上看，规划器与渲染器互为逆过程。视觉 - 语言 - 动作（VLA）模型、基于模型的控制系统以及新近兴起的世界动作模型（World Action Models）都属于规划器方向，这类系统能够为非结构化环境中的机器人制定行动策略。

尽管三类模型在实际应用中划分明确，但它们底层并非割裂。几何、物理和动力学这套描述客观世界运行逻辑的基础知识，是三者共用的底层原理。理论上，能够从任意视角渲染杯子的模型，也可以仿真杯子被推倒后的状态、规划机械手抓取杯子的动作。当前前沿研究正不断打破三类模型的边界。

在三类模型中，仿真器受到的大众关注度最低，却具备最深远的产业价值。渲染器是商业化落地最成熟的品类，多款文生图、文生视频产品已快速渗透消费级与企业级市场。然而，渲染器以视觉逼真度为优化目标，不追求物理精准性，这成为其能力上限，无法用于建筑设计、机器人训练等需要严谨物理逻辑的场景。规划器发展前景备受期待，但技术尚处在起步阶段，与高速发展的机器人学习领域深度绑定。目前，大多数机器人演示仍局限在条件严苛的实验室环境中，距离在真实场景中稳定运行还有很大差距。不过，资本对规划赛道投入巨大，全行业都在争先攻克相关技术。

仿真技术是衔接渲染与规划的桥梁。掌握仿真能力的模型，既可以把对世界的理解转化为可供人类观看的像素画面，也能为实体智能体预判动作结果。仿真的商业化市场空间十分庞大，英伟达的Omniverse面向工厂、仓储、供应链、数字孪生的潜在市场规模就被公司预估超万亿美元。机器人训练、自动驾驶测试、建筑可视化、工程研发、药物研发等领域，全都离不开仿真技术。但AI领域诸多棘手的待解难题也集中在仿真赛道，如三维数据稀缺、仿真与现实的域差问题、生成式仿真的几何隐患以及多物理场仿真的高算力成本等。

当前，三类模型正在相互融合，实现环境渲染、物理仿真、动作规划所依托的底层世界知识高度同源。例如，多家机器人实验室的研究证实，从理论层面，预训练视频渲染模型可作为环境与动作联合预测的底层基座，用单一模型预判环境变化与对应动作，打通渲染器和规划器的技术壁垒。一些产品已实现单模型同时输出多种数据，打破不同类别模型的界限，全品类产品都在从被动生成输出转向交互式系统。

技术演进的终极形态可能是大一统世界基础模型，单一基座模型既能生成照片级渲染画面、输出符合物理规律的环境结构，又能生成动作序列，可根据下游需求灵活切换输出形式。不过，落地之路仍面临挑战，各类模型数据储备不均衡，优先优化视觉效果可能会损耗机器人、高精度仿真所需的物理精度。在同一套模型架构中平衡各项需求，成为当前世界模型领域最核心的攻关课题。随着三类模型边界的彻底消融，它们将重塑机器智能与客观物理世界的交互关系，推动空间智能完成产业进化，让机器真正理解、构想客观世界，并与之推演、交互。

更多>同类资讯

芯展速孙丹：AI驱动存储长周期缺货，行业刚起步未来潜力无限

07-02

豆包“明星指数榜单”引争议？公关负责人回应：系博主生成非官方

07-02

特斯拉勾勒未来蓝图：900万+车辆在路上能源与AI布局加速推进

07-02

DeepSeek服务遇“小插曲” 官方火速定位原因修复工作正进行中

07-02

脉脉校招数据：AI岗位成校招新引擎，头部城市与技术岗热度双升

07-02

百万售价的AI情感机器人：是孤独解药，还是资本编织的“完美陷阱”？

07-02

核能新突破：瓦拉原子能公司为英伟达AI芯片实现先进反应堆供电

07-02

英伟达新扶持计划：收益分成+信贷支持，为AI初创企业算力“减负”

07-02

三星借量子计算与AI革新光刻技术，2026年验证加速追赶台积电

07-02

特斯拉二季度全球交付量攀升，能源业务与上海工厂表现亮眼引关注

07-02

地瓜机器人Uranus：以帧级闭环革新机器人仿真，开启数据驱动新范式

07-02

天工AI引领全球短剧AI原生时代业务ARR破8亿向10亿迈进

07-02

天工32全新升级：Skywork Tags登场让AI Agent成为团队共享新同事

07-02

优必选发布全尺寸超仿生人形机器人U1系列，首发订单破万开启“人机共生”新十年

6月30日，“人形机器人第一股”优必选举办2026年度全球发布会，发布面向下一个十年的“人机共生”战略，并发布面向消费场景的全尺寸超仿生人形机器人优世界U1系列，包括半身版U1Lite、高配全身版U1 Pr…

07-02

从“卖设备”到“卖能力”：移动机器人行业驶入“能力复用”新赛道

当头部标杆案例积累到足够密度，后续同类场景的交付就不再需要从零开始——前期是在“做项目”，后期是在“做能力”。这不仅是企业的人才储备，更是在为整个行业的“能力复用”构建人力基础——当越来越多的工程师掌握了标准…

07-02

点击查看更多 +

全站最新

TikTok天使投资人领投，灵珠获天使轮融资，开启全民AI创作新时代

天工3.2升级Skywork Tags：Agent入群协作，开启团队共享AI新篇章

灵珠获天使轮融资：降低AI创作门槛，助力非技术人员实现应用开发梦

红旗全新一代天工08预售开启：超国标电池加持，多项升级价格更香！

宝马“寻脉”曲阜：以儒家智慧解码品牌精神，续写新世代篇章

从代工到双冠王：广东大长江如何用23年书写摩托车行业传奇？

热门内容

本栏最新

天工3.2升级Skywork Tags：Agent入群协作，开启团队共享AI新篇章

2027款格瑞维亚焕新登场！豪华座舱+智能升级，打造家庭出行新体验

2027款格瑞维亚焕新登场！7座布局+智能升级，限时权益价23.68万起

2027款丰田格瑞维亚上市！配置升级二排体验提升焕新权益价23.68万起

30万级大六座新选择！智己LS9 Hyper 7月16日上市零百加速3秒级

乐享科技获近5亿Pre-A轮融资，发布“元点Zeroth”开启家庭具身智能新篇

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.