滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

世界模型：从概念萌芽到技术融合，百亿资本如何押注未来？

时间：2026-05-18 12:16:10 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能领域，“世界模型”这一概念正引发广泛关注。它既出现在视频生成场景中，也在具身智能领域有所涉及，不过不同场景下的含义存在差异，甚至看似是完全不同的概念。这种分歧背后，隐藏着该概念漫长而独特的发展历史。

近期，一篇深度博客系统梳理了“世界模型”概念背后两条独立演进数十年的研究脉络。一条是强化学习社区自1990年代便开启的“让智能体在想象中做梦”的探索，另一条是计算机视觉社区从海量人类视频中学习物理知识的“从观看中学习”路径。直到2024至2025年间，这两条线索才真正交汇，催生出如今所说的“视频世界模型”。

世界模型展现出了强大的潜力。一个机器人从未见过解开鞋带的操作，也没有人远程操控它完成，但它却能俯身抓住鞋带并成功解开。这得益于它经过一个模型的训练，该模型观看了数千小时人类双手操作物品的视频，学会了物体在受力时的运动规律，能在动手前预判后续情况，机器人先在想象中反复练习，再接触现实。这体现了世界模型的核心承诺：构建一个对物理世界理解深入到能预测下一步变化并据此行动的模型，它不同于用文字描述世界的语言模型，也非单纯生成画面的视频生成器。

过去18个月，超100亿美元资金涌入这一概念。众多知名人物和机构纷纷布局，Yann LeCun离开meta投身相关模型构建；Danijar Hafner离开DeepMind将其工作商业化；NVIDIA开源一整套相关系统；OpenAI关闭Sora并转型“机器人世界仿真”，相关团队负责人随后也离开公司。然而，如今被冠以“世界模型”之名的很多东西并非真正的世界模型，该术语如今涵盖范围广泛，包括视频生成器、强化学习的梦境机器等。此次两条研究脉络的汇聚及其效果，正是值得探讨的问题。

两条研究脉络的交汇有着特定的背景。一方面，交互式视频模型自2024年起就已存在，但起初只是狭窄的原型。到2025年，两项突破使将通用高质量视频基础模型改造成既具交互性又能实时运行成为可能，这让视频世界模型从研究走向潜在实用基础设施。另一方面，机器人领域长期面临数据匮乏问题，随着行业开始训练基础模型，对数据的需求愈发迫切。当前优秀机器人基础模型依赖约1万小时远程操控数据，但采集成本高、速度慢且多样性有限。世界模型提供新路径，先在数百万小时人类视频上预训练，再用少量机器人数据微调。不过，整个机器人AI领域的成熟度远低于融资规模所呈现的水平，当前多数生产部署依赖视觉 - 语言 - 动作模型（VLA），不过领先的VLA也开始整合小型世界模型用于子目标规划。世界模型在特定场景成果显著，但通用操作任务仍是难题。

“视频世界模型”源于两条独立发展数十年后交汇的研究脉络。线索A是强化学习世界模型（1990—2025），“智能体应构建内部环境模型”理念早于深度学习，1990年Jürgen Schmidhuber将其形式化用于神经网络，此后沉寂近三十年，2018年David Ha和Schmidhuber重新唤醒该概念，其架构分为三个模块，智能体在自身想象中训练后部署到现实并取得成功。Danijar Hafner在此基础上持续深耕，其RSSM架构解决根本表示问题，Dreamer系列不断扩展，从简单控制到复杂任务，MuZero则另辟蹊径，只预测奖励和价值。该脉络核心理念正确，但存在跨环境泛化问题。线索B是从观看中学习（2016—2025），第一阶段用视频预测规划，第二阶段从人类视频学习表示，第三阶段实现大规模视频生成，各阶段都有重要成果，但在融合前缺乏实时响应动作能力。

2024至2026年间，一系列工作弥合了两条脉络的差距。Genie引入潜在动作模型，从无标签视频学习交互式环境；UniSim在视频世界模型内训练强化学习策略并迁移到真实机器人；Xun Huang团队的技术突破扫除剩余障碍，AR - DiT/CausVid实现视频扩散模型自回归和因果形式，Self Forcing解决速度问题，实现实时交互生成。DreamGen证明视频世界模型可用极少真实数据解锁机器人泛化能力，DreamDojoDreamZero集大成，在评估机器人策略和联合预测未来视频与机器人电机动作方面表现出色。最终形成的视频世界模型，架构上师承视频生成，精神上传承强化学习世界模型。

并非所有视频模型都是世界模型，Xun Huang提出五条属性区分二者，因果性和交互性是硬性约束，持久性、实时性和物理准确性是连续谱系。当前各大系统在这些属性上表现各异。

世界模型有多种用例。自动驾驶仿真最为成熟，Wayve和Waymo等公司用学习型世界模型生成驾驶场景测试自动驾驶策略，该应用已在生产环境落地。娱乐与游戏紧随其后，Decart的Oasis、Genie 3、GameNGen等展示了世界模型在游戏领域的应用，不过服务成本高昂。策略评估是机器人领域近期重要价值所在，DreamDojo实现高皮尔逊相关系数，将世界模型变成机器人行为的单元测试。合成训练数据生成前景可期，但边际价值尚不明朗。样本高效学习在受控环境得到验证，但未在生产环境大规模验证。直接机器人控制缺乏验证，DreamZero虽有成果但未独立复现，同时VLA在快速迭代且不断融合世界模型组件，两种方法并非竞争而是融合。

过去18个月，超100亿美元流入世界模型和机器人AI公司，资金分布在四个层次。纯世界模型公司构建仿真器本身，将世界模型作为组件的机器人基础模型公司融资更多。NVIDIA构建完整物理AI技术栈并全部开源，从视频基础模型到机器人大脑，每层均开源，该策略是为物理AI打造“CUDA”，这对纯世界模型初创公司构成威胁。Yann LeCun和谢赛宁通过AMI Labs押注JEPA架构，与像素预测路线相反，V - JEPA 2取得一定成果，但抽象预测能否优于像素预测尚存争议。

火山引擎总裁谭待也在现场发表演讲，并在媒体交流中分享了对模型能力、产业落地和市场竞争等话题的看法。谭待在大会现场展示，豆包2.1 Pro在 Coding（编程）、Agent（智能体）、VLM（视觉语言模型…

06-25

阿里发布首个原生语言世界模型Qwen-AgentWorld，助力通用智能体能力跃升

智东西6月24日消息，刚刚，阿里千问大模型上新，发布首个原生语言世界模型（LWM）Qwen-AgentWorld，该模型有35B-A3B与397B-A17B两种参数规模。第一个方向是构建智能体环境模拟的基…

06-25

AI从“免费聊天”到“按需付费”：收费时代来临，你的AI还值吗？

GitHubCopilot保持了Pro（$10/月）和Pro+（$39/月）的基础价格不变，但Chat模式和Agent模式等每一次调用都会扣减Credits，这导致重度用户月费可能飙升至数百美元。将用户…

06-25

谷歌Gemini 3.5 Pro发布延期至7月，收集反馈优化模型应对激烈竞争

IT之家 6 月 25 日消息，据 Business Insider 获悉，谷歌下一代前沿人工智能模型的发布时间已推迟至 7 月。知情人士透露，该公司此前称计划在 6 月推出全新的 Gemini 3.5 P…

06-25

亚马逊云科技G2谈AI Agent：数据库需“进化”，灵活策略助企业释放数据价值

06-25

亚马逊推出升级版Zoox自动驾驶出租车：配备星空顶，主打舒适平静

06-25

OpenAI曝出第一颗芯片叫“辣椒”！AI设计，9个月流片

06-25

特斯拉致命事故闹大：美安全运输委员会调查、死者家属提起诉讼

06-25

消息称谷歌Gemini 3.5 Pro发布时间推迟至7月

06-25

小米的9月攻势：玄戒O3、阔折叠，王炸一个接一个

06-25

CounterPoint报告2026Q1中国智能眼镜出货量：小米28%

06-25

用豆包专业版干活后，我承认之前是我说话太大声了

06-25

谷歌再失AI人才，两名Gemini核心骨干转投Anthropic

06-25

正面硬刚特斯拉Optimus，比亚迪二号人物公布“造人”计划

06-25

算力吞噬利润：Momenta冲刺“物理AI第一股”

06-25

点击查看更多 +

全站最新

国旅联合跨境电商：营收超8000万仍亏损，热销单品难掩经营困境？

Segway ZT3 PRO与小米九号平衡车大比拼：哪款体感车才是你的出行良伴？

启境GX7 AI猜想图流出构建新路径或成大五座SUV市场新焦点

赛力斯“链主”引领创新：与伙伴共筑高端新能源产业链新范式

长春光博会启幕：红旗天辇一号飞行汽车亮相绘就“汽车+光电”新蓝图

佑驾创新分拆小竹无人车融资数亿美元，自动驾驶行业“分拆潮”下何去何从？

热门内容

本栏最新

国旅联合跨境电商：营收超8000万仍亏损，热销单品难掩经营困境？

Segway ZT3 PRO与小米九号平衡车大比拼：哪款体感车才是你的出行良伴？

佑驾创新分拆小竹无人车融资数亿美元，自动驾驶行业“分拆潮”下何去何从？

科大讯飞T90系列AI学习机：以智能互动之力，开启孩子全学段学习新征程

科大讯飞P30 Turbo学习机：AI赋能个性化学习，护眼设计助力孩子高效备考

科大讯飞C10C10S学习机：AI精准辅导+护眼设计，全学段智慧学习好帮手

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.