6月12—13日,被业内称为 “AI界春晚” 的第八届北京智源大会在中关村落幕。当 Tokenmaxxing 时代逐渐走向瓶颈,大模型基准难以再拉开实质差距,行业的目光开始投向更具想象力的下一代基座 —— 世界模型。这场关乎 AI 未来范式的路线之争,也在本次大会上迎来了集中的观点碰撞。
智源研究院院长王仲远在会上明确提出,世界模型是面向真实物理世界的下一代基座模型,核心是从 “预测下一个 Token” 转向 “预测下一个物理状态”。目前全球业界对世界模型的实现路径尚未形成共识,四大技术流派沿着各自的底层逻辑分头突进,构成了当前 AI 前沿领域的核心分野。
语言中心派是当前商业化成熟度最高的路线,依托大语言模型的强推理能力,将视觉、动作等多模态信息映射到语言空间,完成对世界状态的理解与决策,也是当下智能体、具身智能应用的主流技术底座。但语言是对物理世界的高度抽象,无法完整承载空间几何、动力学等物理细节,在真实物理交互场景中容易出现认知偏差。
像素生成派以视频生成模型为代表,通过预测下一帧像素模拟世界演化,视觉表现力突出,在内容创作、游戏场景生成领域商业价值显著。但王仲远在会上直言,视频生成模型并不等于真正的世界模型,它可以生成违背物理规律的画面,视觉的逼真性不代表物理的正确性,难以支撑严肃工业场景的决策。
三维结构派以 3D 重建、数字孪生技术为核心,构建与真实世界精准对齐的几何空间,具备精准的空间尺度一致性,在城市仿真、建筑设计等领域优势明显。但当前多数三维模型仍侧重几何结构还原,对流体力学、材质物理属性等规律覆盖薄弱,尚未实现完整的物理交互推演。
视觉表征派由图灵奖得主杨立昆倡导,不直接预测原始像素,而是预测压缩后的高维视觉表征,在样本效率、泛化能力上表现突出。但视觉层面的自洽,未必能对应真实物理交互的正确性,距离落地真实世界决策场景仍有距离。
四大路线各有侧重,却共同指向同一个行业瓶颈:绝大多数世界模型仍停留在数字世界范畴,未真正锚定真实物理世界的底层规律。本次大会上,“物理 AI” 成为与会嘉宾的核心共识 —— 真正能支撑严肃场景的世界模型,必须以物理一致性为底层准则。
智源研究院发布的悟界・Physis-v0.1 正是这一路线的最新科研成果,支持50+复杂物理场景长程推理,具备物理一致性、动作因果性等四大核心能力,可落地于工业、具身智能、科研等真实场景。产业端也已有玩家提前布局,五一视界依托数字孪生领域的多年积累,将物理规律内嵌于模型推理逻辑,推动物理世界模型在智能驾驶、工业仿真等场景的落地验证。
当前世界模型整体仍处于发展早期,技术路线远未收敛。但从数字世界走向物理世界,从视觉逼真走向物理正确,已是行业明确的演进方向。











