埃隆·马斯克旗下的人工智能企业xAI正式宣布进军世界模型研发领域,与meta、谷歌等科技巨头展开直接竞争。该公司的核心目标是开发能够深度理解物理规律、自主设计并导航复杂环境的下一代AI系统,这一战略被视为突破当前文本生成技术边界的关键尝试。
为实现技术突破,xAI已从英伟达招募多名顶尖研究员,其中包括在世界模型领域具有深厚积累的Zeeshan Patel和Ethan He。这两位专家此前参与的英伟达Omniverse平台开发,正是通过模拟环境训练AI理解真实世界的标杆项目。据内部人士透露,xAI的研发方向将聚焦于构建可生成交互式3D环境的模型,初期应用场景锁定在游戏开发领域,未来计划延伸至机器人控制系统。
马斯克在近期访谈中透露,xAI计划在2026年底前推出"具有划时代意义的人工智能生成游戏"。为支撑这一目标,公司正在组建名为"omni team"的跨模态技术团队,该团队将突破传统文本处理框架,实现图像、视频、音频的协同生成。目前公开的招聘岗位显示,核心技术职位年薪区间达18万至44万美元,同时设有专门训练AI游戏设计系统的"视频游戏导师"职位,时薪45至100美元。
与传统视频生成模型相比,世界模型的技术路径存在本质差异。以OpenAI的Sora为代表的现有技术,主要通过模式识别生成视频帧;而世界模型需要建立对物理因果关系的深度理解,能够实时模拟物体在不同环境中的动态交互。这种技术跃迁被行业视为开启AI实体化应用的关键,英伟达此前向《金融时报》分析称,该领域的市场潜力可能达到全球经济总量规模。
尽管技术前景备受期待,但世界模型的开发仍面临重大挑战。真实世界数据的采集与标注成本高昂,模拟环境的复杂性远超现有训练框架。游戏产业资深人士对此持审慎态度,《博德之门3》发行主管Michael Douse指出,当前行业更需要的是具有创造力的世界观设计,而非单纯依赖数学模型生成的游戏循环。这种观点反映出技术落地过程中可能存在的产业认知差异。
目前xAI的研发进程已进入实操阶段,其构建的模型正在通过视频数据和机器人操作记录进行训练。这种多模态学习方式被认为能够更真实地还原物理世界运行规律,但如何平衡技术可行性与商业应用价值,仍将是决定项目成败的关键因素。