人工智能领域正经历一场新的技术跃迁——从基于文本的大语言模型转向能够理解并模拟物理世界的“世界模型”。这场变革吸引了谷歌、meta等科技巨头竞相布局,而马斯克旗下的xAI也悄然加入战局,试图在下一代AI技术中占据先机。
与传统依赖文字训练的模型不同,世界模型通过分析海量视频和机器人操作数据,试图掌握真实世界的物理规律。例如,谷歌研究人员在最新论文中提出,视频模型可能像语言模型一样,通过“下一帧预测”任务,自发解锁物体分割、工具使用等未经专门训练的能力。这种“涌现能力”被类比为语言模型中的“思维链”,研究人员称之为“帧链”,暗示视频模型可能通过时空推理实现更复杂的智能。
xAI的入局策略颇具针对性。据知情人士透露,该公司已从英伟达挖角两位AI专家Zeeshan Patel和Ethan He,这两人在世界模型领域经验丰富。英伟达凭借Omniverse平台在该领域处于领先地位,而xAI的招聘动作显示其正加速技术积累。目前,xAI的“omni团队”正高薪招募图像和视频生成技术人员,薪资范围高达18万至44万美元,旨在“创造超越文本的AI体验”。
游戏领域成为xAI的首个商业化目标。公司计划利用世界模型生成可交互的3D游戏环境,并已启动相关招聘——以时薪45至100美元招募“视频游戏导师”,训练其AI模型Grok开发游戏。马斯克在社交平台确认,xAI将在“明年年底前发布一款AI生成游戏”,并暗示这些技术未来可能应用于机器人系统。这一路径不仅明确了商业化方向,也凸显了世界模型在虚拟与现实交互中的潜力。
行业对视频模型的期待正达到新高度。谷歌近期论文指出,其视频模型Veo 3已展现出与大语言模型相似的“涌现能力”,例如通过“下一帧预测”任务,零样本实现边缘检测和模拟工具使用。研究人员Jack Clark比喻,这如同自然语言处理从特定任务模型转向通用模型,机器视觉领域可能迎来“视觉领域的GPT-3时刻”。若此预判成立,更智能的视频模型或将催生能力极强的机器人“代理”。
然而,技术突破背后是巨大的挑战。训练世界模型需要处理海量真实世界数据,成本高昂且技术难度极大。例如,模拟物理交互的准确性、数据标注的复杂性,以及模型对动态环境的适应能力,均是当前亟待解决的问题。业界对AI的作用也存在理性反思。游戏开发商Larian Studios的发行主管Michael Douse指出,AI无法解决游戏行业的“核心问题”——领导力和愿景。他强调,行业需要的是对世界的多样化表达,而非“数学方式生产的游戏循环”。
尽管如此,xAI的入局仍为这场竞赛注入新动力。英伟达上月曾预测,世界模型的潜在市场规模可能接近全球经济总量。随着AI焦点从数字信息处理转向物理现实模拟,视觉模型能否复刻大语言模型的辉煌,不仅将决定下一代AI霸主的归属,更可能重塑人类与数字及物理世界的交互方式。这场变革中,技术、商业与创意的碰撞,正推动AI向更复杂的维度演进。