一支跨机构研究团队近日在人工智能领域取得重要进展,推出名为NitroGen的开源基础模型。该模型由英伟达、斯坦福大学及加州理工学院等机构联合研发,其核心突破在于突破传统大型语言模型(LLM)的边界,将大规模训练技术延伸至动作控制领域。研究团队将其视为构建"行动版GPT"的关键尝试,旨在通过统一框架实现跨游戏环境的智能决策。
模型架构基于为机器人技术设计的GROOT N1.5框架,这种设计选择实现了双向技术赋能:既让模型具备处理复杂动作序列的能力,又为机器人领域提供了新的解决方案。研究论文特别强调,开发能在未知环境中自主运行的通用具身智能体,始终是人工智能领域的核心挑战之一。NitroGen的跨领域表现,为应对这一挑战提供了全新思路。
训练数据采集方面,研究团队创新性地使用了超过4万小时的游戏直播实况视频。这些包含玩家实时手柄操作画面的素材,为模型提供了丰富的动作决策样本。通过分析不同游戏类型中的人类操作模式,模型逐渐掌握了"玩家直觉"——这种快速动作控制能力使其在测试中展现出惊人适应性。
实测数据显示,NitroGen成功驾驭了角色扮演、平台跳跃、竞速等2D/3D游戏类型,在程序生成的游戏环境和全新游戏中,其任务完成率较传统模型提升52%。这种跨领域优势源于模型对基础动作模式的深度理解,而非针对特定游戏的优化。研究负责人指出,这种通用性正是区别于传统游戏AI的关键特征。
开发团队选择完全开源的研究路径,公开了预训练模型权重、完整动作数据集及源代码。这种开放策略旨在吸引全球开发者参与优化,特别鼓励游戏开发者、机器人工程师和AI研究者共同探索模型潜力。目前已有开发者尝试将其应用于机械臂控制、自动驾驶模拟等场景,初步结果显示出良好的迁移能力。
尽管首版模型聚焦动作控制领域,但其技术框架已展现出扩展可能性。研究团队透露,后续版本将探索多模态感知融合,使模型能同时处理视觉、听觉及触觉信息。这种发展路径可能催生出更接近人类认知模式的智能系统,为机器人技术、虚拟现实等领域带来变革性影响。











