DeepMind,谷歌旗下的AI研究巨头,最近推出了Genie 3,这一创新成果标志着世界模型技术的一大飞跃。Genie 3不仅能够实时互动,还拥有记忆功能和多样化场景生成能力,允许用户或代理(Agent)通过文本提示创造出可探索的3D虚拟世界。
该技术的核心优势体现在多个方面。首先,其交互时长显著延长,与Genie 2仅能维持10至20秒的世界生成相比,Genie 3支持长达几分钟的持续互动。这一改进使得用户体验更加流畅和沉浸。
其次,Genie 3引入了持久的“记忆”功能,确保用户在离开虚拟环境后,场景中的元素(例如墙壁上的标记、物体的位置)仍能保持不变。这一特性大大增强了模拟环境的真实感,使用户感受到更加连贯和真实的虚拟体验。
Genie 3还支持通过新的文本指令实时改变场景内容,如天气变化或添加新角色等。这种Promptable事件的功能为用户提供了前所未有的灵活性和创造力,使他们能够根据自己的需求实时调整虚拟世界。
在技术规格方面,Genie 3也实现了显著提升。它支持720p分辨率和24帧每秒的实时渲染,能够生成从城市街景到耳语雪地等多种风格的场景。这些技术升级为用户提供了更加清晰和流畅的视觉效果。
DeepMind强调,Genie 3在实现通用人工智能(AGI)的道路上迈出了关键一步。它特别适用于训练具备“具身智能”的AI代理,这些代理能够在虚拟环境中进行复杂的交互和学习。因此,Genie 3在机器人训练、自动驾驶模拟、教育和虚拟创意等领域具有广泛的应用前景。
目前,Genie 3仍处于限制性研究预览阶段,仅向部分学术机构和创作者开放测试。DeepMind表示,他们计划在未来逐步扩大访问范围,以满足更多用户的需求。然而,尽管取得了显著进展,Genie 3仍面临一些挑战,如场景复杂性、代理的实际行为模型以及长期记忆的优化等。