在人工智能领域,一项名为Genie 3的创新技术正引发广泛关注。这款由DeepMind团队研发的最新成果,被誉为最接近“模拟世界”的AI魔法。用户只需简单的语言指令,Genie 3便能实时构建一个动态、可互动的数字世界,其中的角色能够自主互动,水面的波动栩栩如生,甚至能精准记忆一分钟前的细节变化。
作为DeepMind多年研究的集大成者,Genie 3不仅代表了世界模型技术的巅峰,更被视为通向通用人工智能(AGI)和具身智能体的关键桥梁。在最近的一次访谈中,DeepMind的研究科学家Jack Parker-Holder与研究总监Shlomi Fruchter,向公众揭示了Genie 3背后的故事及其技术奥秘。
据介绍,Genie 3是DeepMind两大项目Veo 2和Genie 2合作的产物。它能够根据文本提示,实时生成高度一致且完全互动的数字世界,每秒帧率高达24帧,分辨率达到720p。这一突破性技术不仅提升了世界模拟的真实感和交互性,更为AI智能体的训练提供了无限丰富的环境。
DeepMind团队强调,Genie 3的核心优势在于其强大的记忆能力。它能够保留最长一分钟的空间记忆,使得生成的数字世界在连续交互中保持高度一致。例如,一个角色在墙上刷漆后移动到另一侧,再返回时,之前的刷漆痕迹依然清晰可见。这种特殊记忆能力不仅令人惊叹,更是DeepMind团队精心设计的成果。
除了记忆能力外,Genie 3在物理规律的表现上也取得了显著提升。模型中的物理现象,如水的波动、光照的变化等,都显得异常真实,几乎难以分辨是AI生成还是真实拍摄。这种真实感的提升,得益于DeepMind团队在训练数据规模和深度上的不断优化。
值得注意的是,Genie 3的涌现能力也为其增色不少。在无需专门训练或设计的情况下,模型能够自主学会许多符合人类直觉的行为。例如,角色在靠近一扇门时,模型会推测角色应该打开门;在下坡滑雪时,角色速度会变快;下水后,角色会开始游泳或溅起水花等。这些自然且真实的行为表现,让Genie 3更加接近一个真正的数字世界。
DeepMind团队表示,他们最终将开放Genie 3模型,让更多人有机会体验这一创新技术。同时,他们也承认世界模型距离真正“准确模拟现实世界”还有很大差距。未来,他们将继续致力于提升模型的真实感和交互性,为AI智能体的训练和应用提供更多可能性。