近期,谷歌DeepMind推出的Genie 3模型在人工智能界掀起了轩然大波。这款被誉为有史以来最先进的世界模型之一,仅凭文本输入,就能实时生成一个完全互动且高度一致的世界。
Genie 3不仅是DeepMind多年技术积累的结晶,更是通往通用人工智能(AGI)和具身智能体的关键一步。它通过模拟无限丰富的环境,为AI智能体的训练提供了前所未有的平台。
在一次与a16z的访谈中,谷歌DeepMind的研究科学家Jack Parker-Holder和研究总监Shlomi Fruchter,分享了关于Genie 3的深入见解。这次对话让人们得以窥见这款模型背后的故事和技术细节。
访谈中,两位专家透露,Genie 3是DeepMind两个项目——Veo 2和Genie 2合作的成果。这款模型不仅具备实时互动的能力,而且在世界一致性和真实感上实现了显著提升。
据介绍,Genie 3能够保留最长达一分钟的空间记忆,这意味着用户可以在这个虚拟世界中自由探索,而不会遇到记忆断裂或不一致的情况。物理规律在模型中自然而然地涌现,随着训练数据的增加和深化,这些规律也变得更加准确和真实。
Genie 3的推出并没有一个预设的“终极应用”目标。相反,其应用是在用户使用模型的过程中自然涌现出来的。这种灵活性使得Genie 3能够适用于各种场景,从个人创造游戏世界到训练强化学习智能体,再到机器人研究等。
在生成视频时长、世界一致性、内容多样性以及特殊记忆等方面,Genie 3都实现了突破。尤其是其特殊记忆功能,让虚拟世界中的物体和行为能够保持连贯和一致,即使这些物体在视野中进出。
例如,当一个角色在墙上刷漆时,它会记住之前刷过的痕迹,即使角色移动到墙的另一边再返回,之前的漆痕依然可见。这种细节上的连贯性让Genie 3生成的虚拟世界更加真实和可信。
除了记忆功能外,Genie 3在视觉效果上也取得了显著进步。其生成的虚拟世界不仅分辨率高,而且物理效果逼真,如水的模拟、光照的变化等都非常惊艳。这些进步使得非专业人士也很难分辨出虚拟世界的真伪。
Genie 3还表现出了一些令人惊讶的涌现行为。例如,当角色靠近一扇门时,模型会“推测”角色应该打开门。这种符合人类直觉的行为在模型中得到了一定程度的体现,进一步增强了虚拟世界的真实感。
对于未来,DeepMind团队表示将继续致力于提升模型的真实感和交互性。他们相信,随着技术的不断进步,虚拟世界将越来越接近现实世界,为人工智能的应用开辟更广阔的空间。