谷歌DeepMind在人工智能领域再次迈出重要一步,昨日宣布推出其最新的通用世界模型——Genie 3。这一创新成果标志着首个可实时交互的世界模型的诞生,为用户带来了前所未有的沉浸式体验。
据DeepMind介绍,Genie 3能够基于文本提示,以每秒24帧的速度、720p的分辨率,生成长达数分钟的交互式3D环境。与之前的版本Genie 2相比,Genie 3的生成时长有了显著提升,从原来的10到20秒跃升至数分钟,为用户提供了更加丰富的互动体验。
在生成的3D环境中,Genie 3展现出了惊人的一致性和真实感。无论是机器人本体的细节呈现,还是周围环境的质感表现,都比前代有了显著提升。这一进步得益于DeepMind在模型架构和算法上的不断创新,使得Genie 3能够更好地理解和模拟现实世界的物理特性和自然规律。
DeepMind在官方博客中展示了Genie 3的多个生成案例,这些案例充分展示了其在模拟世界物理特性、模拟自然世界、生成动画和小说建模等方面的强大能力。研究人员还将Genie 3应用到了具身Agent的研究中,通过指示Agent向Genie 3发送导航操作,成功实现了在虚拟环境中完成特定任务的目标。
与之前的版本相比,Genie 3不仅在生成时长上有了显著提升,还在交互性和应用场景上实现了突破。用户可以实时地与生成的3D环境进行互动,探索未知的地方或过去的时代,这种体验在之前的版本中是无法想象的。Genie 3还支持基于文本的交互形式,用户可以通过输入文本指令来改变已经生成的世界,如改变天气条件、引入新物体等。
然而,DeepMind也坦诚地指出了Genie 3目前存在的局限性。例如,行动空间有限,Agent可直接执行的操作范围受到限制;准确建模多个独立Agent之间的复杂交互仍然是一个挑战;无法以完美的地理精度模拟真实世界的位置;文本渲染效果依赖于输入世界描述的质量;以及交互时长有限,目前仅支持几分钟的持续交互。
尽管存在这些局限性,但DeepMind对Genie 3的未来充满了信心。他们表示,将以有限研究预览版的形式发布Genie 3,为学者和创作者提供早期使用机会,并期待从他们那里收集重要的反馈和跨学科视角。这一举措将有助于DeepMind进一步完善Genie 3,推动其在更多应用场景中的落地和实现。
业内专家和网友对Genie 3的发布给予了高度评价。他们认为,这一成果在人工智能领域具有里程碑式的意义,将为机器人、自主系统等领域提供宝贵的训练空间和评估平台。同时,Genie 3在VR、电视互动节目等应用场景中也展现出巨大的潜力,有望为用户带来更加沉浸式的互动体验。