ITBear旗下自媒体矩阵:

谷歌DeepMind推出Genie 3:新一代世界模型,开启实时交互新纪元

   时间:2025-08-06 13:01:50 来源:AI寒武纪编辑:快讯团队 IP:北京 发表评论无障碍通道
 

近日,科技界迎来了一项重大突破,谷歌旗下的DeepMind团队宣布成功研发出第三代通用世界模型——Genie 3。这款模型能够创造出前所未有的多样化交互式环境,用户只需提供简单的文本提示,Genie 3便能生成一个生动的动态世界。

据悉,Genie 3能以每秒24帧的速度实时导航,并以720p的分辨率保持数分钟的环境一致性,为用户带来沉浸式的体验。为了收集宝贵的反馈意见,DeepMind计划以有限研究预览的形式,首先向一小部分学者和创作者开放Genie 3。

DeepMind在模拟环境领域的研究已有十余年的历史,从训练能够玩转即时战略游戏的AI,到为机器人开发开放式学习环境,这些努力都旨在构建强大的世界模型。与前两代模型(如Genie 1/2)以及视频生成模型(如Veo系列)相比,Genie 3实现了质的飞跃。它不仅是第一个允许实时交互的世界模型,还在一致性和真实感上有了显著提升。

Genie 3具备多项卓越特性。它能够模拟世界的物理特性,逼真地展现水流、光影变化以及复杂的环境互动。同时,它还能将用户的想象力转化为可探索的现实,无论是冰川湖畔的生态系统,还是幻想世界中的奇幻场景,都能被Genie 3一一呈现。Genie 3还支持动画和小说建模,用户可以创造富有表现力的动画角色和奇幻场景。

除了强大的模拟能力,Genie 3还突破了实时性能的极限。它能够在每一帧的自回归生成过程中考虑先前生成的随时间增长的轨迹,从而实现高度的可控性和实时交互性。这种能力使得Genie 3能够在用户重新访问某个位置时,引用先前的相关信息,保持环境的一致性。Genie 3还支持可提示的世界事件,用户可以通过文本交互来改变生成的世界,从而增强导航控制的体验。

DeepMind表示,Genie 3的终极目标之一是为具身智能体提供一个无限丰富的训练场。他们已将Genie 3与通用智能体SIMA进行结合测试,通过设定目标并发送导航指令,研究人员观察SIMA在Genie 3生成的世界中如何学习和成长。这种结合为具身智能体的研究开辟了新的道路。

尽管Genie 3取得了显著成就,但它仍存在一些局限性。例如,智能体的直接行动范围仍受限制,难以精确模拟多个独立智能体之间的复杂互动。Genie 3在地理精度和文本渲染方面仍有待提升,生成的文本通常模糊不清,且互动时长目前仅支持数分钟而非数小时。然而,这些局限性并未掩盖Genie 3作为一项重大技术突破的耀眼光芒。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version