谷歌DeepMind团队近日宣布了一项重大突破,推出了一款名为Genie 3的“世界模型”。这款模型能够使AI系统与高度逼真的现实世界模拟进行互动,标志着向通用人工智能(AGI)迈出了关键一步。
据谷歌介绍,Genie 3的潜力巨大,尤其在训练机器人和自动驾驶车辆方面。通过模拟仓库等复杂环境,AI系统可以在其中进行互动学习,从而在实际应用中表现得更为出色。
DeepMind的专家认为,世界模型是实现AGI的必经之路。AGI意味着AI系统能够执行广泛的任务,与人类能力相当,甚至可能取代一些工作岗位。而Genie 3这样的模型,将在开发自主AI代理或系统中发挥核心作用。
与前代模型(如Genie 1/2)和视频生成模型(如Veo 2/3)相比,Genie 3在多个方面实现了飞跃。它是首个允许实时交互的世界模型,相比Genie 2,其模拟的一致性和真实感都有了显著提升。
Genie 3的核心能力包括模拟世界的物理特性,如水流、光影变化以及复杂环境互动。它还能模拟自然世界,将幻想场景转化为可探索的现实。该模型还能创造奇幻的动画场景和富有表现力的角色,让用户能够探索不同地域和历史场景。
在实时性能方面,Genie 3也展现了非凡的能力。它实现了高度的可控性和实时交互性,能够每秒进行多次计算,以响应用户的输入。这意味着用户可以在模拟世界中自由探索,而不用担心模拟的不连贯或延迟。
长时程环境一致性是另一个亮点。为了确保模拟世界的真实感,Genie 3必须在长时间内保持物理上的一致性。这一点对于自动回归生成环境来说尤为困难,因为不准确之处往往会随时间累积。然而,Genie 3在几分钟内都能保持基本一致,为用户提供了更加动态和丰富的体验。
除了基本的导航输入外,Genie 3还支持一种更具表现力的基于文本的交互形式——可提示的世界事件。用户可以通过文本提示改变模拟世界的天气条件或引入新的物体和角色,从而大大增强了用户体验。这种能力还为AI系统提供了从经验中学习的机会,以更好地处理意外情况。
尽管Genie 3取得了显著进展,但谷歌表示它尚未准备好全面公开上市,并未透露具体的发布日期。同时,谷歌也承认该模型存在一些局限性。这一声明发布于人工智能市场竞争日益激烈的背景下。
谷歌强调,世界模型不仅限于AI训练,还能帮助人类体验各种模拟场景。例如,Genie 3能够根据文本提示立即创建滑雪或漫步场景,模拟环境也可以根据用户需求快速更改。谷歌向记者展示了Genie 3创建的滑雪和仓库场景,这些模拟的质量与谷歌最新的视频创作模型Veo 3相当,但持续时间更长。
尽管AGI可能对白领工作构成威胁,但谷歌认为世界模型是开发机器人和自动驾驶车辆的关键技术。通过模拟真实环境和物理规律,AI系统可以在训练中不断学习和优化,从而在实际应用中表现出更高的效率和准确性。