在AI技术飞速发展的当下,谷歌最新推出的Project Genie项目引发了广泛关注。这款基于世界模型的创新应用,一经发布便在社交媒体上掀起热潮,谷歌DeepMind官方推特在短短十二小时内就收获了四千多次转发、近两万点赞和一万次收藏。
Project Genie并非横空出世,其底层模型可追溯至去年八月谷歌发布的世界模型Genie 3。此次谷歌将Genie 3与Nano Banana Pro技术相结合,实现了可玩性的大幅提升。与传统的视频模型不同,世界模型致力于构建一个可交互、无限生成的物理世界,类似于无边界版的《我的世界》。
根据谷歌官方介绍,Project Genie的功能主要分为三大模块:世界草图、世界探索和世界再合成。用户只需输入场景提示词和角色提示词,Nano Banana Pro便会生成画面草图,供用户选择视角和视觉效果。随后,Genie 3会实时生成可探索的物理世界。用户还可以基于已有提示词,对世界进行进一步修改和定制。
在官方示例中,当输入"一个有很多珊瑚的海底世界"作为场景提示词,"一只金鱼"作为角色描述时,系统迅速生成了一个栩栩如生的海底世界。更令人惊叹的是,用户还可以上传日常生活照片,让静态画面瞬间动起来,效果堪比热门游戏《双人成行》。用户可以随时中断当前世界,仅更换角色或背景,操作自由度极高。
从官方展示的案例来看,Project Genie不仅在画面精细度上有显著提升,还解决了以往世界模型中常见的场景崩溃和操作卡顿问题。然而,一些用户在实际测试中发现了更多令人兴奋的功能。例如,系统能够准确模拟烟盒和纸屑的碰撞效果,展现出对物理规律的深刻理解。还有用户利用该技术创建了极具挑战性的游戏关卡,其难度不亚于曾经风靡B站的《掘地求升》。
有网友兴奋地表示,他使用Project Genie制作了人生中第一个AI视频游戏,真正实现了"一句话一个游戏"的创想。这些实际案例表明,Project Genie的应用潜力远超官方演示,为游戏开发领域带来了新的可能性。
尽管Project Genie展现出了惊人的潜力,但世界模型的发展之路并非一帆风顺。长期以来,研究人员对世界模型能否真正理解物理世界、能否成为通往通用人工智能(AGI)的桥梁持怀疑态度。世界模型对视觉和动作数据的要求极高,训练过程中消耗的算力是大模型的数倍,部署难度也相当大。这些因素导致过去的世界模型在效果上往往不尽如人意。
例如,李飞飞教授团队推出的Marble世界模型就存在分辨率低、操作卡顿、物理理解不足等问题。模型记忆有限导致场景中的物体容易消失,角色行为也经常出现不符合物理规律的情况。这些问题在过去的世界模型中普遍存在,严重影响了用户体验。
然而,Project Genie的出现似乎改变了这一局面。虽然目前的技术还无法制作出《头号玩家》那样的科幻级游戏,但随着技术的不断成熟,其应用前景将变得十分广阔。在广告制作领域,AI生成的视频时长限制将成为过去式,广告商可以轻松创建连贯的长视频内容。在视频后期制作方面,复杂的3D模型和场景构建将变得简单快捷,大大提高工作效率。
当然,Project Genie仍存在一些需要改进的地方。谷歌官方承认,当前版本生成的结果可能与用户提示存在差异,与真实物理规律也有一定差距。角色控制有时不够灵敏,动作延迟较高,且每次生成的世界只能持续60秒。部分用户体验后反馈,系统运行不够流畅,偶尔会出现卡顿现象。
目前,Project Genie仅对美国地区的谷歌Ultra账号用户开放,且需要进行年龄验证(18岁以上)。这一限制引发了一些用户的不满,有人猜测谷歌可能是为了防止非正规渠道获取的Pro账号滥用该服务。尽管如此,技术普及的趋势难以阻挡。正如自然语言模型从GPT-2到如今百花齐放的发展历程所示,世界模型可能正站在一个重要的转折点上,其未来发展值得期待。






