谷歌近日面向特定用户群体开放了其世界模型Genie 3的实验性研究原型——Project Genie的体验权限。这款专注于沉浸式世界创建的互动原型,旨在让用户通过文本和视觉提示设计、探索并重新混合属于自己的互动环境。此前,谷歌曾在去年8月初步预览了Genie 3的世界模型能力,其能够生成多样化的可交互环境,引发了早期测试者的广泛关注。
目前,年满18岁的美国Google AI Ultra订阅用户已可率先体验这一原型。Project Genie是一个基于Web的应用,由Genie 3、Nano Banana Pro和Gemini共同驱动,用户可以通过它亲身体验世界模型带来的沉浸式感受。其工作流程包括设计、预览、生成和重混四个环节:用户首先使用文本和视觉提示设计世界和角色;随后,Nano Banana Pro会生成图像预览供调整;进入世界后,Genie 3会随着用户的移动实时生成环境;最后,用户可以在作品库中重新混合现有世界或发现新世界。
该体验围绕三大核心能力构建。首先是“世界草图绘制”,用户可通过文本提示或生成/上传的图像创建生动且不断扩展的环境,定义角色、探索方式(如步行、骑行、飞行等)以及视角(第一人称或第三人称)。Nano Banana Pro的集成让用户能在进入世界前预览并微调图像,实现更精确的控制。其次是“世界探索”,用户创造的世界是可导航的动态环境,Project Genie会根据用户行动实时生成前方路径,并允许调整镜头。最后是“世界重混”,用户可基于现有世界的提示词构建新诠释,或在作品库中探索精选世界以获取灵感,完成后可下载世界和探索过程的视频。
世界模型的核心在于模拟环境的动态变化,预测其演变方式及行为影响。谷歌开发的Genie 3突破了传统静态3D快照的限制,能够在用户移动和互动时实时生成路径,模拟物理和交互,其一致性使得模拟任何真实世界场景成为可能,包括机器人技术、建模动画、小说创作以及历史场景探索等。这一能力为构建通用人工智能(AGI)提供了重要基础,因为AGI需要能够驾驭现实世界多样性的系统。
尽管Project Genie展现了强大的潜力,但作为早期研究模型,Genie 3仍存在一些待改进领域。例如,生成的世界可能不完全逼真,或不完全遵循提示词和图像,甚至不符合现实物理规律;角色控制可能不够流畅,或存在延迟;生成时长限制在60秒内。去年8月宣布的某些功能,如探索时可改变世界的“可提示事件”,尚未包含在此原型中。谷歌表示,将通过与各行业和领域的信任测试者合作,持续优化这一模型。







