鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI
世界模型赛道,又有老面孔新鲜入局!
就在刚刚,Runway发布旗下首个通用世界模型GWM-1。
不止于此,还打包发布了一系列世界模型变体:
模拟真实环境的GWM Worlds;
模拟人物对话的GWM Avatars;
模拟机器人操作的GWM Robotics。
……
而这些通通都是基于最新版Gen-4.5建立的。
是的!Runway这次还把Gen-4.5来了个大升级。
看来年末大促销的不只有圣诞老人奥特曼,还有好莱坞名导Runway。
话不多说,上实机:
自动播放世界模型全家桶发布
根据官方介绍,GWM-1是基于Gen-4.5构建的,这是Runway最新的视频生成模型。
但和Gen-4.5有所不同的是,GWM-1采用的是自回归架构,它可以根据之前的记忆内容,进行逐帧预测生成。
另外模型支持实时交互控制,包括调整相机姿态、修改机器人操作指令或音频。
它目前包含三个变体:
1、GWM Worlds:用于实时环境的模拟与探索。
GWM Worlds能够让用户在连贯、有反应的世界中自由移动,而无需手动设计每个空间。
具体来说,用户首先需要为模型提供一个可供参考的静态场景,然后它就会在用户移动过程中,实时生成一个沉浸式、无限且可探索的空间,其中包含几何图形、光照和物理效果。
相比于其它世界模型,普遍只能生成有限长度的帧序列,GWM Worlds不仅能够在智能体移动的同时实时生成新场景,还能保持这些场景元素在长序列移动过程中的空间一致性。
允许用户通过文本提示改变环境的物理规则,例如当提示词要求智能体骑自行车,场景就会被约束在地面上;反之如果提示飞行,模型就会解除重力约束,实现空中自由导航。
这将有助于训练智能体在真实物理世界的行动,GWM Worlds可以快速搭建出一个能让智能体自由探索、犯错和学习的环境。
此外GWM Worlds也可以通过实时生成虚拟环境,为VR沉浸式体验提供支持。
2、GWM Avatars:能够模拟人类对话。
这是一个由音频驱动的交互式视频生成模型,可以模拟自然的人类表情和动作,无论是写实还是风格化角色。
能够渲染出逼真的面部表情、眼部动作、口型与语音同步,以及自然的手势,在长时间交互中也能保持稳定质量。
自动播放它可以作为生活中的个性化导师,用仿真的互动方式解释复杂概念;也能改变客户服务方式,生成一个永远耐心、随时在线、具有人类表情的数字人,帮助解决用户实际需求。
在面试、谈判等高压场景中,GWM Avatars模拟真实对话,让人们得以在安全环境中练习冲突沟通或演讲示范;而在游戏和互动娱乐领域,也能让NPC变得栩栩如生——做到能倾听、能思考、能对话。
而GWM Avatars即将正式上线,并提供API,供使用者自行集成到自己的产品或服务中。
3、GWM Robotics:用于机器人操作。
GWM Robotics本质上更偏向于学习型模拟器,并非基于固定规则编程,而是通过学习机器人相关数据形成模拟能力。
自动播放换言之,它是一个在机器人数据上训练的世界模型,会根据机器人动作预测视频序列,主要承担两大任务:
用于策略训练的合成数据增强:
通过GWM Robotics生成合成训练数据,然后从新物体、任务指令和环境变化多个维度扩充现有的机器人数据集。
这些合成数据无需进行昂贵的真实世界数据收集,就能提升已训练策略的泛化能力和鲁棒性。
模拟中的策略评估:
在GWM Robotics里,可直接测试策略模型可行性(如OpenVLA、OpenPi等VLA模型),而无需部署到实体机器人上。
这种方法将比真实世界测试更快、重复性更高,且安全性显著提升,同时还能提供贴合实际的行为评估。
总的来说,GWM Robotics可以有效解决物理硬件的瓶颈问题(成本高、损耗快、场景难复现等),通过模拟环境替代实体硬件场景,可以让训练和评估更高效、更具性价比。
同时还发布了GWM Robotics的Python软件开发工具包(SDK),该SDK支持多视角视频生成和长上下文序列,旨在无缝集成到现代机器人策略模型中。
OMT
除了世界模型,Runway这次还对Gen-4.5进行了升级更新,新增支持原生音频生成和原生音频编辑。
自动播放比如Gen-4.5现在可以生成逼真的对话、音效和背景音频,把原先的创作内容扩充到更广的故事类型。
在现有音频的编辑上,用户可以根据自己的特定需求以任何方式进行调整。
不仅能用音频生成新视频,还引入了多镜头编辑功能,可以在初始场景中进行任意长度的修改,并实现整段视频的一致变换。











