英伟达今日宣布推出全球首款全开源全模态大模型——Cosmos 3,这款专为物理人工智能设计的开放世界基础模型,通过混合Transformer架构实现了视觉推理、世界生成与动作预测的深度融合。该模型能够原生处理文本、图像、视频、环境音效及动作轨迹等多模态数据,其物理仿真精度达到行业领先水平,可将物理AI系统的训练与评估周期从数月压缩至数日。
针对物理AI领域长期存在的数据泛化难题,Cosmos 3创新性地采用双阶段处理机制:先通过推理Transformer解析物体交互规律、运动轨迹及时空关联,再利用生成类Transformer完成视频生成与动作预测。这种架构设计使其能够基于有限训练数据,在真实场景中实现高效迁移。该模型基于数十亿级多模态数据集训练,涵盖文本描述、环境图像、动态视频、空间音效及机械动作轨迹等多元数据类型,显著降低了开发者构建物理AI系统的数据门槛与成本。
为加速技术生态建设,英伟达同步发起"宇宙联盟",联合Agile Robots、Black Forest Labs、Generalist等六家顶尖机构,共同推进世界模型技术研发。联盟成员将共享预训练模型资源,并针对机器人控制、自动驾驶等垂直领域开展联合优化。英伟达CEO黄仁勋强调:"当多模态推理与世界模型实现突破,物理AI的变革浪潮已不可阻挡。Cosmos 3的开源将赋能开发者跨越技术鸿沟,打造具备真实世界感知与决策能力的智能系统。"
在权威评测中,Cosmos 3展现卓越性能:其世界生成精度在Artificial Analysis等四大基准测试中登顶,动作策略能力领跑RoboLab系列榜单,视觉理解指标刷新VANTAGE-Bench纪录。针对不同应用场景,该模型提供三大专用版本:追求极致精度的Super版支持机器人与自动驾驶模型二次训练;轻量化Nano版可在数秒内完成视频解析与动作推理;即将发布的Edge版将实现边缘设备实时推理,满足工业巡检、物流分拣等低延迟场景需求。
开发者可通过三种模式调用Cosmos 3能力:作为多模态图文大模型实现跨模态理解,作为世界模型构建物理环境仿真系统,或作为动作模型主干网络训练专项任务机器人。目前Super与Nano版本已开放下载,配套开发工具包包含数据预处理管道、模型微调指南及200+预置场景模板,帮助开发者快速构建定制化物理AI解决方案。











