6月17日消息,据“千问大模型”公众号消息,Qwen 团队发布机器人套件,包含三个基础模型:Qwen-RobotNav、Qwen-RobotManip与Qwen-RobotWorld。
这三大基础模型分别将语言与不同类型的物理动作对齐。其中,Qwen-RobotNav通过可控观测编码和工具接口,把视觉语言能力接入移动控制,统一了指令跟随、点/目标导航、目标追踪和自动驾驶四类任务。
Qwen-RobotManip 通过规范状态-动作空间和相机坐标系下的末端执行器增量位姿,把视觉语言能力接入操作控制,基于完全由开源数据构建的 >38,100 小时语料库实现了大规模多机型训练
Qwen-RobotWorld 通过自然语言动作接口,把视觉语言能力接入世界动态预测,让同一个世界模型能够跨操作、驾驶和导航场景预测符合物理规律的未来。
三个模型均采用语言优先接口,可与通用大模型组合成物理智能体系统。Qwen 已展示从语言理解到复杂物理任务执行的闭环,包括实时任务分解与自主纠错。











