在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的创新产品于近日横空出世,由智元机器人公司隆重发布。GO-1不仅标志着通用具身基座模型的新纪元,还通过其独特的Vision-Language-Latent-Action(ViLLA)框架,展现了前所未有的技术突破。
GO-1的核心竞争力在于其ViLLA框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)系统。VLM作为主干网络,依托互联网的海量文本与图像数据,赋予了GO-1广泛的场景感知与理解能力。而MoE则进一步细分为隐动作专家模型和动作专家模型,前者通过分析人类操作视频,使模型具备动作规划的智慧;后者则借助高质量的仿真与真实机器人数据,确保动作的精准执行。
GO-1的五大亮点尤为引人注目:采训推一体化设计,实现了从数据采集到模型推理的无缝衔接;小样本快速泛化能力,使得模型能在极少数据支持下适应新场景与新任务;一脑多形特性,让GO-1能够轻松迁移至不同形态的机器人本体;持续进化机制,通过数据回流系统不断优化模型性能;以及人类视频学习能力,增强了模型对人类行为的深度理解。
GO-1的构建基于一个由多层次数据构成的数字金字塔。底层为互联网文本与图像数据,为机器人提供基础的知识与场景理解。其上是人类操作视频,帮助机器人学习各种动作模式。再往上,仿真数据增强了模型的泛化能力,使其能应对多样化场景与物体。金字塔的顶端则是真机示教数据,确保动作的精确执行。这一架构使GO-1能够接受全面的“基础教育”与“技能培训”,轻松适应新环境与新任务。
ViLLA框架通过预测隐式动作标记(Latent Action Tokens),成功弥合了图像-文本输入与机器人动作执行之间的鸿沟。用户只需以自然语言发出指令,如“挂衣服”,GO-1便能根据场景理解、动作规划、环境适应及精准执行等步骤,高效完成任务。这一过程不仅展示了GO-1强大的语言理解能力,还体现了其在动作执行上的高度精确性。
GO-1的应用场景广泛,从家庭服务如倒水、烤吐司,到商业活动如检票、物料发放,再到商务会议中的物品递送,均能轻松应对。其持续进化的能力意味着GO-1能在遇到问题时不断优化自身,如调整咖啡杯放置位置,直至任务完美完成。这些特性共同构成了GO-1在机器人领域的领先地位。
GO-1的问世,不仅解决了具身智能在场景泛化、语言理解、新技能学习及跨本体部署等方面的难题,更为机器人全面融入人类生活开辟了新道路。从家庭到办公,从商业到工业,GO-1正引领着具身智能向通用化、开放化与智能化的全新阶段迈进。