在机器人技术的前沿探索中,一款名为智元启元大模型Genie Operator-1(简称GO-1)的创新产品横空出世,标志着通用具身智能基座模型迈入了一个全新的发展阶段。这款由智元机器人公司最新发布的模型,凭借其独特的Vision-Language-Latent-Action(ViLLA)框架,展现了在复杂环境中的卓越适应性和学习能力。
GO-1的核心竞争力在于其ViLLA框架,该框架巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术。VLM作为模型的主干网络,继承了开源多模态大模型的权重,并通过互联网上的大规模文本和图文数据训练,赋予了GO-1强大的场景感知和理解能力。而MoE则包含了隐动作专家模型和动作专家模型,前者利用人类操作和跨本体操作视频,让模型理解了动作的逻辑;后者则通过高质量的仿真数据和真机数据,确保了动作的精确执行。
GO-1的五大特性——采训推一体、小样本快速泛化、一脑多形、持续进化以及人类视频学习——共同构成了其强大的功能基础。采训推一体化设计,使得数据采集、模型训练和推理能够无缝衔接;小样本快速泛化能力,则让GO-1能够在极少数据甚至零样本的情况下,快速适应新场景和新任务;一脑多形特性,意味着GO-1能够轻松迁移至不同形态的机器人上,实现跨本体应用;持续进化能力,依托智元的数据回流系统,让模型能够从实际执行中遇到的问题数据中不断学习和优化;而人类视频学习能力,则进一步增强了模型对人类行为的理解。
GO-1的构建基于具身领域的数字金字塔模型,从底层的大规模纯文本与图文数据,到上层的人类操作/跨本体视频、仿真数据,再到顶层的真机示教数据,形成了一个完整的知识和技能学习体系。这一体系使得GO-1能够全面理解通用知识和场景,学习人类或其他本体的动作操作模式,增强泛化性,并训练出精准的动作执行能力。
在实际应用中,GO-1展现出了惊人的表现。无论是家庭场景中的准备餐食、收拾桌面,还是办公和商业场景中的接待访客、发放物品,GO-1都能轻松应对。用户只需通过简单的语言指令,如“挂衣服”,GO-1就能根据所学习的知识和经验,拆解任务步骤,并精准完成整个操作过程。GO-1还能通过数据回流持续进化,不断优化自身性能。
智元机器人还预告了未来几个月将推出基于强化学习的仿真模型,并即将亮相新的人形机器人。这一系列创新举措,将进一步推动具身智能向通用化、开放化与智能化方向发展,让机器人能够更好地适应多变的真实世界,为人类的工作和生活带来更多便利。