在机器人技术与人工智能的交叉领域,物理AI正迅速崛起,吸引了科技巨头的广泛关注。英伟达、谷歌及meta等公司纷纷发布研究成果,探索大语言模型与机器人技术的深度融合,以期打造更智能、更适应物理环境的机器人。
近日,艾伦人工智能研究所(Ai2)宣布了一项重大突破,推出了MolmoAct 7B,一个全新的开源模型。该模型旨在挑战物理AI领域的现有强者,通过让机器人“在空间中推理”,实现前所未有的三维思考能力。MolmoAct基于Ai2的Molmo项目构建,不仅开放了模型本身,还同步发布了其训练数据,分别采用Apache 2.0和CC BY-4.0许可证。
Ai2将MolmoAct定义为动作推理模型,这意味着它能够在物理三维空间中,对机器人的动作进行精准推理。凭借这一独特能力,MolmoAct能够深入理解物理世界,规划空间布局,并据此执行精确动作。这一特性使得MolmoAct在机器人技术领域具有显著优势。
与传统的视觉-语言-动作(VLA)模型相比,MolmoAct展现出了卓越的三维空间推理能力。大多数机器人模型仍局限于VLA框架,无法在空间中进行有效思考和推理。而MolmoAct则打破了这一局限,从架构层面实现了更高效、更泛化的性能。Ai2表示,MolmoAct能够广泛应用于各种需要机器人对物理环境进行推理的场景,尤其是家庭环境这一机器人技术面临的复杂挑战。
在技术实现上,MolmoAct通过输出“空间定位感知Token”来感知和理解物理世界。这些Token并非传统文本输入,而是利用向量量化变分自编码器预训练和提取的。它们赋予了MolmoAct空间理解能力和几何结构编码能力,使模型能够准确估算物体间的距离,并预测出一系列“图像空间”路径点。在此基础上,MolmoAct能够输出具体的动作指令,如机械臂的升降或伸展等。
Ai2的研究人员指出,MolmoAct具有极高的适应性,能够轻松适应不同的机器人实现形式,如机械臂或人形机器人,且仅需极少的微调。在基准测试中,MolmoAct 7B展现出了惊人的性能,任务成功率高达72.1%,超越了谷歌、微软和英伟达等科技巨头的模型。
对于MolmoAct的发布,业界反响热烈。俄勒冈州立大学工程学院教授Alan Fern认为,Ai2的研究代表了视觉语言模型在机器人技术和物理推理方面的自然进展,虽然并非革命性突破,但无疑是开发更强大三维物理推理模型的重要一步。初创公司Gather AI的联合创始人Daniel Maturana则赞扬了数据的开放性,认为这为其他学术实验室和专业爱好者提供了宝贵资源。
随着大语言模型的兴起,物理AI领域正迎来前所未有的发展机遇。创造更智能、更具空间感知能力的机器人,一直是开发者们的梦想。MolmoAct的推出,无疑为这一梦想的实现迈出了坚实的一步。它不仅展示了机器人在物理世界中的无限可能,更为整个行业的发展注入了新的活力。
在谷歌、meta等科技巨头的推动下,物理AI领域正不断涌现出新的研究成果和应用案例。SayCan、OK-Robot等项目正致力于让机器人更好地理解和执行复杂任务。同时,Hugging Face等开源社区也在积极推动机器人开发的民主化进程。英伟达更是将物理AI视为下一个重大趋势,并发布了多个模型来加速机器人训练。
尽管目前物理AI的演示和应用仍有限,但业界对其的兴趣正在持续增长。随着技术的不断进步和应用的不断拓展,实现通用物理智能的目标正变得越来越触手可及。未来,机器人将不再需要单独编程动作,而是能够根据交互对象和场景自动推理出最佳行动方案。