在人工智能与机器人技术融合的浪潮中,物理AI领域正迎来前所未有的发展契机。多家科技巨头,如英伟达、谷歌及meta,纷纷发布最新研究成果,探索将大语言模型应用于机器人技术,以实现更智能、更灵活的机器行为。
近日,艾伦人工智能研究所(Ai2)宣布了一项重大突破,推出了名为MolmoAct 7B的全新开源模型。这一模型旨在挑战当前物理AI领域的领导者,通过赋予机器人“在空间中推理”的能力,开启了机器人技术的新篇章。MolmoAct基于Ai2先前的开源项目Molmo构建,不仅能够进行三维思考,还配套发布了其训练数据,进一步推动了研究的透明度与可复现性。
MolmoAct被Ai2归类为动作推理模型,其核心在于基础模型能够在物理三维空间中对动作进行精准推理。这意味着,MolmoAct能够运用其强大的推理能力,理解复杂的物理世界,规划出最优的空间占用方式,并据此执行相应的动作指令。这一特性,使得MolmoAct在机器人技术领域脱颖而出。
与传统视觉-语言-动作(VLA)模型相比,MolmoAct的显著优势在于其三维空间推理能力。多数现有机器人模型仍局限于VLA框架内,无法在空间中进行有效的思考与推理。而MolmoAct则打破了这一局限,从架构层面实现了更高效、更泛化的性能。据Ai2介绍,MolmoAct能够广泛应用于各种需要机器人对物理环境进行推理的场景,尤其是在家庭环境等复杂且多变的场景中展现出强大的适应能力。
在技术实现层面,MolmoAct通过输出“空间定位感知Token”来捕捉并理解物理世界的复杂信息。这些Token并非传统的文本输入,而是利用向量量化变分自编码器进行预训练与提取的。它们赋予了MolmoAct空间理解能力,使其能够编码几何结构、估算物体间距离,并预测出一系列“图像空间”路径点。在此基础上,MolmoAct能够输出具体的动作指令,如机械臂的精确移动或伸展等。
值得注意的是,MolmoAct的适应性极强。Ai2的研究人员表示,他们已成功让模型适应不同的具体实现形式,如机械臂或人形机器人,且仅需进行最少的微调。这一特性,无疑为MolmoAct在机器人技术领域的广泛应用奠定了坚实基础。
在性能表现方面,MolmoAct 7B同样不负众望。Ai2进行的基准测试显示,该模型的任务成功率高达72.1%,超越了谷歌、微软及英伟达等科技巨头的同类模型。这一成绩,不仅验证了MolmoAct的技术优势,也为其在物理AI领域的领先地位提供了有力支撑。
MolmoAct的推出,不仅引起了学术界的广泛关注,也赢得了业界的赞誉。俄勒冈州立大学工程学院教授Alan Fern认为,Ai2的研究代表了视觉语言模型在机器人技术和物理推理方面的自然进展。虽然这一进展并非革命性突破,但无疑是开发更强大三维物理推理模型的重要一步。同时,初创公司Gather AI联合创始人Daniel Maturana也对MolmoAct的数据开放性表示赞赏,认为这为其他学术实验室乃至专业爱好者提供了宝贵的资源。
随着大语言模型的兴起,物理AI领域正迎来前所未有的发展机遇。传统的机器人编程方式已难以满足日益增长的智能化需求,而基于大语言模型的方法则允许机器人根据交互对象灵活确定下一步动作。谷歌的SayCan、meta与纽约大学的OK-Robot以及Hugging Face的桌面机器人等项目,都在这一领域取得了显著进展。英伟达更是将物理AI视为下一个重大趋势,并发布了多个模型以加速机器人训练。
尽管目前物理AI的演示应用仍相对有限,但业界对其兴趣正日益浓厚。随着技术的不断进步,实现通用物理智能的目标正变得越来越触手可及。这将极大地推动机器人技术的发展,消除为机器人单独编程动作的需要,开启一个更加智能、更加灵活的新时代。