想象这样一个场景:清晨醒来,机器人管家已为你煮好咖啡,整理完房间后开始照顾宠物;工业生产线上,机械臂精准完成焊接、装配等复杂操作。这些曾经只存在于科幻电影中的画面,如今因德国卡尔斯鲁厄理工学院直觉机器人实验室的突破性研究而更接近现实。该团队开发的FLOWER机器人“大脑”系统,不仅能理解人类语言指令,还能高效控制多种类型机器人完成复杂任务,其计算资源需求仅为现有技术的1%。
这项发表于2025年首尔机器人学习会议的研究,由莫里茨·罗伊斯团队主导。他们开发的FLOWER系统(Florence With Embodied Flow的缩写)突破了传统机器人“大脑”的局限。传统机器人如同专才,扫地机器人只会清扫,工业机械臂仅能焊接;而FLOWER旨在创造通才型机器人,既能烹饪又能打扫,既能照顾儿童也能维修家电。研究团队通过创新技术,让机器人像人类一样灵活应对多样化任务。
FLOWER的核心创新在于“中间层融合”技术。传统方法如同让学生背完整本百科全书再学习技能,既耗时又低效;而FLOWER采用“核心知识+灵活模板”的模式,仅保留关键信息层,大幅减少参数数量。例如,对于编码器-解码器结构的系统,研究团队完全移除了解码器部分,仅保留编码器;对于纯解码器结构,则去掉了最后30%的层次。这一改造使参数减少20%-35%,计算时间显著降低,性能却反而提升。
另一项关键技术是“动作空间全局自适应层归一化”。传统方法为每种机器人配备独立工具箱,资源浪费严重;而FLOWER建立共享工具系统,通过基础工具与专项调整的结合,既节省20%参数又保持效果。例如,在双臂机器人测试中,FLOWER的“立方体转移”和“插销插入”任务表现明显优于专门设计的ACT算法,展现了高频控制下的精密操作能力。
实验验证环节,研究团队在虚拟与真实环境中进行了大规模测试。虚拟环境中,FLOWER在CALVIN基准测试中创下4.53分纪录,完成开抽屉、放物品、关抽屉、开灯等连续家务任务。真实厨房测试中,配备Franka Panda机器人的系统执行20种任务,从“移动锅具”到“操作烤箱”,平均成功率达61%,是第二名OpenVLA(31%)的两倍。尤其在泛化能力测试中,面对新物体、手电筒照明、背景干扰等挑战,FLOWER仍保持51%的平均成功率,远超OpenVLA的23.4%。
计算效率方面,FLOWER的优势更为突出。在相同硬件下,其推理速度达311Hz,比π0快8%,比OpenVLA快50倍;内存占用仅1.85GB,相当于π0的27.6%和OpenVLA的12.7%。训练成本差异惊人:OpenVLA需35000个GPU小时,RDT-1B需21500个GPU小时,而FLOWER仅需192个GPU小时,仅为传统方法的0.5%-0.9%。
技术架构上,FLOWER采用模块化设计,包含视觉语言模型、流变换器、动作空间编码器与解码器等组件。这种设计便于扩展,新增机器人类型或任务仅需添加模块。预训练数据集虽仅约25万条轨迹,但来自Droid、Google Robot等多样化场景,更接近真实世界复杂情况。数据处理时,75%的训练聚焦场景变化丰富的数据,25%用于精确操作技能学习,平衡了广度与深度。
实验设计严谨,研究团队不仅测试最佳性能,还通过消融实验分析各组件贡献。例如,使用传统AdaLN替代全局AdaLN会导致性能下降,晚期融合的效果劣于中间层融合。这些分析确保了系统设计的合理性。在跨机器人适应性测试中,FLOWER成功兼容单臂、双臂、关节控制、末端执行器控制等多种配置,展现了强大的通用性。
失败案例分析同样值得关注。研究团队发现,FLOWER的主要问题包括空间定位轻微偏差(如推拉杠杆时偏差约1厘米)、复杂环境路径规划困难(如水槽边缘易卡住)及偶尔的力度控制失误。这些问题的识别为未来改进指明了方向。
从社会意义看,FLOWER降低了机器人部署的技术门槛与成本,使中小企业和研究机构也能开发先进系统。研究团队开源了论文、代码库与预训练模型,促进了技术传播。其采用的中间层融合与流式生成技术,可能影响自动驾驶、游戏AI、实时翻译等多模态AI系统设计。
这项研究融合了计算机视觉、自然语言处理、机器人学与控制理论,体现了跨学科合作的力量。FLOWER不仅是一个技术突破,更向真正智能的机器人迈出了重要一步。当机器人能理解指令、灵活操作、应对新环境且高效运行时,科幻场景正逐步成为现实。