一项由多国科研机构联合完成的研究在机器学习领域引发关注,这项发表于顶级期刊的成果颠覆了传统认知——当使用足够规模的预训练模型时,机器人通过简单连续训练竟能同时掌握新旧技能。研究团队在五个复杂场景中验证发现,采用"顺序微调"策略的机器人不仅未出现技能遗忘,甚至在处理未训练任务时表现出更强的适应性。
传统机器人学习长期受困于"灾难性遗忘"难题,这类似于人类学习新语言时可能遗忘母语词汇的现象。为破解这一困境,学界曾开发出知识蒸馏、弹性权重巩固等复杂算法,但这些方法往往需要额外计算资源,且效果有限。新研究采用的LoRA技术通过在神经网络添加可移除的"补丁"式调整,既保持原有知识结构,又实现高效参数更新。实验数据显示,使用该技术的模型各层变化均匀可控,有效秩标准差仅为2.16,远低于全参数微调的148.5。
研究核心突破在于将大型预训练模型、LoRA微调技术与在线策略强化学习相结合。这种组合创造出三重保护机制:70亿参数的模型提供海量知识存储空间,使新任务学习产生的梯度冲突能量降低至0.02;LoRA技术确保参数更新集中在低维子空间,防止局部网络剧烈变化;强化学习的隐式正则化效应则引导模型在熟悉路径上优化策略。三者协同作用,使机器人在连续学习五个不同任务时,遗忘率始终控制在1.5%以下,部分场景甚至出现负遗忘现象。
在模拟家庭环境的RoboCasa场景中,机器人需完成开关抽屉、操作咖啡机等18项日常任务。采用顺序微调的模型在29.5%的任务中表现稳定,与多任务训练的31.4%差距微小。更令人惊讶的是,在未参与训练的保留任务测试中,该模型成功率达57.1%,超越多任务训练的51.2%。研究人员推测,这种泛化能力提升源于顺序学习过程中形成的通用空间推理规律,使机器人能举一反三处理相似任务。
理论分析显示,大型神经网络的高维参数空间具有特殊几何性质——随机方向间近乎正交的特性,使新任务学习方向与保存旧知识的方向冲突概率趋近于零。在线策略强化学习则通过限制动作概率调整范围,创造出天然的KL散度正则化效应。这种算法固有的约束机制,相当于在优化目标中自动添加"保持原有策略"的隐式项。
该成果对机器人产业具有重要实用价值。传统方法开发多任务机器人需复杂任务管理系统和大量旧数据存储,而新方法仅需在新任务数据上直接微调现有模型。在SAPIEN物理引擎的精确操作测试中,顺序微调模型处理胡萝卜、面包等不同物理特性物体时,成功率达70.9%,与多任务训练的72.8%接近。通过调整训练时间,研究者成功缩小了两种方法间的微小性能差距,验证了其可扩展性。
尽管当前实验主要在仿真环境进行,但研究团队已着手向真实机器人系统迁移技术。他们指出,虽然顺序微调在快速适应场景中可能不如专门算法,但其稳定性优势在需要长期可靠运行的场景中更具价值。下一步研究将探索不同模型架构、任务类型下的效应边界条件,以及如何进一步提升学习速度。
这项研究引发学界对"复杂问题简单解"的深入思考。当预训练规模、参数调整策略和学习方式形成特定组合时,其产生的协同效应远超单个技术能力。正如论文所述,简单的技术配方在特定条件下可能创造非凡效果,这种认知转变或将推动人工智能研究范式革新。
Q&A
问:顺序微调与传统增量学习的主要区别是什么?
答:传统方法需要保存旧任务数据并设计复杂平衡机制,而顺序微调直接在新任务数据上调整现有模型,无需额外存储且技术实现简单。其核心优势在于利用大型预训练模型的知识容量,通过参数高效更新和强化学习引导,自然防止技能遗忘。
问:为什么小规模模型无法实现类似效果?
答:1200万参数的小模型在连续学习时,新任务梯度与预训练知识的冲突能量达0.16,是70亿参数模型的8倍。这种剧烈冲突迫使模型丢弃旧知识以容纳新信息,就像小书架无法同时存放新旧书籍而必须不断替换。计算显示,小模型的有效秩标准差达148.5,表明某些网络层发生不可控的剧烈变化。











