在人工智能领域,大模型“灾难性遗忘”问题一直是阻碍技术突破的关键瓶颈。近日,谷歌研究院提出的一项名为“嵌套学习”(Nested Learning)的创新架构,为解决这一难题提供了全新思路。其研发的Hope模型在语言建模与长上下文记忆任务中超越传统Transformer架构,标志着大模型向自我改进能力迈出重要一步。
“灾难性遗忘”现象表现为模型在学习新任务时,会显著丧失对旧任务的掌握能力。例如,完成减法运算训练后可能遗忘加法规则,或在切换游戏任务时性能骤降至随机水平。这种局限源于传统架构将知识固定在预训练阶段或即时上下文窗口中,导致新信息覆盖旧知识。尽管研究人员尝试通过调整网络结构或优化算法缓解问题,但始终未能突破模型结构与训练规则割裂的固有框架。
谷歌团队提出的嵌套学习范式,将机器学习模型重构为多层嵌套的优化系统。每个层级具有独立的信息流和更新频率,形成类似人脑神经可塑性的多时间尺度更新机制。研究指出,Transformer模型的注意力机制本质上是简单的联想记忆模块,而嵌套学习通过定义组件参数的更新频率,构建出层级化的优化结构。这种设计使模型能够同时处理短期上下文与长期知识,避免信息压缩导致的遗忘。
基于嵌套学习原则开发的Hope模型,在实验中展现出显著优势。该模型采用递归架构实现无限层级的上下文内学习,结合连续记忆系统(CMS)扩展上下文窗口容量。在语言建模任务中,Hope的困惑度低于现代递归模型与标准Transformer;在长序列处理任务中,其性能超越TTT与Mamba2等先进架构。研究团队通过多组实验验证,当模型结构与优化过程统一为嵌套系统时,学习效率与自我改进能力得到质的提升。
嵌套学习框架不仅提出理论创新,更衍生出深度优化器与连续记忆系统等实用技术。深度优化器将传统优化算法重构为联想记忆模块,通过改进动量更新公式增强对不完美数据的鲁棒性;连续记忆系统则构建多模块记忆谱系,使不同组件以差异化频率更新参数。这种设计模拟了人脑中统一结构与多尺度更新的协同机制,为持续学习提供了更高效的解决方案。
该研究成果已被NeurIPS 2025收录,其核心突破在于打破模型结构与训练算法的界限。研究团队通过理论推导与实验验证,证明将优化层级与信息流动统一后,学习系统能够同时实现表现力提升与效率优化。这一发现为弥合人工模型与人类持续学习能力差距奠定了基础,可能推动大模型从静态知识存储向动态自我进化转变。










