ITBear旗下自媒体矩阵:

谷歌新突破!清华姚班校友领衔提出嵌套学习,直击AI“灾难性遗忘”难题

   时间:2025-11-14 10:14:03 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

谷歌研究院在持续学习领域取得重要突破,其提出的“嵌套学习”架构被NeurIPS 2025会议收录。这项研究通过重新定义机器学习模型的构建方式,为解决大模型“灾难性遗忘”问题提供了全新思路。实验表明,基于该架构的Hope模型在语言建模和长序列记忆任务中表现超越Transformer架构,标志着大模型向自我进化能力迈出关键一步。

“灾难性遗忘”是神经网络领域的顽疾,表现为模型在学习新任务时迅速丧失原有能力。典型案例包括:掌握减法运算后遗忘加法规则、切换游戏场景时性能骤降、微调过程中出现风格偏移等。这种现象源于传统模型将知识固定在静态参数中,导致新信息输入时必然覆盖旧知识,与人类持续积累知识的能力形成鲜明对比。

研究团队突破性地提出将模型解构为多层嵌套的优化系统。不同于传统将网络结构与训练算法分离的做法,嵌套学习认为二者本质是同一优化过程的不同层级。这种视角下,每个子模块都拥有独立的信息流和更新频率,形成类似人脑的多时间尺度学习机制。例如,浅层模块快速适应即时输入,深层模块则缓慢整合长期知识。

实验中构建的Hope模型验证了理论可行性。该架构在Titans长期记忆机制基础上,通过递归自指结构实现无限层级的学习嵌套。配合连续记忆系统(CMS),模型能动态调整各组件的更新频率:高频模块处理当前上下文,低频模块巩固历史知识。这种设计使Hope在语言建模任务中取得更低困惑度,在长序列处理中超越TTT和Mamba2等先进模型。

技术细节显示,嵌套学习将优化器重构为联想记忆模块。传统动量优化器通过点积相似度计算样本关系,而新框架采用标准损失函数作为优化目标,显著提升对噪声数据的鲁棒性。在记忆系统方面,连续记忆谱系突破Transformer的短期-长期二分法,通过多频率更新实现更精细的知识管理。这种设计使模型既能快速响应新信息,又能稳定保持历史知识。

研究团队通过多维度实验证明技术优势。在持续学习场景中,Hope模型在知识整合任务上准确率提升12%;长序列处理方面,其有效上下文窗口扩展至传统模型的3倍。这些成果表明,当架构设计与优化算法形成统一优化系统时,模型将获得更强的表达力和自修正能力。

该研究为弥合机器学习与人脑神经可塑性之间的差距提供了新范式。通过模拟人脑中不同脑区的协同工作机制,嵌套学习架构使人工神经网络首次具备类似的多尺度更新能力。这项突破不仅解决灾难性遗忘的技术难题,更为开发真正具备持续学习能力的通用人工智能奠定基础。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version