ITBear旗下自媒体矩阵:

AI也需“睡眠”充电?大模型“小憩”后推理能力显著提升

   时间:2026-05-27 19:43:29 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

卡内基梅隆大学与马里兰大学的研究团队在人工智能领域取得一项突破性进展——他们为大语言模型设计了类似人类睡眠的机制,以解决长文本处理中的性能瓶颈问题。这项研究的核心发现是,当模型处理复杂推理任务时,强制"休息"并进行多轮信息整合,能显著提升其逻辑推导能力。

传统Transformer架构在处理长上下文时面临双重挑战:注意力机制的计算量随文本长度平方级增长,同时KV缓存的线性膨胀导致内存压力剧增。现有解决方案要么直接丢弃早期信息,要么采用SSM+Attention混合架构压缩历史数据。但研究团队发现,即便快速权重仍有存储空间,模型在处理多步骤推理时仍会因单次前向传播的局限性而失效,这与人类无法即时消化所有经历的现象颇为相似。

受人类睡眠机制的启发,研究人员构建了离线信息整合流程。当模型接近上下文窗口上限时,系统会暂停接收新输入,进入"睡眠"状态。在此阶段,模型通过多轮递归前向传播反复提炼已有信息,利用可学习的局部规则更新快速权重,完成深度知识压缩。这个过程中,KV缓存被清空以释放内存,模型醒来后携带更新后的参数继续工作。

实验采用元胞自动机、多跳图检索和无限数学推理三类任务进行验证。结果显示,增加"睡眠"迭代次数能持续提升模型表现,尤其在需要多步骤逻辑推导的复杂任务中效果显著。简单任务单次处理即可完成,而高难度问题则需要多轮信息打磨才能理清思路。值得注意的是,所有额外计算开销都集中在离线整合阶段,正常推理流程仍保持单次前向传播的效率。

这项研究为解决大模型的长文本处理难题提供了新思路。通过模拟人类记忆巩固机制,模型在保持实时处理能力的同时,获得了深度思考的空间。这种张弛有度的工作模式,或许正是突破当前技术瓶颈的关键所在。当AI学会在适当时候"打个盹",其处理复杂问题的能力反而得到了质的提升。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version