在大型语言模型领域,一项创新研究引发了广泛关注。北京大学与DeepSeek团队携手合作,共同完成了一项具有突破性的研究,其成果以论文形式呈现。论文题为《基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度》(Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models),并于近日对外发布。
该研究的核心亮点在于提出了“条件记忆”(conditional memory)这一全新概念。与传统大型语言模型架构不同,研究团队引入了可扩展的查找记忆结构。这一创新设计在保持模型参数和算力不变的情况下,为模型性能带来了显著提升。具体而言,模型在知识调用、推理、代码编写以及数学运算等多项任务中的表现均得到了大幅优化。
值得一提的是,DeepSeek创始人梁文锋也出现在了论文的合著作者名单之中,这无疑为这项研究增添了更多关注度。与此同时,DeepSeek团队还同步开源了与该研究相关的记忆模块Engram,为行业内其他研究人员提供了进一步探索和应用的宝贵资源。











