近日,由梁文锋参与的DeepSeek团队联合北京大学发布了一项关于大语言模型的新研究,提出了一种名为Engram的创新模块,旨在解决Transformer架构在记忆处理方面的核心难题。这一突破性成果为大语言模型的发展开辟了新路径,引发了学界和业界的广泛关注。
当前,以混合专家模型(MoE)为代表的稀疏架构已成为大语言模型的主流选择。这类模型通过"条件计算"机制,在保持计算量可控的同时实现了参数规模的指数级增长。然而,现有架构普遍缺乏原生的知识查找能力,导致模型不得不依赖大量计算资源来模拟检索过程,这种低效模式严重制约了模型性能的进一步提升。
研究团队提出的Engram模块通过将经典哈希N-gram方法现代化改造,构建了一个可扩展的确定性知识查找单元。该模块采用分词器压缩技术,通过归一化处理将原始Token映射为规范标识符,有效提升了语义密度。在检索阶段,多头哈希机制为不同长度的N-gram分配独立哈希头,显著降低了检索冲突率。
为解决哈希检索可能带来的语义歧义问题,研究团队设计了上下文感知门控机制。该机制利用当前隐藏状态作为动态查询,与检索到的记忆向量进行注意力交互,生成0到1之间的门控值。通过引入深度因果卷积扩展感受野,模型能够更精准地判断何时应该依赖检索结果,何时需要执行复杂推理。实验数据显示,这种门控机制在处理命名实体和固定短语时表现出高度选择性激活特征。
在系统架构层面,Engram模块展现出独特的优势。其确定性检索特性使得模型参数存储与计算资源完全解耦,为训练和推理阶段的专项优化提供了可能。研究团队开发的预取和重叠策略,通过提前加载可能用到的记忆条目,显著提升了GPU内存利用率。这种设计使得模型在扩展内存容量时无需增加额外计算负担,形成了可预测的性能提升曲线。
实验结果表明,在严格等参数、等计算量的对比条件下,搭载Engram模块的270亿参数模型在多个基准测试中全面超越传统MoE架构。特别是在知识密集型任务中,模型性能提升达3-4个百分点;在代码生成和数学推理等复杂任务上,改进幅度更超过3个百分点。值得注意的是,当模型规模扩展至400亿参数时,性能提升趋势仍未出现饱和迹象,显示出该架构强大的扩展潜力。
在长上下文处理能力测试中,Engram架构展现出显著优势。通过将局部依赖建模任务卸载至静态检索模块,模型得以保留更多注意力资源处理全局信息。在等预训练损失对比实验中,Engram模型在处理46K长度上下文时的表现,明显优于完成全部训练周期的传统MoE模型。这种性能提升在极端计算量限制条件下依然显著,验证了架构设计的内在优越性。
该研究重新定义了稀疏化模型的发展方向,开创了"计算-记忆"双轴并行的新范式。MoE专家网络继续承担动态计算任务,而Engram模块则专注于静态知识存储与局部模式检索。研究发现,在稀疏资源分配中存在最优比例,适当减少MoE专家数量并将节省的计算资源用于扩展Engram内存,能够获得整体性能提升。这种结构性改进不仅增强了模型的知识处理能力,还间接提升了推理、数学和代码生成等复杂任务的性能表现。











