国产大模型领域迎来重要进展。近日,DeepSeek开源全新项目并发布重磅论文,提出名为Engram的“条件记忆”机制,为解决MoE模型效率难题提供了创新方案,该机制有望成为其下一代模型DeepSeek-V4的核心架构。
论文作者阵容强大,由DeepSeek创始人兼CEO梁文锋领衔,北大王选计算机研究所的赵东岩、张辉帅两位教授参与其中。值得注意的是,论文第一作者程信是北大智能学院在读博士生,同时也是DeepSeek实习生,曾深度参与R1、V3等核心项目研发。
Engram机制的核心创新在于为大模型构建“外接记忆库”。传统MoE模型在处理信息时,会对常见名字、公式等静态知识进行重复计算,导致计算资源浪费和效率低下。DeepSeek团队将这些固定知识整理成可快速查询的表格,使模型能够专注于复杂推理和长文本理解等核心任务。
这一设计带来显著优势。数据显示,Engram架构的训练计算量较传统MoE模型减少18%。在32768个token的长上下文任务中,该架构在RULER基准测试中表现优于同参数量MoE模型。其浅层部署的记忆模块能够处理局部依赖和静态知识存储,为注意力机制释放更多容量用于全局推理。即使卸载1000亿参数的记忆表,H800推理吞吐量降幅也不足3%。研究还发现,增加记忆槽位数量可持续降低验证损失,为大模型性能提升提供了可预测的扩展路径。
程信在Engram机制研发过程中发挥关键作用。刚加入DeepSeek时,他参与R1模型参数优化工作,因在高效参数化方法上的独到见解被纳入核心团队。在研发初期,团队面临记忆模块与主干网络适配难题,程信结合研究方向提出分词器压缩与上下文感知门控结合的方案。他连续两周在实验室调整参数、验证效果,最终解决了静态记忆缺乏上下文适应性的关键问题。
程信的成长轨迹反映了DeepSeek与高校联合培养模式的成效。据公开报道,该企业长期与北大、清华等高校开展人才联合培养计划,程信正是通过这一计划进入企业实习。目前,DeepSeek核心研发团队中,三成成员来自高校实习转正的年轻人才。这种校企协同模式使青年科研人员在学术研究与工程落地结合中快速成长,成为推动国产大模型创新的重要力量。
从工程落地角度看,Engram机制具有显著优势。其记忆检索完全依赖输入token,实现了参数存储与计算资源的解耦。训练时可将超大嵌入表分片至多张GPU,推理时能提前预取数据避免GPU停顿。基于自然语言的Zipf分布特性,该机制采用多级缓存策略,高频嵌入存于GPU或主机内存,低频嵌入置于SSD,可轻松扩展至超大规模记忆。
DeepSeek在论文中明确表示,条件记忆将成为下一代稀疏模型的核心建模原语。目前,Engram的论文和项目已完全开源,开发者可通过GitHub获取相关资料。这一开放举措展现了国产大模型在核心技术领域的自信,有望吸引更多力量参与生态建设。











