ITBear旗下自媒体矩阵:

Engram缺席DeepSeek V4:遗憾背后是理念延续与多领域探索的新可能

   时间:2026-05-03 16:01:31 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

DeepSeekV4技术报告发布后,其包含的mHC、CSA、HCA、Muon、FP4等技术模块引发广泛关注,但此前备受期待的Engram却未现身其中。这一缺席迅速成为科技圈热议话题,Engram的“下落”牵动着众多研究者的神经。

Engram是DeepSeek与北京大学今年早些时候联合开源的技术成果,主要聚焦大模型的记忆与效率问题。自论文在arXiv平台上线,便在相关领域引发持续探讨。它被视为DeepSeekV4的重要技术铺垫,其独特设计让模型在处理“伦敦是英国首都”这类事实信息时,无需调动整个深层网络重新推导,而是直接查询获取结果,既能节省显存,又能释放深层网络容量用于更复杂的推理任务。

基于上述优势,自1月初相关论文发表,大众普遍认为Engram就是V4的架构基础,对V4满怀期待。然而V4发布后,人们在论文中遍寻Engram无果,这一落差让不少网友觉得V4不够完整,甚至将其视为V4最大的遗憾。

尽管Engram未出现在V4中,但围绕它的探索并未停止。随后有三篇值得关注的研究论文相继出现,在不同方向对Engram展开深入研究。第一篇论文聚焦CXL内存池化版本,研究团队将Engram融入多机共享的CXL内存池,有效解决了大模型多机部署时的存储难题。第二篇论文开展无冲突热层实验,对Engram的多头哈希优化进行实证检验,意外证伪了一些看似合理的直觉式改进方案。第三篇论文来自AutoArk团队,他们把文本领域的Engram迁移到视觉模态,推出视觉Tiny Engram,拓展了Engram的应用范围。

Engram究竟是什么?回溯到其论文发布之时,这篇33页的论文《ConditionalMemoryviaScalableLookup》由北京大学博士生ChengXin(曾参与V3项目)与梁文锋等人共同完成。论文指出,Engram是为Transformer添加的原生知识查表模块,秉持“能查的别算,先查一下”的理念。研究团队发现,语言建模包含组合推理和检索静态知识两种性质不同的任务,而此前Transformer将二者混为一谈。例如模型识别“Diana,Princess of Wales”这一实体时,需消耗多层注意力和前馈网络逐步拼凑特征,前几层还在处理中间状态,最后一层才得出正确结果,这种“用运行时计算重建静态查找表”的方式浪费了深层网络的算力。

Engram的解决方案是将经典的N-gram模型捕获局部依赖的能力嵌入Transformer。具体做法是在Transformer的第2层和第15层之间插入Engram模块,每个位置的输入触发哈希查找,将当前token和前面几个token组成的N-gram映射到巨大的嵌入表,取出对应向量。同时,门控机制确保查到的内容与当前上下文不匹配时自动屏蔽,例如能区分“张”作为常见姓氏和“张仲景”作为固定历史人物实体的不同。

Engram的定位与MoE互补,MoE实现计算稀疏化,只激活部分专家;Engram实现存储稀疏化,只查询部分条目。论文实验表明,固定总参数和每token激活参数,让MoE专家和Engram记忆竞争预算,会得到一条U形曲线。当约20% - 25%的稀疏参数分配给Engram时,模型loss达到最低点。团队据此将Engram扩展到27B规模进行验证,激活参数3.8B,训练262B tokens,与MoE - 27B基线严格对齐。结果显示,知识密集型任务提升符合预期,通用推理和代码数学的提升超出预期,长上下文场景表现更为突出。

进一步研究揭示了Engram提升推理能力的原因。LogitLens和CKA分析发现,Engram - 27B第5层的表征与MoE基线第12层的表征最为相似,这意味着Engram将模型的早期层从“重建静态知识”的任务中解放出来,使这部分网络深度可用于更复杂的推理,相当于变相加深了网络。在工程实现上,论文将一个1000亿参数的Engram表置于host DRAM,在H800上运行推理,8B - Dense的吞吐损失仅2.8%,这得益于Engram索引的确定性,可提前计算并由CPU异步预取与GPU计算重叠。

在Engram缺席V4的三个月里,多个研究团队在不同方向对其展开探索。北大等机构联合发布的系统论文,将Engram引入CXL内存池化领域,通过8台服务器共享4TB内存池的方案,实现了Engram在更大规模的真实测试,验证了其与CXL内存池化的高度适配性。独立研究者TaoLin通过实验证伪了Engram多头哈希查表冲突优化的一个看似合理的方向,为后续研究提供了重要参考。AutoArk团队则成功将Engram从文本领域迁移到视觉领域,在Stable Diffusion上的实验表明,Engram在参数效率和概念注入稳定性方面具有明显优势。

尽管DeepSeek官方对Engram的后续开发较为沉默,其开源仓库最后一次提交停留在1月中旬,但Engram论文摘要结尾“我们认为条件记忆将是下一代稀疏模型不可或缺的建模原语”的表述,仍引发外界对Engram未来发展的诸多猜测。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version