滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

Engram缺席DeepSeek V4：遗憾背后是理念延续与多领域探索的新可能

时间：2026-05-03 16:01:31 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

DeepSeekV4技术报告发布后，其包含的mHC、CSA、HCA、Muon、FP4等技术模块引发广泛关注，但此前备受期待的Engram却未现身其中。这一缺席迅速成为科技圈热议话题，Engram的“下落”牵动着众多研究者的神经。

Engram是DeepSeek与北京大学今年早些时候联合开源的技术成果，主要聚焦大模型的记忆与效率问题。自论文在arXiv平台上线，便在相关领域引发持续探讨。它被视为DeepSeekV4的重要技术铺垫，其独特设计让模型在处理“伦敦是英国首都”这类事实信息时，无需调动整个深层网络重新推导，而是直接查询获取结果，既能节省显存，又能释放深层网络容量用于更复杂的推理任务。

基于上述优势，自1月初相关论文发表，大众普遍认为Engram就是V4的架构基础，对V4满怀期待。然而V4发布后，人们在论文中遍寻Engram无果，这一落差让不少网友觉得V4不够完整，甚至将其视为V4最大的遗憾。

尽管Engram未出现在V4中，但围绕它的探索并未停止。随后有三篇值得关注的研究论文相继出现，在不同方向对Engram展开深入研究。第一篇论文聚焦CXL内存池化版本，研究团队将Engram融入多机共享的CXL内存池，有效解决了大模型多机部署时的存储难题。第二篇论文开展无冲突热层实验，对Engram的多头哈希优化进行实证检验，意外证伪了一些看似合理的直觉式改进方案。第三篇论文来自AutoArk团队，他们把文本领域的Engram迁移到视觉模态，推出视觉Tiny Engram，拓展了Engram的应用范围。

Engram究竟是什么？回溯到其论文发布之时，这篇33页的论文《ConditionalMemoryviaScalableLookup》由北京大学博士生ChengXin（曾参与V3项目）与梁文锋等人共同完成。论文指出，Engram是为Transformer添加的原生知识查表模块，秉持“能查的别算，先查一下”的理念。研究团队发现，语言建模包含组合推理和检索静态知识两种性质不同的任务，而此前Transformer将二者混为一谈。例如模型识别“Diana，Princess of Wales”这一实体时，需消耗多层注意力和前馈网络逐步拼凑特征，前几层还在处理中间状态，最后一层才得出正确结果，这种“用运行时计算重建静态查找表”的方式浪费了深层网络的算力。

Engram的解决方案是将经典的N-gram模型捕获局部依赖的能力嵌入Transformer。具体做法是在Transformer的第2层和第15层之间插入Engram模块，每个位置的输入触发哈希查找，将当前token和前面几个token组成的N-gram映射到巨大的嵌入表，取出对应向量。同时，门控机制确保查到的内容与当前上下文不匹配时自动屏蔽，例如能区分“张”作为常见姓氏和“张仲景”作为固定历史人物实体的不同。

Engram的定位与MoE互补，MoE实现计算稀疏化，只激活部分专家；Engram实现存储稀疏化，只查询部分条目。论文实验表明，固定总参数和每token激活参数，让MoE专家和Engram记忆竞争预算，会得到一条U形曲线。当约20% - 25%的稀疏参数分配给Engram时，模型loss达到最低点。团队据此将Engram扩展到27B规模进行验证，激活参数3.8B，训练262B tokens，与MoE - 27B基线严格对齐。结果显示，知识密集型任务提升符合预期，通用推理和代码数学的提升超出预期，长上下文场景表现更为突出。

进一步研究揭示了Engram提升推理能力的原因。LogitLens和CKA分析发现，Engram - 27B第5层的表征与MoE基线第12层的表征最为相似，这意味着Engram将模型的早期层从“重建静态知识”的任务中解放出来，使这部分网络深度可用于更复杂的推理，相当于变相加深了网络。在工程实现上，论文将一个1000亿参数的Engram表置于host DRAM，在H800上运行推理，8B - Dense的吞吐损失仅2.8%，这得益于Engram索引的确定性，可提前计算并由CPU异步预取与GPU计算重叠。

在Engram缺席V4的三个月里，多个研究团队在不同方向对其展开探索。北大等机构联合发布的系统论文，将Engram引入CXL内存池化领域，通过8台服务器共享4TB内存池的方案，实现了Engram在更大规模的真实测试，验证了其与CXL内存池化的高度适配性。独立研究者TaoLin通过实验证伪了Engram多头哈希查表冲突优化的一个看似合理的方向，为后续研究提供了重要参考。AutoArk团队则成功将Engram从文本领域迁移到视觉领域，在Stable Diffusion上的实验表明，Engram在参数效率和概念注入稳定性方面具有明显优势。

尽管DeepSeek官方对Engram的后续开发较为沉默，其开源仓库最后一次提交停留在1月中旬，但Engram论文摘要结尾“我们认为条件记忆将是下一代稀疏模型不可或缺的建模原语”的表述，仍引发外界对Engram未来发展的诸多猜测。

更多>同类资讯

蔚来CEO李斌：今年车卖不好公司就没了

05-03

百亿公司高管们为何集体转身，去Anthropic当工程师

05-03

蔚来CEO李斌：今年车卖不好公司就没了

05-03

伯克希尔年会聚焦AI：务实布局不盲目，高管称其难替人类决策

05-03

格雷格·阿贝尔首秀主持，巴菲特台下就座，“后巴菲特时代”股东大会亮点速览

05-03

自动化焊接机器人：2026年技术升级如何重塑制造业竞争力格局

05-03

五一文旅新体验：AI赋能沉浸游科技助力文化传承新路径

05-03

荣耀与ARRI阿莱合作背后：同期有手机厂商竞争，延期或为带来更优体验

05-03

GAIR Live圆桌：端云协同与记忆工程如何破解AI Agent的Token焦虑？

05-03

苹果iPhone 18 Pro系列或采用激进定价基本款价格有望维持稳定

05-03

AI浪潮下人类工作何去何从？掌握这项能力方能稳立时代潮头

05-03

荣耀与ARRI阿莱牵手背后：同期有手机厂商竞争，荣耀凭实力胜出

05-03

苹果iPhone 18 Pro系列或采取激进定价基本款价格有望维持稳定

05-03

鄂尔多斯新能源研究院：以“黑科技”赋能绘就绿色转型新画卷

05-03

2026北京车展吉利大放异彩：新概念车、新架构、新技术引领智电新潮流

05-03

点击查看更多 +

全站最新

冯柳逆势加仓这家公司！邓晓峰最新持仓来了

图解4月、1-4月ETF资金流榜单

时隔四年重磅回归！小米MIX5或2026年亮相，真全面屏+磁吸镜头+自研芯

小红书剑指电商新赛道，“好物市场”能否打造唯品会式商业新版图？

Meta收购机器人公司ARI，发力具身智能欲做人形机器人底层生态赢家

科大讯飞AI学习机T30 Ultra：个性化学习+护眼设计，开启高效学习新体验

热门内容

本栏最新

2026北京车展吉利大放异彩：新概念车、新架构、新技术引领智电新潮流

东风日产N7黑骑士北京车展登场！轿跑设计+635km续航，主打年轻运动市场

吉利中国星i-HEV智擎混动登场：中国品牌重塑全球混动技术新秩序

2026北京车展：独立供应商崛起，智能汽车技术变革与全球化新征程

奥迪E7X 5月8日开启预售！大空间强驾控，40万级电动SUV新选择

奥迪E7X 5月8日开启预售！大五座纯电SUV，驾控智舱双在线

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.