滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

DeepSeek新突破：Engram模块破解Transformer记忆难题，架构或迎新飞跃

时间：2026-01-13 21:00:28 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

近日，由梁文锋参与的DeepSeek团队联合北京大学发布了一项关于大语言模型的新研究，提出了一种名为Engram的创新模块，旨在解决Transformer架构在记忆处理方面的核心难题。这一突破性成果为大语言模型的发展开辟了新路径，引发了学界和业界的广泛关注。

当前，以混合专家模型（MoE）为代表的稀疏架构已成为大语言模型的主流选择。这类模型通过"条件计算"机制，在保持计算量可控的同时实现了参数规模的指数级增长。然而，现有架构普遍缺乏原生的知识查找能力，导致模型不得不依赖大量计算资源来模拟检索过程，这种低效模式严重制约了模型性能的进一步提升。

研究团队提出的Engram模块通过将经典哈希N-gram方法现代化改造，构建了一个可扩展的确定性知识查找单元。该模块采用分词器压缩技术，通过归一化处理将原始Token映射为规范标识符，有效提升了语义密度。在检索阶段，多头哈希机制为不同长度的N-gram分配独立哈希头，显著降低了检索冲突率。

为解决哈希检索可能带来的语义歧义问题，研究团队设计了上下文感知门控机制。该机制利用当前隐藏状态作为动态查询，与检索到的记忆向量进行注意力交互，生成0到1之间的门控值。通过引入深度因果卷积扩展感受野，模型能够更精准地判断何时应该依赖检索结果，何时需要执行复杂推理。实验数据显示，这种门控机制在处理命名实体和固定短语时表现出高度选择性激活特征。

在系统架构层面，Engram模块展现出独特的优势。其确定性检索特性使得模型参数存储与计算资源完全解耦，为训练和推理阶段的专项优化提供了可能。研究团队开发的预取和重叠策略，通过提前加载可能用到的记忆条目，显著提升了GPU内存利用率。这种设计使得模型在扩展内存容量时无需增加额外计算负担，形成了可预测的性能提升曲线。

实验结果表明，在严格等参数、等计算量的对比条件下，搭载Engram模块的270亿参数模型在多个基准测试中全面超越传统MoE架构。特别是在知识密集型任务中，模型性能提升达3-4个百分点；在代码生成和数学推理等复杂任务上，改进幅度更超过3个百分点。值得注意的是，当模型规模扩展至400亿参数时，性能提升趋势仍未出现饱和迹象，显示出该架构强大的扩展潜力。

在长上下文处理能力测试中，Engram架构展现出显著优势。通过将局部依赖建模任务卸载至静态检索模块，模型得以保留更多注意力资源处理全局信息。在等预训练损失对比实验中，Engram模型在处理46K长度上下文时的表现，明显优于完成全部训练周期的传统MoE模型。这种性能提升在极端计算量限制条件下依然显著，验证了架构设计的内在优越性。

该研究重新定义了稀疏化模型的发展方向，开创了"计算-记忆"双轴并行的新范式。MoE专家网络继续承担动态计算任务，而Engram模块则专注于静态知识存储与局部模式检索。研究发现，在稀疏资源分配中存在最优比例，适当减少MoE专家数量并将节省的计算资源用于扩展Engram内存，能够获得整体性能提升。这种结构性改进不仅增强了模型的知识处理能力，还间接提升了推理、数学和代码生成等复杂任务的性能表现。

更多>同类资讯

13亿光年外惊现巨型宇宙圆环：特殊结构或改写宇宙认知

01-25

俄罗斯客机发动机故障挂7700代码中国多方协作助其安全降兰州

01-25

俄罗斯测试新型等离子推进系统或为火星探测开启“加速模式”

01-25

神舟二十号“回家”倒计时：航天员细致打包，飞船创下行物资量纪录

01-25

3元人造汽油入市：成本大降环保升级，中国能源转型加速前行

01-25

360doc个人图书馆寻找接管方：因业务调整愿无偿转让

01-25

无偿转让！360doc个人图书馆寻求接手，至今已运营20年

01-25

长征火箭发射准备进行时：卫星航天器测试合罩，转运吊装即将开启

01-25

俄罗斯新型等离子推进系统测试中未来火星探测或开启“低速持续推进”新模式

01-25

艾迪药业(688488.SH)：预计2025年度亏损同比下降约88.67%至83.00%

01-25

艾迪药业(688488.SH)：补缴税款共计约1995.20万元

01-25

艾迪药业(688488.SH)：ACC085注射液临床试验申请获得受理

01-25

美迪西(688202.SH)：股东林长青拟减持合计不超过80万股股份

01-25

新点软件(688232.SH)：预计2025年净利润同比减少80.61%到87.08%

01-25

至纯科技(603690.SH)：2025年预亏3亿元至4.5亿元

01-25

点击查看更多 +

全站最新

狼标刹车灯配金色车标！大众5米大五座新车，动力空间双在线能否突围？

虽姗姗来迟却实力不凡，吉利银河星耀6上市仨月销量直逼九千

经典越野“山猫”帕杰罗将回归？方盒子造型亮相，能否重现当年辉煌？

长城全新“瘦高”方盒子SUV谍照来袭，参数猜想引发车圈热议

3元人造汽油入市：成本大降环保升级，中国能源转型加速前行

福田爱易科三电技术：以创新突破赋能商用车绿色转型新征程

热门内容

本栏最新

3元人造汽油入市：成本大降环保升级，中国能源转型加速前行

钱大妈港股IPO：近118亿营收背后，2.4%净利率的生鲜困局

V聚场成创作热土空间告急，二期将携AI赋能于大学路全新亮相

KTM RC160性能小钢炮来袭，1.5万左右售价若引入你会心动吗？

美股三大指数涨跌不一，英特尔大跌超17%，中概指数跌0.26%

凯旋2026款Trident660与Tiger Sport 660焕新登场动力配置全面升级

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.