当多数科技企业放缓节奏准备迎接假期时,DeepSeek团队却在GitHub上掀起技术风暴。这家以创新著称的AI公司接连开源新模块Engram代码,并发布两篇引发行业热议的论文,其中《Conditional Memory via Scalable Lookup》与北京大学联合攻关,直指大模型记忆机制的核心痛点。
研究团队提出的Engram架构犹如为模型配备外置记忆硬盘,通过构建可扩展的检索系统,使知识调用时间复杂度降至O(1)。实验数据显示,在270亿参数规模下,该模块使模型在MMLU基准测试中提升3.4%,数学能力提升2.4%,长文本检索准确率从84.2%跃升至97%。这种"以记忆换算力"的设计颠覆了传统MoE架构的思维定式,证明适度分配资源给静态记忆能显著提升模型综合性能。
元旦期间发布的《mHC:流形约束超连接》则聚焦超大规模模型训练稳定性难题。针对传统残差连接在千亿参数模型中失效的问题,研究团队通过数学方法将神经网络约束在特定流形空间,开发出TileLang融合内核框架。该架构在270亿参数模型上实现训练损失降低0.021,推理速度提升2.1%,其创新的DualPipe调度策略使计算与通信重叠率提高40%。
技术突破的背后是持续扩张的人才版图。招聘平台显示,DeepSeek近期开放深度学习研究员、全栈工程师等核心技术岗位,覆盖预训练、多模态、系统优化等多个方向,工作地点新增北京选项。值得注意的是,创始人梁文锋连续出现在两篇论文作者名单中,这种高强度技术输出与团队稳定性形成鲜明对比。据内部人士透露,此次招聘主要为应对下一代模型研发需求,此前行政岗位的扩充已为团队扩张埋下伏笔。
行业观察者注意到,Engram与mHC架构形成完美互补:前者解决知识存储与调用效率,后者保障超大规模训练稳定性。这种技术组合暗示着V4模型可能突破传统参数堆砌模式,通过架构创新实现质变。特别是Engram支持的"预取-重叠"策略,使CPU内存可承担知识存储功能,为降低推理成本开辟新路径。









