科技领域再掀波澜,人工智能公司DeepSeek近日在学术研究方面动作频频,继此前发布新论文后,又于1月12日晚推出聚焦大模型条件记忆模块的论文,这一成果引发业内广泛关注与诸多猜测。
此次论文是DeepSeek与北京大学携手完成,名为《基于条件查找的条件记忆:大型语言模型稀疏性的新维度》,DeepSeek创始人梁文锋也在作者之列。论文核心观点指出,大模型承担着两类性质迥异的任务,一类是组合推理,这需要深度动态计算;另一类是检索静态知识。然而,现有的Transformer架构没有原生知识查找机制,在查找不变知识时,只能通过低效计算模拟检索过程,白白浪费算力,既耗费时间又占用大量资源。
为攻克这一难题,DeepSeek团队引入条件记忆作为补充的稀疏性维度,并借助Engram条件记忆模块加以实现,巧妙优化了神经计算(MoE)与静态记忆(Engram)之间的权衡关系。研究过程中,团队还发现了U型缩放定律,该定律表明MoE专家和Engram记忆之间的混合稀疏容量分配,明显优于纯MoE基准模型。令人意外的是,虽然记忆模块看似主要助力知识检索,但团队在通用推理、代码和数学领域却观察到更为显著的收益提升。
简单来讲,当前MoE模型在处理推理和记忆固定知识时采用同一套方法,效率低下且算力浪费严重。而这篇论文本质上是对大模型进行“分工优化”,让专门模块负责专门事务,比如设置“记忆本”管理固定知识,推理模块专注复杂思考,并按照最佳比例分配资源,最终使模型运行速度更快、性能更聪明。
DeepSeek在论文结尾明确表示,条件记忆将成为下一代稀疏模型不可或缺的建模原语。基于此,有行业人士大胆猜测,此次提出的条件记忆或许就是下一代大模型DeepSeek V4的技术架构。
此前有消息称,DeepSeek计划于2月发布新一代旗舰模型DeepSeek V4,内部初步测试显示,V4在编程能力上超越了市场上其他顶级模型。不过,对于这一消息,DeepSeek尚未作出任何回应,同时报道也提到发布计划可能会根据实际情况有所调整。
自2024年底发布V3模型后,DeepSeek的下一代旗舰模型一直未露面。去年底虽发布了小更新V3.2版本,且该版本在多个基准测试中超过了OpenAI的GPT - 5和Google的Gemini 3.0 Pro,但行业对DeepSeek旗舰模型的期待值依旧很高,V4的推出无疑将成为业界瞩目的焦点。





