ITBear旗下自媒体矩阵:

DeepSeek大量招人,该梁文锋上场了

   时间:2026-01-14 21:08:37 来源:凤凰网科技编辑:快讯 IP:北京 发表评论无障碍通道
 

摘要:

早在2025年11月,DeepSeek还开放过行政招聘,据相关人士表述“是因为团队大了,需要更多的行政伙伴”。

凤凰网科技 出品

作者|姜凡

编辑|董雨晴

虽然距离春节还有些时日,但国内科技圈的节奏似乎已经提前进入了假期模式,唯独 DeepSeek 是个例外。

就在昨天,DeepSeek 毫无预兆地在 GitHub 上开源了新模块 Engram 的相关代码,并发布了一篇题为《Conditional Memory via Scalable Lookup》的论文。更早一点,在元旦当天,他们还甩出了一篇关于模型架构稳定性的《mHC》。

这两篇硬核论文的作者列表中,都赫然出现了 DeepSeek 创始人梁文锋的名字。这种高密度的技术输出,显然不是为了凑年底的 KPI,而是在向外界传递一个明确的信号:在沉默的这段时间里,DeepSeek 并没有休息,他们在为下一代模型积攒弹药。

旺盛的招聘需求似乎印证了这个观点。凤凰网科技在检索社交媒体信息后发现,DeepSeek近期正在大量招人,放出了多个技术核心岗位招聘,包括深度学习研究员(负责LLM各个方向的前沿探索,如预训练、alignment、codemath、backbone、multimodal等)、深度学习研发工程师(LLM预训练数据/搜索策略相关)、大模型全栈工程师(算法与工程并重,归属于各个前沿探索方向,除了实现还会参与一些环境的部署和搭建)、全栈开发工程师、核心系统研发工程署。且据招聘者表述,校招、社招、实习均开放,另有产品、设计、数据百晓生等岗位开放。

值得一提的是,根据此前梁文锋署名的论文作者名单,整个DeepSeek的人员稳定性极高,证明此次招聘主要是扩招需求。另据表述,大部分岗位都可以驻扎在北京或杭州。和此前多数岗位需要去杭州已有不同。早在2025年11月,DeepSeek还开放过行政招聘,据相关人士表述“是因为团队大了,需要更多的行政伙伴”。

现在,弹药已备好,或许真的该梁文锋上场了。

梁文锋已提前开启“春节档”

DeepSeek的这个“春节档”已提前开启。就在全行业都在盘点 2025 年应用层得失的时候,DeepSeek把目光锁在了架构层。

最新发布的Engram研究是与北京大学合作完成的。这项研究直指当前Transformer 架构的一个痛点:大模型虽然通过 MoE 实现了“条件计算”,但缺乏原生的“条件记忆”。现在的模型记东西太笨,只能靠计算来模拟检索。DeepSeek提出的 Engram 模块,要给大模型装上一个外挂式的“硬盘”,让它能像查字典一样,以 O(1) 的时间复杂度调取知识,而不是靠算力硬抗。

在元旦发布的《mHC:流形约束超连接》中,梁文锋和他的团队解决的是另一个问题——超大规模模型的训练稳定性。随着模型越来越大,传统的残差连接开始失效,训练容易崩溃。DeepSeek 用一套数学方法,把神经网络的连接方式约束在特定的流形空间里,恢复了信息传递的稳定性。

实验表明,在 27B 参数的混合专家模型上,mHC 展现出稳定的训练曲线,最终损失相比基线有降低。

DeepSeek 团队还为 mHC 架构开发了一系列基础设施优化。他们使用 TileLang 框架实现了多个融合内核,将原本分散的操作合并执行以减少内存访问次数。针对 Sinkhorn-Knopp 算法,他们设计了专门的前向和反向内核,在芯片上重新计算中间结果以避免存储开销。在流水线并行方面,团队扩展了 DualPipe 调度策略,通过将 MLP 层的特定内核放在高优先级计算流上执行,实现了计算与通信的重叠。这些优化让 mHC 在保持性能优势的同时,减少了额外开销。

回看过去一年,DeepSeek 究竟在做什么?如果说 V2 和 V3 是证明了“团队能把 MoE 做得很好”,那么 DeepSeek 的这一年,则是在试图回答“除了 MoE,大模型还需要什么”。

首先是记忆机制的重构。在 Engram 的设计中,DeepSeek 发现了一个惊人的 U 型扩展规律。他们通过实验证明,纯粹的 MoE 并不是最优解。在同等参数量和计算量(Iso-FLOPs)的限制下,如果把 20%-25% 的资源分给静态记忆(Engram),剩下的分给神经计算(MoE),模型的效果才是最好的。这是一个反直觉的发现:有时候,少算一点,多记一点,反而更聪明。

数据支撑了这一理论。DeepSeek 将 Engram 扩展到了 270 亿参数规模。结果显示,这个外挂记忆模块不仅让模型背书能力变强了(MMLU 提升 3.4),更意外的是,它让模型变聪明了,BBH 推理能力提升 5.0,数学能力提升 2.4。甚至在“大海捞针”这种长文本测试中,准确率直接从 84.2% 飙升到了 97.0%。这说明,当模型不需要耗费脑力去死记硬背时,它就能腾出更多的注意力去处理复杂的逻辑推理。

其次是底层连接的修补。在 mHC 的研究中,DeepSeek 团队展现了极强的工程与数学结合能力。他们不只是提出了理论,还针对硬件做了一系列“变态”级的优化:扩展 DualPipe 调度策略,重新设计 Sinkhorn-Knopp 算法的内核,甚至为了减少显存访问,把分散的操作强行融合。这些优化让 mHC 架构在 27B 规模的模型上,训练损失比基线降低了 0.021,推理能力提升 2.1%。

这一年,DeepSeek 并没有在应用层的红海里恋战,而是退回到了那个最枯燥、最硬核的角落,试图把 Transformer 这座大厦的地基再夯实一点。Engram 解决了“记不住”和“推理慢”的问题,mHC 解决了“长不大”和“练不稳”的问题。

这让一年时间过去,DeepSeek还在神坛之上。用一位行业人士的话说,“DeepSeek这家公司始终在创新”。

V4真的要来了?

现在高潮或许快来了,所有的线索都指向了同一个方向:DeepSeek V4。

如果我们把这两篇论文叠加在一起看,V4的轮廓已经呼之欲出。它极大概率不会是一个单纯堆砌参数的庞然大物,而是一个架构极其精巧的“缝合怪”:它将拥有MoE带来的极致计算效率,同时集成了Engram带来的海量低成本记忆,底层则由 mHC架构支撑其在超大规模下的训练稳定性。

Engram的论文中提到了一个细节:这种架构支持“预取-重叠”策略,可以利用CPU内存来存知识,GPU专心算逻辑。这意味着,V4极有可能在保持推理成本低廉的同时,拥有远超当前一代模型的知识容量和长上下文处理能力。这对于目前受困于显存成本的行业来说,可能又是一次降维打击。

mHC的成功验证意味着DeepSeek已经掌握了训练更大规模多模态模型、甚至万亿参数模型的“稳定器”。对于算力资源本就不富裕的国内 AI 圈,这种算法层面的效率提升,比单纯购买几千张英伟达芯片更有战略意义。

技术拼图已经凑齐,基础设施的优化代码也已上传GitHub。梁文锋在这个时间点连续抛出硬核研究,显然不仅仅是为了学术交流。这更像是一场发布会前的“技术路演”。

春节将至,万物闭藏,但这往往也是惊雷孕育的时刻。DeepSeek V4的发令枪,或许已经握在了梁文锋的手中,只等那最后一声枪响。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version