DeepSeek即将在四月下旬推出新一代旗舰大模型V4,这一消息由其创始人梁文锋在内部沟通中透露。然而,比起新模型本身,外界对DeepSeek服务器稳定性的关注度持续升温。三月二十九日晚间,该平台遭遇了一次长达十二小时五十八分钟的全面瘫痪,网页端和移动应用均无法正常使用,技术团队经过多次修复才恢复服务。这一事件引发了用户对DeepSeek基础设施能否支撑未来流量的质疑。
作为DeepSeek基础设施的核心负责人,代达劢(圈内称“戴大麦”)肩负着确保系统稳定运行的重任。他的工作并非聚焦于模型智能的提升,而是保障模型在百万级用户同时访问时不会崩溃。V4的发布时间多次推迟,外界普遍关注其性能表现,但真正的压力测试实际上落在代达劢及其团队肩上。服务器稳定性已成为DeepSeek的明显短板,而留给代达劢优化系统的时间正在减少。
代达劢在学术领域成绩斐然。二零二四年,他从北京大学计算机学院计算语言所博士毕业,师从穗志方教授,发表了二十余篇顶会论文,Google Scholar引用次数超过两万八千次。二零二三年,他作为第三核心作者获得EMNLP最佳长论文奖,这是中国大陆机构首次获此殊荣。其获奖论文探讨了上下文学习的工作机制,从信息流视角揭示了大模型如何通过示例中的标签词进行预测。在读博期间,他还荣获国家奖学金、校长奖学金等多项荣誉,博士论文入选中国中文信息学会“博士学位论文激励计划”,研究预训练语言模型的知识增强与推理能力对齐。
代达劢的研究方向集中在大模型基础设施和系统优化,即如何让模型运行更快、更稳定且成本更低。他参与了多篇综述类文章,其中《A Survey on In-Context Learning》总结了上下文学习领域的研究进展,包括研究分类、解释和未解决问题。从DeepSeek V1到V3,他全程参与推理系统的工程优化与规模化部署,涵盖多硬件平台性能调优、分布式系统架构设计等底层工作。DeepSeek以极低推理成本对标头部闭源模型的核心技术支撑——DeepSeekMoE架构,正是由他提出。
DeepSeekMoE架构解决了传统MoE架构中专家知识冗余、专业化不足的问题。该架构提出“细粒度专家分割”思路,将专家细分成更小单元,从N个专家变为mN个,激活时从K个变为mK个,组合更灵活。同时隔离共享专家捕获通用知识,减少路由专家冗余。这一架构成为DeepSeek-V2和V3的核心基础,在145B参数规模下,仅用28.5%的计算量就达到DeepSeek 67B的性能,2B模型表现接近同等总参数量的稠密模型。代达劢的团队不仅提出创新架构,还确保其在真实环境中稳定运行,这是DeepSeek以低算力实现高性能的关键。
然而,这些成就集中在模型训练和架构设计层面,真正考验基础设施的是高并发场景下的系统稳定性。三月二十九日的崩溃事件暴露了DeepSeek交付系统的问题。面对流量高峰,推理集群的并发处理能力、负载均衡机制和容错设计均显得不足。算法团队可以训练出聪明的模型,但若基础设施无法支撑,用户看到的仍是“服务器繁忙”的提示。代达劢负责的推理集群调度策略、请求分发逻辑、GPU资源动态分配和故障降级预案,是决定系统能否在压力下稳定运行的关键。
此次崩溃从三月二十九日晚九点三十五分开始,网页端和移动应用均无法正常使用,用户反馈无法发起新对话或现有对话中断。技术团队首次修复于当日二十三点二十三分完成,但服务很快再次波动。三月三十日零点二十分,团队展开二次调查,凌晨一点二十四分实施修复方案,服务始终不稳定,直至上午十点左右才完全恢复。这是DeepSeek成立以来单次服务中断时间最长的纪录,此前网页端服务从未中断超过两小时。尽管大模型宕机属常见现象,但如此长时间的崩溃对DeepSeek的技术能力而言不应发生。
随着V4发布临近,系统稳定性问题愈发紧迫。V4不仅是模型升级,还将全面适配国产芯片,这意味着底层代码需大量重写,推理系统需重新调优,性能瓶颈需重新排查。核心差异在于算子生态:CUDA已积累十五年,覆盖几乎所有场景,而国内框架仍在补课阶段。适配Flash Attention、Triton自定义算子等高性能优化层的工作量巨大。GPU和NPU的并行计算策略不同,浮点加法误差会随模型规模和序列长度累积,V3已是百亿级模型,V4只会更大,误差问题更突出。实际部署时,如何在新硬件上跑出接近或超越英伟达的性能,如何保证迁移过程中服务不中断,如何做好多硬件平台资源调度,都是代达劢面临的挑战。
基础设施岗位的难点在于此:做好了无人鼓掌,因为这是本职工作;做差了则会被严厉批评。对已被推上风口浪尖的DeepSeek而言,基础设施团队背负着巨大责任。若V4发布时不崩溃,那才是真正的成功时刻。这场战役,代达劢必须赢,因为模型再强,崩溃就等于零。













