近期,国产AI大模型领域竞争愈发激烈,各大厂商纷纷推出新品或进行版本升级,而备受瞩目的DeepSeek V4却迟迟未正式亮相,引发了行业内外的广泛关注与期待。外界普遍猜测,DeepSeek V4将凭借一系列创新技术,助力国产AI大模型在国际舞台上占据一席之地,即便无法登顶,也至少应具备与闭源顶级AI相抗衡的实力。
据普林斯顿大学博士生Yifan Zhang在社交平台X上披露的信息,DeepSeek V4将推出两个版本,分别为完整版和Lite版。其中,完整版参数量高达1.6万亿,Lite版参数量则为2850亿,这一规格与此前流传的传闻基本吻合。
在技术架构方面,DeepSeek V4在注意力机制上进行了重大创新,采用了DSA2技术。该技术融合了DeepSeek V3/R1中的DSA机制,以及今年初DeepSeek论文中提出的NSA稀疏注意力机制,旨在提升模型的计算效率和性能表现。
MoE混合专家技术方面,DeepSeek V4采用了融合方案,配备Mega内核,每层设置384个专家,每次激活6个专家。这种设计有助于模型在处理复杂任务时,能够更灵活地调用不同的专家模块,提高整体的处理能力。
残差连接方面,DeepSeek V4采用了此前论文中提出的Hyper-Connections技术。该技术在DeepGemm的更新中也有所提及,有助于模型在训练过程中更好地保留和传递信息,提升模型的稳定性和准确性。
在后端训练及优化方面,DeepSeek V4同样引入了多项新技术。优化器采用了Muon,RL强化学习则使用了GRPO及KL散度修正方法。通过这些技术的应用,DeepSeek V4成功将预训练的32K上下文扩展到了1M上下文,显著提升了模型的处理能力和应用范围。
值得注意的是,尽管此前DeepSeek的更新中曾暗示V4将支持视觉功能,实现多模态处理,但此次爆料却称DeepSeek V4依然是一个纯文本大模型,这一消息多少有些出乎意料。
然而,对于这份爆料内容的真实性,目前尚无法完全确认。由于爆料者并非DeepSeek公司的研发人员,其介绍的技术细节更像是综合了网上的相关资料。事实上,许多细节此前已在网上有过爆料或官方资料中露出端倪,但缺乏官方确认,因此仍存在不确定性。
回顾DeepSeek的发展历程,R1版本发布至今已过去15个月,距离V3.2最终版也已过去5个月。在这段时间里,其他大模型公司至少完成了一代大版本和两三个小版本的迭代升级。因此,DeepSeek V4面临的竞争压力不容小觑,发布时间的推迟也使其面临更大的市场挑战。











