近日,一款名为DeepSeek V4的开源大模型引发AI圈高度关注。据多方消息透露,该模型在编程、数学推理等核心能力上实现重大突破,甚至被部分网友称为“首个能比肩顶尖闭源模型的开源方案”。尽管官方尚未正式发布,但泄露的基准测试数据已在社区引发热议。
泄露的测试结果显示,DeepSeek V4在SWE-bench Verified编程基准上取得83.7%的成绩,超越Claude Opus 4.5的80.9%和GPT-5.2的80%。该基准主要评估模型修复真实开源项目代码的能力,高得分意味着模型能更精准理解复杂代码库的上下文关系。若数据属实,这将是开源模型首次在该指标上登顶全球榜首。
除编程能力外,其他维度的测试数据同样惊人。在AIME 2026数学竞赛基准中,V4取得99.4%的接近满分成绩;IMO Answer Bench国际奥数基准达88.4%;FrontierMath前沿数学推理基准虽仅23.5%,但已是GPT-5.2的11倍。这些数据表明,该模型可能在代码生成、竞赛数学和复杂推理三大领域同时刷新纪录。
技术细节方面,V4被曝采用100万token的超长上下文窗口,理论上可一次性处理整部《三体》体量的文本。配合全新的Engram条件记忆机制,模型能实现近乎无限的上下文检索能力,这在处理大型代码库或分布式系统时具有显著优势。有开发者测试发现,V4能准确理解代码文件中变量修改对其他文件的连锁影响,这种“仓库级推理”能力此前仅在闭源模型中有所体现。
成本优势或成为另一杀手锏。据行业分析,DeepSeek V4的API定价可能比OpenAI同类产品低20-40倍。若结合其开源特性,将极大降低中小企业部署先进AI的开发门槛。此前DeepSeek V3已通过极低成本证明,开源模型完全具备与专有模型竞争的实力。
然而,部分测试数据的真实性已遭质疑。Epoch AI机构证实,FrontierMath基准的评估权限仅开放给自身和OpenAI,第三方数据存在伪造可能。另有专家指出,在官方评分系统中,AIME基准的最高分应为120/120(100%),而泄露数据中的99.4%存在统计异常。这些争议为V4的实际性能蒙上阴影。
模型发布时间也出现矛盾信息。最初传闻称V4将于春节期间(2月17日)上线,但最新消息显示官方可能推迟至三月底。有开发者在DeepSeek官网和移动应用中发现灰度测试痕迹,其参数规模约2000亿,但未采用Engram记忆机制。这种“lite版”测试或许是为正式发布积累数据。
尽管争议不断,V4的技术方向仍获业内认可。meta科学家Zhuokai Zhao分析指出,当前前沿稀疏专家模型已形成“MLA+sigmoid稀疏激活+共享专家”的标准架构,设计空间基本收敛。DeepSeek的突破在于将超长上下文与高效记忆机制结合,这种创新可能重新定义AI代码生成的技术范式。
在overchat.ai等第三方平台上,更多细节被逐步披露:V4将延续开源传统发布开放权重;其训练过程通过算法优化显著减少性能衰减;输出结果的逻辑严密性获得内部测试者高度评价。这些特性若能兑现,将解决当前大模型在长文本处理、训练稳定性和推理可靠性等方面的核心痛点。
随着发布窗口临近,AI社区对V4的期待与质疑持续发酵。支持者认为这将是开源模型颠覆闭源生态的转折点,批评者则强调“没有复现细节的基准测试毫无意义”。这场争论背后,折射出整个行业对AI技术路线选择的深层思考:在性能竞赛与可解释性、开源生态与商业壁垒之间,究竟何种模式更能推动技术普惠?











