格隆汇2月16日|据新智元,一张图在全网疯狂刷屏了!据说,DeepSeek V4的基准测试已经泄露,整个AI圈都震了。有大V总结道:AI编程大战,已经达到了新的高峰。泄露信息显示,DeepSeek V4在SWE-bench Verified上取得了惊人的83.7%,超过了Claude Opus 4.5(80.9%)和GPT-5.2(80%)。可以说,100万+上下文长度+Engram记忆机制=真正的全仓库级推理能力。
还有网友综合了全网DeepSeek V4消息,不仅在Humaneval、SWE_bench、上下文和成本上刷新成绩,而且发布时间预计在春节,也就是明天!成本:据称比OpenAI便宜20到40倍,预计发布时间:2月17日。如果是真的,DeepSeek将又一次改变游戏规则。总之,DeepSeek V4的发布时间,很可能是周一。据说,这是首个不落后于闭源顶尖模型,甚至能与之匹敌甚至超越的模型。
不过,这几张流传出来的基准测试,很快被怀疑是假的。比如在官方评分系统下,不可能有模型达到99.4%的分数。最高分只能是99.2%或 100%。另Epoch AI也确认,FrontierMath的数据是伪造的,因为只有他们和OpenAI有权对该数据集进行评估。至少有两个基准测试被打假,证明这些图可信度确实不高。有趣的是,即便是假的,这也说明DeepSeek的确深得人心,网上的夸大其词的泄露就是DeepSeek成功最大的标志。








