ITBear旗下自媒体矩阵:

DeepSeek V4基准测试引热议,编程能力或超顶尖闭源模型,明日发布?

   时间:2026-02-17 08:29:08 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

近日,一款名为DeepSeek V4的开源大模型引发AI圈热议。有消息称,该模型或将于春节期间正式发布,其编程能力、上下文处理能力等多项指标均达到行业顶尖水平,甚至被部分网友称为“首个能匹敌顶尖闭源模型的开源模型”。

据泄露的基准测试数据,DeepSeek V4在SWE-bench Verified测试中取得了83.7%的成绩,超越了Claude Opus 4.5(80.9%)和GPT-5.2(80%)。这一成绩若被证实,将直接改写当前“最强代码模型”的排名。该模型在AIME 2026、IMO Answer Bench等数学推理测试中也表现出色,分别取得99.4%和88.4%的高分,甚至在FrontierMath Tier 4测试中达到GPT-5.2的11倍成绩。

除了编程和数学能力,DeepSeek V4的上下文处理能力同样引人注目。有传闻称,该模型支持高达100万token的上下文长度,并引入了新的Engram条件存储系统,能够实现近乎无限的上下文检索。这一特性使其在处理大型代码库或复杂分布式系统时更具优势,能够理解代码库中文件变化对其他部分的影响,为企业级开发提供强大支持。

然而,随着消息的传播,部分基准测试数据的真实性也受到质疑。有业内人士指出,在官方评分系统下,模型不可能达到99.4%的分数,最高分应为100%或99.2%。Epoch AI也确认,FrontierMath的数据存在伪造嫌疑,因为只有他们和OpenAI有权对该数据集进行评估。这些质疑使得DeepSeek V4的真实性能蒙上一层阴影。

尽管如此,DeepSeek V4的发布仍被视为开源模型领域的一次重要突破。此前,DeepSeek的V3和R1模型已证明开源AI模型能够以极低成本与专有模型竞争,而V4则有望在此基础上进一步提升开源模型的竞争力。据透露,V4在训练过程中对数据模式的理解能力得到提升,且不易出现性能衰减,输出结果在逻辑上也更加严密和可靠。

目前,DeepSeek官方尚未对V4的发布时间和具体性能作出正式回应,但业内普遍猜测,该模型可能正在测试一个轻量级版本(V4-lite),以逐步释放其技术潜力。与此同时,Hugging Face、GitHub等平台上仍未出现DeepSeek V4的相关更新,进一步加剧了外界对其真实性的猜测。

无论DeepSeek V4的最终性能如何,其引发的讨论已充分说明开源模型在AI领域的影响力正在不断扩大。随着技术的不断进步,开源与闭源模型之间的竞争或将更加激烈,而用户也将从中获得更多选择和更高质量的AI服务。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version