ITBear旗下自媒体矩阵:

美机构对DeepSeek V4的测评:国产最强,落后前沿8个月

   时间:2026-05-04 17:54:29 来源:鞭牛士编辑:快讯 IP:北京 发表评论无障碍通道
 

为什么要看美机构CAISI的测评?

1.CAISI隶属于美官方机构(商wu部),不可能被充值。

2.大模型刷榜现象普遍。最典型的刷榜是“背答案”,把测试集数据混入训练集。举例,Llama 4的刷榜门事件:被曝私下测27个版本,公开版与竞技场版不一致;杨立昆事后承认“为跑分修饰结果”。

CAISI用了两项未公开、无数据泄露的独立基准:ARC-AGI-2半私有数据集,以及CAISI自研的软件工程测评基准PortBench。

核心结论:落后当前最牛的模型GPT5.5 八个月,但相比同性能模型GPT 5.4迷你版,V4 Pro性价比更高

1.DeepSeek V4 Pro(后文简称V4)是CAISI迄今测评过的能力最强的中国大模型。本次测评覆盖网络安全、软件工程、自然科学、抽象推理及数学五大领域。

2.CAISI的测评结果要低于DeepSeek自己测的分数。根据DeepSeek官方公布的数据,V4综合能力与两个月前发布的Opus 4.6、GPT-5.4基本持平。但纳入非公开基准测试(无数据泄露)的CAISI测评显示,V4实际性能与8个月前发布的GPT-5处于同一水平。

3.在同等能力模型中,V4具备更高的性价比。相较于成本最优的对标模型GPT-5.4迷你版,V4在7项基准测试中有5项成本表现更优。全部7项测试中,其成本区间相比对标模型最低可节省53%、最高高出41%。

正文

近期,CAISI对DeepSeek V4 Pro(后文简称DeepSeek V4)开展了测评。CAISI的测评结果显示,DeepSeek V4的综合能力较行业最前沿水平(GPT-5.5)落后约8个月(见下图)

注:纵轴代表模型能力,横轴代表模型发布日期。纵轴每提升200分,代表模型完成指定任务的概率提升至原来的3倍。

能力测评结果

CAISI测评的网络安全、软件工程、自然科学、抽象推理、数学五大领域中,DeepSeek V4是目前表现最强的中国模型。

CAISI在上述五大领域,通过九项基准测试完成模型评估,其中包含两项未公开、无数据泄露的独立基准:ARC-AGI-2半私有数据集,以及CAISI 自研的软件工程测评基准PortBench。

注释:

结果展示了各基准上的准确率(完成任务的百分比)。每项基准中,性能最优的模型已高亮并加粗显示。

数值越高表现越好。

GPT 5.5在各项评分中都是最强的,Elo值1250±28,其次是Claude Opus 4.6(999±27),最后是DeepSeek V4(800±28)。

能力差距测算

CAISI采用项目反应理论(IRT)衍生方法,综合各项评测基准,测算每款参评模型的整体能力水平。

项目反应理论最初应用于心理测评场景,例如:一群学生作答若干考试题,依据作答结果评估每位学生的相对能力水平,同时判定每道试题的难度。CAISI将这一思路迁移应用到模型综合能力测算中:把AI模型类比为学生,把单个基准评测任务类比为考试题。

如上面那张图所示,西大前沿模型的能力水平,整体较中国前沿模型领先约8个月。

模型服务与推理部署

DeepSeek V4与西大前沿模型在两大基准评测套件上的对比:

图a: DeepSeek自行选取并公布的基准:V4整体表现与西大前沿模型基本持平

图b:CAISI自有评测套件下的基准:DeepSeek V4落后于西大模型

DeepSeek自家的技术报告指出,DeepSeek V4在多项基准测试中与西大顶尖前沿模型具备竞争力。

但CAISI对两款模型进行评测后发现:该模型在部分推理类与智能体类评测中表现明显偏弱,典型包括ARC-AGI-2半私有数据集、未对外公开的软件工程评测基准PortBench,以及网络安全评测基准CTF-Archive-Diamond。

DeepSeek V4在综合能力相近模型中,成本更低

为开展成本对比,CAISI筛选了一款西大参考模型:剔除在公开基准上性能明显落后、或每token成本远高于DeepSeek V4 Pro的西大模型。唯一符合筛选条件的模型为GPT-5.4mini,因此将其选为参照对象。

在CAISI的综合能力分析中,GPT-5.4 mini的Elo评分为749,与 DeepSeek V4 Pro的800分处于相近水平。

在CAISI的7项基准里,有5项基准下DeepSeek V4的使用成本低于GPT-5.4 mini。在这 7 项基准中,DeepSeek V4的成本区间为最低便宜53% 至最高贵41%。

注:本图为GPT-5.4 mini与DeepSeek V4 Pro在不同基准下的端到端成本(仅统计两款模型均正确完成的基准任务)。柱形越高,代表端到端成本越高。红色为V4,蓝色为GPT-5.4 mini。柱形内的数字,代表模型完成一道基准任务所产生的平均成本。

本次采用各家官方公布的token定价如下:

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version