ITBear旗下自媒体矩阵:

美机构CAISI测评:DeepSeek V4成国产最强 性能与前沿模型存8个月差距

   时间:2026-05-05 02:16:42 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

美国权威机构CAISI(隶属于商务部)近期对全球多款主流大模型展开深度测评,其独立性与专业性引发行业关注。区别于部分机构可能存在的“刷榜”争议,CAISI通过采用未公开的独立基准测试,有效规避了数据泄露风险,为模型能力评估提供了更客观的参考框架。

测评结果显示,中国大模型DeepSeek V4 Pro在网络安全、软件工程、自然科学、抽象推理及数学五大领域的综合表现,位列中国模型首位。但与当前行业标杆GPT-5.5相比,其整体能力存在约8个月的差距。这一结论基于CAISI独创的测算方法——将项目反应理论(IRT)迁移至AI领域,通过模型在多项基准任务中的表现,量化推算其相对能力水平。

在具体基准测试中,DeepSeek V4 Pro展现出差异化竞争力。例如,在ARC-AGI-2半私有数据集和CAISI自研的PortBench软件工程测评中,该模型虽落后于西方顶尖模型,但在部分推理类任务中表现优于部分公开数据集测试结果。值得注意的是,CAISI的测评体系包含两项未公开的独立基准,这被视为防止模型“针对性优化”的关键设计。

成本效益分析成为本次测评的亮点。以GPT-5.4 mini作为参照模型,DeepSeek V4 Pro在7项基准测试中,有5项的单位任务成本更低。具体数据显示,其成本区间较参照模型最低可节省53%,最高则高出41%。这一对比基于两家官方公布的token定价,且仅统计双方均正确完成的任务,确保了数据可比性。

针对模型“刷榜”现象,CAISI报告特别指出行业存在的数据污染问题。以Llama 4事件为例,某模型被曝通过将测试集数据混入训练集提升分数,甚至出现公开版本与竞技场版本性能不一致的情况。CAISI强调,其采用的半私有数据集和自研基准,从源头上杜绝了此类作弊可能。

测评报告同时揭示了模型能力评估的复杂性。DeepSeek官方技术报告显示,其模型在多项基准中与西方顶尖模型持平,但CAISI的独立测评却得出不同结论。这种差异源于测评基准的选择——当纳入未公开的独立测试时,模型的真实能力边界得以更清晰地呈现。

在软件工程领域,PortBench基准测试要求模型完成代码生成、漏洞修复等复杂任务。测评发现,DeepSeek V4 Pro在处理多文件协同修改时表现突出,但在需要深度逻辑推理的场景中仍落后于GPT-5.5。网络安全基准CTF-Archive-Diamond的测试结果则显示,该模型在逆向工程任务中的准确率较西方模型低12个百分点。

行业专家指出,CAISI的测评方法为AI领域树立了新标杆。其通过构建多维度、跨领域的评估体系,不仅关注模型在公开数据集的表现,更重视其在实际应用场景中的泛化能力。这种评估逻辑正推动大模型竞争从“参数竞赛”转向“真实能力比拼”。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version