滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

美机构CAISI测评：DeepSeek V4成国产最强性能与前沿模型存8个月差距

时间：2026-05-05 02:16:42 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

美国权威机构CAISI（隶属于商务部）近期对全球多款主流大模型展开深度测评，其独立性与专业性引发行业关注。区别于部分机构可能存在的“刷榜”争议，CAISI通过采用未公开的独立基准测试，有效规避了数据泄露风险，为模型能力评估提供了更客观的参考框架。

测评结果显示，中国大模型DeepSeek V4 Pro在网络安全、软件工程、自然科学、抽象推理及数学五大领域的综合表现，位列中国模型首位。但与当前行业标杆GPT-5.5相比，其整体能力存在约8个月的差距。这一结论基于CAISI独创的测算方法——将项目反应理论（IRT）迁移至AI领域，通过模型在多项基准任务中的表现，量化推算其相对能力水平。

在具体基准测试中，DeepSeek V4 Pro展现出差异化竞争力。例如，在ARC-AGI-2半私有数据集和CAISI自研的PortBench软件工程测评中，该模型虽落后于西方顶尖模型，但在部分推理类任务中表现优于部分公开数据集测试结果。值得注意的是，CAISI的测评体系包含两项未公开的独立基准，这被视为防止模型“针对性优化”的关键设计。

成本效益分析成为本次测评的亮点。以GPT-5.4 mini作为参照模型，DeepSeek V4 Pro在7项基准测试中，有5项的单位任务成本更低。具体数据显示，其成本区间较参照模型最低可节省53%，最高则高出41%。这一对比基于两家官方公布的token定价，且仅统计双方均正确完成的任务，确保了数据可比性。

针对模型“刷榜”现象，CAISI报告特别指出行业存在的数据污染问题。以Llama 4事件为例，某模型被曝通过将测试集数据混入训练集提升分数，甚至出现公开版本与竞技场版本性能不一致的情况。CAISI强调，其采用的半私有数据集和自研基准，从源头上杜绝了此类作弊可能。

测评报告同时揭示了模型能力评估的复杂性。DeepSeek官方技术报告显示，其模型在多项基准中与西方顶尖模型持平，但CAISI的独立测评却得出不同结论。这种差异源于测评基准的选择——当纳入未公开的独立测试时，模型的真实能力边界得以更清晰地呈现。

在软件工程领域，PortBench基准测试要求模型完成代码生成、漏洞修复等复杂任务。测评发现，DeepSeek V4 Pro在处理多文件协同修改时表现突出，但在需要深度逻辑推理的场景中仍落后于GPT-5.5。网络安全基准CTF-Archive-Diamond的测试结果则显示，该模型在逆向工程任务中的准确率较西方模型低12个百分点。

行业专家指出，CAISI的测评方法为AI领域树立了新标杆。其通过构建多维度、跨领域的评估体系，不仅关注模型在公开数据集的表现，更重视其在实际应用场景中的泛化能力。这种评估逻辑正推动大模型竞争从“参数竞赛”转向“真实能力比拼”。

更多>同类资讯

中国宇树机器人“出差”美国：买票乘机电池超标，现场互动成欢乐焦点

05-05

特斯拉Model X停产落幕，最后一辆满载员工签名将成典藏纪念

05-05

北京车展揭秘：智能座舱升级进行时，未来出行体验将如何重塑？

05-05

倍耐力携手Univrses强化智能轮胎，AI助力车辆精准定位与道路监测

05-05

中国产机器人“出差”美国买票乘机：靠窗就座电池超标，表演互动引乘客乐

05-05

中国宇树机器人美国“出差”：买票乘机电池超标致延误，登机表演引欢乐

05-05

把脸借给AI短剧，我却拿不回来了

05-05

贾跃亭： EAI机器人4月出货46台，累计出货68台

05-05

三星AI家电“智”变升级：冰箱变采购员，烤箱能录烹饪视频

05-04

厦门青年“驭”机器人：朱少东舞动民俗，苏士超赋能智造

05-04

AI算力新篇：推理时代引领算力架构与云服务模式深度变革

05-04

2026AI数据采集新趋势：网络数据架构崛起，实时数据成关键驱动力

05-04

美光CEO：AI时代内存成战略资产供需失衡缺货或延续至2027年

05-04

铠侠闪迪6月将亮相新QLC闪存架构，向1000层3D NAND目标稳步迈进

05-04

三星AI家电新升级：冰箱变“私人采购员” 烤箱识菜谱还能录烹饪视频

05-04

点击查看更多 +

全站最新

小米SUV“全家福”亮相！YU9多版本齐上阵，YU7 GT性能版蓄势待发

科大讯飞2026春招火热进行中，这些热门岗位等你来挑战！

特斯拉Model X停产落幕，最后一辆满载员工签名将成典藏纪念

合资电车新势力崛起：广汽丰田铂智3X月销超7900台领跑市场

宁德时代突破边界：航空技术赋能汽车，换电网络重塑交通能源新生态

广汽丰田铂智4月销量亮眼，合资新能源破局但“硬仗”还在后头

热门内容

本栏最新

特斯拉Model X停产落幕，最后一辆满载员工签名将成典藏纪念

别克至境携三大新能源车型与移动空间智慧体开启智电时代出行新境

新款奥迪Q4 e-tron系列官图发布，内饰科技升级，双向充电成亮点

别克新款世纪上市，2.0T轻混+独立悬架，豪华配置升级，尽显大气风范

2026北京车展收官：中国汽车引领全球智能电动变革新征程

从被动到主动：赛力斯“安全4.0”如何重塑智能汽车安全新标杆

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.

美机构CAISI测评：DeepSeek V4成国产最强 性能与前沿模型存8个月差距

美机构CAISI测评：DeepSeek V4成国产最强性能与前沿模型存8个月差距