滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

美机构对DeepSeek V4的测评：国产最强，落后前沿8个月

时间：2026-05-04 17:54:29 来源：鞭牛士编辑：快讯 IP：北京 发表评论无障碍通道

为什么要看美机构CAISI的测评？

1.CAISI隶属于美官方机构（商wu部），不可能被充值。

2.大模型刷榜现象普遍。最典型的刷榜是“背答案”，把测试集数据混入训练集。举例，Llama 4的刷榜门事件：被曝私下测27个版本，公开版与竞技场版不一致；杨立昆事后承认“为跑分修饰结果”。

CAISI用了两项未公开、无数据泄露的独立基准：ARC-AGI-2半私有数据集，以及CAISI自研的软件工程测评基准PortBench。

核心结论：落后当前最牛的模型GPT5.5 八个月，但相比同性能模型GPT 5.4迷你版，V4 Pro性价比更高

1.DeepSeek V4 Pro（后文简称V4）是CAISI迄今测评过的能力最强的中国大模型。本次测评覆盖网络安全、软件工程、自然科学、抽象推理及数学五大领域。

2.CAISI的测评结果要低于DeepSeek自己测的分数。根据DeepSeek官方公布的数据，V4综合能力与两个月前发布的Opus 4.6、GPT-5.4基本持平。但纳入非公开基准测试（无数据泄露）的CAISI测评显示，V4实际性能与8个月前发布的GPT-5处于同一水平。

3.在同等能力模型中，V4具备更高的性价比。相较于成本最优的对标模型GPT-5.4迷你版，V4在7项基准测试中有5项成本表现更优。全部7项测试中，其成本区间相比对标模型最低可节省53%、最高高出41%。

正文

近期，CAISI对DeepSeek V4 Pro（后文简称DeepSeek V4）开展了测评。CAISI的测评结果显示，DeepSeek V4的综合能力较行业最前沿水平（GPT-5.5）落后约8个月（见下图）

注：纵轴代表模型能力，横轴代表模型发布日期。纵轴每提升200分，代表模型完成指定任务的概率提升至原来的3倍。

能力测评结果

CAISI测评的网络安全、软件工程、自然科学、抽象推理、数学五大领域中，DeepSeek V4是目前表现最强的中国模型。

CAISI在上述五大领域，通过九项基准测试完成模型评估，其中包含两项未公开、无数据泄露的独立基准：ARC-AGI-2半私有数据集，以及CAISI 自研的软件工程测评基准PortBench。

注释：

结果展示了各基准上的准确率（完成任务的百分比）。每项基准中，性能最优的模型已高亮并加粗显示。

数值越高表现越好。

GPT 5.5在各项评分中都是最强的，Elo值1250±28，其次是Claude Opus 4.6（999±27），最后是DeepSeek V4（800±28）。

能力差距测算

CAISI采用项目反应理论（IRT）衍生方法，综合各项评测基准，测算每款参评模型的整体能力水平。

项目反应理论最初应用于心理测评场景，例如：一群学生作答若干考试题，依据作答结果评估每位学生的相对能力水平，同时判定每道试题的难度。CAISI将这一思路迁移应用到模型综合能力测算中：把AI模型类比为学生，把单个基准评测任务类比为考试题。

如上面那张图所示，西大前沿模型的能力水平，整体较中国前沿模型领先约8个月。

模型服务与推理部署

DeepSeek V4与西大前沿模型在两大基准评测套件上的对比：

图a: DeepSeek自行选取并公布的基准：V4整体表现与西大前沿模型基本持平

图b：CAISI自有评测套件下的基准：DeepSeek V4落后于西大模型

DeepSeek自家的技术报告指出，DeepSeek V4在多项基准测试中与西大顶尖前沿模型具备竞争力。

但CAISI对两款模型进行评测后发现：该模型在部分推理类与智能体类评测中表现明显偏弱，典型包括ARC-AGI-2半私有数据集、未对外公开的软件工程评测基准PortBench，以及网络安全评测基准CTF-Archive-Diamond。

DeepSeek V4在综合能力相近模型中，成本更低

为开展成本对比，CAISI筛选了一款西大参考模型：剔除在公开基准上性能明显落后、或每token成本远高于DeepSeek V4 Pro的西大模型。唯一符合筛选条件的模型为GPT-5.4mini，因此将其选为参照对象。

在CAISI的综合能力分析中，GPT-5.4 mini的Elo评分为749，与 DeepSeek V4 Pro的800分处于相近水平。

在CAISI的7项基准里，有5项基准下DeepSeek V4的使用成本低于GPT-5.4 mini。在这 7 项基准中，DeepSeek V4的成本区间为最低便宜53% 至最高贵41%。

注：本图为GPT-5.4 mini与DeepSeek V4 Pro在不同基准下的端到端成本（仅统计两款模型均正确完成的基准任务）。柱形越高，代表端到端成本越高。红色为V4，蓝色为GPT-5.4 mini。柱形内的数字，代表模型完成一道基准任务所产生的平均成本。

本次采用各家官方公布的token定价如下：

Apple 智能这种超强的图片能力也为 Apple 智能带来了更强的 AI 图片修改能力：除了常见的物件消除、AI 扩图外，Apple这次为相册 App 加入了「空间构图」能力，可以把不同照片先拓展成带有…

06-09

OpenAI已提交S-1草案，释放潜在IPO上市信号

06-09

广东省具身智能训练场“1+1+N”体系发布开启智能机器人发展新篇章

大会现场举行了广东省具身智能训练场“1+1+N”体系首批分训练场授牌仪式。广州白云建科、深圳玉树智能、珠海珠科产促等单位获授牌，标志着广东省具身智能基础设施建设从规划蓝图迈入“全省一盘棋”的实战阶段。此外…

06-09

苹果2026全球开发者大会落幕：多系统升级新设计新功能亮点纷呈

新设计也让图标更锐利，轮廓更鲜明。此外，系统动画效果更流畅，网络切换更流畅；iOS、iPadOS、macOS，从底层重构了聚焦、照片和邮件APP中的搜索功能，苹果重新打造索引架构，使其更稳定、高效，也更全面…

06-09

苹果iPadOS 27初亮相：性能跃升、Siri AI革新，多平台无缝交互新体验

AI 方面，苹果 iPadOS 27 引入全新 Siri AI，形式上是一款独立应用，定位接近 ChatGPT 和 Claude 这类对话式AI 助手，结合截图等屏幕内容，Siri AI 也被赋予更强的上…

06-09

苹果iPadOS 27亮相：性能提升显著，全新Siri AI助力智能新体验

AI 方面，苹果 iPadOS 27 引入全新 Siri AI，形式上是一款独立应用，定位接近 ChatGPT 和 Claude 这类对话式AI 助手，结合截图等屏幕内容，Siri AI 也被赋予更强的上…

06-09

三星与英伟达深化合作：全永铉会面黄仁勋，代工辅助驾驶芯片及推进HBM合作

06-09

SK海力士与英伟达强强联手共推AI工厂下一代存储器技术发展

06-09

苹果WWDC发声：反对盲目追逐AI，强调真正智能应紧扣用户需求

06-09

苹果WWDC发布Siri AI：系统级交互升级，灵动岛与语音表现力全面优化

06-09

苹果WWDC26发布新动态：macOS 27“聚焦”功能深度融合Siri AI

06-09

苹果WWDC发布全新Siri AI：多设备支持灵动岛现气泡 visionOS 27配3D水晶小球

06-09

苹果iOS 27版Home应用升级：AI助力精简通知，视频搜索更智能

06-09

苹果WWDC26发布Siri AI，适配iPhone 15 Pro系列等多款机型，部分地区暂不提供

06-09

WWDC 2026：苹果推新版Xcode与Core AI框架，助力开发者构建AI智能体应用

06-09

点击查看更多 +

全站最新

雷军点赞小米机器人夺冠国际赛事，具身智能从“能动”迈向“能干活”

上汽集团全球交付第1亿辆新车，自主与合资齐发力创行业新里程

保时捷坚守不国产：是守护品牌调性，还是错失中国机遇？

理想汽车12篇论文入选CVPR 2026 持续深耕智能技术成果丰硕

比亚迪大唐EV 6月17日上市！预售订单破10万，大空间长续航成家庭换车新选择

鸿蒙智行再发力，尊界V800登场，能否重塑高端MPV市场新格局？

热门内容

本栏最新

理想汽车150亿研发投入见成效！12篇CVPR顶会论文揭秘自动驾驶新进展

官降3万配置升级！2027款星海V9携五大头等舱价值焕新登场

名爵新能源“技术平权”破局国内市场，海内外双线能否迎来爆发？

云知声U2大模型正式登场：多维度能力进阶，开启AI任务执行新范式

奔驰全新纯电GLC来袭！800V架构配超联屏，续航超700km挑战宝马iX3

槐荫汽车嗨购节落幕：5D座舱、VR奇幻游共绘智能出行新画卷

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.