滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

GPT-4.1与智谱Z.ai同台竞技，AI模型性能大战一触即发

时间：2025-05-06 20:08:39 来源：ITBEAR编辑：快讯团队 发表评论无障碍通道

在科技界的一次重大飞跃中，OpenAI宣布推出三款全新模型：GPT-4.1、GPT-4.1 mini及GPT-4.1 nano。这些最新力作不仅在性能上远超前辈GPT-4o系列，更在编码能力和指令遵循方面实现了显著提升。尤为引人注目的是，它们配备了前所未有的大上下文窗口，能够处理多达100万个上下文tokens，这一数字相当于整个React代码库的8倍以上。

在SWE-bench Verified这一衡量编码能力的权威测试中，GPT-4.1以54.6%的得分傲视群雄，相较于GPT-4o的33.2%和GPT-4.5的表现，分别提升了21.4%和26.6%。这一成绩无疑确立了GPT-4.1在编码模型领域的领先地位。

在指令遵循方面，GPT-4.1同样表现出色，以38.3%的得分超越了GPT-4o的27.8%，彰显了其在理解和执行复杂指令上的卓越能力。而在Video-MME多模态长上下文理解基准测试中，GPT-4.1在无字幕长篇类别中取得了72.0%的高分，较GPT-4o提升了6.7%，进一步证明了其在处理复杂信息方面的强大实力。

为了优化用户体验，GPT-4.1系列模型在确保高性能的同时，还实现了成本的有效控制。这些模型在延迟曲线的各个节点上都实现了性能提升，为用户提供了更为流畅和高效的服务。与此同时，OpenAI还透露，GPT-4.1在代码任务、指令遵循以及长上下文理解等多个领域均超越了GPT-4o，展示了其全面的技术优势。

与此同时，国内AI领域也传来了振奋人心的消息。智谱AI宣布开源其32B/9B系列GLM模型，这些模型在代码生成、指令遵循等方面与GPT-4.1形成了直接竞争。用户现已可通过全新平台Z.ai免费体验这批涵盖基座、推理、沉思模型的AI产品，同时，它们也已在智谱MaaS平台上同步上线。

在代码生成方面，GPT-4.1展现出了卓越的能力。无论是解决复杂的编码任务、进行前端编码，还是在减少无关编辑、遵循差异格式等方面，GPT-4.1的表现均优于GPT-4o。在SWE-bench Verified测试中，GPT-4.1完成了54.6%的任务，而GPT-4o的完成率仅为33.2%。GPT-4.1在跨多种格式的代码差异分析方面也更加准确，为API开发者提供了更为高效和准确的代码编辑工具。

指令遵循方面，GPT-4.1同样表现出色。在OpenAI开发的内部教学跟踪评估系统中，GPT-4.1在困难提示方面的表现尤为突出。它能够更好地从过往对话中识别信息，实现更自然的对话。在MultiChallenge基准测试中，GPT-4.1的表现较GPT-4o提升了10.5%。而在IFeval测试中，GPT-4.1的得分也高达87.4%，超越了GPT-4o的81.0%。智谱的GLM-Z1-32B-0414在IFeval上也取得了84.5%的优异成绩。

长上下文理解是GPT-4.1的另一大亮点。它能够处理多达100万个上下文tokens，这一能力在处理大型代码库或大量长文档时尤为关键。GPT-4.1能够准确地从长上下文中提取相关信息，并忽略干扰项。在OpenAI-MRCR评估平台上，GPT-4.1展现出了卓越的信息理解能力。同时，在Graphwalks基准测试中，GPT-4.1也取得了61.7%的准确率，轻松击败了GPT-4o。

智谱AI在小模型性能上也取得了突破。其GLM-Z1-9B-0414模型虽然参数量较少，但在数学推理及通用任务上仍表现出色。在AIME基准测试中，它以76.4%的高分击败了DeepSeek-R1-Distill-Qwen-7B。

在图像理解方面，GPT-4.1系列同样不容小觑。尤其是GPT-4.1 mini，在图像基准测试中经常击败GPT-4o。在Video-MME测试中，GPT-4.1以72.0%的得分超越了GPT-4o的65.3%，展示了其在视频理解方面的强大实力。

在定价方面，GPT-4.1的成本较GPT-4o降低了26%，而GPT-4.1 nano更是成为了OpenAI迄今为止最便宜且速度最快的模型。除了标准的per-token成本外，OpenAI还提供了无需额外付费的长上下文请求服务。相比之下，智谱Z.ai的定价整体低于GPT-4.1。其推出的GLM-Z1系列推理模型包括极速版、高性价比版和免费版等多个版本，旨在满足不同用户的需求。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

中国XR市场风云突变：AR眼镜销量飙升，VR缘何黯然失色？

05-08

哈啰出行东莞新设网络科技公司，注册资本达500万美元

05-08

闪迪独立上市后首季财报：营收微跌仍超预期，BiCS 8技术表现强劲

05-08

Rocket Lab能否成为下一个SpaceX，商业航天新篇章即将开启？

05-08

科研新突破！我国团队打造“微生物特种兵”高效降解五种有机污染物

05-08

小米米家三门冰箱256L新上市，独立控温仅售1499元！

05-08

微软谷歌携手，A2A协议助力AI智能体跨云跨平台无缝协同

05-08

Win11设置引入AI智能体，用户需求一键解决，未来科技感十足！

05-08

蔡司SFL 50双筒望远镜新品来袭，最高放大倍率达12x！

05-08

小米13/14 Ultra迎来澎湃OS安全升级，系统更坚固

05-08

中国XR市场风云突变：AR眼镜销量飙升，VR缘何黯然失色？

05-08

OpenAI加速商业化，新CEO上任！Altman全力押注超级智能技术

05-08

沪上阿姨年售107亿，近万家门店齐绽放，茶饮界新巨头港股上市！

和奈雪的茶类似，沪上阿姨也是“夫妻店”。按2022年和2023年门店总数及GMV增长率计算，沪上阿姨是中国以门店总数计算的前五大现制茶饮店品牌中增长最快的一个。招股书显示，截至2023年9月30日，沪上…

05-08

张纪中公司陷老赖风波，600万股权遭冻结！

05-08

李佳琦携父母入局，银发经济蓝海下的直播带货新探索

小杨哥带父母直播，是因为其最早就走着家庭搞笑路线，父母也是组成内容的一部分；辛巴妈妈做直播带货，是因为辛巴的“家人”口号，有着强情感联结的属性，家族互动更容易触发用户潜意识中的信任机制；相比之下，李佳琦的内…

05-08

点击查看更多 +

全站最新

自动挡开车省油秘籍：掌握三招，轻松降油耗提动力！

哈啰出行东莞新设网络科技公司，注册资本达500万美元

小米SU7 Ultra量产版挑战纽北，能否续写辉煌？

吉利拟私有化极氪，聚焦主业冲刺年销百万目标

上汽通用五菱：固态电池2027年上车，智能辅助驾驶方案再升级

科研新突破！我国团队打造“微生物特种兵”高效降解五种有机污染物

热门内容

本栏最新

哈啰出行东莞新设网络科技公司，注册资本达500万美元

科研新突破！我国团队打造“微生物特种兵”高效降解五种有机污染物

小米米家三门冰箱256L新上市，独立控温仅售1499元！

微软谷歌携手，A2A协议助力AI智能体跨云跨平台无缝协同

Win11设置引入AI智能体，用户需求一键解决，未来科技感十足！

蔡司SFL 50双筒望远镜新品来袭，最高放大倍率达12x！

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.