在科技界的一次重大飞跃中,OpenAI宣布推出三款全新模型:GPT-4.1、GPT-4.1 mini及GPT-4.1 nano。这些最新力作不仅在性能上远超前辈GPT-4o系列,更在编码能力和指令遵循方面实现了显著提升。尤为引人注目的是,它们配备了前所未有的大上下文窗口,能够处理多达100万个上下文tokens,这一数字相当于整个React代码库的8倍以上。
在SWE-bench Verified这一衡量编码能力的权威测试中,GPT-4.1以54.6%的得分傲视群雄,相较于GPT-4o的33.2%和GPT-4.5的表现,分别提升了21.4%和26.6%。这一成绩无疑确立了GPT-4.1在编码模型领域的领先地位。
在指令遵循方面,GPT-4.1同样表现出色,以38.3%的得分超越了GPT-4o的27.8%,彰显了其在理解和执行复杂指令上的卓越能力。而在Video-MME多模态长上下文理解基准测试中,GPT-4.1在无字幕长篇类别中取得了72.0%的高分,较GPT-4o提升了6.7%,进一步证明了其在处理复杂信息方面的强大实力。
为了优化用户体验,GPT-4.1系列模型在确保高性能的同时,还实现了成本的有效控制。这些模型在延迟曲线的各个节点上都实现了性能提升,为用户提供了更为流畅和高效的服务。与此同时,OpenAI还透露,GPT-4.1在代码任务、指令遵循以及长上下文理解等多个领域均超越了GPT-4o,展示了其全面的技术优势。
与此同时,国内AI领域也传来了振奋人心的消息。智谱AI宣布开源其32B/9B系列GLM模型,这些模型在代码生成、指令遵循等方面与GPT-4.1形成了直接竞争。用户现已可通过全新平台Z.ai免费体验这批涵盖基座、推理、沉思模型的AI产品,同时,它们也已在智谱MaaS平台上同步上线。
在代码生成方面,GPT-4.1展现出了卓越的能力。无论是解决复杂的编码任务、进行前端编码,还是在减少无关编辑、遵循差异格式等方面,GPT-4.1的表现均优于GPT-4o。在SWE-bench Verified测试中,GPT-4.1完成了54.6%的任务,而GPT-4o的完成率仅为33.2%。GPT-4.1在跨多种格式的代码差异分析方面也更加准确,为API开发者提供了更为高效和准确的代码编辑工具。
指令遵循方面,GPT-4.1同样表现出色。在OpenAI开发的内部教学跟踪评估系统中,GPT-4.1在困难提示方面的表现尤为突出。它能够更好地从过往对话中识别信息,实现更自然的对话。在MultiChallenge基准测试中,GPT-4.1的表现较GPT-4o提升了10.5%。而在IFeval测试中,GPT-4.1的得分也高达87.4%,超越了GPT-4o的81.0%。智谱的GLM-Z1-32B-0414在IFeval上也取得了84.5%的优异成绩。
长上下文理解是GPT-4.1的另一大亮点。它能够处理多达100万个上下文tokens,这一能力在处理大型代码库或大量长文档时尤为关键。GPT-4.1能够准确地从长上下文中提取相关信息,并忽略干扰项。在OpenAI-MRCR评估平台上,GPT-4.1展现出了卓越的信息理解能力。同时,在Graphwalks基准测试中,GPT-4.1也取得了61.7%的准确率,轻松击败了GPT-4o。
智谱AI在小模型性能上也取得了突破。其GLM-Z1-9B-0414模型虽然参数量较少,但在数学推理及通用任务上仍表现出色。在AIME基准测试中,它以76.4%的高分击败了DeepSeek-R1-Distill-Qwen-7B。
在图像理解方面,GPT-4.1系列同样不容小觑。尤其是GPT-4.1 mini,在图像基准测试中经常击败GPT-4o。在Video-MME测试中,GPT-4.1以72.0%的得分超越了GPT-4o的65.3%,展示了其在视频理解方面的强大实力。
在定价方面,GPT-4.1的成本较GPT-4o降低了26%,而GPT-4.1 nano更是成为了OpenAI迄今为止最便宜且速度最快的模型。除了标准的per-token成本外,OpenAI还提供了无需额外付费的长上下文请求服务。相比之下,智谱Z.ai的定价整体低于GPT-4.1。其推出的GLM-Z1系列推理模型包括极速版、高性价比版和免费版等多个版本,旨在满足不同用户的需求。