OpenAI在毫无预兆的情况下,正式上线了GPT-5.4 mini与GPT-5.4 nano两款轻量级模型,迅速引发行业关注。这两款模型以“快、准、省”为核心卖点,直接瞄准生产环境中的实际需求,试图在速度、成本与性能之间找到最佳平衡点。
在编码能力测试中,GPT-5.4 mini展现出了惊人的实力。以SWE-Bench Pro基准为例,该模型取得了54.4%的成绩,与满血版GPT-5.4的57.7%差距微乎其微。这意味着,在修复GitHub真实软件Bug这类复杂任务中,mini已接近旗舰模型的天花板。更令人惊讶的是,其运行速度较上一代GPT-5 mini提升了整整一倍,而成本却大幅降低。另一项测试Terminal-Bench 2.0中,mini以60.0%的成绩远超前代的38.2%,提升幅度超过57%。即便是定位更轻量的nano,也在SWE-Bench Pro上取得了52.4%的成绩,比上一代mini高出近7%,展现了蒸馏模型技术的飞速进步。
推理与工具调用能力是衡量模型实用性的关键指标。在博士级科学推理基准GPQA Diamond上,GPT-5.4 mini取得了88%的成绩,与旗舰版仅差5%。而在工具调用领域,其表现更为突出。Toolathlon测试中,mini以42.9%的得分碾压GPT-5 mini的26.9%,展现了在复杂工具链中正确组合、排序和使用多种工具的能力。在电信行业专用基准τ2-bench上,mini以93.4%的高分几乎追平满血版的98.9%,将前代远远甩在身后。这些数据表明,mini已不再是一个简单的“缩小版”,而是能够独立承担复杂任务链的生产级工具。
计算机使用能力是GPT-5.4 mini的另一大亮点。在OSWorld-Verified测试中,该模型取得了72.1%的成绩,与旗舰版的75.0%差距不足3个百分点,而前代GPT-5 mini仅得42.0%,一代之间能力几乎翻倍。这一突破意味着,AI已初步具备“看屏幕干活”的能力——能够解析UI截图、定位操作元素并做出正确决策。然而,nano在该测试中仅得39.0%,甚至略低于前代,显示出视觉推理能力对模型规模的敏感依赖。在MMMUPro测试中,mini以78.0%的成绩接近旗舰版的81.5%,进一步验证了其在多模态推理任务中的潜力。
成本与速度的优化是这两款模型的核心优势。GPT-5.4 mini提供400k超大上下文窗口,输入价格为0.75美元/百万token,输出价格为4.5美元/百万token,较旗舰版输出价格低三分之一。而nano的价格更为惊人,输入仅需0.2美元/百万token,输出1.25美元/百万token,仅为旗舰版的十二分之一。实际使用中,有开发者反馈,mini的速度不仅远超前代,甚至比Claude 4.6 Opus便宜9倍,性价比优势显著。
OpenAI在此次发布中强调了“分层调度”的架构理念。旗舰模型GPT-5.4负责规划与决策,而将具体任务分发给mini子智能体并行执行。例如,在Codex中,开发者可以让旗舰模型制定整体方案,再由多个mini子智能体处理搜索代码库、审查文件等子任务。这种模式下,mini仅消耗旗舰模型配额的30%,意味着同等预算可运行三倍以上的任务量。Hebbia的CTO评价称,mini在多项任务中以更低成本实现了与竞品相当甚至更优的效果,证明了“小模型更好用”已成为现实。
目前,GPT-5.4 mini已全面上线,支持API、Codex和ChatGPT三端使用。API定价为输入0.75美元/百万token,输出4.50美元/百万token,上下文窗口达400K,支持文本、图像输入及工具调用、网络搜索等全套能力。nano则仅在API中提供,价格更低。在ChatGPT端,mini向免费用户开放,付费用户额度耗尽时会自动降级使用mini,既降低了使用门槛,也缓解了用户的“额度焦虑”。
尽管表现亮眼,GPT-5.4 mini仍存在短板。在长上下文处理测试中,如OpenAI MRCR v2的8针搜索任务,旗舰版在64K-128K窗口下得分为86.0%,而mini仅得47.7%,差距近40个百分点。在128K-256K窗口下,差距进一步扩大至79.3%对33.6%。Graphwalks测试中,旗舰版在父节点追踪任务上得分为89.8%,mini为71.5%。这表明,在需要精确检索超长文本或逻辑追踪的场景中,mini仍无法替代旗舰版。然而,OpenAI的产品策略正是通过分层满足不同需求——mini专注于速度、编码与工具调用,而旗舰版则处理长文本等复杂任务。










