滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

GPT-5.4双子星突袭：轻量级模型性能逼近满血版，AI应用加速普及

时间：2026-03-18 09:13:40 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

OpenAI在毫无预兆的情况下，正式上线了GPT-5.4 mini与GPT-5.4 nano两款轻量级模型，迅速引发行业关注。这两款模型以“快、准、省”为核心卖点，直接瞄准生产环境中的实际需求，试图在速度、成本与性能之间找到最佳平衡点。

在编码能力测试中，GPT-5.4 mini展现出了惊人的实力。以SWE-Bench Pro基准为例，该模型取得了54.4%的成绩，与满血版GPT-5.4的57.7%差距微乎其微。这意味着，在修复GitHub真实软件Bug这类复杂任务中，mini已接近旗舰模型的天花板。更令人惊讶的是，其运行速度较上一代GPT-5 mini提升了整整一倍，而成本却大幅降低。另一项测试Terminal-Bench 2.0中，mini以60.0%的成绩远超前代的38.2%，提升幅度超过57%。即便是定位更轻量的nano，也在SWE-Bench Pro上取得了52.4%的成绩，比上一代mini高出近7%，展现了蒸馏模型技术的飞速进步。

推理与工具调用能力是衡量模型实用性的关键指标。在博士级科学推理基准GPQA Diamond上，GPT-5.4 mini取得了88%的成绩，与旗舰版仅差5%。而在工具调用领域，其表现更为突出。Toolathlon测试中，mini以42.9%的得分碾压GPT-5 mini的26.9%，展现了在复杂工具链中正确组合、排序和使用多种工具的能力。在电信行业专用基准τ2-bench上，mini以93.4%的高分几乎追平满血版的98.9%，将前代远远甩在身后。这些数据表明，mini已不再是一个简单的“缩小版”，而是能够独立承担复杂任务链的生产级工具。

计算机使用能力是GPT-5.4 mini的另一大亮点。在OSWorld-Verified测试中，该模型取得了72.1%的成绩，与旗舰版的75.0%差距不足3个百分点，而前代GPT-5 mini仅得42.0%，一代之间能力几乎翻倍。这一突破意味着，AI已初步具备“看屏幕干活”的能力——能够解析UI截图、定位操作元素并做出正确决策。然而，nano在该测试中仅得39.0%，甚至略低于前代，显示出视觉推理能力对模型规模的敏感依赖。在MMMUPro测试中，mini以78.0%的成绩接近旗舰版的81.5%，进一步验证了其在多模态推理任务中的潜力。

成本与速度的优化是这两款模型的核心优势。GPT-5.4 mini提供400k超大上下文窗口，输入价格为0.75美元/百万token，输出价格为4.5美元/百万token，较旗舰版输出价格低三分之一。而nano的价格更为惊人，输入仅需0.2美元/百万token，输出1.25美元/百万token，仅为旗舰版的十二分之一。实际使用中，有开发者反馈，mini的速度不仅远超前代，甚至比Claude 4.6 Opus便宜9倍，性价比优势显著。

OpenAI在此次发布中强调了“分层调度”的架构理念。旗舰模型GPT-5.4负责规划与决策，而将具体任务分发给mini子智能体并行执行。例如，在Codex中，开发者可以让旗舰模型制定整体方案，再由多个mini子智能体处理搜索代码库、审查文件等子任务。这种模式下，mini仅消耗旗舰模型配额的30%，意味着同等预算可运行三倍以上的任务量。Hebbia的CTO评价称，mini在多项任务中以更低成本实现了与竞品相当甚至更优的效果，证明了“小模型更好用”已成为现实。

目前，GPT-5.4 mini已全面上线，支持API、Codex和ChatGPT三端使用。API定价为输入0.75美元/百万token，输出4.50美元/百万token，上下文窗口达400K，支持文本、图像输入及工具调用、网络搜索等全套能力。nano则仅在API中提供，价格更低。在ChatGPT端，mini向免费用户开放，付费用户额度耗尽时会自动降级使用mini，既降低了使用门槛，也缓解了用户的“额度焦虑”。

尽管表现亮眼，GPT-5.4 mini仍存在短板。在长上下文处理测试中，如OpenAI MRCR v2的8针搜索任务，旗舰版在64K-128K窗口下得分为86.0%，而mini仅得47.7%，差距近40个百分点。在128K-256K窗口下，差距进一步扩大至79.3%对33.6%。Graphwalks测试中，旗舰版在父节点追踪任务上得分为89.8%，mini为71.5%。这表明，在需要精确检索超长文本或逻辑追踪的场景中，mini仍无法替代旗舰版。然而，OpenAI的产品策略正是通过分层满足不同需求——mini专注于速度、编码与工具调用，而旗舰版则处理长文本等复杂任务。

03-18

黄仁勋力挺OpenClaw：AI智能体变革互动方式，拓展个人能力边界

03-18

2026年GTC大会：黄仁勋描绘AI新蓝图英伟达转型经济体构建者

03-18

理想汽车2025年业绩承压，2026年以三大支柱谋20%销量增长新局

03-18

OpenAI发布GPT-5.4 mini与nano：低延迟高效能，多场景应用潜力大

03-18

2026世界互联网大会亚太峰会启幕，聚焦数字议题共促亚太数智新发展

在分论坛与配套活动设置上，峰会精准契合行业发展趋势，围绕智能体创新与应用、数字金融、人工智能安全治理、智惠民生、数智健康和典籍数智化与传播六大主题，设置了6个分论坛，全面回应各方在数智化发展中的共同关切。 …

03-18

AI“推理时代”激战正酣：英伟达布局降本，中国大模型性价比领跑全球

黄仁勋在演讲中毫不讳言英伟达的雄心，他手举一条印有“InferenceX”（推理之王）的冠军腰带，并多次强调英伟达通过软硬件的“极致协同设计”（Extreme Co-design），实现了全球最低的Token…

03-18

英伟达GTC炸场！NemoClaw亮相，Vera Rubin算力飙升开启新纪元

台上，老黄展示了Vera Rubin系统，进化速度是肉眼可见的—— 老黄特别强调了一点：这是全球唯一一颗在数据中心使用LPDDR5的CPU。老黄在整场keynote里反复说的一句话是：英伟达是一家「垂直整…

03-18

技术为翼，生态为基：探路如何以复用技术构建全场景出行新未来？

03-18

AI赋能家用咖啡机：从“玄学操作”到“科学适配”的体验跃迁

03-18

吉利极氪8X首发超级Eva，阶跃星辰“最强大脑”开启智能出行新体验

03-18

简知科技九年探索：全龄覆盖、技术赋能，让终身学习融入生活每刻

03-18

东风汽车“东风太极大模型”成功备案开启全场景智能协同新篇章

03-18

别克至境世家纯电版上市，以超快充等优势领航豪华新能源MPV市场

03-18

小牛电动NXT2系列来袭！汽车级感知+AI大模型，智能骑行新体验

03-18

点击查看更多 +

全站最新

风雅西北湖春日启幕！樱花与艺术交融，江汉免费活动邀你共赴浪漫之约

理想汽车2025年业绩承压，2026年以三大支柱谋20%销量增长新局

国产新能源实力出圈！福特拆解比亚迪皮卡，直呼成本利润难理解

中汽中心新能源检验中心二期开工天津新能源汽车产业再添新动力

中车哈尔滨车辆公司数智化改造升级产能跃升迈向行业新高度

理想增程器开发逻辑大不同：NVH居首重塑用户核心需求新架构

热门内容

本栏最新

理想汽车2025年业绩承压，2026年以三大支柱谋20%销量增长新局

技术为翼，生态为基：探路如何以复用技术构建全场景出行新未来？

长安汽车2026年定下330万辆销量目标 2028年将实现人形机器人量产

看不见的豪华：5000万欧元筑牢安全防线，奔驰诠释电车匠心底色

华为乾崑与广汽携手推出启境品牌首款中大型猎装车GT7预计6月上市

别克至境世家纯电版上市！900V 6C超快充，续航601km，售价48.99万元

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.