滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

AI模型能力被低估？推理预算成关键，OpenAI专家呼吁重估评测体系

时间：2026-06-11 20:52:12 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

OpenAI核心研究员Noam Brown近日发表长文，对当前AI模型评估体系提出尖锐批评。他指出，以单一分数衡量模型性能的做法已严重滞后，尤其在推理计算成为行业标配的当下，这种评估方式正在制造巨大认知偏差。GPT-5.5与前代模型的对比数据充分印证了这一观点：当控制推理预算后，新模型在网络安全评估等任务中的表现较前代提升超过200%，而传统基准测试仅显示微弱优势。

行业现行的评估体系正陷入"时间盲区"。Brown通过对比实验揭示，同一模型在30分钟与3小时的推理时间内，任务完成质量存在本质差异。这种差异在前沿模型中尤为显著——强模型在延长推理时间后，性能曲线持续攀升，而弱模型很快触及天花板。以MMLU基准测试为例，当前顶尖模型得分普遍超过88%，分数差异已低于统计误差范围，实际反映的不过是测试噪声。

推理预算的差异正在重塑模型能力图谱。在MRCR v2长文本测试中，GPT-5.5以74.0%的得分碾压前代的36.6%，但这项关键指标从未出现在标准评测报告中。更极端的情况出现在ARC-AGI测试：OpenAI的o3模型单题推理成本高达3万美元，而竞争对手用0.2美元的小模型也取得了24%的准确率。当测试成本相差六个数量级时，排名本身已失去比较价值。

学术界的研究为这种现象提供了量化解释。覆盖率与采样次数呈对数线性关系，意味着推理时间翻倍带来的收益逐渐递减。但最新发现显示，这种递减效应在强模型中显著减弱——它们能在更长的推理周期内持续优化结果。这解释了为何GPT-5.5 Pro通过并行推理链设计，能在遇到难题时自动调用更多计算资源，从而实现性能跃迁。

Brown提出三项改革建议：实验室发布模型时必须公开性能-计算量曲线；基准测试需追踪推理用量或设定预算上限；安全评估框架应将计算资源作为核心变量。他特别强调，现有安全测试仅关注"默认状态"具有严重隐患——国家级攻击者完全可能为单个任务投入千万美元级推理预算，这种场景下的模型行为与常规测试截然不同。

这场评估体系变革正引发连锁反应。ARC-AGI测试已率先采用动态预算机制，要求模型在从1美元到1000万美元的推理预算范围内持续输出结果。但新挑战随之而来：长期评估可能无法通过外推预测，某些危险能力的验证需要让AI运行整整一年，而这个周期已超过多数实验室的模型迭代速度。

行业投入格局的转变印证了这种趋势。2026年全球科技巨头在AI基础设施上的支出预计达7000亿美元，其中相当比例用于提升推理能力。当智能成为可标价的连续函数，模型间的真实差距不再取决于架构创新，而是背后支撑的计算资源。这种转变迫使整个行业重新思考：在无限延伸的推理时间内，AI的能力边界究竟在哪里？

更多>同类资讯

今年前5月我国机器人出口成绩亮眼清洁及工业等机器人海外“圈粉”无数

07-05

LG Display借AI发力：虚拟验证缩短研发周期，年省成本超2000亿韩元

07-05

魏县特种车辆零部件集群：共享模式破困局降本增效促发展

07-05

丰田启动术语整合计划：AI助力2028年前将4.5万术语精简至5000套

07-05

LG Display用AI降本，每年可省超2000亿韩元

07-05

别争了！香农老婆，才是世界上第一个大语言模型

07-05

丰田将借助AI把各部门4.5万个专业术语精简至5000个

07-05

今年前 5 个月我国机器人出口近 200 亿元，清洁机器人占七成

07-05

LG Display 用 AI 降本，每年可省超 2000 亿韩元

07-05

特斯拉北美“夏日系列”上新！车载冰箱、天幕等，解锁户外出行新体验

07-05

观远数据十年首转型：从BI到决策智能，能否破局行业变革困境？

07-05

李飞飞等顶尖学者突破困境：为具身智能触觉应用开辟全新路径

07-05

LG Display借AI之力革新生产研发，年省成本超2000亿韩元再攀高峰

07-05

AI浪潮下美术评论：以人类智慧凝萃艺术之美的新探索

07-05

前5月国产机器人出口规模攀升清洁机器人领跑全球市场新赛道

07-05

点击查看更多 +

全站最新

辅助驾驶“责任竞争”白热化谁能让用户零成本畅享权益成关键

丰田启动术语整合计划：AI助力2028年前将4.5万术语精简至5000套

夏季加油必看：加满隐患、油品保质、标号真相及劣质油应对全攻略

鸿蒙智行享界MPV新车谍照又现街头，后轮转向加持，量产冲刺进行时

探岳L上市即降5.5万！配三屏+IQ.Drive，月销破万值得入手吗？

法拉利12Cilindri Manuale来袭：线控换挡邂逅V12引擎，限量珍藏开启新驾趣

热门内容

本栏最新

丰田启动术语整合计划：AI助力2028年前将4.5万术语精简至5000套

天马全球首推3.16英寸Micro LED透明圆屏车载显示全场景布局再升级

安波福多管齐下应对芯片紧缺：优化架构、双轨备份保汽车供应链稳定

预售来袭！领克07GT高颜值猎装，408马力起，续航破千，配置超丰富

通信网络新变革：AI赋能，Token驱动，开启智能时代新篇章

魏县特种车辆零部件集群“共享智造”：降本增效助力企业“抱团”发展

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.