OpenAI核心研究员Noam Brown近日发表长文,对当前AI模型评估体系提出尖锐批评。他指出,以单一分数衡量模型性能的做法已严重滞后,尤其在推理计算成为行业标配的当下,这种评估方式正在制造巨大认知偏差。GPT-5.5与前代模型的对比数据充分印证了这一观点:当控制推理预算后,新模型在网络安全评估等任务中的表现较前代提升超过200%,而传统基准测试仅显示微弱优势。
行业现行的评估体系正陷入"时间盲区"。Brown通过对比实验揭示,同一模型在30分钟与3小时的推理时间内,任务完成质量存在本质差异。这种差异在前沿模型中尤为显著——强模型在延长推理时间后,性能曲线持续攀升,而弱模型很快触及天花板。以MMLU基准测试为例,当前顶尖模型得分普遍超过88%,分数差异已低于统计误差范围,实际反映的不过是测试噪声。
推理预算的差异正在重塑模型能力图谱。在MRCR v2长文本测试中,GPT-5.5以74.0%的得分碾压前代的36.6%,但这项关键指标从未出现在标准评测报告中。更极端的情况出现在ARC-AGI测试:OpenAI的o3模型单题推理成本高达3万美元,而竞争对手用0.2美元的小模型也取得了24%的准确率。当测试成本相差六个数量级时,排名本身已失去比较价值。
学术界的研究为这种现象提供了量化解释。覆盖率与采样次数呈对数线性关系,意味着推理时间翻倍带来的收益逐渐递减。但最新发现显示,这种递减效应在强模型中显著减弱——它们能在更长的推理周期内持续优化结果。这解释了为何GPT-5.5 Pro通过并行推理链设计,能在遇到难题时自动调用更多计算资源,从而实现性能跃迁。
Brown提出三项改革建议:实验室发布模型时必须公开性能-计算量曲线;基准测试需追踪推理用量或设定预算上限;安全评估框架应将计算资源作为核心变量。他特别强调,现有安全测试仅关注"默认状态"具有严重隐患——国家级攻击者完全可能为单个任务投入千万美元级推理预算,这种场景下的模型行为与常规测试截然不同。
这场评估体系变革正引发连锁反应。ARC-AGI测试已率先采用动态预算机制,要求模型在从1美元到1000万美元的推理预算范围内持续输出结果。但新挑战随之而来:长期评估可能无法通过外推预测,某些危险能力的验证需要让AI运行整整一年,而这个周期已超过多数实验室的模型迭代速度。
行业投入格局的转变印证了这种趋势。2026年全球科技巨头在AI基础设施上的支出预计达7000亿美元,其中相当比例用于提升推理能力。当智能成为可标价的连续函数,模型间的真实差距不再取决于架构创新,而是背后支撑的计算资源。这种转变迫使整个行业重新思考:在无限延伸的推理时间内,AI的能力边界究竟在哪里?










