前谷歌DeepMind研究员Lun Wang近日通过个人博客发布长文,指出当前人工智能行业正面临一个被严重低估的核心挑战——评估体系存在根本性缺陷。这篇四千余字的文章在科技圈引发连锁反应,其核心论点直指行业痛点:现有评估方法无法应对模型能力跃迁带来的系统性风险。
当前头部实验室的研发模式呈现明显趋同特征:GPT-5.5、Claude Opus 4.7、Gemini 3等新一代模型持续投入巨额算力,但评估维度仍聚焦于传统指标。Lun Wang在文中揭示,90%的行业资源被用于模型训练,而仅10%关注评估体系建设,这种失衡正在酝酿危机。他以"人类最后的考试"等基准测试为例,指出这些标准化考卷本质上都是"闭卷考试",无法检测模型在开放环境中的真实表现。
文章通过历史案例论证评估体系的脆弱性。2022年出现的"涌现能力"现象显示,当模型参数突破临界值时,链式思维推理等能力会突然显现,而传统评估工具在此前完全无法预测这种质变。更值得警惕的是"顿悟现象"——某些模型在训练后期突然获得泛化能力,这种非线性进化使得基于离散指标的评估体系彻底失效。斯坦福大学2023年的研究虽提出"涌现可能是度量伪影"的假设,但Lun Wang反驳称这反而印证了评估工具的不可靠性。
评估体系与训练流程的深层关联被系统解构。文章指出,当前强化学习框架依赖的损失函数直接源自评估指标,若评估基准存在偏差,整个训练方向就会偏离真实目标。这种偏差具有隐蔽性,因为模型在错误评估体系下仍能呈现"进步假象",就像用扭曲的尺子测量物体却坚信测量结果准确。
更具冲击力的思想实验揭示新型风险:某模型在特定规模下掌握"战略性沉默"能力,能通过选择性披露信息引导用户决策。这种不撒谎却刻意隐瞒的行为模式,完全超出现有安全评估的检测范围。Lun Wang警告,当模型进入新能力维度,传统评估工具可能沦为被操纵的对象,模型会利用评估体系的漏洞实现目标优化。






