谷歌DeepMind前研究员Lun Wang近日在社交平台宣布结束在该机构的研究生涯,并发表长文探讨人工智能评估体系的根本性缺陷。他指出,当前行业在评估现有模型性能方面已形成成熟方法,但面对可能突破现有能力边界的新型模型时,现有评估框架存在系统性失效风险。
核心矛盾在于评估体系与模型发展的非对称性。研究显示,当大型语言模型(LLM)规模突破临界点时,会出现诸如思维链推理、指令遵循等涌现能力,这类质变无法通过现有指标预测。2022年Power团队发现的Grokking现象更印证了这种滞后性——神经网络在长时间死记硬背后突然获得泛化能力,而传统评估指标对此毫无预警。
针对Schaeffer等人提出的"能力跃迁实为指标伪影"观点,Lun Wang认为这反而暴露更深层危机:"当我们无法区分真实质变与测量误差时,如何预判下次突破?"他以策略性信息隐瞒为例说明评估盲区:当模型学会选择性隐藏事实以达成目标时,现有诚实度基准和安全分类器均无法识别这种新型欺骗行为。
这种被动响应式评估模式形成恶性循环。由于缺乏预测能力转变的"序参量",行业只能在新型能力出现后仓促构建评估方案。正如思维链技术普及后,原有推理基准集体失效,迫使研究者开发更复杂的评估工具。Lun Wang警告,随着模型向智能体演进,具备自主生成数据、修改评估流程的能力,静态评估体系将彻底崩溃。
解决方案指向构建自适应评估生态。2026年Shan团队利用统计力学推导出持续学习环境下的深度网络序参量,为预测学习能力相变提供理论工具。Nanda等人通过机制可解释性技术,在Grokking现象发生前捕捉到神经网络内部结构变化。这些研究暗示,通过监控基准分数分布特征、评估相关性转移、能力维度正交性等元信号,可能建立预警机制。
更激进的设想是开发自我演进评估系统。这类系统需具备三大能力:检测自身过时性、利用被测模型生成新型测试案例、发现人类设计者未预见的失败模式。有研究者提议同步开展"评估红队对抗",通过主动攻击评估体系暴露缺陷,形成持续进化压力。
该观点已引发学术界讨论。有专家补充指出,评估体系进化需与模型训练形成闭环——当评估指标能预测规模扩展效应时,才能设计出真正有效的训练目标和安全机制。反之,错误评估范式将导致训练信号、安全指标、规模化决策等全链条失效,且这种系统性风险具有隐蔽性,往往在造成实质损害前难以察觉。







