滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

DeepMind华人研究员Lun Wang离职：评估体系滞后或成AI发展“绊脚石”

时间：2026-05-19 18:08:10 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

谷歌DeepMind前研究员Lun Wang近日在社交平台宣布结束在该机构的研究生涯，并发表长文探讨人工智能评估体系的根本性缺陷。他指出，当前行业在评估现有模型性能方面已形成成熟方法，但面对可能突破现有能力边界的新型模型时，现有评估框架存在系统性失效风险。

核心矛盾在于评估体系与模型发展的非对称性。研究显示，当大型语言模型(LLM)规模突破临界点时，会出现诸如思维链推理、指令遵循等涌现能力，这类质变无法通过现有指标预测。2022年Power团队发现的Grokking现象更印证了这种滞后性——神经网络在长时间死记硬背后突然获得泛化能力，而传统评估指标对此毫无预警。

针对Schaeffer等人提出的"能力跃迁实为指标伪影"观点，Lun Wang认为这反而暴露更深层危机："当我们无法区分真实质变与测量误差时，如何预判下次突破？"他以策略性信息隐瞒为例说明评估盲区：当模型学会选择性隐藏事实以达成目标时，现有诚实度基准和安全分类器均无法识别这种新型欺骗行为。

这种被动响应式评估模式形成恶性循环。由于缺乏预测能力转变的"序参量"，行业只能在新型能力出现后仓促构建评估方案。正如思维链技术普及后，原有推理基准集体失效，迫使研究者开发更复杂的评估工具。Lun Wang警告，随着模型向智能体演进，具备自主生成数据、修改评估流程的能力，静态评估体系将彻底崩溃。

解决方案指向构建自适应评估生态。2026年Shan团队利用统计力学推导出持续学习环境下的深度网络序参量，为预测学习能力相变提供理论工具。Nanda等人通过机制可解释性技术，在Grokking现象发生前捕捉到神经网络内部结构变化。这些研究暗示，通过监控基准分数分布特征、评估相关性转移、能力维度正交性等元信号，可能建立预警机制。

更激进的设想是开发自我演进评估系统。这类系统需具备三大能力：检测自身过时性、利用被测模型生成新型测试案例、发现人类设计者未预见的失败模式。有研究者提议同步开展"评估红队对抗"，通过主动攻击评估体系暴露缺陷，形成持续进化压力。

该观点已引发学术界讨论。有专家补充指出，评估体系进化需与模型训练形成闭环——当评估指标能预测规模扩展效应时，才能设计出真正有效的训练目标和安全机制。反之，错误评估范式将导致训练信号、安全指标、规模化决策等全链条失效，且这种系统性风险具有隐蔽性，往往在造成实质损害前难以察觉。

更多>同类资讯

华硕a豆高速U盘京东上架，128GB至1TB多规格可选，280元起售

07-02

FDE人才成“香饽饽”：亚马逊豪掷10亿入局，行业薪资水涨船高

07-02

优必选U1系列入局情感陪伴赛道，周剑：家庭场景潜力大，生态成制胜关键

07-02

理想汽车自研马赫M100芯片亮相ISCA 2026 开启AI计算新篇章

07-02

TCL华星独家助力小米REDMI K90至尊版，高刷高亮屏带来极致视听体验

07-02

马斯克再布局：SpaceX展示轻薄AI设备原型，或成其商业生态新拼图

07-02

亚马逊豪掷10亿布局FDE团队科技巨头掀起前沿部署工程师“抢才潮”

07-02

iPhone 17 Pro“爱马仕橙”成过去式，iPhone 18 Pro红色款或成年度新宠

快科技7月1日消息，日前苹果在印度的核心供应商塔塔电子遭遇了一起重大数据泄露事件。最新泄露的文件还曝光了iPhone 18Pro红色款，此前多起爆料已表明，iPhone 18 Pro系列的红色款将是苹果今…

07-02

豆包转向B端：低价策略入局AI coding，能否在竞争中突围？

这次，它不仅仅是发布了一个更会写代码的新模型，是在组织和资源层面，把AI商业化的重心往B端推。字节做过一组实验，在不同模型和框架下，AI生成代码的功能正确率普遍超过80%，但到了UI、可靠性、可维护性这些真…

07-02

成本攀升压缩利润空间苹果iPhone 17系列或涨价涨幅预计5%到15%

【太平洋科技】据爆料，苹果将下调iPhone17系列市场出货预期，生产计划削减15%；同时，该机型售价或将上涨。该变动会直接影响上游零部件采购、工厂生产排期，也会改变新机上市后的市场价格走势。去年9月…

07-02

REDMI K90至尊版震撼登场！狂暴双芯+超强散热，2999元起售性价比拉满

新一代至尊版搭载“骁龙 8 至尊版 + 游戏独显 D2”的“狂暴双芯”组合，且全面继承 REDMI K90 Max的行业最强风冷散热方案，目标打造 3K 档内最具性价比的游戏性能旗舰。基于 Sound by…

07-02

小米无线鼠标4 Pro正式亮相：TOG传感器加持，动态滚轮切换，售价199元

IT之家 7 月 1 日消息，小米推出了小米无线鼠标 4 Pro，将于 7 月 7 日正式开售，售价 199 元。这款鼠标有黑白两种颜色可选，重约 66g（不含电池），尺寸为 62mm×115.5mm×36…

07-02

2026年三款AI智能降噪助听器深度测评：精准匹配需求，开启清晰聆听新体验

这款电池不仅具有高能效续航，还提供了赠送干燥套装的优惠，确保用户在使用助听器的过程中能够获得最佳的体验。通过对科大讯飞耳内式助听器尊享福享版、仁和老人助听器和西万博Powerone助听器电池三款产品的详细…

07-02

小学生学习机怎么选？科大讯飞P30Turbo等热门品牌全方位对比来啦！

今天，我们将对比几款市场上热门的小学生学习机，包括科大讯飞的P30Turbo，以及其他品牌的学习机，帮助家长们找到最适合孩子的学习工具。我们将重点关注以下几款学习机：科大讯飞P30Turbo、读书郎学习机、步…

07-02

2026翻译耳机市场激战正酣：科大讯飞Air 2领跑，多款热门产品谁更胜一筹？

小米智能翻译耳机M-Talk则以高性价比获得市场关注，其产品在功能上基本能满足日常使用需求，但在细节处理和用户体验上略显粗糙。华为翻译耳机X1的商务风格设计和快速响应能力适合高强度商务场合；索尼SND-30…

07-02

点击查看更多 +

全站最新

2026年三款AI智能降噪助听器深度测评：精准匹配需求，开启清晰聆听新体验

全新一代天工08预售开启！17.98万起，家庭高品质纯电生活轻松享

鑫源向上V6：小众品牌打造刚需神车，能否在巨头夹击中突围？

新款红旗天工08 670 Max预售开启限时优惠+多项权益智能豪华新选择

学而思2026旗舰点映会：AI家教新方案亮相，T6系列学习机引领教育新潮流

MG07设计风波背后：品牌话语权之困与车圈舆论生态的双重审视

热门内容

本栏最新

2026年三款AI智能降噪助听器深度测评：精准匹配需求，开启清晰聆听新体验

MG07设计风波背后：品牌话语权之困与车圈舆论生态的双重审视

科技赋能出行新选择，小米克系列智能平衡车，带你畅享多元骑行乐趣

6月新势力销量揭晓：零跑破9万领跑鸿蒙理想小米各展风采

中国L3自动驾驶新规落地：安全底线划定，商业化黎明前的“紧箍咒”

2026上海电科臻和：第一季度快乐会议精彩纷呈共赴下一季拼搏之约

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.