在人工智能发展领域,近期一则消息引发了广泛关注。知名AI预测研究者Ajeya Cotra对其之前的预测进行了重大修正,原因是Anthropic推出的最新模型Claude Opus 4.6在权威评测机构METR的基准测试中表现惊人,远超她此前的预期。
Cotra曾是全球最大AI安全资助机构之一Coefficient Giving的AI安全研究资助负责人,现就职于专注于AI能力评估的METR机构。今年1月14日,她基于2019年至2025年间时间跨度每年翻倍不到两次的历史趋势,对2026年底最先进模型的软件工程能力做出预测:50%成功率的时间跨度约为24小时,80百分位预测为40小时。然而,仅仅两个月后,Opus 4.6就打破了这一预测,其软件工程“时间跨度”达到约12小时。在METR的测试集中,19项预计人类需耗时超过8小时的软件工程任务里,Opus 4.6至少能部分完成14项,还能稳定攻克其中4项。面对这一情况,Cotra承认,在距离2026年底还有整整十个月进展的情况下,AI代理在24小时任务上仍有一半时间失败,这使得她之前的预测不再可信。
值得注意的是,当前对时间跨度的估算存在较大不确定性。Opus 4.6的95%置信区间为5.3小时至66小时,这主要是因为长任务数量稀少、人工完成时间多为估算,且基准测试本身已接近饱和。
随着AI代理能力不断逼近甚至超越数十小时的任务量级,传统评估框架正面临挑战。Cotra认为,“时间跨度”这一概念的适用性受到质疑。她指出,任务的可分解性会随着规模增长而显著提升。例如,一小时的调试任务几乎无法拆分并行,一天的开发任务勉强可分工但边界模糊,而一个月乃至数月的项目则天然适合拆解为多个并行子任务。一旦AI代理能够稳定完成80小时量级的任务,理论上就可以通过“管理层AI”分配任务、“执行层AI”并行推进的方式,持续推进任意规模的项目。
Cotra的同事Tom提出,以大型团队完成任务所需的日历时间,而非单人工时,作为衡量“内在难度”的更优指标。Cotra也认同这一观点,她认为随着AI进入新量级,“单人时间”指标可能开始呈现超指数增长,这使得年底前软件工程能力的上限极难估算。不过,她也承认大规模任务分解在实践中不会完美运作,项目参与者对全局背景的直觉性把握,难以被Jira工单或Asana任务完全替代,但对于相当大一类软件项目而言,这种模式可能较为有效。
在众多预测中,Cotra对“AI研发全面自动化”的概率判断最受瞩目。她将这一概率定义为AI系统完全承担研究构想与实施工作,无需人类参与。在1月的预测中,她给出了10%的概率,发布后收到多位同行反馈,认为这一数字偏高。但Opus 4.6的表现出炉后,她表示10%再次处于合理区间。不过,Cotra也保持审慎态度。她指出,全面自动化AI研发不仅需要软件工程能力,还需要在“研究判断力”和“创造力”等方面取得突破,而这些恰恰是当前AI系统相对人类研究者明显欠缺的领域。她认为,这一目标在未来三至五年内实现的可能性远高于今年之内,但她的措辞已发生根本性转变:“这是我第一次,找不到任何可以外推的稳固趋势,来断言它不会很快发生。”











