ITBear旗下自媒体矩阵:

AI预测专家坦言低估进展:AI研发自动化或于今年取得关键突破

   时间:2026-03-10 11:04:53 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

知名AI预测研究者Ajeya Cotra近日对其两个月前发布的2026年AI发展预测作出重大修正,承认当前AI技术突破速度远超预期。这一调整源于Anthropic公司最新模型Claude Opus 4.6在权威评测机构METR基准测试中的突破性表现——该模型在软件工程领域的"时间跨度"指标达到12小时,较Cotra原预测的2026年底24小时水平提前近十个月实现。

METR测试数据显示,在19项预计人类需耗时8小时以上的软件工程任务中,Opus 4.6能部分完成14项并稳定攻克4项。Cotra坦言,考虑到距离2026年底仍有十个月发展期,原预测模型中AI代理在24小时任务上失败率仍达50%的假设已失去参考价值。她特别指出,当前时间跨度估算存在显著不确定性,Opus 4.6的95%置信区间横跨5.3至66小时,这主要受制于长任务样本稀缺、人工耗时估算误差以及基准测试接近理论极限等因素。

随着AI处理能力突破数十小时任务量级,传统评估框架正面临严峻挑战。Cotra分析指出,任务可分解性随规模扩大呈现指数级提升:小时级调试任务难以拆分,日级开发任务可分工但边界模糊,而月级项目则天然适合分解为并行子任务。其同事Tom提出,应采用大型团队完成项目所需的日历时间替代单人工时作为难度指标,因为当AI稳定处理80小时任务时,理论上可通过"管理层AI"分配任务、"执行层AI"并行作业的方式推进任意规模项目。

尽管承认大规模任务分解存在局限性——如项目参与者对全局背景的直觉把握难以被任务管理系统完全替代,但Cotra认为这种模式对特定类型软件项目可能产生超预期效果。她特别强调,随着AI进入新能力量级,传统"单人时间"指标可能呈现超指数增长趋势,导致年底前软件工程能力上限难以预估。

在所有修正内容中,Cotra对"AI研发全面自动化"的概率判断引发行业震动。她将该概率定义为AI系统独立承担研究构想与实施的全过程,此前1月预测中给出的10%概率曾遭多位同行质疑过高。但Opus 4.6的表现使其重新确认该数值的合理性,尽管她同时强调,全面自动化需要AI在研究判断力和创造力等关键领域取得突破,这些恰是当前系统相对人类研究者的明显短板。

这位供职于METR机构的前Coefficient Giving安全研究资助负责人表示,虽然认为AI研发全面自动化在未来三至五年内实现的可能性远高于今年,但其预测立场已发生根本性转变:"我首次无法找到可靠趋势线,来支撑'这不会很快发生'的判断。"这种表述与她年初"2026年底前不太可能实现重大突破"的论断形成鲜明对比,折射出AI技术发展对专业预测体系的持续冲击。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version