人工智能领域近期出现了一个引发广泛讨论的新观点:到2028年底,AI系统实现递归自我改进的概率可能达到60%。这一预测由Anthropic联合创始人杰克·克拉克提出,他通过分析大量公开的AI开发数据得出这一结论。所谓递归自我改进,指的是AI系统能够自主构建和优化自身,进入自我加速发展的阶段。
克拉克的观点并非空穴来风。他指出,AI在AI研发相关任务上的进步速度令人瞩目。例如,CORE-Bench基准测试评估AI复现研究论文的能力,这是AI研究中的关键环节。该基准于2024年9月提出时,表现最好的系统得分仅为21.5%,但到2025年12月,某模型已取得95.5%的成绩,几乎解决了这一挑战。
另一个重要基准PostTrainBench测试AI微调较弱开源模型的能力。截至2026年3月,AI系统已能通过微调使模型性能提升约一半,达到人类训练结果的一半水平。这表明AI正在逐步掌握AI开发中的核心工程技能。
在编程能力方面,AI的进步同样显著。SWE-Bench基准测试AI解决真实GitHub问题的能力,2023年底表现最好的模型成功率仅约2%,而最新模型已达到93.9%,接近满分。这种进步使AI能够自动化AI研发中的重要组成部分,显著加速人类研究员的工作。
AI完成复杂任务的时间跨度也在不断延长。METR的图表显示,2022年GPT-3.5能完成的任务相当于人类需30秒完成的任务,而到2026年,某模型已能完成相当于人类需12小时的任务。这种能力提升使AI能够处理更复杂的AI研发任务。
AI在管理其他AI系统方面也取得进展。一些产品中,主AI可以协调多个子AI的工作,处理更大规模的项目。这种能力使AI能够形成合成团队,分工协作完成复杂任务。
尽管AI在执行AI开发任务方面表现出色,但在提出全新研究思想方面仍显不足。AI领域的进步更多依赖于扩大实验规模和输入资源,而非突破性洞见。然而,克拉克认为,AI无需具备完全的创造力也能推动自身发展,因为大部分工作是基础性的工程任务。
也有初步迹象表明,AI可能正在发展某种创造力。例如,某AI系统与数学家合作解决了13个Erdős数学问题,其中1个被认为是有趣的。这可能预示着AI在推动科学前沿方面的潜力,尽管目前仅限于少数领域。
AI行业本身也在积极推动研发自动化。OpenAI计划构建自动化AI研究实习生,Anthropic致力于自动化AI对齐研究,DeepMind也在探索相关方向。许多创业公司也将自动化AI研发作为目标,吸引了大量投资。
这一趋势带来深远影响。首先,AI对齐技术面临挑战,因为递归自我改进可能使AI系统超越人类监督能力。其次,AI将显著提升各领域的生产力,但也可能加剧资源分配不平等。最后,经济结构可能发生变化,资本密集型、人力轻型的企业将占据更大份额,甚至可能出现完全由AI运营的公司。
克拉克认为,到2028年底,前沿模型自主训练继任版本的概率约为60%。他预计这一变化不会在2027年发生,因为AI仍需更多创造力才能推动研究前进。如果到2028年底仍未实现,可能揭示当前技术范式的根本性缺陷。











