AI预测专家修正判断：AI进展超预期，年底研发自动化或成现实

时间：2026-03-10 20:05:05 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能发展领域，近期一则消息引发了广泛关注。知名AI预测研究者Ajeya Cotra对其之前的预测进行了重大修正，原因是Anthropic推出的最新模型Claude Opus 4.6在权威评测机构METR的基准测试中表现惊人，远超她此前的预期。

Cotra曾是全球最大AI安全资助机构之一Coefficient Giving的AI安全研究资助负责人，现就职于专注于AI能力评估的METR机构。今年1月14日，她基于2019年至2025年间时间跨度每年翻倍不到两次的历史趋势，对2026年底最先进模型的软件工程能力做出预测：50%成功率的时间跨度约为24小时，80百分位预测为40小时。然而，仅仅两个月后，Opus 4.6就打破了这一预测，其软件工程“时间跨度”达到约12小时。在METR的测试集中，19项预计人类需耗时超过8小时的软件工程任务里，Opus 4.6至少能部分完成14项，还能稳定攻克其中4项。面对这一情况，Cotra承认，在距离2026年底还有整整十个月进展的情况下，AI代理在24小时任务上仍有一半时间失败，这使得她之前的预测不再可信。

值得注意的是，当前对时间跨度的估算存在较大不确定性。Opus 4.6的95%置信区间为5.3小时至66小时，这主要是因为长任务数量稀少、人工完成时间多为估算，且基准测试本身已接近饱和。

随着AI代理能力不断逼近甚至超越数十小时的任务量级，传统评估框架正面临挑战。Cotra认为，“时间跨度”这一概念的适用性受到质疑。她指出，任务的可分解性会随着规模增长而显著提升。例如，一小时的调试任务几乎无法拆分并行，一天的开发任务勉强可分工但边界模糊，而一个月乃至数月的项目则天然适合拆解为多个并行子任务。一旦AI代理能够稳定完成80小时量级的任务，理论上就可以通过“管理层AI”分配任务、“执行层AI”并行推进的方式，持续推进任意规模的项目。

Cotra的同事Tom提出，以大型团队完成任务所需的日历时间，而非单人工时，作为衡量“内在难度”的更优指标。Cotra也认同这一观点，她认为随着AI进入新量级，“单人时间”指标可能开始呈现超指数增长，这使得年底前软件工程能力的上限极难估算。不过，她也承认大规模任务分解在实践中不会完美运作，项目参与者对全局背景的直觉性把握，难以被Jira工单或Asana任务完全替代，但对于相当大一类软件项目而言，这种模式可能较为有效。

在众多预测中，Cotra对“AI研发全面自动化”的概率判断最受瞩目。她将这一概率定义为AI系统完全承担研究构想与实施工作，无需人类参与。在1月的预测中，她给出了10%的概率，发布后收到多位同行反馈，认为这一数字偏高。但Opus 4.6的表现出炉后，她表示10%再次处于合理区间。不过，Cotra也保持审慎态度。她指出，全面自动化AI研发不仅需要软件工程能力，还需要在“研究判断力”和“创造力”等方面取得突破，而这些恰恰是当前AI系统相对人类研究者明显欠缺的领域。她认为，这一目标在未来三至五年内实现的可能性远高于今年之内，但她的措辞已发生根本性转变：“这是我第一次，找不到任何可以外推的稳固趋势，来断言它不会很快发生。”

在世界科幻公园上空，泛光秀、光影水秀轮番上演，憨态可掬的熊猫穿梭竹林，火锅搭配盖碗茶的造型尽显烟火韵味，川剧脸谱彰显巴蜀风情……据了解，本次无人机表演是成都科幻馆常态化运营以来首次举办的大规模户外夜间展演活…

全封闭地轨适用于焊接、打磨等粉尘污染严重的场景，能有效保护内部传动部件，延长设备使用寿命；半封闭地轨兼顾防护性与经济性，适用于常规自动化产线；防爆、防腐地轨则满足化工、海洋等特殊工况下的安全生产需求。在襄阳进…

无论是超大型钢结构构件、重型机械部件，还是船舶分段工件，在中科智造的重载地轨加持下，都能实现高效、精准的自动化作业。总之，中科智造装备（湖北）作为宜昌正规的机器人地轨厂家，以其高安全性的产品和服务，为众多行…

核心板支持Nidda Jetson AGX Orin 275TOPS INT8算力，有12核Arm@Cortex-A78AE v8.2 64位CPU等配置，典型场景为智能助手一体机，可配合32G+内存PC实…

在知识库场景中，实现了效率及准确率的最优解，从用户交互层、LLM模型层、检索增强层到知识源，形成了完整的体系，还采用大小参数模型组合、本地和网上大模型融合的应用范式，进行文档精准解析和答复与幻觉检测。从知识库…

在教育部部署的这份“人工智能+教育”战略中，明确提出要推动人工智能融入教育全要素、全过程、全场景，特别是在学校教育、终身学习、教师发展、教育治理等关键领域加快智能化转型。从“人工智能+教育”到“AI+儿童阅…

传统的预测方式往往依赖单一气象源或简单的线性回归，面对辽宁复杂的风况（特别是海上风电）和多变的天气，误差往往难以控制。对于参与此项目的投标方而言，算法的实测精度、历史业绩的真实数据、技术方案的落地性将成为…

无论是产品助手，为用户提供详尽的产品信息与使用指导；还是HR助手，助力企业人力资源管理更高效；亦或是财务助手，辅助处理财务相关事务，都能胜任。秉承“诚信、进取、协同、简单”的经营理念，腾视科技致力成为“全…

在此背景下，国家网信办适时制定《数字虚拟人信息服务管理办法（征求意见稿）》（以下简称《办法》），标志着我国对数字虚拟人这一新兴业态的治理将迈入全面、系统的法治化规范新阶段。这是《中华人民共和国民法典》（以下简…

在2026年举办的中国发展高层论坛年会上，国家数据局局长刘烈宏发表了重磅演讲，他系统总结出了当下人工智能演进的核心新趋势，并且明确做出预判，到“十五五”末期的时候我国人工智能相关产业规模将会突破10万亿元，…

AI工程化提示词的开发，是一套标准化、可复用、可迭代的工程化流程——这与传统程序员熟悉的“需求分析→设计→开发→测试→迭代”流程高度契合，只是每个环节的核心任务发生了转变。提示词专家设计优化完提示词后，需…

在权益保护方面，征求意见稿要求任何组织和个人使用自然人敏感个人信息用于建模、形象生成、场景构建等活动的，应当遵守法律、行政法规，并且符合规定对“取得自然人的单独同意”“自然人撤回同意后”的操作、“尊重他人合…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.