从大模型到Agent：跨越难度超想象，AI生产力革命尚远？

时间：2026-04-10 13:10:48 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

过去两年，人工智能领域的发展轨迹出现微妙偏移，曾经被视为行业风向标的静态评估体系正面临严峻挑战。以MMLU、Humaneval为代表的传统测试指标，如同高考分数般被反复比较，但最新出现的APEX-Agents评估框架却撕开了这层虚幻的进步面纱。这项新基准显示，当人工智能试图从解答问题转向完成实际工作时，其能力提升正遭遇前所未有的数据困境。

从语言大模型到智能体的转型，绝非简单的技术迭代，而是涉及认知范式的根本转变。过去三年，语言大模型占据主导地位时，评估重点集中在知识储备与逻辑推理能力。但随着智能体成为新焦点，评估标准必须适应其与数字环境甚至物理世界高频交互的特性。APEX-Agents基准彻底摒弃传统问答模式，转而构建33个高度复杂的模拟工作场景，每个场景平均包含166个文件和9种以上应用工具。

这种评估方式的变革，实质上重新定义了通用人工智能的门槛标准。新框架不再关注模型知晓多少知识，而是考察其在复杂环境中完成实际任务的能力。为确保评估贴近真实职场环境，研究团队邀请来自麦肯锡、高盛等企业的256位资深专家参与设计。这些平均拥有12.9年行业经验的专家，不仅制定具体任务要求，还建立详细的评分准则，将评估从智力测试转变为生产力考验。

最新评估结果给过度乐观的商业宣传泼了冷水。在针对企业律师、管理顾问和投行分析师三个职位的测试中，即便是行业领军企业的模型表现也难言理想。谷歌Gemini 3 Flash在深度思考模式下仅获得24分，GPT-5.2（高级版）以23分紧随其后。更值得关注的是，所有模型在细分场景中的得分均未突破30分大关。当允许尝试次数增加到8次时，顶尖模型得分虽能提升至近40%，但稳定性指标却骤降至6.5%，暴露出智能体技术"潜力有余、可靠不足"的核心问题。

APEX报告详细剖析了智能体失败的典型模式：工具调用失败时陷入无限循环、意外删除关键文件等灾难性操作、任务执行过程中目标漂移等。这些缺陷表明，现有智能体在认知反思、错误恢复和长期规划等方面存在根本性局限。与传统语言大模型主要受算力限制不同，智能体时代的技术瓶颈已转向任务编排、状态管理和复杂流程控制等新维度。

成本问题成为智能体商业化的另一重障碍。评估数据显示，谷歌Gemini 3 Flash完成单次任务平均消耗531.5万个token，是GPT-5.2的5倍、Gemini 3 Pro的8倍，而性能差距仅1个百分点。按当前市场价格计算，完成复杂投行任务的算力成本已接近甚至超过初级分析师时薪。这种"高消耗、低收益"的现状，迫使行业重新思考技术发展路径——在追求准确率的同时，必须将性价比提升至同等重要的地位。

开源模型与闭源模型的差距在智能体时代进一步扩大。在语言大模型时期，开源项目通过扩大参数量和优化预训练数据，已能逼近商业模型性能。但在APEX评估中，开源模型表现惨淡，GPT-OSS-120B和Kimi K2得分均低于5%。这种落差不仅源于基础推理能力不足，更暴露出开源生态在闭环数据、算力调度和端到端技术栈等关键领域的缺失。掌控智能体执行逻辑和数据轨迹，正在构建新的技术壁垒。

数据饥渴成为制约智能体发展的根本性问题。与传统多模态模型可以利用互联网海量文本、图像数据不同，智能体需要的是"人类使用工具完成任务"的隐形逻辑数据。这类数据在AI出现前从未被系统记录，互联网上虽存在大量文本，却缺乏高质量的任务执行轨迹。为突破这一瓶颈，行业开始探索构建高保真虚拟环境，通过合成数据技术生成训练样本。APEX基准测试中的Archipelago基础设施，正是为智能体提供加速迭代的试验场，使其能在模拟环境中经历数百万次失败修正。

这场评估体系的变革，正在重塑整个行业的认知框架。当智能体在模拟环境中反复试错时，其学习过程与人类职场新人的成长轨迹惊人相似。这种转变暗示着，下一代通用人工智能的竞争焦点，可能不再是谁拥有更多互联网文本数据，而是谁能在虚拟世界中积累更丰富的任务执行经验。智能体训练的本质仍是强化学习，但在缺乏充足"学习资料"的当下，技术发展正面临严重的欠拟合风险。APEX基准测试的出现，恰逢其时地为行业提供了重新校准发展方向的参照系。

《科创板日报》4月10日讯（记者黄心怡）近期引发热议的视频生成模型HappyHorse，已在海外社交平台注册账号，其首位关注者为阿里巴巴集团。此次阿里HappyHorse的诞生和快速登顶，不仅标志着视频生成…

行业共识表明，随着技术的不断进步，虚拟人的形象和语言表达将越来越逼真，能够与观众进行更加自然的互动。黑虎AI（com）已经出现的先行者，它支持抖音、快手、小红书等多个平台的精准获客和内容创作，能够帮助创作者实…

未来仍会继续推出开源模型，但 Muse Spark 将以私有 API形式对外提供服务，目前仅向特定合作伙伴开放预览版，计划后续面向更广范围开发者提供付费 API 访问，探索商业化变现路径。针对训练数据与技…

近期，平台关注到利用自动化工具替代真人创作的行为，《微信公众平台运营规范》再次明确：公众号和服务号不得利用AI、脚本、接口或其他自动化方式，替代真人完成内容创作、发布等流程，也不得传播、推广此类自动化创作的教…

4月9日消息，亚马逊首席执行官安迪·贾西表示，公司云计算业务 Amazon Web Services（AWS）的人工智能服务目前已实现超过150亿美元的年化收入。此前媒体报道称，贾西曾在内部会议上表…

当地时间4月8日，Meta推出原生多模态推理模型Muse Spark（内部代号为“牛油果”），由Meta首席人工智能官、前Scale AICEO亚历山大·王（Alexandr Wang）领衔开发，是Met…

这要是换做是以前的语音模型，早在每一次「um/uh」之后，火急火燎地跳出来接话。它是在争夺下一件更本质的东西：谁能先把语音交互从「回合制问答」，推进到「实时自然交流」。所以，Seeduplex的产业意义…

在 AI 芯片供应紧张的背景下，公司正与其他科技巨头一样，开始考虑通过自研硬件增强算力掌控能力。 Anthropic 的动向与Meta、OpenAI 等公司一致，后者当前也在推进自研 AI 芯片，以降低对外…

【环球网科技综合报道】4月10日消息，据路透社援引三位知情人士透露，人工智能实验室Anthropic正探索设计自有AI芯片，以此应对当前AI芯片短缺的行业困境，不过该计划目前仍处于早期阶段，尚未最终确定。知…

联想集团表示，通过整合Infinidat，将明显增强自身企业存储能力，并加快交付高可靠、高性能的数据基础设施，以支持人工智能、数据分析以及关键业务负载等场景。联想集团执行副总裁、基础设施方案集团总裁Ash…

PChome 4月9日消息，研究机构TrendForce集邦咨询最新发布的报告预测，2026年，中国人形机器人市场将迎来爆发式增长，全年产量预计同比激增94%。随着2026下半年产业焦点转向为用户交付真实价值…

国家知识产权局信息显示，北京小米机器人技术有限公司取得一项名为“四足机器人及其控制方法、装置”的专利，授权公告号CN117440909B，申请日期为2022年5月。天眼查资料显示，北京小米机器人技术有限公司…

瑞财经吴文婷 4月9日，众擎机器人正式完成总额2亿美元的B轮融资。本轮融资落地后，公司估值突破百亿元。本轮融资由河南投资集团汇融基金继A2轮投资后再度领投B轮，头部产业资本立讯精密重磅战略入局、联合领投。…

报告清晰地表明：在人形机器人受到轻量化限制的情况下，纯旋转关节存在扭矩密度、刚性以及持续出力方面的不足；然而直线关节拥有高推力密度、高刚性以及自锁的优势，能够在不会使其自身重量显著增加的状况下，极大地提升末端…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.