ITBear旗下自媒体矩阵:

xbench推出AgentIF-OneDay评测:Agent能否胜任全天复杂任务?

   时间:2026-01-21 15:10:34 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

随着大模型在单点推理任务中的表现逐渐接近人类专家水平,智能体(Agent)领域正面临新的挑战与机遇。当前,主流Agent在短时任务中表现优异,但在处理复杂长时任务时仍显不足。为更科学地评估大模型的多模态理解能力和复杂问题解决能力,研究机构近期连续发布两篇论文,旨在通过构建新的评估基准,预测技术发展方向。

新推出的AgentIF-OneDay评测体系,将评估重点从模型的知识储备转向其解决复杂任务的能力。该体系深入探索了从一小时到一整天任务能力的跨越,揭示了主流Agent在工作流执行、隐式推断和迭代编辑中的实际表现。这一转变标志着Agent正从简单的“提问助手”向能够创造经济价值的“数字员工”进化。

在短时任务向长时任务过渡的过程中,研究者发现Agent存在显著的能力差距。尽管在单点推理和局部任务中已达到高水平,但当任务复杂度超过一般人一小时可处理范围时,Agent的整体完成度会明显下降。这种差距促使研究界重新思考如何更准确地评估Agent的实际应用价值。

研究提出以“任务复杂度”作为评估Agent能力的新维度,将其定义为完成一个任务所需的人类时间投入,并由此对应其潜在的经济与使用价值。Agent能力的演进将沿着两条主线展开:时间维度的扩展(Scaling Context)和任务类型的扩展(Scaling Domain)。

Scaling Context指的是Agent需要在更长的执行周期中持续维护上下文状态,跟踪中间目标与约束,并在多步骤、多工具的交互过程中保持一致性。这要求Agent能够处理从分钟级到一天级、乃至一周级的工作量。Scaling Domain则涉及Agent在任务类型上的扩展,需要覆盖更多样化的生活、学习与职业场景,处理不同领域和语境下的任务。

AgentIF-OneDay评测体系的设计同时推进了这两个方向。一方面,通过逐步拉长任务对应的人类时间尺度,从一小时扩展到一整天;另一方面,通过覆盖更广泛的任务场景,刻画Agent在真实世界任务分布中的整体能力边界。该评测体系以人类一天内可完成的任务复杂度为基准,测试Agent在无需人类介入的情况下稳定完成任务并交付结果的能力。

在对大量用户真实工作日志的分析中,研究者发现日常工作在类型上呈现出高度稳定的模式。大多数普通人的一天可以抽象为三种主要任务类型:工作流执行、范例参考和迭代式编辑。工作流执行适用于用户已知完整流程并明确给出操作步骤的情况;范例参考适用于用户不明确完整工作流或条件约束,只提供若干案例或参考资料的情况;迭代式编辑则适用于需求本身是动态的,需要在多轮交互中逐渐提出新需求的情况。

基于这三种任务类型,研究者制备了AgentIF第一期的题库,包含104道任务,覆盖工作、生活和学习场景。其中62道由文件驱动的合成任务用于补充长尾场景,覆盖多种文件格式。每道任务都设有细粒度的评判标准,总计767个评分点,采用大语言模型作为裁判,并结合多种方法进行自动校验。

在AgentIF的测评框架下,对现有主流Agent系统的测试发现了一些有趣的现象。以整体任务成功率为标准,部分Agent系统构成当前能力最强的第一梯队。然而,这些系统在任务领域和能力维度上存在明显差异。例如,有的系统在生产力工具方面表现最优,有的则是最佳生活助手,还有的在隐式指令推断或迭代式编辑能力上表现突出。

测试结果还显示,隐式条件推断是当前Agent普遍最薄弱的能力项。一些任务要求Agent从附件中自动识别格式规则,但即便是整体表现最好的系统,在这类任务中也难以做到完全正确。这表明稳定性、文件处理链路、隐式结构理解能力以及跨工具的状态管理,都是决定Agent能否真正承担一天工作量的关键环节。

随着系统能力的不断提升,研究者预计Agent将在未来挑战一周的人类工作量。围绕这一目标,已经开始构建新的评测集。一周尺度的任务将呈现出更明确的行业语境,数据获取成本也会显著上升。这促使研究界思考如何让Agent在实际运行过程中具备主动学习的能力,通过自主收集经验、评估与修正行为,逐步形成稳定策略。

静态训练与静态评测方式在处理更高复杂度任务时显露出局限性。近期关于在线学习的讨论增多,研究者倾向于认为,模型若仅在既有人类知识分布内循环,将难以突破到更高层级的智能。下一步的能力提升可能发生在模型部署之后,通过持续的现实世界强化学习获取实用知识,实现持续学习和适应。

长程任务Agent的发展类比于自动驾驶的演进历程,同样需要从有限场景走向通用场景,从依赖频繁人工干预走向长时间无干预运行。这一过程的实现依赖于大量用户数据的积累,用户数据可以拓展场景的丰富度,为系统带来更好的泛化性。在长时任务的Agent领域,有效的数据积累有望催生高可靠Agent系统的出现。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version