AI智能体正从实验室走向现实应用场景,全球主要科技企业均已推出相关产品,但其在真实环境中的运行模式仍笼罩在神秘面纱之下。近日,人工智能研究机构Anthropic通过分析数百万次人机交互数据,首次系统梳理了AI智能体在实际部署中的关键特征,为行业提供了重要参考。
研究团队对Claude Code及其公共API的交互记录进行隐私保护分析后发现,该模型单次连续自主运行时长呈现显著增长趋势。在2025年10月至2026年1月期间,极端情况下(第99.9百分位)的自主运行时间从25分钟延长至45分钟以上,而中位数时长稳定在45秒左右。这种增长并非单纯源于模型升级,用户信任积累、任务复杂度提升以及产品优化等因素同样起到关键作用。
数据显示,经验丰富的用户更倾向于让AI完全自主工作。当用户使用次数超过750次时,40%以上的会话采用全自动模式,而新用户(使用次数少于50次)的这一比例仅为20%。值得注意的是,随着使用经验增加,用户主动打断模型的比例从5%上升至9%,表明人类监督并未减弱,而是转向更精准的干预时机。
在任务处理效率方面,Claude Code展现出显著进步。2025年8月至12月间,其处理高难度任务的成功率翻倍,同时每个会话的人工干预次数从5.4次降至3.3次。研究认为,这表明AI在实际应用中的自主空间可能超出用户预设范围,经验用户更懂得如何释放模型潜力。
不同复杂度任务中的人机协作模式呈现明显差异。在修改单行代码等简单任务中,87%的工具调用需要人工参与;而在查找零日漏洞或编写编译器等复杂任务中,这一比例降至67%。研究指出,复杂任务往往由资深用户发起,且步骤繁多导致实时审批困难,这是人工参与度下降的主要原因。
模型自身的风险控制机制同样值得关注。面对复杂任务时,Claude Code因不确定而主动请求澄清的次数是人类打断次数的两倍以上。这种自我约束行为被视为重要的安全机制,能够有效预防潜在错误扩散。研究强调,智能体主动确认问题比被动接受纠正更具预防价值。
在应用领域分布方面,软件工程占据AI智能体活动的近半壁江山,医疗、金融和网络安全等高风险领域也开始出现应用案例。虽然目前高风险操作占比不足1%,但其潜在影响不容忽视。研究特别指出,公共API执行的操作中,绝大多数具有低风险和可逆性特征。
这项研究也存在局限性。由于仅分析单一模型提供商的数据,且对公共API的会话级行为缺乏完整观察,结论的普适性有待验证。基于此,研究团队向行业提出多项建议:加强部署后监控系统建设、训练模型识别自身不确定性、开发更高效的用户监督工具,同时避免过早制定固定交互规范。











