卡内基梅隆大学计算机科学团队近日提出一项创新技术——多智能体电脑使用系统(Multi-Agent Computer Use,简称MACU),通过引入团队协作模式突破传统AI操作电脑的效率瓶颈。该研究以预印本形式发布于学术平台,编号为arXiv:2606.01533,为智能体技术发展开辟新路径。
当前主流的电脑操作智能体(CUA)普遍采用“单兵作战”模式,如同一位独立完成所有工序的工人,既无法分工协作,也无法修正错误。这类系统在处理简单任务时尚可应对,但面对需要跨应用操作、多源信息整合或长时间持续工作的复杂场景时,往往因单点故障导致全盘失败。研究团队通过实验发现,即便使用GPT-5.4等前沿模型构建的CUA,在涉及多步骤协调的任务中成功率仍不足10%。
MACU系统的核心创新在于构建“经理-员工”架构。系统首先将复杂任务拆解为具有依赖关系的有向无环图(DAG),每个节点代表可独立执行的子任务,箭头指示执行顺序。例如在整理五家餐厅信息的任务中,系统会同时启动五个“员工”智能体并行查询,待所有数据收集完成后再由后续节点汇总成表格。这种设计使理论上可并行的任务效率提升数倍,实际测试中部分场景速度提高达3.2倍。
动态调整能力是MACU的另一突破。传统CUA执行任务时如同严格遵循固定剧本的演员,而MACU的“经理”智能体则具备导演的临场指挥权。当某个子任务失败或出现新信息时,经理可实时修改任务图,包括添加新节点、调整执行顺序甚至终止无效操作。在涉及200个真实用户长程任务的测试中,这种动态重规划机制使任务完成率从8.5%跃升至34%,关键指标满足率提升20个百分点。
研究团队在四个专业测试集上验证系统效能。在涵盖369个桌面任务的OSWorld测试中,MACU将成功率从43.8%提升至48.5%,同时将平均耗时从26.6分钟压缩至21.4分钟。针对网页导航的Online-Mind2Web测试显示,虽然简单任务处理时间因管理开销有所增加,但在需要跨网站信息整合的复杂任务中,系统展现出显著优势。最引人注目的是Odysseys测试集,该测试包含200个提炼自真实用户行为的长程任务,MACU使成功率暴涨255%,同时将中位完成时间缩短52分钟。
技术实现层面,每个“员工”智能体运行在独立虚拟机中,确保操作隔离与状态可追溯。系统通过快照克隆技术实现环境继承,当下游任务需要延续上游操作时,可直接加载相关虚拟机的状态快照。为解决电脑操作的“部分可观测”难题,MACU设计了双重信息保存机制:经理智能体将关键操作记录和截图纳入记忆库,同时自动归档员工任务产生的文件变更,供后续任务调用。这种设计使系统即便在原始页面关闭后,仍能通过存档信息继续推进任务。
模型选择对系统性能产生关键影响。实验表明,使用Claude Opus 4.6作为经理智能体时,系统整体成功率达58.3%,较无经理架构提升127%。但研究强调,多智能体框架的价值不仅源于更强模型,当经理与员工均采用Qwen3.6-27B模型时,系统仍比单一智能体提升15.8%成功率。这证明任务分解、并行执行和动态规划等机制本身具有独立价值。
任务图分析揭示出四种典型协作模式:简单链式结构适用于线性任务,映射-归约结构主导并行信息收集,运行时重试扩展结构处理动态调整需求,重试链结构则应对反复尝试场景。在难度最高的Odysseys测试中,74.5%的任务需要至少一次动态修改,初始任务图平均包含6个节点,最终扩展至7.6个节点,印证了持续重规划的必要性。
尽管MACU在复杂任务处理上表现卓越,研究团队也指出其当前局限。系统运行成本较单一智能体高出数倍,完整测试集的API费用达651美元。工程实现需要虚拟机池、快照克隆等复杂基础设施支持,且现有测试环境未涉及真实用户数据和隐私保护机制。这些因素表明,该技术从实验室走向实际应用仍需突破安全管控、资源优化等关键挑战。










