滚动资讯

当前位置：首页 > 资讯 > 数码极客 > 正文内容

卡内基梅隆大学新突破：多智能体协作让电脑操作AI告别“单打独斗”

时间：2026-06-07 03:41:50 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

卡内基梅隆大学计算机科学团队近日提出一项创新技术——多智能体电脑使用系统（Multi-Agent Computer Use，简称MACU），通过引入团队协作模式突破传统AI操作电脑的效率瓶颈。该研究以预印本形式发布于学术平台，编号为arXiv:2606.01533，为智能体技术发展开辟新路径。

当前主流的电脑操作智能体（CUA）普遍采用“单兵作战”模式，如同一位独立完成所有工序的工人，既无法分工协作，也无法修正错误。这类系统在处理简单任务时尚可应对，但面对需要跨应用操作、多源信息整合或长时间持续工作的复杂场景时，往往因单点故障导致全盘失败。研究团队通过实验发现，即便使用GPT-5.4等前沿模型构建的CUA，在涉及多步骤协调的任务中成功率仍不足10%。

MACU系统的核心创新在于构建“经理-员工”架构。系统首先将复杂任务拆解为具有依赖关系的有向无环图（DAG），每个节点代表可独立执行的子任务，箭头指示执行顺序。例如在整理五家餐厅信息的任务中，系统会同时启动五个“员工”智能体并行查询，待所有数据收集完成后再由后续节点汇总成表格。这种设计使理论上可并行的任务效率提升数倍，实际测试中部分场景速度提高达3.2倍。

动态调整能力是MACU的另一突破。传统CUA执行任务时如同严格遵循固定剧本的演员，而MACU的“经理”智能体则具备导演的临场指挥权。当某个子任务失败或出现新信息时，经理可实时修改任务图，包括添加新节点、调整执行顺序甚至终止无效操作。在涉及200个真实用户长程任务的测试中，这种动态重规划机制使任务完成率从8.5%跃升至34%，关键指标满足率提升20个百分点。

研究团队在四个专业测试集上验证系统效能。在涵盖369个桌面任务的OSWorld测试中，MACU将成功率从43.8%提升至48.5%，同时将平均耗时从26.6分钟压缩至21.4分钟。针对网页导航的Online-Mind2Web测试显示，虽然简单任务处理时间因管理开销有所增加，但在需要跨网站信息整合的复杂任务中，系统展现出显著优势。最引人注目的是Odysseys测试集，该测试包含200个提炼自真实用户行为的长程任务，MACU使成功率暴涨255%，同时将中位完成时间缩短52分钟。

技术实现层面，每个“员工”智能体运行在独立虚拟机中，确保操作隔离与状态可追溯。系统通过快照克隆技术实现环境继承，当下游任务需要延续上游操作时，可直接加载相关虚拟机的状态快照。为解决电脑操作的“部分可观测”难题，MACU设计了双重信息保存机制：经理智能体将关键操作记录和截图纳入记忆库，同时自动归档员工任务产生的文件变更，供后续任务调用。这种设计使系统即便在原始页面关闭后，仍能通过存档信息继续推进任务。

模型选择对系统性能产生关键影响。实验表明，使用Claude Opus 4.6作为经理智能体时，系统整体成功率达58.3%，较无经理架构提升127%。但研究强调，多智能体框架的价值不仅源于更强模型，当经理与员工均采用Qwen3.6-27B模型时，系统仍比单一智能体提升15.8%成功率。这证明任务分解、并行执行和动态规划等机制本身具有独立价值。

任务图分析揭示出四种典型协作模式：简单链式结构适用于线性任务，映射-归约结构主导并行信息收集，运行时重试扩展结构处理动态调整需求，重试链结构则应对反复尝试场景。在难度最高的Odysseys测试中，74.5%的任务需要至少一次动态修改，初始任务图平均包含6个节点，最终扩展至7.6个节点，印证了持续重规划的必要性。

尽管MACU在复杂任务处理上表现卓越，研究团队也指出其当前局限。系统运行成本较单一智能体高出数倍，完整测试集的API费用达651美元。工程实现需要虚拟机池、快照克隆等复杂基础设施支持，且现有测试环境未涉及真实用户数据和隐私保护机制。这些因素表明，该技术从实验室走向实际应用仍需突破安全管控、资源优化等关键挑战。

07-04

新能源车高速电量告急别慌！这几招应对策略助你化解续航危机

07-04

神舟二十三号首位香港女航天员：失重挑战下，天宫如何筑牢隐私防护网？

两套卫生区互为备用，单套设备检修维护时，另一套可以正常使用，不会出现多人共用一处密闭空间的情况，长期驻留期间，黎家盈可自主选择使用时段，避开其他两名航天员，最大程度保障个人私密。从独立睡眠舱、双密闭卫生区…

07-04

一加迭代新机影像规格曝光，2亿主摄与5000万潜望长焦方案引期待

IT之家 7 月 4 日消息，博主 @数码闲聊站昨日曝光了一加迭代新机的影像规格，评论区网友推测为一加16。据称，该机定位全能性能旗舰，目前工程机拥有独一档超超高刷 BOE 直屏（预计指屏幕刷新率≥144…

07-04

华硕ROG夏季新动作：新款游戏手柄控制器将至，性能颜值双重进阶

IT之家 7 月 4 日消息，华硕 (ASUS) 玩家国度 (ROG) 昨日发布夏季外设新品预告，暗示即将推出一款游戏手柄控制器。 ROG 表示这一型号拥有“性能颜值双升级”。从视频内容来看，这款手柄将延续非…

07-04

宝马iX7纯电旗舰SUV谍照流出，2027年换代X7同步登场，设计科技双升级

07-04

宝马iX7纯电旗舰SUV谍照来袭翼片门把手+全景iDrive 2027年见

07-04

特斯拉FSD智驾将迎新验证机制？或通过车内摄像头“人脸识别”授权使用

07-04

索尼官宣7月9日发布新款RX10系列黑卡相机，预计为RX10 V

07-04

宝马iX7纯电旗舰SUV谍照曝光，明年随全新一代X7正式发布

07-04

华硕ROG夏季新品来袭！新款游戏手柄非对称布局，8kHz高回报率性能颜值双提升

07-04

System76新笔记本Adder Pro 15.3来袭，15.3英寸屏配酷睿Ultra 7 7月中旬上市

07-04

宝马iX7纯电旗舰SUV谍照流出，2027年换代X7同步登场，设计科技亮点十足

07-04

新能源汽车充电设施如何兼顾安全与效能？无锡实践给出技术答案

07-04

索尼7月9日将推新款RX10系列黑卡相机，RX10 V或携新芯片与电池亮相

07-04

点击查看更多 +

全站最新

跑高速有人轻松500公里有人200公里就困？这些因素决定你的驾驶疲劳度

新能源车高速电量告急别慌！这几招应对策略助你化解续航危机

2026上半年销量承压，上汽大众转型阵痛中寻得破局新转机

新规来袭！这5种驾驶行为已成违章雷区，老司机也可能“踩坑”

L2辅助驾驶是神器还是鸡肋？喵哥深度解析助你理性选车不踩坑

车管所提醒：这些改装“雷区”别碰年检难过关合法合规才安心

热门内容

本栏最新

新能源车高速电量告急别慌！这几招应对策略助你化解续航危机

宝马iX7纯电旗舰SUV谍照流出，2027年换代X7同步登场，设计科技双升级

宝马iX7纯电旗舰SUV谍照来袭翼片门把手+全景iDrive 2027年见

特斯拉FSD智驾将迎新验证机制？或通过车内摄像头“人脸识别”授权使用

宝马iX7纯电旗舰SUV谍照流出，2027年换代X7同步登场，设计科技亮点十足

新能源汽车充电设施如何兼顾安全与效能？无锡实践给出技术答案

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.