滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

UCSD与英特尔联手推出PettingLLMs框架，多智能体强化学习性能显著提升

时间：2025-11-09 20:51:35 来源：快讯编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能领域，大语言模型（LLM）驱动的多智能体系统正展现出强大的潜力。然而，现有的训练框架主要聚焦于单智能体场景，多智能体间的协作优化——“群体强化”仍是一个亟待突破的领域。针对这一挑战，来自UCSD与英特尔的研究团队提出了一种全新的通用多智能体强化学习框架——PettingLLMs，为多智能体协同训练提供了创新解决方案。

多智能体系统在医疗、编程、科研、具身智能等领域的应用中，已展现出超越单智能体的显著优势。然而，当前主流的强化学习算法（如GRPO）均基于单智能体假设，其核心机制是通过同一输入（prompt）生成多组候选回答，并在组内进行相对优势评估。这一机制的有效性依赖于“共同prompt”的前提——即所有候选回答必须基于完全相同的上下文生成。但在多智能体多轮交互场景中，不同智能体在不同轮次接收到的prompt可能包含其他智能体的历史输出（如编程任务中，智能体生成的代码可能被其他智能体用于单元测试），导致“共同prompt”假设被破坏，进而影响优势计算的公平性与有效性。

为解决这一问题，研究团队提出了一种基于贪心搜索的树状采样方法。该方法通过每轮为每个智能体生成K个分支，并选择当前奖励最高的智能体进行下一轮分支，从而平衡探索与利用的矛盾。同时，每个智能体的奖励函数被设计为同时考虑自身角色专属奖励与全局任务奖励，确保智能体在提升协作能力的同时保持角色特异性。

针对多智能体训练中的策略选择问题（即何时采用“专属模型”模式，何时采用“共享模型”模式），研究团队构建了异步分发训练系统。该系统通过路由模块收集多智能体交互产生的轨迹数据，并根据训练模式需求进行差异化处理：在专属模型模式下，系统将智能体i的数据仅发送至模型资源池i的更新单元，实现独立模型进化；在共享模型模式下，系统将所有智能体的轨迹数据合并后发送至同一资源池，实现统一模型优化。

基于上述方法，研究团队开源了PettingLLMs框架，支持不同模型与智能体间的任意映射，并允许每个智能体适配不同的LoRA（低秩适应）参数。开发者仅需定义任务特定的智能体交互逻辑与奖励函数，即可快速构建多智能体训练环境。目前，框架已内置数学、编程、游戏等主流任务环境。

实验结果表明，该框架在复杂任务中表现突出。在推箱子（Sokoban）任务中，通过AT-GRPO算法训练的两个智能体将任务完成率从14%提升至96%；在路径规划任务中，完成率从47%提升至99.5%。代码生成任务中，LiveCodeBench、APPS、CodeContests的准确率分别提升6.1%、4.2%和7.0%；数学推理任务中，AIME 24与AIME 25的准确率分别提升9.0%和17.9%。

消融实验进一步验证了框架设计的合理性。仅在单智能体环境中训练规划或工具子角色时，指标虽从5.0%提升至11.0%/14.5%，但联合作业时准确率仅达16.0%；而互换已训练角色的策略会导致准确率骤降至6.0%，证明智能体能力具有互补性与不可替代性。训练过程中智能体学习回报同步上升，任务平均回合数持续下降，表明协作效率随训练进程显著提升。

更多>同类资讯

2025乌镇峰会圆满收官：共绘数智未来发布多项成果文件报告

11-09

AI浪潮下，设计师如何破局？成为驾驭技术与情感的“超级个体”

11-09

AI算力“升空”进行时：太空成新角力场，中国太空算力体系加速迭代

11-09

乌镇峰会张朝阳谈AI：辅助科学探索，人类仍需独立思考拒绝过度依赖

11-09

2025世界互联网大会乌镇峰会落幕，共绘数智未来，成果文件报告齐发

11-09

浙江人工智能发展势头强劲：产业营收增长算力领先模型跻身全球前列

11-09

马斯克：星舰问世，或成实现年1太瓦AI算力部署及火星计划关键

11-09

蚂蚁集团部署万卡国产算力集群，创新策略突破MoE模型训练资源限制

11-09

北京设立医疗AI评测中心：多维考核护航安全，推动产业健康发展

11-09

2025乌镇“互联网之光”启幕：“人工智能+”点亮未来新图景

11-09

黄仁勋四赴台积电“求产能”：直言台积电是英伟达发展关键支撑

11-09

宇树科技王兴兴：硕士论文早现机器狗雏形，寄语创业者方向正确必成功

11-09

2025世界互联网大会乌镇峰会启幕，共探数智未来，共筑网络空间命运共同体

11-09

上海交大团队新突破：G?RPO技术助力AI绘画更懂人类审美偏好

11-09

清华大学团队创新AI图像检测：仿若侦探精准识别自回归假图

11-09

点击查看更多 +

全站最新

小米汽车端到端辅助驾驶体验本周末开启，全程0接管，智能驾驶进程再提速

李想遇网络谣言困境终得解，行业共呼抵制黑公关守护健康发展生态

骁龙8E Gen5加持却遇冷！小米17价格跳水，无背屏设计成销量绊脚石？

雷军助力小米员工车队出征小米·中国汽车耐力锦标赛周末激战在即

‍2025福布斯中国内地富豪榜揭晓：钟睒睒五度登顶，雷军排名超马云

人民之夜@乌镇茶话：AI浪潮下多元赋能，技术与善意共绘发展新蓝图

热门内容

本栏最新

19.68万起！2026款比亚迪夏广州上市，重塑家庭MPV价值新标杆

智己LS9全球首发预售，33.69万起携跨代科技冲击30万级大六座SUV市场

智己LS9全球首发预售33.69万起，跨代科技赋能打造大六座SUV新标杆

奔驰纯电CLA 24.9万起售：续航能效亮眼，能否打动中国消费者？

售价不到8万，性价比超高的吉利银河星耀6，缘何月销仅536辆？

购车旺季“方盒子”SUV扎堆！四款新车各具特色等你来挑

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.