在人工智能领域,大语言模型(LLM)驱动的多智能体系统正展现出强大的潜力。然而,现有的训练框架主要聚焦于单智能体场景,多智能体间的协作优化——“群体强化”仍是一个亟待突破的领域。针对这一挑战,来自UCSD与英特尔的研究团队提出了一种全新的通用多智能体强化学习框架——PettingLLMs,为多智能体协同训练提供了创新解决方案。
多智能体系统在医疗、编程、科研、具身智能等领域的应用中,已展现出超越单智能体的显著优势。然而,当前主流的强化学习算法(如GRPO)均基于单智能体假设,其核心机制是通过同一输入(prompt)生成多组候选回答,并在组内进行相对优势评估。这一机制的有效性依赖于“共同prompt”的前提——即所有候选回答必须基于完全相同的上下文生成。但在多智能体多轮交互场景中,不同智能体在不同轮次接收到的prompt可能包含其他智能体的历史输出(如编程任务中,智能体生成的代码可能被其他智能体用于单元测试),导致“共同prompt”假设被破坏,进而影响优势计算的公平性与有效性。
为解决这一问题,研究团队提出了一种基于贪心搜索的树状采样方法。该方法通过每轮为每个智能体生成K个分支,并选择当前奖励最高的智能体进行下一轮分支,从而平衡探索与利用的矛盾。同时,每个智能体的奖励函数被设计为同时考虑自身角色专属奖励与全局任务奖励,确保智能体在提升协作能力的同时保持角色特异性。
针对多智能体训练中的策略选择问题(即何时采用“专属模型”模式,何时采用“共享模型”模式),研究团队构建了异步分发训练系统。该系统通过路由模块收集多智能体交互产生的轨迹数据,并根据训练模式需求进行差异化处理:在专属模型模式下,系统将智能体i的数据仅发送至模型资源池i的更新单元,实现独立模型进化;在共享模型模式下,系统将所有智能体的轨迹数据合并后发送至同一资源池,实现统一模型优化。
基于上述方法,研究团队开源了PettingLLMs框架,支持不同模型与智能体间的任意映射,并允许每个智能体适配不同的LoRA(低秩适应)参数。开发者仅需定义任务特定的智能体交互逻辑与奖励函数,即可快速构建多智能体训练环境。目前,框架已内置数学、编程、游戏等主流任务环境。
实验结果表明,该框架在复杂任务中表现突出。在推箱子(Sokoban)任务中,通过AT-GRPO算法训练的两个智能体将任务完成率从14%提升至96%;在路径规划任务中,完成率从47%提升至99.5%。代码生成任务中,LiveCodeBench、APPS、CodeContests的准确率分别提升6.1%、4.2%和7.0%;数学推理任务中,AIME 24与AIME 25的准确率分别提升9.0%和17.9%。
消融实验进一步验证了框架设计的合理性。仅在单智能体环境中训练规划或工具子角色时,指标虽从5.0%提升至11.0%/14.5%,但联合作业时准确率仅达16.0%;而互换已训练角色的策略会导致准确率骤降至6.0%,证明智能体能力具有互补性与不可替代性。训练过程中智能体学习回报同步上升,任务平均回合数持续下降,表明协作效率随训练进程显著提升。









