ITBear旗下自媒体矩阵:

512张H200 GPU助力!106B混合专家模型借分布式RL突围并全网开源

   时间:2025-12-10 19:21:45 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能领域迎来重要进展,Prime Intellect公司正式推出其最新研发的混合专家模型——INTELLECT-3。这款拥有1060亿参数的模型,在数学、代码编写、科学研究和逻辑推理等多个基准测试中展现出卓越性能,不仅在同规模模型中名列前茅,甚至超越了部分更大规模的先进模型。

该模型基于GLM 4.5 Air架构,通过监督微调与强化学习技术相结合的方式进行训练。Prime Intellect公司选择完全开源其训练流程,包括模型权重、训练框架、数据集、强化学习环境及评测体系,旨在推动大规模强化学习领域的开放研究。这一举措使得全球开发者能够基于完整的技术栈进行二次开发和创新。

训练系统采用全分布式架构,核心组件包括自主研发的PRIME-RL框架、Verifiers环境库与Environments Hub评测中心。PRIME-RL框架专为大规模混合专家模型设计,支持异步训练模式,有效解决了长时序智能体训练中的速度瓶颈问题。该框架与Verifiers环境库深度整合,形成从数据生成到模型评估的完整训练闭环。

在硬件基础设施方面,研究团队部署了由64个互联节点组成的计算集群,配备512张NVIDIA H200 GPU。为确保训练稳定性,系统采用多层防护机制:通过InfiniBand网络隔离故障节点,利用Slurm调度系统管理资源分配,并借助Lustre文件系统提供高吞吐数据读写支持。实时监控系统可提前识别硬件异常,确保大规模训练的连续性。

针对代码执行环境的特殊需求,Prime Intellect开发了Prime Sandboxes高吞吐执行系统。该系统通过Rust语言直接与容器编排层通信,将代码启动延迟压缩至亚秒级,即使在数千并发任务下仍能保持稳定运行。研究团队创新性地将沙箱初始化与模型推理过程并行处理,彻底消除代码执行前的等待时间,显著提升训练效率。

训练过程分为两个主要阶段:首先基于GLM-4.5-Air进行监督微调,随后展开大规模强化学习训练。整个流程持续两个月,期间研究人员设计了覆盖数学推理、编程能力、科学探究等领域的多样化训练环境。所有训练任务及评测基准均通过Environments Hub平台公开,目前该平台已收录超过500个标准化任务,涵盖学术研究、自动化办公、定理证明等多个维度。

当前研发重点正转向智能体能力的深化拓展。研究团队计划通过增加智能体式训练环境的比重,进一步提升模型在复杂任务中的自主决策能力。同时,环境库将持续扩充高质量任务,特别关注长时序推理场景的构建,包括上下文管理、分支推理等关键技术的突破。这些进展将使模型逐步具备自我优化记忆管理和推理路径的能力。

Prime Intellect通过开放完整技术栈,正在重塑前沿模型的开发范式。INTELLECT-3的成功证明,借助高效的分布式训练框架与模块化环境设计,中小型研发团队同样能够达到国际顶尖水平。这种开放协作模式或将推动人工智能技术进入新的发展阶段,使更多研究机构能够参与超级智能技术的探索与创新。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version