ITBear旗下自媒体矩阵:

蚂蚁推出万亿参数思考模型Ring-1T并开源,在多项测试中表现优异迈入新阶段

   时间:2025-10-14 12:34:37 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

蚂蚁集团旗下百灵团队近日宣布,其自主研发的万亿参数思考模型Ring-1T正式上线并全面开源,包括模型权重与训练框架。该模型在9月30日发布的预览版Ring-1T-preview基础上,通过大规模可验证奖励强化学习(RLVR)技术进一步优化了自然语言推理能力,同时结合RLHF训练框架提升了通用任务表现,在多项基准测试中展现出均衡性能。

在数学推理能力验证方面,Ring-1T创造了开源模型领域的历史性突破。研究团队将其接入多智能体框架AWorld,以纯自然语言推理方式挑战国际数学奥林匹克(IMO)2025年赛题。实验数据显示,模型首次尝试即成功解出第1、3、4、5题,达到IMO银牌标准,成为首个具备国际奥数奖级水平的开源系统。面对第2题几何证明时,第三次尝试即产出接近满分的证明过程;在第六题复杂计算中,答案收敛至与Gemini2.5Pro相同的"4048"(正确答案为2112),展现出强大的复杂问题处理能力。

通用能力测试中,Ring-1T在"人类偏好对齐"基准Arena-Hard V2上取得81.59%的成功率,位列开源模型榜首,与GPT-5-Thinking(High)的82.91%仅差1.32个百分点。在医疗领域专业测评HealthBench中,该模型以最高分刷新开源模型纪录,证明其在专业场景下的可靠性。

针对万亿参数模型训练的核心挑战——训练与推理阶段的精度差异问题,蚂蚁集团研发了"棒冰(icepop)"算法。该技术通过带掩码的双向截断机制,将训练-推理分布差异控制在极低水平,确保长序列训练的稳定性。对比实验显示,采用传统GRPO算法的模型随着训练推进,训推差异呈指数级增长,而icepop算法始终维持平稳状态,有效避免了训练崩溃风险。

在强化学习系统优化方面,蚂蚁自研的ASystem框架(含开源组件AReaL)针对万亿参数模型特性,开发了显存碎片秒级回收和权重零冗余交换技术。这些创新解决了大规模模型训练中的显存管理难题,使强化学习训练能够稳定持续进行。

基础架构层面,Ring-1T延续了Ling2.0架构的1T base模型设计,采用高度稀疏的MoE架构(专家激活比1/32)、FP8混合精度训练及MTP优化技术。后训练阶段通过LongCoT-SFT、RLVR、RLHF三阶段联合训练,显著提升了模型的复杂推理、指令跟随及创意写作能力。

目前,用户可通过HuggingFace平台和魔搭社区下载Ring-1T模型,或通过蚂蚁百宝箱在线体验。该模型的发布标志着蚂蚁百灵大模型家族正式迈入2.0时代,现已形成覆盖160亿至1万亿参数的完整产品矩阵,包含万亿参数通用大语言模型Ling-1T和思考模型Ring-1T两款旗舰产品。据团队透露,后续版本将持续优化模型性能,拓展应用场景。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version