ITBear旗下自媒体矩阵:

蚂蚁开源万亿参数思考模型Ring-1T,IMO解题达银牌水平,性能直追GPT-5

   时间:2025-10-14 11:35:02 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

蚂蚁集团旗下百灵团队近日在人工智能领域取得重大突破,其自主研发的万亿参数思考模型Ring-1T正式对外发布,并同步开源模型权重与训练框架。这款基于大规模可验证奖励强化学习(RLVR)技术的模型,在自然语言推理、复杂数学解题等核心能力上展现出显著优势,成为全球首个具备国际数学奥林匹克竞赛(IMO)获奖水平的开源系统。

在数学推理能力验证中,研究团队将Ring-1T接入多智能体框架AWorld,采用纯自然语言推理方式挑战IMO2025赛题。实验数据显示,模型首次尝试即成功解答第1、3、4、5题,达到IMO银牌标准;第三次尝试时,其针对第2题几何证明给出的推导过程获得接近满分的评价。尽管在第六题中给出的"4048"与正确答案"2112"存在偏差,但该结果已与顶流商业模型Gemini 2.5 Pro持平,而同期测试的其他主流模型在该题上几乎全军覆没。

技术架构层面,Ring-1T通过双重创新突破行业瓶颈。针对万亿参数模型训练中普遍存在的训推精度差异问题,研发团队提出"棒冰(icepop)"算法,利用带掩码的双向截断技术将训练-推理分布差异控制在极低水平,确保长序列训练的稳定性。在强化学习系统优化方面,自研的ASystem平台(含开源框架AReaL)通过显存碎片秒级回收、权重零冗余交换等技术,使单机训练效率提升300%,将大规模RL训练转化为常规操作。

通用能力评估显示,Ring-1T在多个权威测试中表现优异。在"人类偏好对齐"测试Arena-Hard V2中,模型以81.59%的成功率位居开源模型榜首,与GPT-5-Thinking(High)的82.91%仅有微小差距;在医疗问答专项测评HealthBench中,更以绝对优势领跑开源领域。这些成绩验证了模型在严谨专业场景下的可靠性和适应性。

产品矩阵建设方面,蚂蚁百灵团队已形成覆盖160亿至1万亿参数的完整模型体系。继9月30日发布预览版Ring-1T-preview后,此次推出的完整版Ring-1T标志着团队在思考模型领域的首次成功实践。值得注意的是,10月9日发布的万亿参数通用大模型Ling-1T作为非思考型模型,与Ring-1T形成互补,共同构建起蚂蚁集团的大模型技术生态。

目前,开发者可通过HuggingFace、魔搭社区等平台获取Ring-1T模型资源,并借助蚂蚁百宝箱等工具进行在线体验。百灵团队透露,后续版本将持续优化模型性能,重点提升复杂逻辑推理和跨领域知识迁移能力。随着18款模型的陆续发布,蚂蚁集团在万亿参数大模型领域的领先地位得到进一步巩固。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version