蚂蚁百灵大模型近日宣布推出万亿级思考模型Ring-2.6-1T,该模型专为应对真实复杂任务场景设计,现已在OpenRouter平台上线并提供限时一周免费体验,后续计划正式开源。这款模型引入了可调节的Reasoning Effort机制,开发者可根据任务需求在high和xhigh两种推理强度间切换:high模式适用于高频任务如Agent交互、代码编写和多步工具调用,注重执行效率与Token消耗控制;xhigh模式则针对数学推理、科研分析和复杂逻辑判断等高难度任务优化。
在基准测试中,Ring-2.6-1T展现出显著优势。high模式在真实任务执行类评测中表现突出,PinchBench得分87.60,超越Claude-Opus-4.7 xhigh、GPT-5.4 xHigh等海外主流模型;Claweval和Tau2-Bench Telecom评测中分别取得63.82和95.32的成绩,位列可比模型前列。xhigh模式在高难推理任务中同样亮眼,ARC-AGI-V2得分77.78,与Gemini-3.1-Pro high和Claude-Opus-4.7 xhigh持平;AIME 26数学竞赛题得分95.83,GPQA Diamond科学知识评测达88.27,覆盖抽象推理、数学竞赛和科学理解等多维度能力。
实际测试环节验证了模型的综合性能。在长文本创作任务中,Ring-2.6-1T成功生成包含世界观设定、100章大纲和开篇正文的都市场异能小说,内容结构完整,爽点设计合理,符合网络文学创作规范。但在创意前端任务中暴露出细节缺陷:制作"骑自行车的鹈鹕"3D像素艺术时,虽完成天空、道路、树木等场景搭建,但未正确理解"骑行"动作,导致自行车轮子绕中点空转,且鹈鹕与背景比例失衡,空间关系处理欠佳。技术人员修复Three.js插件路径错误后,作品可实现360度旋转观察。
高难推理测试凸显模型能力上限。面对AIME 2026数学竞赛真题,Ring-2.6-1T在1分钟内完成对数换元、指数方程求解和质因数分解等五步推导,准确得出答案441。日常场景测试中,模型规划北京大兴机场至首都机场的交通路线时,提供"大兴机场快线转地铁10号线再换乘首都机场线"的推荐方案,与高德地图一致,并补充备选路线及购票提示。不过模型未识别两座机场间的直达专线,显示出对实时交通信息的依赖性。
开发团队透露,Ring-2.6-1T通过动态调整推理资源分配,在复杂任务中实现效率与精度的平衡。尽管在代码生成和前端开发等场景仍存在稳定性问题,但其在数学推理、长文本理解和基础创意生成方面的表现已达行业领先水平。随着正式开源计划推进,开发者将获得更多定制化开发空间,有望推动万亿级参数模型在垂直领域的深度应用。











