滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

蚂蚁百灵Ring-2.6-1T发布：数学推理稳准狠，创作规划有亮点待完善

时间：2026-05-09 22:42:09 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

蚂蚁百灵大模型近日宣布推出万亿级思考模型Ring-2.6-1T，该模型专为应对真实复杂任务场景设计，现已在OpenRouter平台上线并提供限时一周免费体验，后续计划正式开源。这款模型引入了可调节的Reasoning Effort机制，开发者可根据任务需求在high和xhigh两种推理强度间切换：high模式适用于高频任务如Agent交互、代码编写和多步工具调用，注重执行效率与Token消耗控制；xhigh模式则针对数学推理、科研分析和复杂逻辑判断等高难度任务优化。

在基准测试中，Ring-2.6-1T展现出显著优势。high模式在真实任务执行类评测中表现突出，PinchBench得分87.60，超越Claude-Opus-4.7 xhigh、GPT-5.4 xHigh等海外主流模型；Claweval和Tau2-Bench Telecom评测中分别取得63.82和95.32的成绩，位列可比模型前列。xhigh模式在高难推理任务中同样亮眼，ARC-AGI-V2得分77.78，与Gemini-3.1-Pro high和Claude-Opus-4.7 xhigh持平；AIME 26数学竞赛题得分95.83，GPQA Diamond科学知识评测达88.27，覆盖抽象推理、数学竞赛和科学理解等多维度能力。

实际测试环节验证了模型的综合性能。在长文本创作任务中，Ring-2.6-1T成功生成包含世界观设定、100章大纲和开篇正文的都市场异能小说，内容结构完整，爽点设计合理，符合网络文学创作规范。但在创意前端任务中暴露出细节缺陷：制作"骑自行车的鹈鹕"3D像素艺术时，虽完成天空、道路、树木等场景搭建，但未正确理解"骑行"动作，导致自行车轮子绕中点空转，且鹈鹕与背景比例失衡，空间关系处理欠佳。技术人员修复Three.js插件路径错误后，作品可实现360度旋转观察。

高难推理测试凸显模型能力上限。面对AIME 2026数学竞赛真题，Ring-2.6-1T在1分钟内完成对数换元、指数方程求解和质因数分解等五步推导，准确得出答案441。日常场景测试中，模型规划北京大兴机场至首都机场的交通路线时，提供"大兴机场快线转地铁10号线再换乘首都机场线"的推荐方案，与高德地图一致，并补充备选路线及购票提示。不过模型未识别两座机场间的直达专线，显示出对实时交通信息的依赖性。

开发团队透露，Ring-2.6-1T通过动态调整推理资源分配，在复杂任务中实现效率与精度的平衡。尽管在代码生成和前端开发等场景仍存在稳定性问题，但其在数学推理、长文本理解和基础创意生成方面的表现已达行业领先水平。随着正式开源计划推进，开发者将获得更多定制化开发空间，有望推动万亿级参数模型在垂直领域的深度应用。

05-31

年薪百万、IPO身家暴涨，Anthropic“心理治疗式”面试筛出真人才？

05-31

OpenAI官宣o3与GPT-4.5退役：旧王退场，新模型迭代与评估规则待考

05-31

特斯拉FSD再突破：6051公里全程零人工介入横穿加拿大创自动驾驶新纪录

05-31

估值20亿美元机器人公司秘密用民宿做测试房屋损毁严重房东集体起诉

05-31

消息称Valve Steam Machine初始定价已达1000美元

05-31

6000多公里零干预：特斯拉FSD完成首次横穿加拿大自动驾驶

05-31

20亿美元机器人独角兽将民宿当实验室，房东发起诉讼

05-31

OpenAI官宣o3与GPT-4.5退役：旧王退场，新模型加速迭代下的AI新局

05-31

AI浪潮下数理化底色不变：以底层逻辑照亮未来科学之路

05-31

探索AI组织新形态：Helio、Bloome等项目助力团队向超级组织进化

05-31

智谱与MiniMax启动A股上市辅导 “大模型双雄”资本赛道再加速

05-31

特斯拉FSD再突破：全球首趟6000公里横穿加拿大零干预自动驾驶之旅达成

05-31

“人工智能+”赋能能源领域 51个高价值场景助力行业智能化升级

由国家能源局主办的全国“人工智能+”能源现场推进会近日发布了首批“人工智能+”能源高价值场景，其中包括“电网规划方案智能生成与评估”等51个场景。高价值场景，从需求看，聚焦长期制约行业发展的痛点问题；从发展…

05-31

Claude Opus 4.8发布：性能提升显著，Anthropic估值飙升至9650亿美元

Claude.ai 与 Cowork 平台中的加入了「投入度控制」（Effortcontrol）功能，在模型选择器旁新增了一项控制选项，允许用户自行设定 Claude 在生成回复时应投入多少精力与资源。 …

05-31

点击查看更多 +

全站最新

粤港澳车展看蔚来：三品牌协同发力，技术生态双驱动引领行业新篇

QJMOTOR犀牛900实车登场：三缸动力+AMT变速箱国产ADV新标杆来了

2026款吉利牛仔焕新登场！新增车色内饰，动力配置优化适合城市通勤

北欧豪华纯电新标杆！沃尔沃EX90与ES90上市限时尊享价38.99万元起

比亚迪方程豹方程S GT官图曝光：猎装轿跑设计 2026年三季度携多版本登场

矿山纯电牵引车功率半导体选型指南：打造高可靠高效电驱辅助系统

热门内容

本栏最新

万洲电气凭WOES智能优化节能系统入列湖北工业软件企业名单引领节能新潮流

6月车市盛宴来袭！5款SUV新车扎堆上市比亚迪大唐等热门车型谁更值得期待？

金涌谈电池未来：半固态电池成过渡关键固态电池仍需持续攻坚

帕萨特ePro与途观L ePro双车上市，黄金超混加持，出行体验再升级！

奥迪E7X上市：以“标配即顶配”与L3级技术，重塑25万级豪华电动SUV格局

2026世界智能产业博览会亮点纷呈麒麟软件、蚂蚁科技等发布多项前沿成果

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.