蚂蚁百灵大模型Ling 2.0系列迎来重大突破,其首款万亿参数级旗舰模型Ling-1T于近日正式亮相。作为蚂蚁集团迄今研发规模最大、性能最强的非思考型通用语言模型,Ling-1T在复杂推理任务中展现出显著优势,多项基准测试结果刷新行业纪录。
在权威数学竞赛榜单AIME 25(美国数学邀请赛)的测试中,Ling-1T以平均4000余个Token的消耗量达成70.42%的准确率,超越同期测试的Gemini-2.5-Pro模型——后者需消耗5000余个Token,准确率为70.10%。这一结果印证了Ling-1T在有限计算资源下实现高效推理的能力。
技术架构层面,Ling-1T延续了Ling 2.0的模块化设计,通过20万亿Tokens的高质量推理语料库完成预训练,支持最长128K的上下文窗口。研发团队采用"中训练+后训练"的演进式思维链(Evo-CoT)技术,使模型在逻辑链构建和精准推理方面获得质的提升。这种训练范式通过动态调整思维链的深度与广度,有效解决了传统模型在复杂问题处理中的连贯性缺陷。
在工程实现上,Ling-1T创造了行业新标杆。作为已知规模最大的FP8混合精度训练模型,其通过量化感知训练技术将显存占用降低30%,同时支持更灵活的并行计算策略,整体训练效率提升超15%。相关混合精度训练技术已部分开源,为行业提供了可复用的优化方案。
针对万亿参数模型的训练稳定性难题,百灵团队创新提出LPO(Linguistics-Unit Policy Optimization)策略优化算法。该算法以完整语义单元而非传统词元或序列作为优化颗粒度,既避免了细粒度训练导致的语义断裂,又克服了粗粒度训练的反馈模糊问题。实验数据显示,LPO算法使模型在奖励信号与行为输出的语义对齐精度上提升了27%。
值得关注的是,蚂蚁百灵团队同步推进着另一条技术路线。其万亿参数级深度思考大模型Ring-1T的preview版本已于9月30日开源,该模型专注于复杂逻辑的递归推导能力。两大模型形成互补:Ling-1T侧重高效推理,Ring-1T强化深度思考,共同构建起蚂蚁集团在通用人工智能领域的技术矩阵。