蚂蚁百灵大模型家族迎来重要成员——Ling-1T。这款拥有万亿参数的通用语言模型由蚂蚁集团自主研发,作为Ling 2.0系列的首款旗舰产品,其规模与性能均创下团队历史新高。该模型在复杂推理任务中展现出卓越能力,在有限输出Token条件下,于多项基准测试中刷新最佳成绩,尤其在高效思考与精确推理的平衡方面表现突出。
在竞赛数学领域,Ling-1T的表现尤为亮眼。以美国数学邀请赛25题(AIME 25)为例,该模型仅消耗平均4000余Token即达到70.42%的准确率,超越同期测试的Gemini-2.5-Pro(消耗5000+Token,准确率70.10%)。这种以更少资源实现更高精度的特性,使其在推理效率与准确率的综合评估中占据优势,相关成果已推动该领域帕累托前沿的拓展。
技术架构方面,Ling-1T延续了Ling 2.0的核心设计,依托超过20万亿Token的高质量语料库完成预训练,支持最长128K的上下文窗口。通过"中训练+后训练"的演进式思维链(Evo-CoT)技术,模型在复杂逻辑推导和精准答案生成方面获得显著提升。特别值得关注的是,该模型采用FP8混合精度训练方案,成为当前已知规模最大的FP8基座模型,这项创新使显存占用降低、并行策略更灵活,并实现15%以上的端到端训练加速。
在强化学习阶段,研发团队提出LPO(Linguistics-Unit Policy Optimization)策略优化算法,以"句子"为最小优化单元。这种设计既避免了词元级处理的碎片化问题,又克服了序列级优化的笼统性,使奖励信号与模型输出在语义层面实现精准匹配。同时,团队构建的"语法-功能-美学"混合奖励机制,在确保代码正确性的基础上,显著提升了模型对视觉美学的理解能力。
在前端开发能力评估中,Ling-1T于ArtifactsBench基准测试取得59.31分,虽略低于Gemini-2.5-Pro-lowthink的60.28分,但在开源模型中稳居首位。该模型在代码生成、软件开发、专业数学等领域同样表现优异,多项指标刷新开源社区纪录。目前,开发者可通过Hugging Face平台及蚂蚁百宝箱等渠道体验Ling-1T的完整功能。
据悉,蚂蚁百灵团队还在同步推进深度思考大模型Ring-1T的研发,其preview版本已于9月30日开源。这款聚焦复杂推理的新模型,将与Ling-1T形成能力互补,共同构建更完整的AI技术矩阵。