国产大模型领域再掀波澜——蚂蚁集团正式推出其百灵大模型的首款旗舰产品Ling-1T,这款拥有万亿参数的通用语言模型一经发布便引发行业震动。据实测数据显示,该模型在代码生成、竞赛数学、逻辑推理等复杂任务中超越了DeepSeek-V3.1、Kimi-K2等开源模型,甚至在部分基准测试中超越GPT-5等闭源系统,标志着中国大模型技术迈入新阶段。
在数学推理测试中,Ling-1T展现出惊人的分析能力。面对"外星人分裂概率"这一经典难题,模型迅速识别问题类型并建立数学模型,通过多步推导得出精确解√2-1。更引人注目的是,当被要求解决"7米甘蔗过2米高1米宽的门"的空间几何问题时,模型不仅提出4种可行方案,还详细分析每种方案的物理可行性、操作步骤及潜在风险,展现出严谨的工程思维。
代码生成能力测试中,Ling-1T的表现同样亮眼。研究人员要求其构建诺贝尔奖介绍网站,模型自动划分概览、奖项分类、历史时间线等模块,生成结构清晰、信息完整的代码框架。这种模块化设计能力得益于其独特的"语法-功能-美学"混合奖励机制,该机制使生成的代码不仅功能完备,更兼顾界面美观性。在ArtifactsBench前端开发基准测试中,Ling-1T以显著优势领跑开源模型阵营。
技术层面,Ling-1T采用"中训练+后训练"的演进式思维链架构。基础模型在20万亿token的高质量语料上完成预训练,支持最长128K的上下文窗口。研发团队创新性地将预训练分为三个阶段:首阶段使用高知识密度语料构建基础认知,次阶段通过高推理密度语料培养逻辑能力,中间训练阶段则扩展上下文窗口并引入思维链内容。这种渐进式训练使模型既能积累广泛知识,又能发展深度推理能力。
学习率控制方面,研究团队摒弃传统WSD策略,改用自研WSM框架。该框架通过"预热-稳定-合并"三阶段设计,在保持无衰减学习率的同时提升模型性能。实验表明,合并时的训练窗口长度对性能的影响远超合并次数,这一发现为大规模模型训练提供了新思路。
在后训练阶段,针对GRPO算法易导致语义碎片化、GSPO算法可能造成奖励信号平滑的问题,研究团队提出LPO(语言单元策略优化)方法。该方法首次将句子作为策略优化的基本单位,在语义完整性与局部逻辑训练间取得平衡。测试数据显示,LPO在训练稳定性和泛化能力上均优于传统方法。
随着Ling-1T的开源,中国大模型阵营再添重磅成员。该模型不仅使蚂蚁跻身"万亿参数开源俱乐部",其创新的渐进式推理机制和高效训练方法,更为行业提供了新的技术范式。值得注意的是,近期国产大模型开源节奏明显加快:Qwen家族国庆前连续发布多模态模型,DeepSeek短期内更新两个重要版本,而蚂蚁的此次开源再次证明中国团队在全球AI竞赛中的持续创新力。