ITBear旗下自媒体矩阵:

蚂蚁发布两大万亿参数开源模型,混合线性架构助力效率性能双提升

   时间:2026-03-01 12:27:37 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在大模型技术快速迭代的当下,如何在提升模型能力的同时有效控制算力消耗,成为行业关注的焦点。蚂蚁集团最新发布的百灵大模型家族给出了创新性解决方案:通过混合线性注意力架构,在万亿参数规模下实现效率与性能的双重突破。

此次发布的Ling-2.5-1T即时模型与Ring-2.5-1T思考模型,均基于自主研发的Ling 2.5架构。该架构突破传统注意力机制的计算瓶颈,将长文本生成场景的显存占用压缩至传统架构的十分之一,生成吞吐量提升至三倍。这种技术革新使模型在处理复杂任务时,既能保持高精度输出,又能显著降低资源消耗。

在数学竞赛领域,Ring-2.5-1T展现出卓越实力。该模型在国际数学奥林匹克竞赛(IMO 2025)和中国数学奥林匹克(CMO 2025)模拟测试中分别取得35分和105分的优异成绩,达到金牌水平。开启重度思考模式后,其在数学推理和代码生成基准测试中全面超越同类开源及闭源模型,验证了混合架构在复杂推理任务中的优势。

传统注意力机制虽具备强大的语义理解能力,但随着文本长度增加,其计算复杂度呈平方级增长。线性注意力通过数学重构将复杂度降至线性水平,但在处理细粒度语义对齐时存在局限。混合架构通过分层分工策略,在关键层保留传统注意力机制,其余层采用线性计算,实现计算效率与表达能力的动态平衡。

实现万亿参数规模的混合架构面临多重挑战。研究团队通过分组混合设计,在每个层组中配置7层线性注意力与1层传统注意力,经实验验证该比例在高计算预算下性能更优。针对训练稳定性问题,开发团队设计出自适应重计算量化技术,将FP8混合精度训练效率提升50%至70%。推理端则通过优化线性注意力融合算子,支持更多推理模式,进一步提升吞吐量。

在架构改造过程中,研究团队保留了QK归一化、部分旋转位置编码等关键机制,确保模型迁移过程中表达能力不衰减。改造后的Ling-2.5-1T激活参数从510亿增至630亿,但推理吞吐量仍显著提升,证明架构优化收益超过参数增长带来的负担。通过持续预训练和上下文窗口扩展训练,该模型支持最高100万token的超长文本处理。

基准测试数据显示,在AIME 2026评测中,Ling-2.5-1T以平均5890个token的输出长度逼近前沿思考模型水平,而后者需要生成1.5万至2.3万个token才能完成同等任务。在长文本处理基准测试中,该模型在16K至256K token范围内表现优于采用MLA/DSA架构的主流模型。工程实践验证显示,在单机8卡H200配置下,其长文本生成解码吞吐量显著优于前代模型及同等参数量的竞品。

实际应用场景中,优化后的长上下文能力使模型能够处理复杂法律文书和财报分析任务。在知识产权质押纠纷案例中,模型严格遵循10余项多维指令约束,生成逻辑连贯的答复;在财报解读场景中,可一次性完成数十页文档的信息抽取和财务指标计算。这些能力为企业级智能体构建和知识处理自动化提供了技术支撑。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version