ITBear旗下自媒体矩阵:

蚂蚁开源两大万亿参数模型:混合线性架构助力,效率性能双提升

   时间:2026-02-25 12:30:47 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

当大模型在推理、编程等领域不断突破能力边界时,一个现实问题逐渐浮出水面:如何在提升模型性能的同时,有效控制算力消耗与资源占用?这一挑战正推动行业探索新的技术路径。近期,蚂蚁集团旗下团队推出的新一代开源大模型,为破解这一难题提供了创新方案。

该团队发布的百灵大模型家族包含两款万亿参数模型:即时模型Ling-2.5-1T与思考模型Ring-2.5-1T。这两款模型的核心突破在于采用混合线性注意力架构"Ling 2.5",而非单纯依赖参数规模扩张。在主流大模型仍以改进型传统注意力机制为主流的背景下,Ling-2.5-1T成为业内罕见的超大型混合架构模型,Ring-2.5-1T则开创了全球首个万亿参数级混合架构思考模型的先河。

新架构带来的效率提升显著。在长文本处理和复杂推理场景中,模型将内存访问规模压缩至传统架构的十分之一,生成速度提升至原来的三倍。这种"既聪明又节俭"的特性,在多项基准测试中得到验证:Ling-2.5-1T在推理、智能体交互等场景的表现超越DeepSeek-V3.2、Kimi-K2.5等同类模型;Ring-2.5-1T在国际数学奥林匹克竞赛(IMO)和中国数学奥林匹克(CMO)模拟测试中达到金牌标准,并在数学推理、代码生成等任务中全面领先开源及闭源模型。

传统注意力机制虽能精准捕捉文本关联,但其计算复杂度随文本长度呈平方级增长,导致算力需求激增。线性注意力通过数学优化降低计算量,但在处理复杂语义时表现不足。混合架构的解决方案是:在模型不同层级分别采用传统与线性注意力机制,实现性能与效率的平衡。这种设计看似简单,实际面临训练稳定性、参数配比优化等挑战,特别是在超大规模参数训练中,数值震荡和梯度不稳定问题尤为突出。

研究团队通过分阶段攻关突破技术瓶颈。早期验证阶段,他们开源的Ring-mini-linear-2.0模型采用1:7的混合比例(每8层中7层线性注意力加1层传统注意力),在保持表达能力的同时将复杂度从O(n²)降至接近O(n)。实验显示,这种结构在高算力预算下表现优于纯传统架构。随后开发的FP8融合算子将混合精度训练效率提升50%-70%,推理端算子优化使吞吐量进一步提高。

在万亿参数工程化阶段,团队对原有架构进行深度改造:将大部分GQA层升级为Lightning Linear Attention以提升长程推理能力,剩余层转换为MLA结构压缩缓存占用。改造过程中保留了QK Norm等关键机制,确保模型表达能力不受损。最终实现的Ling-2.5架构使激活参数从510亿增至630亿,但推理吞吐量仍显著提升,证明架构优化的收益超过参数增长带来的负担。

持续预训练阶段,模型基于9万亿优质语料强化世界知识覆盖和智能体交互能力。得益于混合架构的高效长文本处理特性,上下文窗口扩展至256K tokens,并支持最高100万tokens的超长文本处理。在AIME 2026评测中,新模型以约5890个token的输出长度完成复杂任务,性能接近专业思考模型,而后者通常需要生成1.5万至2.3万个token。

实际应用场景中,模型展现出显著优势。在法律文书处理任务中,Ling-2.5-1T能严格遵循多达10项的指令约束,生成逻辑连贯的答复;在财报分析场景中,模型可一次性处理数十页文档,完成信息抽取、指标计算和深度分析。这些能力得益于优化后的长上下文处理机制,确保模型在跨段落信息整合时保持一致性。

技术突破带来的商业价值正在显现。推理成本的降低使企业能在同等硬件条件下支持更高并发请求,长上下文支持拓展了模型在复杂文档处理领域的应用范围。多步推理能力的提升,则为构建企业级智能体和知识自动化系统奠定了技术基础。这些改进正在重新定义大模型的能力边界,推动行业从参数竞赛转向架构创新。

此次发布的模型矩阵还包括全模态模型Ming-flash-2.0和扩散语言模型LLaDA2.1,形成覆盖多模态感知、语言生成、深度推理等核心领域的完整布局。全系列开源策略不仅使蚂蚁集团跻身国内大模型第一梯队,更为AI开发者社区提供了多样化工具选择。当技术路线日益多元,开源生态持续繁荣,开发者将拥有更灵活的解决方案应对不同场景挑战。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version