蚂蚁开源两大万亿参数模型：混合线性架构助力，效率性能双提升

时间：2026-02-25 12:30:47 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当大模型在推理、编程等领域不断突破能力边界时，一个现实问题逐渐浮出水面：如何在提升模型性能的同时，有效控制算力消耗与资源占用？这一挑战正推动行业探索新的技术路径。近期，蚂蚁集团旗下团队推出的新一代开源大模型，为破解这一难题提供了创新方案。

该团队发布的百灵大模型家族包含两款万亿参数模型：即时模型Ling-2.5-1T与思考模型Ring-2.5-1T。这两款模型的核心突破在于采用混合线性注意力架构"Ling 2.5"，而非单纯依赖参数规模扩张。在主流大模型仍以改进型传统注意力机制为主流的背景下，Ling-2.5-1T成为业内罕见的超大型混合架构模型，Ring-2.5-1T则开创了全球首个万亿参数级混合架构思考模型的先河。

新架构带来的效率提升显著。在长文本处理和复杂推理场景中，模型将内存访问规模压缩至传统架构的十分之一，生成速度提升至原来的三倍。这种"既聪明又节俭"的特性，在多项基准测试中得到验证：Ling-2.5-1T在推理、智能体交互等场景的表现超越DeepSeek-V3.2、Kimi-K2.5等同类模型；Ring-2.5-1T在国际数学奥林匹克竞赛（IMO）和中国数学奥林匹克（CMO）模拟测试中达到金牌标准，并在数学推理、代码生成等任务中全面领先开源及闭源模型。

传统注意力机制虽能精准捕捉文本关联，但其计算复杂度随文本长度呈平方级增长，导致算力需求激增。线性注意力通过数学优化降低计算量，但在处理复杂语义时表现不足。混合架构的解决方案是：在模型不同层级分别采用传统与线性注意力机制，实现性能与效率的平衡。这种设计看似简单，实际面临训练稳定性、参数配比优化等挑战，特别是在超大规模参数训练中，数值震荡和梯度不稳定问题尤为突出。

研究团队通过分阶段攻关突破技术瓶颈。早期验证阶段，他们开源的Ring-mini-linear-2.0模型采用1:7的混合比例（每8层中7层线性注意力加1层传统注意力），在保持表达能力的同时将复杂度从O(n²)降至接近O(n)。实验显示，这种结构在高算力预算下表现优于纯传统架构。随后开发的FP8融合算子将混合精度训练效率提升50%-70%，推理端算子优化使吞吐量进一步提高。

在万亿参数工程化阶段，团队对原有架构进行深度改造：将大部分GQA层升级为Lightning Linear Attention以提升长程推理能力，剩余层转换为MLA结构压缩缓存占用。改造过程中保留了QK Norm等关键机制，确保模型表达能力不受损。最终实现的Ling-2.5架构使激活参数从510亿增至630亿，但推理吞吐量仍显著提升，证明架构优化的收益超过参数增长带来的负担。

持续预训练阶段，模型基于9万亿优质语料强化世界知识覆盖和智能体交互能力。得益于混合架构的高效长文本处理特性，上下文窗口扩展至256K tokens，并支持最高100万tokens的超长文本处理。在AIME 2026评测中，新模型以约5890个token的输出长度完成复杂任务，性能接近专业思考模型，而后者通常需要生成1.5万至2.3万个token。

实际应用场景中，模型展现出显著优势。在法律文书处理任务中，Ling-2.5-1T能严格遵循多达10项的指令约束，生成逻辑连贯的答复；在财报分析场景中，模型可一次性处理数十页文档，完成信息抽取、指标计算和深度分析。这些能力得益于优化后的长上下文处理机制，确保模型在跨段落信息整合时保持一致性。

技术突破带来的商业价值正在显现。推理成本的降低使企业能在同等硬件条件下支持更高并发请求，长上下文支持拓展了模型在复杂文档处理领域的应用范围。多步推理能力的提升，则为构建企业级智能体和知识自动化系统奠定了技术基础。这些改进正在重新定义大模型的能力边界，推动行业从参数竞赛转向架构创新。

此次发布的模型矩阵还包括全模态模型Ming-flash-2.0和扩散语言模型LLaDA2.1，形成覆盖多模态感知、语言生成、深度推理等核心领域的完整布局。全系列开源策略不仅使蚂蚁集团跻身国内大模型第一梯队，更为AI开发者社区提供了多样化工具选择。当技术路线日益多元，开源生态持续繁荣，开发者将拥有更灵活的解决方案应对不同场景挑战。

从去年底到今年2月、3月、4月初，DeepSeek V4的发布窗口推了三次，行业里各大模型的频繁更新几乎进入了最密集的时刻。但当一个万亿参数级的开源旗舰模型，在发布首日就能跑在国产算力的全系列产品上，适配…

在Codex中，它可以承担从代码实现、重构，到调试、测试与验证的全流程工程任务。在Codex中，GPT-5.5支持最高40万token的上下文窗口，还提供Fast模式，速度提升了1.5倍，但成本是普通模式…

这一代模型更像一个可以协作的执行者，得分只是表面，更重要的是这些分数背后指向的一件事：GPT-5.5的定位，从“回答”转向了“执行”。如果把GPT-5.5放在过去这一年的演进脉络里看，它并非单纯地围绕模型…

距离 OpenAI 上次发布GPT 5.4仅不到两个月时间，从网友的实测来看GPT-5.5已经有了不小的进步，更会说“人话”了、更快了、编程更强了，“OpenAI仍在创新”，但同时，价格也翻倍了。官方表示，…

模型分为两个版本：DeepSeek-V4-Pro拥有1.6万亿参数，在Agent能力、世界知识和推理性能上均达到国内与开源领域的领先水平；DeepSeek-V4-Flash则以更小的参数量提供接近的推理能力，…

那么，如果说此前我们对文科与理科的融合，是一种对理想状态的呼唤，在人工智能的大背景下，强调文理共生，是人类要想生存必须拥有的自觉。以企业为例，企业要想跨越商业的周期、赢得时代的挑战，需要提前布局，需要主动与社…

DeepSeek在文章中表示，V4 开创了一种全新的注意力机制，在 token 维度进行压缩，结合 DSA 稀疏注意力（DeepSeekSparse Attention），实现了全球领先的长上下文能力，并且…

OpenAI表示，GPT-5.5在处理复杂、多步骤任务时表现出色，能够自主规划、调用工具、检查结果，并在模糊条件下坚持完成工作，显著提升了代码编写、数据分析、在线研究、文档与电子表格创建以及软件操作等能力…

很多人一听沙漠和太阳能板的组合，第一反应就是这不天作之合吗，阳光管够，太阳能板专门发电，简直绝配啊。太阳能板最怕积灰，沙漠里风一吹，板子表面就像蒙了一层沙子，阳光透不过去，发电效率立马掉。而且清洗也是个难…

应用，通过实时监测与智能优化，减少发电损失，有效提高系统转换效率；实现故障预测性维护，减少人工巡检频次，缩短故障修复时间的同时降低运维成本；通过环境监测与风险预警，预防火灾、触电等安全事故，增强电站安全性；…

它不是 “简单的小颗粒”，是万亿原子精准排列、万亿反应同步联动、万亿信息实时传递的宇宙级精密工厂；它不是 “人类科技能复刻的产物”，是40 亿年宇宙演化的终极奇迹，是物理定律不允许、概率上不可能被人类创…

GPT-5.5可在较少指令引导下自主完成多步骤复杂任务，针对模糊需求能快速精准理解用户意图，自主规划执行路径、调用工具、校验结果并持续推进任务，在代码编写调试、在线研究、数据分析、跨工具协同操作等场景中表现…

OPPO Find X9s Pro 最大的杀手锏，是首次在Pro档位上实现了 “哈苏双2亿超清影像系统” 。 Find X9s Pro实现了从超广角到长焦的 “黄金五焦段” 全覆盖，并且每个焦段都能直出5…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.