蚂蚁百灵大模型团队日前正式推出两款开源的高效推理模型——Ring-flash-linear-2.0与Ring-mini-linear-2.0,同时发布了两款自主研发的高性能融合算子,包括FP8融合算子及线性Attention推理融合算子。这些技术突破旨在通过“大参数、低激活”的设计,实现超长上下文支持与高效推理,为复杂计算场景提供更低成本的解决方案。
据团队披露,新模型通过架构优化与高性能算子的协同,将深度推理场景下的成本压缩至同等规模密集模型的十分之一。相较于前代Ring系列模型,推理成本进一步降低超50%,显著减少了用户在进行复杂任务时的计算资源消耗。这一改进不仅提升了工作效率,也为资源有限的环境提供了可行性更强的技术路径。
两款模型的核心优势之一在于训练与推理引擎算子的高度对齐。这种设计使模型在强化学习阶段能够进行长周期、稳定且高效的优化,从而在多个高难度推理评测中持续保持领先表现。对于需要处理复杂逻辑或长序列数据的用户而言,这一特性提供了更可靠的技术支持。
作为开源项目,Ring-flash-linear-2.0与Ring-mini-linear-2.0已上线Hugging Face及ModelScope等平台,开发者可自由获取模型代码及相关文档。此举不仅降低了技术门槛,也为全球AI社区提供了可扩展的推理工具,助力更多创新应用的落地。
此次开源标志着蚂蚁百灵大模型团队在AI效率优化领域的进一步突破。通过共享核心技术,团队不仅展现了技术实力,更为开发者提供了提升研究效率的实用工具,有望推动AI技术在更多场景中的深度应用。