蚂蚁百灵近日正式发布了一款名为Ling-2.6-flash的Instruct模型,该模型以“Token效率”为核心优势,在保持高水平智能表现的同时,实现了更快的响应速度和更低的资源消耗。其总参数量达104B,激活参数为7.4B,专为大规模真实应用场景设计,兼顾性能与成本效益。
在匿名测试阶段,该模型以“Elephant Alpha”的代号登陆OpenRouter平台后迅速引发关注。上线以来,其日均调用量突破100B tokens级别,周增长率超过5000%,连续多日占据平台Trending榜单首位。这一表现验证了市场对高效AI模型的强烈需求。
第三方评测机构Artificial Analysis的数据显示,Ling-2.6-flash在智能表现与资源消耗之间取得了显著平衡。该模型以15M输出tokens获得26分的智能指数,而同类模型需消耗超110M tokens才能达到相近水平。这意味着其仅用约十分之一的资源就完成了同等任务,在智效比上形成明显优势。
对于开发者和企业用户而言,这种效率提升具有实际价值。模型推理开销降低的同时,首字响应速度更快,整体生成时延缩短,交互流畅度显著提升。这些特性使其能够满足实时性要求高的应用场景,在保持用户体验的同时控制运营成本。
技术架构方面,Ling-2.6-flash延续了Ling 2.5的混合线性设计,采用高度稀疏化的MoE(专家混合)架构。在4卡H20硬件环境下,其推理速度可达340 tokens/s,预填充吞吐量是Nemotron-3-Super的2.2倍。在输出速度测评中,该模型以215 tokens/s的稳定表现跻身同参数级别模型第一梯队。
从应用前景看,这种高效架构为AI模型落地提供了新思路。通过优化资源利用率,Ling-2.6-flash降低了大规模部署的技术门槛,使更多企业能够以合理成本应用先进AI技术。其性能表现已通过多项权威测评验证,为行业树立了新的效率标杆。








