ITBear旗下自媒体矩阵:

蚂蚁百灵Ling-2.6-flash亮相:Token高效利用 智能与成本双优突破

   时间:2026-04-23 01:59:18 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

蚂蚁百灵近日正式发布了一款名为Ling-2.6-flash的Instruct模型,该模型以“Token效率”为核心优势,在保持高水平智能表现的同时,实现了更快的响应速度和更低的资源消耗。其总参数量达104B,激活参数为7.4B,专为大规模真实应用场景设计,兼顾性能与成本效益。

在匿名测试阶段,该模型以“Elephant Alpha”的代号登陆OpenRouter平台后迅速引发关注。上线以来,其日均调用量突破100B tokens级别,周增长率超过5000%,连续多日占据平台Trending榜单首位。这一表现验证了市场对高效AI模型的强烈需求。

第三方评测机构Artificial Analysis的数据显示,Ling-2.6-flash在智能表现与资源消耗之间取得了显著平衡。该模型以15M输出tokens获得26分的智能指数,而同类模型需消耗超110M tokens才能达到相近水平。这意味着其仅用约十分之一的资源就完成了同等任务,在智效比上形成明显优势。

对于开发者和企业用户而言,这种效率提升具有实际价值。模型推理开销降低的同时,首字响应速度更快,整体生成时延缩短,交互流畅度显著提升。这些特性使其能够满足实时性要求高的应用场景,在保持用户体验的同时控制运营成本。

技术架构方面,Ling-2.6-flash延续了Ling 2.5的混合线性设计,采用高度稀疏化的MoE(专家混合)架构。在4卡H20硬件环境下,其推理速度可达340 tokens/s,预填充吞吐量是Nemotron-3-Super的2.2倍。在输出速度测评中,该模型以215 tokens/s的稳定表现跻身同参数级别模型第一梯队。

从应用前景看,这种高效架构为AI模型落地提供了新思路。通过优化资源利用率,Ling-2.6-flash降低了大规模部署的技术门槛,使更多企业能够以合理成本应用先进AI技术。其性能表现已通过多项权威测评验证,为行业树立了新的效率标杆。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version