蚂蚁集团旗下百灵大模型团队宣布,正式推出新一代Instruct模型Ling-2.6-flash。该模型总参数量达104B,激活参数规模为7.4B,在推理效率、资源利用率和复杂任务处理能力方面实现突破性进展。此前以Elephant Alpha代号在OpenRouter平台进行匿名测试的模型,经证实正是Ling-2.6-flash的早期版本,其日均调用量突破百亿级tokens,连续多日占据平台趋势榜单首位。
研发团队突破传统大模型依赖长文本输出的技术路径,通过架构创新实现效能跃升。在硬件配置为4张H20显卡的环境下,模型推理速度最高可达340 tokens/秒,预填充吞吐量达到Nemotron-3-Super的2.2倍。这种性能提升得益于混合线性架构的引入,该架构通过优化底层计算单元的协同机制,显著降低了矩阵运算的冗余度。
资源利用效率的优化体现在训练阶段的精准调控。在Artificial Analysis的完整评测中,Ling-2.6-flash仅消耗1500万tokens即达成既定任务目标,资源消耗量约为同类模型的十分之一。这种"小样本大能力"的特性,使其在处理实时交互类应用时具有显著优势,特别适合对响应速度和成本控制敏感的商业场景。
针对智能体(Agent)应用场景的专项强化是该模型的另一核心突破。通过重构工具调用机制、优化多步决策算法,模型在BFCL-V4、TAU2-bench等权威基准测试中,与参数规模更大的模型相比仍保持领先水平。在SWE-bench Verified测试中,其代码生成准确率较前代提升18%,任务分解完整度达到92.3%。
为降低开发者使用门槛,百灵大模型同步推出双重服务方案。即日起在OpenRouter平台和官方渠道提供为期一周的免费API调用服务,后续将采用差异化计费模式:国际版输入0.1美元/百万tokens、输出0.3美元/百万tokens;国内版输入0.6元/百万tokens、输出1.8元/百万tokens,并保留每日50万tokens的免费额度。特别设置的缓存命中优惠机制(0.02美元/百万tokens,按20%计费),可进一步降低重复查询成本。
技术开源计划同步推进,BF16、FP8、INT4等量化版本将于近期在官方社区开放下载。这些精简版本在保持核心性能的同时,可将模型体积压缩至原始大小的30%以下,支持在边缘计算设备上部署运行。开发文档显示,INT4版本在特定场景下的推理延迟较FP32版本降低65%,而任务完成率仅下降2.1个百分点。











