蚂蚁集团旗下百灵大模型团队宣布,其研发的Ling-2.6-flash模型正式对外开源。该模型提供BF16、FP8、INT4三种量化版本,开发者可根据硬件配置、成本控制及部署场景自由选择适配方案。此次开源标志着国内大模型领域在工程化落地方面迈出重要一步。
这款以Instruct架构为基础的模型总参数量达1040亿,激活参数74亿。两周前,该模型曾以"Elephant Alpha"的代号在OpenRouter平台进行匿名测试,期间收集到大量开发者反馈。研发团队据此对模型进行多轮优化,重点提升了中英文混合输出能力,并强化了对主流编程框架的兼容性。
技术突破体现在三个核心维度:在计算效率方面,通过混合线性架构设计,模型在4块H20显卡环境下可实现每秒340个token的推理速度,预填充吞吐量达到Nemotron-3-Super的2.2倍;在资源利用率上,训练过程中采用的Token效率优化策略使模型在Artificial Analysis评测中仅消耗1500万token,仅为同类模型的十分之一;针对智能体应用场景,模型在工具调用、多步骤规划等能力上经过专项强化,在BFCL-V4等五个权威基准测试中,与参数规模更大的模型相比仍保持领先或持平表现。
开源地址已同步更新至两大模型社区:Hugging Face平台提供完整模型包下载(https://huggingface.co/inclusionAI/Ling-2.6-flash),ModelScope社区则上线了中文适配版本(https://www.modelscope.cn/models/inclusionAI/Ling-2.6-flash)。开发者可根据项目需求选择不同量化精度的模型文件,社区页面还附有详细的部署指南和性能调优建议。
该模型的技术文档显示,其混合线性架构通过动态权重分配机制,在保持模型精度的同时显著降低计算延迟。特别设计的Token压缩算法,使模型在生成长文本时仍能维持高效输出。在智能体应用测试中,模型展现出优秀的上下文理解能力,能够准确解析复杂指令并拆解为可执行步骤,这在自动化客服、代码生成等场景具有重要应用价值。











