ITBear旗下自媒体矩阵:

百灵大模型Ling-2.6-flash正式开源 携多版本助力开发者灵活部署应用

   时间:2026-04-29 14:38:28 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

蚂蚁集团旗下百灵大模型团队宣布,其研发的Ling-2.6-flash模型正式对外开源。该模型提供BF16、FP8、INT4三种量化版本,开发者可根据硬件配置、成本控制及部署场景自由选择适配方案。此次开源标志着国内大模型领域在工程化落地方面迈出重要一步。

这款以Instruct架构为基础的模型总参数量达1040亿,激活参数74亿。两周前,该模型曾以"Elephant Alpha"的代号在OpenRouter平台进行匿名测试,期间收集到大量开发者反馈。研发团队据此对模型进行多轮优化,重点提升了中英文混合输出能力,并强化了对主流编程框架的兼容性。

技术突破体现在三个核心维度:在计算效率方面,通过混合线性架构设计,模型在4块H20显卡环境下可实现每秒340个token的推理速度,预填充吞吐量达到Nemotron-3-Super的2.2倍;在资源利用率上,训练过程中采用的Token效率优化策略使模型在Artificial Analysis评测中仅消耗1500万token,仅为同类模型的十分之一;针对智能体应用场景,模型在工具调用、多步骤规划等能力上经过专项强化,在BFCL-V4等五个权威基准测试中,与参数规模更大的模型相比仍保持领先或持平表现。

开源地址已同步更新至两大模型社区:Hugging Face平台提供完整模型包下载(https://huggingface.co/inclusionAI/Ling-2.6-flash),ModelScope社区则上线了中文适配版本(https://www.modelscope.cn/models/inclusionAI/Ling-2.6-flash)。开发者可根据项目需求选择不同量化精度的模型文件,社区页面还附有详细的部署指南和性能调优建议。

该模型的技术文档显示,其混合线性架构通过动态权重分配机制,在保持模型精度的同时显著降低计算延迟。特别设计的Token压缩算法,使模型在生成长文本时仍能维持高效输出。在智能体应用测试中,模型展现出优秀的上下文理解能力,能够准确解析复杂指令并拆解为可执行步骤,这在自动化客服、代码生成等场景具有重要应用价值。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version