高性能推理型MoE模型Ring-mini-2.0正式发布,该模型基于Ling-mini-2.0架构深度优化,总参数量达16B,但实际运行时仅需激活1.4B参数,即可实现相当于10B级别以下密集模型的推理能力。这一设计显著降低了计算资源需求,同时保持了强大的性能表现。
在任务处理方面,Ring-mini-2.0在逻辑推理、编程和数学任务中表现尤为突出。其支持128K长上下文处理能力,能够适应多种复杂应用场景。生成速度方面,该模型初始版本即可达到300+ token/s,经过优化后更可突破500+ token/s,展现出极高的效率优势。
训练优化方面,研发团队在Ling-mini-2.0-base基础上进行了深度改进。通过Long-COT SFT、大规模RLVR和RLHF的联合训练策略,显著提升了模型在复杂推理任务中的稳定性和泛化能力。基准测试结果显示,其性能不仅超越了10B以下密集模型,甚至可与部分更大型的MoE模型相媲美,尤其在逻辑推理领域表现优异。
设计架构上,Ring-mini-2.0采用1/32专家激活比和MTP层架构优化,实现了相当于7-8B密集模型的等效性能。这种高稀疏度设计配合小参数激活策略,使模型在H20环境下即可达到300+ token/s的推理速度。同时,通过Expert Dual Streaming技术优化,进一步降低了推理成本。
为推动学术与产业界发展,研发方决定全面开源Ring-mini-2.0的模型权重、训练策略及数据配方。这款"小而精"的模型有望成为小型推理领域的标杆产品,相关资源现已通过开源仓库对外发布,供全球研究者下载使用。