近日,AI界迎来了一项重大突破,月之暗面公司隆重推出了其精心打造的Kimi K2模型,并慷慨地决定将其开源。这款基于先进MoE架构的模型,凭借其卓越的代码生成能力和在各类Agent任务中的出色表现,迅速吸引了业界的广泛关注。
Kimi K2模型的参数规模庞大,总参数量达到了1万亿,激活参数也有320亿之多。在一系列基准测试中,如SWE Bench Verified、Tau2和AceBench,Kimi K2均展现出了非凡的实力,成绩斐然,特别是在代码编写、Agent任务执行以及数学逻辑推理方面,更是遥遥领先其他开源模型。
在模型训练过程中,月之暗面团队采用了创新的MuonClip优化器,这一技术革新有效解决了大规模训练中的attention logits偏差问题,显著提升了训练的稳定性和token的使用效率。得益于此,团队成功完成了15.5万亿token的平稳训练,全程未出现任何loss spike,为大型模型的训练提供了新的参考范例。
Kimi K2模型在实际应用中的表现同样令人瞩目。在代码生成方面,它不仅能够轻松生成设计精美、视觉效果出众的前端代码,还支持复杂的粒子系统、可视化效果和3D场景构建。更令人惊叹的是,Kimi K2甚至能够在没有具体指令的情况下,自主搭建完整的期货交易界面,展现出其强大的编程自主性和创造力。
在Agent工具调用方面,Kimi K2同样展现出了其强大的实力。它能够准确解析复杂的指令,并将这些指令自动拆解为一系列格式规范、可直接执行的ToolCall结构,无缝对接各种Agent/Coding框架,轻松完成复杂任务或自动化编码。无论是分析远程办公对薪资的影响,还是为Coldplay粉丝制定追星计划,Kimi K2都能游刃有余,展现出其全面的Agent能力。
Kimi K2在风格化写作方面也取得了显著进步。无论是将科研文本改写为初中生语气,还是模仿苹果广告的文案风格,Kimi K2都能精准把握输出风格,同时保持原文的意图和表达特色。在虚构写作任务中,Kimi K2的文字更加细腻且富有情感,为用户提供了更加丰富和沉浸式的创作体验。
为了满足不同开发者的需求,月之暗面公司还同步开源了Kimi-K2-Base和Kimi-K2-Instruct两个模型版本。其中,Kimi-K2-Base是未经指令微调的基础预训练模型,适合科研和自定义场景使用;而Kimi-K2-Instruct则是经过通用指令微调的版本,在大多数问答和Agent任务中表现出色。这些模型及fp8权重文件现已在HuggingFace平台上开源,供开发者自由下载和使用。
为了方便开发者部署和使用Kimi K2模型,vLLM、SGLang、ktransformers等推理引擎也已同步提供支持。开发者可以在自己的服务器上部署Kimi K2模型,获得与Kimi开放平台API相同的体验,极大地提高了开发的灵活性和便捷性。
在API服务方面,Kimi K2同样提供了全面的支持。其API服务已全面上线,支持最长128K的上下文长度,具备更强的通用性和工具调用能力。计费方案也非常灵活和合理,每百万输入tokens仅需4元,每百万输出tokens为16元。同时,Kimi K2的API服务还兼容OpenAI和Anthropic两种格式,方便开发者在不同平台之间无缝切换。