近期,Kimi团队震撼发布了其最新力作——Kimi K2的技术细节,向外界展示了这款超级模型的训练奥秘。据悉,Kimi K2的参数规模惊人,总量达到了1万亿,其中激活参数亦有320亿之巨。凭借如此强大的实力,Kimi K2一经问世,便在全球开源模型竞技场上大放异彩,仅一周时间便力压群雄,超越了DeepSeek,其表现甚至可与Grok4和GPT4.5等顶级闭源模型相媲美。
Kimi K2之所以能够取得如此辉煌的成绩,背后离不开其独到的训练策略和先进的技术架构。团队大胆地采用了MuonClip优化器,这一创新之举替代了传统的Adam优化器,不仅提升了训练效率,还确保了模型的稳定性。得益于此,Kimi K2在预训练阶段能够无损耗地处理高达15.5万亿的token数据,为模型的强大能力打下了坚实的基础。
Kimi团队还精心打造了一个大规模的Agentic Tool Use数据合成流程,这一流程涵盖了多个领域和工具,为Kimi K2提供了丰富多样的训练场景。这不仅增强了模型的泛化能力,还使其在面对复杂任务时能够游刃有余。
在训练过程中,Kimi团队还巧妙地运用了“重述法”来提高数据利用效率。这种方法并非简单的内容重复,而是通过不同的方式重新阐述知识内容,确保模型能够深入理解信息。特别是在处理数学和知识类文本时,Kimi K2通过将这些复杂内容转化为易于理解的学习笔记风格,进一步提升了训练效果。数据显示,使用重述后的数据进行一轮训练,其准确率甚至超过了使用原始数据进行十轮训练的结果。
在训练的后阶段,Kimi K2还接受了监督微调和强化学习的洗礼。团队构建了可验证的奖励环境和自我评估机制,确保模型能够在多样化的任务中不断优化其表现。同时,为了进一步提升生成文本的质量和稳定性,训练过程中还引入了预算控制和温度衰减策略。
为了满足如此庞大的训练需求,Kimi团队依托由NVIDIA H800组成的大规模高带宽GPU集群,确保了训练的高效进行和数据传输的顺畅无阻。这一强大的硬件支持为Kimi K2的成功问世提供了有力的保障。