月之暗面核心团队近日在社交媒体平台Reddit上举办了一场长达三小时的有问必答活动,三位联合创始人就模型技术、算力储备和未来规划等关键问题与全球网友展开深入交流。针对Kimi K2.5模型偶尔自称为Claude的现象,CEO杨植麟解释称这是由于预训练阶段对最新编程数据进行了上采样处理,导致模型对"Claude"这个特定词元的响应概率异常升高,实际上K2.5在多项基准测试中已展现出超越Claude的性能表现。
在技术细节方面,团队透露Kimi K2.5通过智能体蜂群技术实现了对100个子智能体的高效调度,任务执行效率提升最高达450%。该模型采用约470:1的参数比例,虽然存在一定程度的计算资源"浪费",但这是为了在模型规模和推理效率之间取得平衡。针对模型幻觉问题,算法负责人吴育昕表示已通过提升数据质量和优化奖励机制进行改善,未来仍需探索更多解决方案。
关于算力储备的尖锐提问,团队坦言GPU数量差距并未缩小,但强调创新往往诞生于资源约束之中。周昕宇指出,可用算力受多种因素影响,公司通过独特的组织文化和技术路线来应对挑战。这种文化体现在对失败研究的包容态度——团队会深入讨论所有实验结果,即使三个月未见明显性能提升也会客观评估是否继续投入。
对于备受期待的Kimi K3,杨植麟透露将在Kimi Linear架构基础上进行多项优化,虽然未承诺具体性能提升倍数,但坚信新模型将带来显著进步。团队正在探索持续学习技术以增强模型自主性,同时保持对线性注意力机制的研究投入。针对模型个性变化的问题,吴育昕承认这是当前面临的棘手挑战,正在努力平衡性能提升与用户个性化需求。
在多模态发展方面,Kimi Code凭借视频输入等独有功能形成差异化优势。团队认为文本和视觉能力的提升可以相互促进,强大的文本基座对视觉性能至关重要。对于在线学习计划,周昕宇表示这是提升Agentic模型自主性的关键方向,相关研究正在积极推进中。虽然目前没有推出原生音频输入模型的计划,但团队会持续关注技术发展趋势。
这场问答活动共回应了40余个问题,涵盖从技术架构到商业策略的多个层面。团队强调始终秉持"把事情真正做成并落地"的价值观,这种理念体现在对基础研究的长期投入和对工程实现的极致追求。通过持续优化训练方法和基础设施,月之暗面正在探索通用人工智能发展的新路径,其技术路线选择和问题解决思路为行业提供了重要参考。










