在近期举办的AI创造者嘉年华上,硅星人创始人兼CEO骆轶航与月之暗面(Kimi)技术副总裁付强展开了一场深度对话,围绕K2模型研发过程中的“反常识”决策以及Kimi探索通用人工智能(AGI)的技术路径展开探讨。
针对K2模型采用DeepSeekV3架构引发的讨论,付强回应称技术选择基于现实考量。他指出,采用成熟架构可复用现有推理资源,降低开发成本。尽管整体架构相似,但K2在超参数配置、专家模型数量等细节上存在显著差异。通过优化密集层模型紧凑度,最终实现的模型性能与原始架构形成本质区别。
当被问及为何在行业转向后训练时重启预训练路线,付强坦言这是战略选择。他以学生学习为例,强调模型需要像人类一样具备举一反三的能力。通过提升Token使用效率,而非单纯扩大参数规模或增加训练次数,Kimi团队在有限的高质量语料中挖掘更深层次的信息关联。这种技术路线导致产品迭代周期延长,但为模型智能化突破创造了可能。
关于开源战略的决策逻辑,付强表示这源于技术生态建设的需要。通过开源基础模型,开发者社区的反馈成为技术演进的重要驱动力。他特别强调要保持“半步领先”的节奏,既要吸收社区创新,又要确保核心技术自主性。这种开放策略与某些企业通过工程化手段包装模型性能的做法形成鲜明对比。
面对Agent技术发展的争议,付强用赛车运动作类比。第三方Agent开发者如同职业车手,能通过API调用充分发挥模型性能,但模型供应商必须深度参与应用场景构建。他指出当前多Agent调度方案本质上是工程化MoE架构,真正的智能突破需要模型原生具备工具调用和环境交互能力。
在AGI实现路径的讨论中,付强强调代码生成能力的特殊价值。相较于情感交互等主观评价领域,编程任务的客观可验证性使其成为衡量模型智能的理想标尺。K2模型在IDE集成和调用量上的优异表现,印证了通过解决高复杂度问题提升智能水平的技术路线有效性。
对于模型价值观的探讨,付强回归人工智能发展的本质命题。他引用《苦涩的教训》理论,主张赋予模型自主探索和试错能力。就像人类通过实验认知世界,模型也需要具备物理操作、化学实验等环境交互能力,这种与人类共同进化的模式才是通往AGI的正途。