ITBear旗下自媒体矩阵:

月之暗面Kimi K2 Thinking引热议!杨植麟谈训练成本、K3发布与AGI未来

   时间:2025-11-13 09:29:05 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

AI领域再掀波澜,月之暗面公司推出的Kimi K2 Thinking模型引发全球开发者热议。这款新锐模型在Humanity's Last Exam、TAU-Bench等权威测试中力压OpenAI的GPT-5和Anthropic的Claude Sonnet 4.5,其API调用价格却不足竞争对手的四分之一。Hugging Face联合创始人Thomas Wolf在社交平台惊叹:"这难道是中国AI界的又一次DeepSeek时刻?"

在模型发布后48小时内,北京时间凌晨时分,月之暗面三位创始人杨植麟、周昕宇、吴育昕首次集体亮相Reddit问答社区,与海外开发者展开长达数小时的深度对话。这场跨越时区的交流涉及技术路径、商业模式、AGI发展等数十个核心议题,其中训练成本问题最受关注。

针对外界盛传的"460万美元训练成本"说法,杨植麟明确否认:"研究实验成本难以精确量化,这个数字并不准确。"他透露团队采用1万亿参数混合专家架构,通过原生INT4量化技术将推理速度提升两倍,配合H800 GPU集群的极致优化,在硬件条件不占优势的情况下实现了成本控制突破。目前模型输入成本为每百万token 1-4元,输出成本16元,性价比优势显著。

面对开发者关于模型"过于冗长"的质疑,技术团队给出了独特的技术哲学。杨植麟解释称当前版本优先保障复杂任务处理能力,后续将通过奖励机制优化token效率。这种设计使模型能连续调用200-300次工具完成复杂推理,在"思考-工具"交替模式中保持稳定性。联合创始人吴育昕补充道,实现这种交错调用模式是开发过程中最具挑战的技术突破。

在多模态发展路径上,团队选择先聚焦文本模型。杨植麟表示视觉语言模型的训练需要更多数据积累和参数调整,未来将逐步完善多模态能力。对于备受关注的K3发布时间,他以幽默方式回应:"在Sam的万亿级数据中心建成之前",引发网友对行业巨头工程进度的调侃。

技术路线选择方面,月之暗面展现出鲜明特色。针对DeepSeek采用的OCR方案,周昕宇认为特征空间优化更具通用性。团队正在研发的KDA实验架构采用3:1混合比例,通过"抓取关键信息"的方式优化性能、速度和显存占用。内部测试的Kimi Linear新结构(基于KDA注意力模块)已显示出良好前景,可与稀疏化技术形成协同效应。

当被问及是否会推出更大规模闭源模型时,杨植麟的回答暗含深意:"如果变得太危险的话"。这种兼顾技术发展与安全控制的表述,为未来商业化策略留下想象空间。目前该模型在Hugging Face平台下载量已突破5万次,成为最受欢迎的开源模型之一,其技术路线选择和商业模式创新正在重塑AI行业竞争格局。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version