近日,全球最大API聚合平台OpenRouter上,一款代号为“Hunter Alpha”的神秘大模型引发广泛关注,其一度登顶大模型调用榜,引发网友诸多猜测,不少人认为它可能是“DeepSeek V4”的早期版本。
就在众人热议之际,小米在19日凌晨正式宣布认领“Hunter Alpha”,并推出三款大模型——MiMo-V2-Pro、Omni和TTS,用户可限时免费体验一周。这一消息瞬间在科技圈掀起波澜,大家纷纷将目光投向小米的这一新动作。
小米MiMo大模型负责人罗福莉随后发布长文,详细阐述了相关情况。她表示,这是小米首款真正为智能体时代打造的全栈产品系列。她将此次成果的呈现形容为一次悄无声息的伏击,并非小米事先精心策划,而是从聊天模式到智能代理模式的转变速度之快,连团队自身都感到意外,期间经历了既激动人心又充满挑战的过程。
据罗福莉介绍,1T基础模型早在几个月前就已开始训练,最初的目标是提升长上下文推理的效率。团队采用的混合注意力机制带来了真正的创新,既不过度扩张,又恰好成为智能体时代最合适的基石。该模型具备1M上下文窗口,通过MTP推理实现了超低延迟和成本。这些架构决策并非临时起意,而是在需求出现之前就构建好的结构性优势。
真正让一切发生改变的,是罗福莉第一次体验到复杂的智能体框架,她称之为“精心编排的语境”。体验的第一天,她就深感震惊,并试图说服团队采用,但未能成功。于是她下达强硬指令,要求MiMo团队成员第二天对话次数少于100次的可以辞职。这一举措成效显著,团队成员的想象力被智能体系统的功能激发后,直接转化为研究速度的提升。
当被问及小米为何发展如此迅速时,罗福莉结合自身构建DeepSeek R1的经历给出了总结。她认为,骨干网和基础设施研究周期漫长,需要一年左右的战略决心才能看到回报;训练后敏捷性是另一种能力,它由产品直觉驱动评估,能缩短迭代周期,促使范式转变尽早发生;好奇心、敏锐的技术直觉、果断的执行力以及全身心的投入也至关重要;还有一点容易被低估,那就是对所创造世界的真挚热爱。
罗福莉还承诺,新的MiMo-V2系列模型在足够稳定、值得开源的时候将会开源,这一消息也让众多开发者充满期待。











