春节期间,中国人工智能领域迎来一场激烈的技术竞赛,多家头部企业接连发布大模型新版本,引发全球关注。其中,MiniMax公司推出的M2.5模型凭借编程与智能体能力成为焦点,其SWE-Bench Verified得分达80.2%,Multi-SWE-Bench以51.3%的成绩登顶全球榜单,性能直追国际顶尖模型Claude Opus 4.6,而价格仅为后者的二十分之一。这一突破标志着国产大模型在工程化落地方面迈出关键一步。
技术社区的快速响应印证了M2.5的影响力。开源项目OpenClaw在模型发布后立即将其列为推荐模型,开发者通过OAuth插件即可在Telegram、WhatsApp等平台部署AI助手,每小时成本低至1美元。这种技术生态的联动效应,使得M2.5在Hugging Face开源后迅速积累大量衍生应用,从自动化办公到智能客服,场景覆盖持续扩大。
资本市场的反应同样热烈。MiniMax上市仅39天,股价从发行价165港元飙升至847港元,累计涨幅超过413%,市值突破2656亿港元。这种市场表现背后,是公司每45天迭代一个主要版本的技术速度——从2025年10月的M2到2026年2月的M2.5,三个版本更新周期较预期缩短近三分之一。
在技术实现层面,M2.5的突破源于对强化学习规模化应用的深度探索。研究团队通过自研RL框架Forge,在算法优化、奖励信号设计和基础设施工程等方面取得进展。一个典型案例是FP32精度问题的解决:在M1时期,团队发现语言模型头因数值精度不足导致训练偏差,切换至32位浮点数后性能显著提升。这种从理论算法到工程实现的极致优化,成为MiniMax技术演进的核心方法论。
智能体对齐(Agent Alignment)是M2系列研发的另一重点。研究团队构建了包含敏感性安全和对齐安全的多维度评估体系,通过与开发者混合办公的模式,实时修正模型行为。高级研究员Olive Song透露,发布前两周会进行大规模压力测试,但开放权重后用户行为仍存在不可控因素,"这需要法律、伦理与技术的协同应对"。
编码能力的强化并非技术路径的偏移,而是通向通用智能的阶梯。Olive Song解释称,编程本质是结构化世界的工程语言,M2.5在报告写作、PPT生成等通用任务上已展现潜力。未来版本将重点突破长程任务处理,通过定义复杂目标、构建多样化环境、优化RL基础设施三层架构,提升模型在多步骤规划中的稳定性。
开源战略的选择折射出技术哲学的差异。尽管商业层面存在API收入减少的顾虑,但研究团队坚信社区协作能加速技术进化。MiniMax与vLLM、SGLang等推理框架的深度合作,以及基于M2.5涌现的自动化办公应用,验证了这种开放生态的商业价值。实测数据显示,三个M2.5 Agent协同工作的成本仅为闭源模型的5%。
在模型评估体系构建上,研究团队保持着异常严谨的态度。Olive Song指出,专业评估需要足够数量的测试题和多次验证,当前行业普遍采用的"五个问题测试法"远未达到统计置信度要求。她个人维护着涵盖逻辑推理、数学证明等领域的测试集,用于持续追踪模型进化轨迹。
面对AGI(通用人工智能)的终极命题,Olive Song的回答体现出工程思维特质:"定义会在实现过程中自然清晰,现在更重要的是让模型具备持续探索环境、定义自身目标的能力。"这种务实态度贯穿于MiniMax的技术实践——从用Agent追踪学术动态的内部工具,到通过系统提示词实现角色切换的模型设计,都在为更复杂的智能形态铺路。
当被问及研究工作的本质变化时,Olive Song提到两个关键转折:从跟随论文到解决前人未遇的问题,从实验室玩具级实验到应对千万级参数的工程挑战。这种认知转变,或许正是中国AI企业在全球竞赛中实现后来居上的深层密码。











