大模型赛道再掀波澜。AI初创公司MiniMax日前正式发布了全新旗舰大模型M3。从技术报告披露的各项基准测试(Benchmark)来看,该模型的性能表现堪称惊艳:在公认接近真实软件工程场景的测试中,M3取得了59%的优异成绩,不仅超越了GPT-5.5,更是直逼Opus4.7。它还具备百万级上下文处理能力和原生多模态特性。然而,与强劲技术指标形成鲜明对比的是,该模型发布后引发了开发者社区的剧烈反弹,中文社区更是骂声一片。
引发业内质疑的第一个核心焦点在于评测数据背后的“心机”。技术细则显示,M3在 Coding(代码)能力的相关测试中,使用了竞争对手的Claude Code作为评测脚手架。尽管在当前行业中,利用现成工具链跑智能体(Agent)评测属于常见操作,但MiniMax用他人的框架测自己的能力,并直接拿高分与对方比肩进行对外宣传,这种做法被不少程序员吐槽“不够坦荡”。用户难以分辨最终的亮眼成绩中,究竟有多少成分是模型的原生能力,有多少是脚手架的加成。
其次,关于“开源”的诚意问题也让开源社区充满困惑。与其他厂商发布开源模型不同,MiniMax此次不仅没有公开M3的模型大小,更没有同步释出模型“权重”,仅表示将在发布后10天内开源,目前用户只能通过API进行访问。由于开源社区的核心价值在于“可复现与可验证”,这种先宣传开源却不给权重、让所有人无法在本地环境独立摸清模型底细的做法,在商业逻辑上虽可理解,却严重伤害了追求务实与坦诚的开发者群体。
最让重度老用户感到“背刺”的,则是计费规则(Coding Plan)的无预告调整。此前,MiniMax因按请求次数限制速率、不设月度Token总量上限而被称为“量大管饱”。但随着M3的发布,官方同步推出了全新的Token Plan,将规则改为了总量计费。尽管官方宣称Plus套餐的Token用量极具性价比,但在百万上下文的重度使用场景下,单次调用往往消耗巨大,新规则会导致套餐额度迅速见底,从而引发了老用户的集体声讨。
抛开这些运营上的争议,M3在底层架构上的创新依然不乏亮点。它自研了名为MSA(MiniMax Sparse Attention)的稀疏注意力机制,通过对KV(Key-Value)进行高精度分块和稀疏化处理,突破了传统Transformer在长上下文计算中计算量暴涨的魔咒。在底层算子层面,该模型首创了全新的计算聚合方式,内存访问更加连续,速度比开源的Flash-Sparse-Attention快4倍以上。这使得M3在百万上下文下的前向传播和解码速度分别提升了9倍和15倍,单Token计算量骤降至上一代的二分之一。
从纯技术路线来看,M3在长上下文、多模态和智能体能力上的均衡度在国内厂商中较为突出。然而,本次由于发布和运营方式上的一系列“骚操作”,让技术本身的闪光点被社区的争议声所掩盖。市场对M3的密切关注与情绪反弹,表明开发者对该产品仍抱有期待,而MiniMax能否重新赢回社区的信任,答案或许要在10天后模型权重正式放出来、接受独立评测后才能揭晓。











