中国大模型正在从“追随者”向“并跑者”甚至“领跑者”角色加速转变。
3月30日,中文大模型基准测评SuperCLUE发布了2026年3月最新结果。本次测评共有22款国内外主流模型参评,涵盖了数学推理、科学推理、代码生成等六大核心任务。结果显示,以“豆包”为代表的国产模型已成功杀入全球顶尖阵营。
全球视野:海外闭源模型仍守高地,豆包紧随其后
在本次测评的总分榜单上,海外闭源模型依然展现了深厚的技术底蕴:
前三强: Anthropic 的Claude-Opus-4.6、Google 的Gemini-3.1-Pro以及 OpenAI 的GPT-5.4分列全球前三。
国产之光: 字节跳动旗下的豆包(Doubao-Seed-2.0-pro)以71.53分夺得国内第一,不仅稳居全球第一梯队,与 GPT-5.4的分差已缩小至0.95分。
智能体突破: 在智能体任务规划维度,豆包更是反超部分海外模型,跻身全球前五。
小米表现:MiMo-V2系列数学推理能力亮眼
作为手机大厂跨界 AI 的代表,小米集团的 MiMo 系列在本次测评中表现稳健:
数学尖子生: MiMo-V2-Pro以60.67分位列闭源模型前列,其在数学推理任务中拿下了 84.03分 的高分。
双模上榜: 除 Pro 版本外,开源版本的MiMo-V2-Flash也同步上榜,在代码生成等细分场景中展现出不俗的进化潜力。
开源赛道:国产模型实现“包揽式”领先
相比闭源领域的激战,国产模型在开源赛道展现出了统治级优势:
包揽前三: Kimi-K2.5-Thinking与Qwen3.5-397B等国产开源模型包揽了开源榜单的前三名。
降维打击: 测评数据显示,国产开源模型在整体表现上已大幅领先海外同类开源产品,成为全球开发者的新宠。
结语:从“参数竞赛”走向“能力实战”
从2026年3月的这份这份榜单可以看出,中文大模型已不再满足于简单的中文语境理解,而是在逻辑推理、代码生成等硬核领域与全球顶级模型展开正面硬刚。随着豆包的身位前移与小米 MiMo在细分领域的深耕,国产大模型正迎来真正意义上的“实战爆发期”。











