ITBear旗下自媒体矩阵:

国产AI春节档密集“上新”:M2.5等模型对标美国,国产大模型加速突围

   时间:2026-02-14 12:42:07 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

春节前后,国产大模型领域迎来新一轮激烈角逐,多家企业密集发布新品,试图复刻DeepSeek此前创造的奇迹,将新年视为技术比拼的重要战场。其中,上海大模型企业MiniMax的表现尤为亮眼,其推出的新一代文本模型MiniMax M2.5引发全球关注。

2月12日,MiniMax Agent正式上线M2.5,次日便向全球开源,支持本地化部署。消息一出,全球用户迅速响应,在MiniMax Agent上构建了超过1万个“专家”,且数量仍在持续攀升。M2.5被业界称为“王炸”,其性能几乎与美国AI公司Anthropic开发的Claude Opus 4.6持平,但价格却低得惊人。就连当下最火的开源个人AI代理项目OpenClaw之父彼得·斯坦伯格也忍不住转发评价,称其性能比肩Claude Opus 4.6,价格却便宜20倍。

作为一款定位为“原生Agent生产级模型”的产品,M2.5具备强大的自动化能力,能够自动编写代码、调用工具、分析数据并生成报告。在编程领域,M2.5的表现堪称卓越。在SWE-Bench Verified这一编程最硬核的榜单上,M2.5取得了80.2%的高分,与Claude Opus 4.6仅有微弱差距;在多语言任务Multi-SWE-Bench上,M2.5更是超越Claude Opus 4.6,一举夺得榜首。在办公场景中,M2.5同样表现出色,无论是Word、PPT、Excel操作,还是金融建模等高阶任务,它都能轻松应对。在测评框架GDPval-MM与主流模型的对比中,M2.5取得了59%的平均胜率,其生成的表格格式规整,数据分类清晰,仿佛出自严谨的“强迫症”员工之手。

更令人惊叹的是,M2.5在拥有强大能力的同时,还解决了模型“贵”和“慢”两大痛点。其激活参数量仅10B,在全球同类第一梯队旗舰模型中“体型”最小。在推理速度方面,M2.5达到了100TPS(每秒事务数),是主流模型的约两倍;输入价格约0.3美元/百万Token,输出约2.4美元/百万Token。按每秒输出100Token计算,1美元就能让智能体连续工作一小时,堪称“白菜价”。在算力短缺的时代,M2.5以颠覆式创新实现了模型不降智、不卡顿、体验优,成为MiniMax在大模型竞争中脱颖而出的核心优势。

有趣的是,较MiniMax早一天在港交所上市的智谱AI,也在近期发布了智谱GLM-5,同样将Claude Opus 4.6作为对标对象。这使得Claude Opus 4.6受到了中国一南一北两大模型的“夹击”。智谱GLM-5在编程和智能体能力上取得了开源模型的佳绩,有开发者使用后认为,其在真实编程场景的使用体验已逼近Claude最强模型,而Claude的编程能力在业内处于第一梯队。在全球权威的Artificial Analysis榜单中,GLM-5位居全球第四、开源第一。智谱将GLM-5形容为“系统架构师”,意味着AI大模型未来不再局限于写代码完成单一功能,而是要像工程师一样构建系统,甚至将功能任务分配给不同智能体完成。在代理编程测试中,智谱GLM-5略胜Claude一筹。

除了文本模型领域的激烈竞争,图像生成模型领域也热闹非凡。2月10日,千问发布了新款图像生成模型Qwen-Image 2.0,支持1000个词元的超长指令,推理能力也得到显著增强。千问开发团队表示,以前用AI生成图像时,受限于推理能力,图片中的汉字经常出现“牛头不对马嘴”或乱码的情况,但随着指令理解和推理能力的提升,AI图片生成的“汉字难题”将成为历史。几乎同一时间,字节跳动也发布了同类模型Seedream 5.0,文生图能力再次取得突破。

在大语言模型方面,也有新的进展。近日,DeepSeek悄然上线了一款新模型,虽然并非备受期待的V4,但同样令人惊喜。这款新模型虽不具备多模态识别能力,却将上下文处理能力提升至100万词元,相当于可以一次性阅读理解全套《三体》共计约90万字。一名智能体开发者表示,目前支持上下文理解百万级词元的模型并不多,如谷歌的Gemini和Anthropic的Claude,DeepSeek此次更新也算是“跟上步伐”了。

据了解,这一波大模型“上新潮”远未结束,豆包2.0、千问3.5等旗舰模型也将在近期发布,国产大模型领域的竞争将愈发激烈。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version