ITBear旗下自媒体矩阵:

国产开源新突破!DeepSeek-Math-V2数学编程双强,性能直逼GPT-4o

   时间:2025-11-29 01:10:39 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能领域迎来新突破,DeepSeek团队在开源社区Hugging Face正式发布了一款名为DeepSeek-Math-V2的数学推理模型。该模型以2360亿参数的规模亮相,但通过创新的MoE(混合专家)架构设计,实际活跃参数仅210亿,却实现了128K超长上下文处理能力。开源协议采用Apache2.0,彻底解除商业使用限制,发布首日即因全球开发者疯狂下载导致服务器带宽达到峰值。

在数学能力测试中,这款模型展现出惊人实力。零样本思维链(CoT)模式下,MATH基准测试得分达到75.7%,与GPT-4o的76.6%形成直接对标;在美国数学邀请赛(AIME)2024年的30道题目中,成功解答4道,表现优于Gemini1.5Pro和Claude-3-Opus;在Math Odyssey挑战赛中以53.7%的准确率跻身全球顶尖模型行列。这些成绩的取得,得益于其独创的"自验证双引擎"机制——生成器(Generator)负责初步解答,验证器(Verifier)进行逐行校验,通过最多16轮的迭代修正和多数投票机制,配合元验证器有效抑制模型幻觉现象。

训练数据方面,研发团队构建了包含1000亿token的庞大语料库,涵盖学术论文、数学竞赛真题以及合成训练数据。特别引入的GRPO强化学习框架,使模型能够更好地对齐人类偏好。这种数据构建策略带来意外收获:得益于代码与数学混合训练的独特设计,模型在编程任务中同样表现卓越——Humaneval测试集准确率达90.2%,MBPP测试集76.2%,更在SWEBench基准测试中首次实现开源模型突破10%的里程碑,直接比肩GPT-4-Turbo和Claude3Opus等商业闭源模型。

技术实现层面,该模型对硬件资源的需求显著降低。通过优化计算架构,仅需80GB显存的多GPU环境即可完成推理部署。目前完整模型权重已全面开放下载,开发者通过transformers库即可实现一键加载。开源社区正掀起复现热潮,多个技术团队已成功验证模型性能。这款国产开源模型的诞生,标志着在数学推理这个关键领域,开源生态正在突破传统商业巨头的技术壁垒,为全球AI发展注入新的活力。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version