ITBear旗下自媒体矩阵:

DeepSeek推出Math-V2模型:首个达奥数金牌水平且开源的数学新势力

   时间:2025-11-29 06:04:35 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能领域迎来新突破,DeepSeek近日在Hugging Face平台悄然开源了一款名为DeepSeek-Math-V2的数学推理模型。该模型不仅成为行业首个达到国际奥林匹克数学竞赛(IMO)金牌水平的开源项目,更在多项基准测试中展现出超越谷歌旗舰模型的实力,引发全球科技圈关注。

根据同步发布的技术论文,DeepSeek-Math-V2在IMO-ProofBench基准测试中表现亮眼。在基础子集测试中,该模型以近99%的准确率遥遥领先,较谷歌Gemini DeepThink(IMO Gold版)89%的得分高出10个百分点。尽管在更复杂的进阶子集中以61.9%略逊于对手的65.7%,但其整体性能已证明具备挑战行业顶尖水平的实力。论文特别指出,该模型在2025年IMO预选赛和2024年中国数学奥林匹克(CMO)中均达到金牌标准,在普特南数学竞赛(Putnam 2024)中更以118分(满分120)的接近完美表现刷新纪录。

这款模型的核心创新在于突破传统AI的"结果导向"训练模式。研究团队通过构建自我验证机制,使模型能够像数学家般严格审查证明步骤,而非单纯追求正确答案。这种过程导向的设计使其摆脱对海量标注数据的依赖,在无人工干预情况下持续优化解题能力。论文强调:"当面对没有已知解的开放性问题时,这种自我验证能力将成为扩展测试时间计算的关键。"

技术突破背后折射出AI数学推理的深层挑战。当前主流模型虽能给出正确答案,却难以保证推理过程的严谨性,这在需要严格证明的定理推导中尤为致命。DeepSeek的研究团队通过引入可验证的推理框架,为解决这类复杂问题提供了新思路。这种转变不仅提升模型在数学领域的表现,更为开发通用型AI推理系统奠定基础。

海外科技社区对这项成果反应热烈。有网友评论称:"当DeepSeek用10%的优势击败谷歌IMO冠军模型时,整个行业都为之震动。"更有推测认为,这家以低调著称的机构可能还储备着编程领域的突破性模型。值得注意的是,近期AI行业迎来密集更新潮:OpenAI推出GPT-5.1、xAI发布Grok 4.1、谷歌上线Gemini 3系列,而DeepSeek的此次动作被视为对头部厂商的有力回应。

尽管Math-V2已展现惊人潜力,研究团队仍保持谨慎态度。他们在论文中承认,当前模型在处理超复杂问题时仍存在局限,但自我验证方向的可行性已得到验证。随着行业对AI推理能力的要求日益提高,这项突破或许将开启数学人工智能的新纪元。市场正密切关注DeepSeek何时会放出其旗舰模型的更新版本,这家被称作"AI鲸鱼"的机构,下一步动作值得期待。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version