ITBear旗下自媒体矩阵:

{AI奥数赛场激战正酣!OpenAI o3算力全开夺冠,开源模型紧追差距仅5分

   时间:2025-09-07 13:04:32 来源:新智元编辑:快讯团队 IP:北京 发表评论无障碍通道
 

在人工智能数学奥林匹克(AIMO)最新一轮赛事中,OpenAI o3模型以颠覆性表现引发行业震动。该模型在算力充分释放的条件下,于50道奥数级难题中斩获47分,若计入次优答案则实现满分突破,创下赛事历史新高。值得注意的是,其成绩与前五名开源模型组合得分仅相差5分,标志着商业闭源模型与开源方案的技术差距正在加速弥合。

本届赛事首次引入商业闭源模型参与角逐,测试体系分为算力受限与算力全开两种模式。实验数据显示,当模型获得充足计算资源时,其解题能力呈现指数级提升。OpenAI o3在高算力模式下,通过"采样-排序"机制对答案进行优化筛选,最终在计入最优与次优答案时实现满分。数学泰斗陶哲轩指出,赛事规则的突破性调整——允许商业模型参赛并解除算力限制,为评估AI真实推理能力提供了全新维度。

赛事组委会特别设计的"AIMO2-combined"评估体系显示,2000余支参赛队伍的模型组合解题率为47/50,与o3低算力版本持平。这种将分散模型优势整合的评估方式,首次在量化层面证明开源生态的集体智慧已接近顶尖商业模型水平。具体到硬件成本,o3低算力版本单题处理成本约1美元,与租赁8块H100 GPU运行单个开源模型的支出处于同一数量级。

在硬件资源对比测试中,获得8块H100 GPU支持的英伟达NemoSkills团队与清华微软联合团队,最终解题率均提升至35/50,较原有4块L4 GPU配置下的成绩有所增长,但仍与o3存在显著差距。赛事技术报告特别指出,o3未解出的7道题目涵盖几何、代数与组合数学领域,其中一道被开源模型攻破的几何题,在高算力模式下仅位列o3的次优答案。

本轮测试采用的50道题目难度全面升级,覆盖英国BMO、美国USAMO等国际奥赛标准,部分题目已接近IMO(国际数学奥林匹克)水平。赛事采用的"双榜制"——公开榜与私密榜的并行运行机制,有效防止了数据泄露风险。其中私密榜在赛末进行一次性评估,确保最终排名的公正性。技术团队透露,AIMO3将于秋季启动,题目难度将直接对标IMO竞赛标准。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version