谷歌DeepMind在国际数学奥林匹克竞赛(IMO)中取得了历史性的突破,其AI系统Gemini Deep Think成功解答了前五道题目,以35分的优异成绩荣获金牌,距离满分42分仅差7分。这一壮举标志着AI在解决复杂数学问题上的能力迈上了新的台阶。
DeepMind此次的胜利尤为引人注目,因为Gemini Deep Think是在严格的4.5小时时间限制内完成所有题目的,与人类参赛者面对的挑战完全一致。更令人称奇的是,该AI系统完全依赖自然语言——英语,而无需任何形式化语言的辅助,这与此前AI在数学竞赛中的表现形成了鲜明对比。
IMO自1959年创办以来,一直是全球顶尖数学人才的竞技场。每年,来自世界各地的优秀学生汇聚一堂,在4.5小时内解答六道涵盖代数、几何、组合数学和数论等领域的深度数学问题。只有表现最突出的8%选手才能获得金牌,这一荣誉象征着数学领域的至高成就。
近年来,随着AI技术的飞速发展,IMO逐渐成为检验AI能力的试验场。数学问题不仅要求逻辑推理,还考验创造性思维和严谨性,这对AI系统提出了巨大挑战。去年,AlphaProof和AlphaGeometry 2在解答六道题中的四道时展现出了强大的实力,获得了银牌,这标志着AI开始接近顶尖人类的数学推理水平。
然而,Gemini Deep Think的表现更为出色。它不仅成功解答了五道题,而且解题过程得到了IMO组委会的官方认证,这使其成为了首个获得官方金牌级别认可的AI系统。DeepMind的高级主任研究员Thang Luong领导的团队通过引入Deep Think的高级版本,结合并行思考技术,使模型能够同时探索多种解题路径,最终整合出最优答案。
Gemini Deep Think的解题过程堪称惊艳。以第一道解析几何题为例,模型通过设定引理和证明定理,成功简化了问题,并得出了唯一可能的阳光线数量为0、1或3条的结论。对于第二道平面几何题,模型则将证明过程分为了五个清晰的步骤,最终证明了直线VH是圆Σ在点V处的切线。在解答第三道函数题时,模型确定了Bonza函数的性质与分类,并完成了上界和下界的证明。数论题和组合博弈题同样被Gemini Deep Think以严谨的逻辑和清晰的步骤一一攻克。
DeepMind的这一成就不仅是对AI能力的巨大提升,也为数学界带来了新的希望。通过训练Gemini学会更灵活、更直观的推理,谷歌正逐步构建出能够解决更复杂、更前沿数学问题的AI。这一突破不仅展示了AI在数学领域的潜力,也为未来AI与数学家、科学家等专业人士的合作奠定了坚实的基础。
然而,值得注意的是,OpenAI在DeepMind官宣之前曾抢先发布了自己的AI系统在IMO中的表现,并自称获得了金牌。然而,这一成绩并未经过IMO官方的独立验证和评分,引发了不少争议。相比之下,DeepMind的金牌成绩得到了官方的正式认证,更加令人信服。
OpenAI的研究员对DeepMind的成就表示了肯定,但同时也强调了自己在通用自然语言推理方面所取得的进展。尽管双方在方法上各有千秋,但DeepMind的官方认证成绩无疑为其在这场AI数学竞赛中赢得了更多的掌声和认可。