人工智能与数学的紧密联系再次引发关注,这一次是因为谷歌的新一代Gemini进阶版模型在国际数学奥林匹克(IMO)竞赛中的卓越表现。在这场高水平的智力较量中,该AI系统成功解答了六道超高难度题目中的五道,得分相当于金牌水平(35/42),从而成为首个获得奥赛组委会官方金牌认证的AI系统。
这一成就不仅彰显了AI在解决复杂数学问题上的潜力,也引发了数学界对AI未来发展的深思。加州大学洛杉矶分校数学系终身教授、菲尔兹奖得主陶哲轩,这位被誉为“数学莫扎特”的华人数学家,也出席了今年的IMO颁奖典礼,并对AI在数学竞赛中的表现表达了关注。
陶教授指出,尽管AI在某些经过修改的赛制下可能表现出色,但在没有统一、非自选的控制性测试方法的前提下,对不同AI模型在IMO等竞赛中的表现应持谨慎态度,避免过于简化的“对等”比较。他认为,一些在标准考试条件下可能难以稳定获得铜牌的学生或队伍,在某些特定条件下反而可能稳定达到金牌水平,这同样适用于AI模型。
陶哲轩教授进一步强调,随着AI技术的不断成熟,关注点将从定性的成就转向更定量的衡量标准,如资源消耗、专业知识需求以及环境影响和伤害风险。他以航空领域的发展为例,指出真正推动跨大西洋航空旅行变得低成本、安全且普及的,并非初期的壮举,而是数十年来喷气式航空技术的持续发展和相关基础设施的完善。
同样,陶教授认为,尽管AI项目可能通过投入足够资源和专业团队实现特定概念验证目标,但要将这些技术大规模部署到现实世界中,关键在于降低成本、提高安全性和可扩展性。他提出,在评估AI模型时,除了报告成功案例外,还应考虑失败案例和资源成本,以更准确地评估成功率。
陶教授还分享了自己在“等式理论项目”中的经验,该项目需要证明2200万条蕴涵关系。他指出,尽管未大量使用现代AI技术,但未来类似的大规模项目可能会呈现类似的发展路径:项目的绝大部分由“廉价”AI完成,而“昂贵”的高级AI则与人类专家协同作战。
陶教授强调,标准化的基准测试和竞赛对于准确衡量AI技术的进展至关重要,特别是那些要求提前披露资源使用和方法细节的评测机制。他认为,当前依赖自我报告成果的现状在技术发展的初期阶段尚可接受,但随着AI进入广泛落地和实际部署阶段,这种方式必须被更透明、可对比的标准化评估所取代。