在人工智能挑战数学难题的赛道上,一场新的较量引发关注。由哈佛、斯坦福等高校11位顶尖数学家联合设计的FirstProof数学题集,成为检验AI科研能力的试金石。这套题集包含10道从未公开的数学难题,答案在AI完成测试后才对外公布,彻底杜绝了背答案的可能性,连知名数学家陶哲轩都转发推荐关注。
谷歌基于Gemini 3 Deep Think模型开发的数学智能体Aletheia,在这场挑战中交出亮眼成绩单。10道题中,Aletheia完全自主完成6道,其中5题获得专家全票认可,剩余1题也取得5/7的通过率。更引人注目的是,它成功攻克了被公认为本套题最难、此前未被解决的第7题——关于含2-挠率的实半单群一致格的紧流形基本群可实现性问题,该题答案直到挑战赛发布标准答案时才由人类团队首次给出。
与谷歌的完全自主模式不同,OpenAI内部模型在测试中采取了人工辅助策略。其团队在7天冲刺期内完成5道题的基本正确解答,但过程中通过人工协调模型与ChatGPT的交互,对答案进行验证、格式整理和风格调整,最终呈现的部分结果系人工筛选最优解。初期公布的6题成绩中,第2题(非阿基米德局部域上GLₙ的Rankin–Selberg积分非零性判定)因逻辑问题被社区质疑,后调整为5题正确。
Aletheia的技术架构展现出独特优势。其搭载2026年1月和2月两个版本的Gemini 3 Deep Think模型,通过双版本对比选择最优解。从读题到输出答案的全流程实现零人工干预,系统可直接解析原始问题文本,经自主推理后输出LaTeX格式答案,并内置验证机制确保逻辑严谨性。面对无法可靠证明的题目,系统会直接拒绝回答而非生成无效内容,这种智能筛选机制避免了4道题的误答情况。
在资源分配方面,Aletheia展现出动态调整能力。处理第7题这类超难题时,系统自动调用远超常规题的推理算力,通过生成子代理多轮推导与验证子代理严格校验的协作模式完成解答。面对第10题(含缺失数据的核化CP–ALS子问题)这类数值计算题,系统创新采用动态生成矩阵行的方式,将计算复杂度从传统方法的O(n³r³)压缩至O(qr+n²r),效率提升数个量级。
这场较量不仅体现在解题数量上,更凸显了技术路径的差异。谷歌通过完全自主的AI系统实现6题解答,OpenAI则借助人工辅助完成5题,两者在模式创新与结果呈现上形成鲜明对比。据悉,新一轮难度更高的题集将于3月中旬发布,这场AI数学竞赛的后续发展值得持续关注。
相关研究动态可通过以下链接查阅:[1]https://x.com/lmthang/status/2021644542852968952[2]https://mathstodon.xyz/@tao/116022211452443707[3]https://x.com/polynoamial/status/2022527227049742779











