滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

FirstProof数学挑战赛：谷歌AI自主解题胜出，OpenAI略逊一筹

时间：2026-02-26 20:21:49 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能挑战数学难题的赛道上，一场新的较量引发关注。由哈佛、斯坦福等高校11位顶尖数学家联合设计的FirstProof数学题集，成为检验AI科研能力的试金石。这套题集包含10道从未公开的数学难题，答案在AI完成测试后才对外公布，彻底杜绝了背答案的可能性，连知名数学家陶哲轩都转发推荐关注。

谷歌基于Gemini 3 Deep Think模型开发的数学智能体Aletheia，在这场挑战中交出亮眼成绩单。10道题中，Aletheia完全自主完成6道，其中5题获得专家全票认可，剩余1题也取得5/7的通过率。更引人注目的是，它成功攻克了被公认为本套题最难、此前未被解决的第7题——关于含2-挠率的实半单群一致格的紧流形基本群可实现性问题，该题答案直到挑战赛发布标准答案时才由人类团队首次给出。

与谷歌的完全自主模式不同，OpenAI内部模型在测试中采取了人工辅助策略。其团队在7天冲刺期内完成5道题的基本正确解答，但过程中通过人工协调模型与ChatGPT的交互，对答案进行验证、格式整理和风格调整，最终呈现的部分结果系人工筛选最优解。初期公布的6题成绩中，第2题（非阿基米德局部域上GLₙ的Rankin–Selberg积分非零性判定）因逻辑问题被社区质疑，后调整为5题正确。

Aletheia的技术架构展现出独特优势。其搭载2026年1月和2月两个版本的Gemini 3 Deep Think模型，通过双版本对比选择最优解。从读题到输出答案的全流程实现零人工干预，系统可直接解析原始问题文本，经自主推理后输出LaTeX格式答案，并内置验证机制确保逻辑严谨性。面对无法可靠证明的题目，系统会直接拒绝回答而非生成无效内容，这种智能筛选机制避免了4道题的误答情况。

在资源分配方面，Aletheia展现出动态调整能力。处理第7题这类超难题时，系统自动调用远超常规题的推理算力，通过生成子代理多轮推导与验证子代理严格校验的协作模式完成解答。面对第10题（含缺失数据的核化CP–ALS子问题）这类数值计算题，系统创新采用动态生成矩阵行的方式，将计算复杂度从传统方法的O(n³r³)压缩至O(qr+n²r)，效率提升数个量级。

这场较量不仅体现在解题数量上，更凸显了技术路径的差异。谷歌通过完全自主的AI系统实现6题解答，OpenAI则借助人工辅助完成5题，两者在模式创新与结果呈现上形成鲜明对比。据悉，新一轮难度更高的题集将于3月中旬发布，这场AI数学竞赛的后续发展值得持续关注。

相关研究动态可通过以下链接查阅：[1]https://x.com/lmthang/status/2021644542852968952[2]https://mathstodon.xyz/@tao/116022211452443707[3]https://x.com/polynoamial/status/2022527227049742779

更多>同类资讯

GPT-Image-2 ：随意做出可作为「证据」的图片，强到让人恐慌

04-22

Meta投资超10亿美元在俄克拉荷马州建数据中心

04-22

沃达丰携手谷歌云推出AI和网络安全服务，率先登陆德国

04-22

4093亿！马斯克要收购Cursor，4个00后即将封神

04-22

一文拆解红果Top20收藏榜：揭秘仿真人剧爆款密码

04-22

SpaceX已同意以超过500亿美元价格收购Cursor

04-22

京东17.57亿元北京拿地

04-22

字节迫近Meta，但Reels也追上了TikTok

04-22

字节与Meta竞逐新局：短视频战场双雄并立，AI赛道共谋增长

04-22

自变量王潜：35天后机器人进家服务，具身智能开启家庭生活新篇章

应用方面，自变量与 58 同城合作，将搭载 WALL-AS模型的机器人送入真实家庭，与保洁阿姨协同作业，实现全球首次机器人进入家庭，并服务人类复杂的家居生活——这可能也是首次机器人在 C 端复杂环境的大规…

04-22

谷歌深夜发力更新Deep Research智能体，MCP加持与图表生成开启新篇

这两款智能体首次允许开发者通过单次API调用，将开放网络数据与企业专有信息进行融合，并在研究报告中原生生成图表和信息图，同时还可通过ModelContext Protocol（MCP）连接任意第三方数据源…

04-22

谷歌本周发布TPUv8双芯策略：剑指AI芯片市场，英伟达面临新挑战

快科技4月21日消息，据报道，谷歌计划在本周于拉斯维加斯举行的Google Cloud Next大会上，发布其新一代TPUv8 AI芯片，剑指英伟达在AI芯片市场的霸主地位。据TrendForce预估，2…

04-22

谷歌深夜发力！Deep Research智能体升级，MCP支持与图表生成成亮点

这两款智能体首次允许开发者通过单次API调用，将开放网络数据与企业专有信息进行融合，并在研究报告中原生生成图表和信息图，同时还可通过ModelContext Protocol（MCP）连接任意第三方数据源…

04-22

红米新机K90 Max与K Pad 2来袭，性能升级能否成游戏玩家新宠？

这回我们还一起收到了红米 K Pad 2 ，但相比起红米 K90 Max手机来说没那么多有意思的点，所以我就放在开头跟大家简单两句话带过一下：为了了解这块大电池的续航，我们同样也给 K90 Max 来了…

04-22

机械键盘声音盛宴：“聆听博物馆”上线，36款经典至现代键盘音频齐聚

IT之家 4 月 22 日消息，科技媒体 Tom's Hardware 昨日（4 月 21 日）发布博文，报道称sheets.works团队利用 Google Sheets 技术，构建了一个名为“聆听博物馆…

04-22

点击查看更多 +

全站最新

钛动科技获农行百亿授信！一张对民营AI科技企业的"信心投票"

A股异动丨液冷概念股连续第二日集体下挫

现货白银站上78美元纽约期银涨2%

A股电力股集体上涨，华电辽能涨停，华电能源涨超8%

现货黄金升破4760美元

A股稀缺资源股走强，锌业股份、中信金属、云南锗业涨停

热门内容

本栏最新

CLI与GUI Agent并非替代关系，bit-Agent如何让二者协同赋能企业数智化

自变量王潜：35天后机器人进家，开启家庭服务新篇章

PearlError-包含视频过滤

2026北京车展：新势力轿车“组团”亮相，豪华个性车型成市场新焦点

马斯克无人出租车愿景虽好，但美国难落地，中国或成无人驾驶成功范本

AI编程行业新飞跃：从代码补全迈向智能体主导的未来新篇章

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.