ITBear旗下自媒体矩阵:

谷歌IMO金牌数学模型Gemini 2.5 DeepThink上线,推理能力超越o3和Grok 4

   时间:2025-08-02 10:32:01 来源:量子位编辑:快讯团队 IP:北京 发表评论无障碍通道
 

谷歌DeepMind近期宣布,其研发的Gemini 2.5 Deep Think模型,一个在国际数学奥林匹克竞赛(IMO)中荣获金牌的人工智能系统,现已正式向公众开放使用。这一突破性进展标志着AI在解决复杂数学问题上的能力迈出了重要一步。

据悉,Gemini 2.5 Deep Think已集成至Gemini App中,但值得注意的是,此版本与原先在IMO中大放异彩的模型略有差异。早期版本在解决复杂数学难题时可能需要数小时,而新发布的App版本则在速度与实用性上进行了优化,尽管其整体实力或许稍逊于之前的“完全体”,但在处理IMO 2025级别的试题时,仍能展现出铜牌级别的水平。

为了强化这一发布的影响力,DeepMind邀请了知名数学家Michel van Garrel进行背书。van Garrel表示,当面对一个数学猜想时,他通常能想到三个解题思路,而Gemini 2.5 Deep Think则似乎能同时考虑多达20乃至100种可能,展现了其卓越的推理能力。

DeepMind在此次发布中还展示了Gemini 2.5 Deep Think在推理性能上的卓越表现,特别是与OpenAI的o3和马斯克的Grok 4进行对比。通过LiveCodeBench V6测试(衡量代码性能)和Humanity’s Last Exam测试(评估科学、数学等领域的专业知识),Gemini 2.5 Deep Think在不使用额外工具的情况下,均取得了最佳成绩。

Gemini 2.5 Deep Think的多项功能优势显著。DeepMind团队对其在逐步构建复杂事物任务中的表现尤为赞赏,如提升网页开发任务的美观性和功能性。同时,该模型在科学与数学领域的发现潜力巨大,能够协助研究人员制定和探索数学猜想,或对复杂科学文献进行推理分析,有望加速科研进程。在算法开发与代码编写方面,Gemini 2.5 Deep Think在处理需要精心编写代码、权衡利弊以及考虑时间复杂度的难题时,同样展现出了非凡的能力。

DeepMind揭示了Gemini 2.5 Deep Think背后的核心原理:扩展并行“思考时间”。与人类解决复杂问题时从不同角度探索、权衡潜在解决方案类似,Gemini 2.5 Deep Think利用并行思维技术,一次性生成多个想法并同时进行考量,甚至能随时间推移修正或结合不同想法,最终得出最优解。通过延长推理时间,模型有更多机会探索不同假设,并为复杂问题找到创新解决方案。

DeepMind还开发了新型强化学习技术,旨在激励模型利用这些扩展的推理路径,使Gemini 2.5 Deep Think随着时间的推移成为更加出色、直观的问题解决者。团队成员透露,该模型在阅读研究论文时,不仅能复述内容,还能以前所未见的方式融合不同论文中的观点,展现出强大的综合分析能力。

然而,值得注意的是,Gemini 2.5 Deep Think目前仅对Ultra订阅用户开放,订阅费用为每月249.99美元,折合人民币约1803元。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version