ITBear旗下自媒体矩阵:

谷歌IMO金牌数学模型Gemini 2.5上线,推理能力超OpenAI o3与Grok 4

   时间:2025-08-02 10:13:48 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道
 

谷歌DeepMind的最新力作,Gemini 2.5 Deep Think,这款在国际数学奥林匹克竞赛(IMO)中大放异彩的AI模型,现已正式在Gemini App中亮相。这款应用中的版本,相较于之前斩获金牌的模型,虽略有调整,但在处理速度上实现了显著提升,实用性大大增强。

据DeepMind透露,早期版本的模型在解决复杂数学问题时,往往需要耗费数小时,而此次发布的App版本,则大幅缩短了这一时间。尽管在绝对实力上或许稍逊于之前的“完全体”,但在面对IMO'25难度的试题时,它仍能展现出铜牌级别的解题能力。

为了庆祝Gemini 2.5 Deep Think的发布,DeepMind特邀数学家Michel van Garrel进行分享。van Garrel表示,当他向模型提出一个数学猜想时,自己通常只能想到几个可能的思路,而模型却似乎能同时考虑二十个,甚至上百个方向。

值得注意的是,Gemini 2.5 Deep Think目前仅对Ultra订阅用户开放,订阅费用为每月249.99美元,折合人民币约为1803元。这一价格定位,无疑彰显了DeepMind对其技术价值的自信。

在发布之际,DeepMind还展示了Gemini 2.5 Deep Think在推理性能上的卓越表现,尤其是与OpenAI的o3和马斯克的Grok 4进行对比时。在衡量代码性能的LiveCodeBench V6测试,以及评估跨学科知识的Humanity’s Last Exam测试中,Gemini 2.5 Deep Think均取得了显著优于其他不使用工具的模型的成绩。

Gemini 2.5 Deep Think的亮点不仅在于其强大的推理能力。DeepMind团队对其在逐步构建复杂事物任务中的表现赞誉有加,如网页开发中的美观与功能性提升。该模型还能协助研究人员制定和探索数学猜想,对复杂科学文献进行推理分析,有望加速科学发现。

在算法开发与代码编写方面,Gemini 2.5 Deep Think同样表现出色。它能够精心编写代码,仔细考量问题表述、权衡利弊以及时间复杂度,解决一系列难题。

谈及Gemini 2.5 Deep Think背后的技术原理,DeepMind团队将其归结为“扩展并行思考时间”。与人类解决复杂问题时的方式相似,该模型通过并行思维技术,拓宽了思维边界。它能够一次性生成并考量多个想法,随时间推移修正或结合不同想法,最终得出最佳答案。

DeepMind还引入了创新的强化学习技术,激励模型利用这些扩展的推理路径,使Gemini 2.5 Deep Think随时间推移,成为更加出色、直观的问题解决者。团队成员透露,该模型在阅读研究论文时,不仅能复述内容,还能以前所未见的方式融合不同论文中的观点。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version