滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

谷歌IMO金牌数学模型Gemini 2.5上线，推理能力超OpenAI o3与Grok 4

时间：2025-08-02 10:13:48 来源：ITBEAR编辑：快讯团队 IP：北京 发表评论无障碍通道

谷歌DeepMind的最新力作，Gemini 2.5 Deep Think，这款在国际数学奥林匹克竞赛（IMO）中大放异彩的AI模型，现已正式在Gemini App中亮相。这款应用中的版本，相较于之前斩获金牌的模型，虽略有调整，但在处理速度上实现了显著提升，实用性大大增强。

据DeepMind透露，早期版本的模型在解决复杂数学问题时，往往需要耗费数小时，而此次发布的App版本，则大幅缩短了这一时间。尽管在绝对实力上或许稍逊于之前的“完全体”，但在面对IMO'25难度的试题时，它仍能展现出铜牌级别的解题能力。

为了庆祝Gemini 2.5 Deep Think的发布，DeepMind特邀数学家Michel van Garrel进行分享。van Garrel表示，当他向模型提出一个数学猜想时，自己通常只能想到几个可能的思路，而模型却似乎能同时考虑二十个，甚至上百个方向。

值得注意的是，Gemini 2.5 Deep Think目前仅对Ultra订阅用户开放，订阅费用为每月249.99美元，折合人民币约为1803元。这一价格定位，无疑彰显了DeepMind对其技术价值的自信。

在发布之际，DeepMind还展示了Gemini 2.5 Deep Think在推理性能上的卓越表现，尤其是与OpenAI的o3和马斯克的Grok 4进行对比时。在衡量代码性能的LiveCodeBench V6测试，以及评估跨学科知识的Humanity’s Last Exam测试中，Gemini 2.5 Deep Think均取得了显著优于其他不使用工具的模型的成绩。

Gemini 2.5 Deep Think的亮点不仅在于其强大的推理能力。DeepMind团队对其在逐步构建复杂事物任务中的表现赞誉有加，如网页开发中的美观与功能性提升。该模型还能协助研究人员制定和探索数学猜想，对复杂科学文献进行推理分析，有望加速科学发现。

在算法开发与代码编写方面，Gemini 2.5 Deep Think同样表现出色。它能够精心编写代码，仔细考量问题表述、权衡利弊以及时间复杂度，解决一系列难题。

谈及Gemini 2.5 Deep Think背后的技术原理，DeepMind团队将其归结为“扩展并行思考时间”。与人类解决复杂问题时的方式相似，该模型通过并行思维技术，拓宽了思维边界。它能够一次性生成并考量多个想法，随时间推移修正或结合不同想法，最终得出最佳答案。

DeepMind还引入了创新的强化学习技术，激励模型利用这些扩展的推理路径，使Gemini 2.5 Deep Think随时间推移，成为更加出色、直观的问题解决者。团队成员透露，该模型在阅读研究论文时，不仅能复述内容，还能以前所未见的方式融合不同论文中的观点。

举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

短剧崛起：低投入高收益，90后创作者身价飙升的秘密

08-02

新东方业绩稳健增长，东方甄选营收遭腰斩陷困境

08-02

淘宝饿了么携手：共筑健康生态，抵制恶性竞争，共赢未来

08-02

外卖补贴大战下的无奈退场：一家烧烤夫妻店的故事

08-02

格力电器辟谣高管丑闻：不存在不正当往来，已报案处理

08-02

达利欧清仓桥水，桥水基金中国业务强劲，收益率跻身全球前十

08-02

马斯克旗下xAI发布Grok4，AI虚拟伴侣功能引关注，或开启数字互动新赛道

在将近1小时的发布会直播中，xAI发布了这个系列的两款模型，分别是Grok4（单智能体版本）和Grok4Heavy（多智能体版本），其中后者支持4个智能体并行思考，在推理过程中横向比对、纵向协同，调用更大规模…

08-02

阿里云WAIC发布AgentBay：AI智能体新基建，开箱即用加速落地

首先，在沙箱环境方面，无影AgentBay覆盖从Linux、Windows、Android系统层的Computer Use、MobileUse到Browser Use、Code Space等应用层的多个主…

08-02

华为星河AI引领铁路数据网络革新，2025年打造智能综合解决方案

方案围绕铁路数据通信网的发展与华为解决方案展开。首先，阐述铁路数据通信网在国家相关政策推动下，呈现多网融合、业务云化、泛在物联接入等发展趋势，但也面临网络承载能力不足、运维水平待完善、安全管理需加强等挑战。…

08-02

字节跳动全员会后，员工焦虑能否缓解？反内卷之路仍漫漫

也许也正是因为对员工焦虑情绪的认识以及对新绩效的重视，字节跳动突然在年中召开了All hands全员会，要知道，根据惯例，这种全员会，字节一般只在年初召开，上次在年中是2022年召开，还是为了说明组织臃肿但…

08-02

快手星火计划：图片创作也能变现，新手账号轻松收益7000+

近期观察到一个案例，一个初期账号仅发布数十作品，其中一个视频意外获得热度，带来了超过7000元的收益。以往，在快手或抖音等平台参与官方任务分成，通常要求创作者达到数千粉丝的基准。其操作模式非常直接：在发布的…

08-02

华为仓颉语言开源：打破西方垄断，中文编程新时代来临

五年前立项时，没人信中国人能造出通用编程语言，现在一万多个应用已经跑在上面。过去开发者得学Java、Swift、Python三件套，现在一套仓颉全搞定，省下的时间能陪家人。技术封锁最狠的几年，华为把压力变成…

08-02

OPPO设计主管汪姗姗：揭秘产品设计文化、团队日常与职级晋升路径

本次专访，我们邀请到来自OPPO的互联网体验设计主管汪姗姗女士，就贵公司的设计文化、工作风格、岗位职责等问题进行详细的介绍。Q:请分别用一句话介绍一下，贵公司的设计文化、工作风格、设计团队的日常工作内容？ …

08-02

CVC资本资金盘揭秘：互联网投资理财，风险与机遇并存

常见特征包括承诺过高且不切实际的收益，利用新投资者的资金支付早期投资者回报，制造盈利假象。诈骗风险更是防不胜防，像 CVC资本资金盘这类打着投资理财旗号的诈骗手段屡见不鲜。总之，CVC 资本资金盘运营模式…

08-02

AI时代，40种职业真的会被摧毁吗？答案可能让你意外！

08-02

点击查看更多 +

全站最新

外卖补贴大战下的无奈退场：一家烧烤夫妻店的故事

格力电器辟谣高管丑闻：不存在不正当往来，已报案处理

马斯克旗下xAI发布Grok4，AI虚拟伴侣功能引关注，或开启数字互动新赛道

阿里云WAIC发布AgentBay：AI智能体新基建，开箱即用加速落地

华为星河AI引领铁路数据网络革新，2025年打造智能综合解决方案

字节跳动全员会后，员工焦虑能否缓解？反内卷之路仍漫漫

热门内容

本栏最新

淘宝饿了么携手：共筑健康生态，抵制恶性竞争，共赢未来

外卖补贴大战下的无奈退场：一家烧烤夫妻店的故事

格力电器辟谣高管丑闻：不存在不正当往来，已报案处理

马斯克旗下xAI发布Grok4，AI虚拟伴侣功能引关注，或开启数字互动新赛道

阿里云WAIC发布AgentBay：AI智能体新基建，开箱即用加速落地

华为星河AI引领铁路数据网络革新，2025年打造智能综合解决方案

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.