ITBear旗下自媒体矩阵:

谷歌Gemini3DeepThink升级:清华学者助力,多项测试创佳绩引热议

   时间:2026-02-13 16:51:37 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

谷歌近日宣布完成Gemini3DeepThink模型的重大升级,这款专为科学工程领域设计的推理系统在多项基准测试中展现出突破性表现。新模型不仅在学术评测中超越现有顶尖AI系统,更在实际应用场景中展现出解决复杂问题的独特能力,引发科技界广泛关注。

在备受瞩目的"人类最后的考试"测试中,DeepThink在不借助外部工具的情况下取得48.4%的得分,较第二名ClaudeOpus4.6高出8.4个百分点,较GPT-5.2提升近14个百分点。该测试以涵盖数学、物理、化学等领域的跨学科难题著称,此前从未有模型突破45%得分线。在抽象推理基准ARC-AGI-2测试中,DeepThink以84.6%的准确率刷新纪录,较前最佳模型提升超过20个百分点,展现出强大的模式识别能力。

编程能力评测显示,DeepThink在Codeforces平台获得3455的Elo评分,跻身全球前8%顶尖程序员行列。更引人注目的是其在科学竞赛中的表现——在2025年国际物理和化学奥赛模拟笔试中,该模型达到金牌标准,验证了其在基础科学领域的深厚积累。谷歌透露,新版本特别强化了研究级数学探索能力,可支持科研人员开展前沿理论推导。

实际应用案例印证了模型的实用价值。罗格斯大学数学家LisaCarbone团队利用DeepThink审阅高能物理领域论文时,发现人工评审遗漏的逻辑漏洞,这是该模型首次在专业学术评审中展现价值。杜克大学材料科学团队借助其优化晶体生长方案,成功培育出尺寸突破100微米的薄膜材料,相关技术指标超越现有所有制备方法。在工程建模领域,DeepThink已能通过分析图纸自动生成3D打印文件,实现复杂物理系统的数字化建模。

技术突破背后是跨学科团队的协同创新。清华物理系出身的姚顺宇作为核心成员,将理论物理思维融入模型架构设计。谷歌CEO桑达尔·皮查伊特别强调,新模型通过整合科学知识体系与工程实践经验,专门针对数据不完整、标准模糊的现实挑战进行优化,这种设计理念使其区别于传统通用大模型。

行业专家对测试结果表示震惊。某AI实验室负责人指出,ARC-AGI-2测试84.6%的得分具有里程碑意义,"当AI在抽象推理任务中超越90%人类时,我们正在见证认知革命的关键转折"。前谷歌工程师评论称,发现同行评审漏洞的案例证明AI已从辅助工具进化为科研合作者,"这标志着人机协作模式进入全新阶段"。

目前DeepThink已通过Gemini应用向GoogleAIUltra订阅用户开放,同时通过GeminiAPI向特定科研机构和企业提供服务。谷歌表示,未来将持续优化模型在材料科学、生物医药等领域的专项能力,并探索与科研机构的深度合作模式。这项突破预示着AI技术正在从数据处理层面向基础科学创新领域渗透,可能引发科研方法的系统性变革。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version